bladieb
Toetsen en ICT in het hoger onderwijs Stand van zaken en trends in Nederland Seminar, december 1999
Educatie
Colofon Toetsen en ICT in het hoger onderwijs is een uitgave in de SURF Educatie-reeks van Stichting SURF Postbus 2290 3500 GG Utrecht T 030 234 66 00 F 030 233 29 60 E [email protected] W http://www.surf.nl
Eindredactie Gerard Heijnen, Rijksuniversiteit Groningen, COWOG ([email protected]) Sanne Meeder, Rijksuniversiteit Groningen, ECCOO ([email protected])
ISBN 90-74256-10-4
Vormgeving Volta, Utrecht Deze publicatie kan, zolang de voorraad strekt, worden besteld bij Stichting SURF voor ƒ 25 inclusief verzendkosten (over dit bedrag is geen BTW verschuldigd). De publicatie is online beschikbaar via de EduSite (http://www.edusite.nl/toetsdag). © Stichting SURF
Inhoudsopgave
Inhoudsopgave Voorwoord
5
Inleiding De rol van ICT in studietoetsen: een verkenning
7
prof.dr. C.P.M. van der Vleuten, dr. L.W.T. Schuwirth, dr.ing. A.M.M. Muijtjens en E. Driessen 1
Kwaliteitsverhoging van klassieke meerkeuzetoetsen Psychometrische indicatoren voor toetsen
16
dr. H.J.M. van Berkel SONATE, verwerking en analyse van toetsen
29
drs. S. Kunst en ing. A.H.W. van der Zanden 2
Beoordelen van klassieke open vraag- en essaytentamens Computer ondersteund nakijken van open vragen
36
prof.dr. R.V. De Mulder MBA en mr. C. van Noortwijk De scoring van open vragen
43
dr. D.N.M. de Gruijter 3
Itembanking en toetssystemen SYS: het toetsservicesysteem van de Open Universiteit Nederland
53
drs. D. Joosten-ten Brink Etude, een modern en integraal toetssysteem
61
dr. M.J.J.M. van de Ven Voortgangstoetsing, Itembanking en ICT
69
dr.ing. A.M.M. Muijtjens, R. Peperkamp, E. Jansen, R.J.M. Hoogenboom, dr. L.W.T. Schuwirth, H.A.M. Snellen en prof.dr. C.P.M. van der Vleuten Adaptieve toetspakketten voor het opsporen van deficiënties op het gebied van rekenen en wiskunde dr. G.J.J.M. Straetmans
76
Inhoudsopgave
4
Toetssoftware toegepast in de onderwijspraktijk Automatisch toetsen met Question Mark
89
drs. G.J. Veldhuis Examiner, niet volmaakt, wel goed bruikbaar
97
ir. G. Wolters TestBet: een toetsprogramma gebaseerd op Multipele Evaluatie
101
prof.dr. A. Dirkzwager 5
Toetsen in een elektronische leeromgeving Toetsen in een digitale leeromgeving
106
drs. L. de Jong Toetsen binnen de VILO, de Virtuele Leeromgeving van ING: het concept, het ontwikkelproces en ‘lessons learned’
114
drs. J. in het Panhuis 6
Assessment en assessmentcenters De leerwaarde van toetsen
124
K. Eringa, J. Rietveld en W. Zwaal Naar een digitaal portfolio
136
dr. J.W.F. van Tartwijk, prof.dr. A. Pilot en T. Wubbels 7
Het toetsen van complexe vaardigheden Het toetsen van gedragsvaardigheden per computer
147
dr. K.I. van Oudenhoven-van der Zee Toetsing van probleemoplossend vermogen, Computergestuurde Casusgerichte Toetsing
155
dr. L.W.T. Schuwirth en prof.dr. C.P.M. van der Vleuten Visueel leren en toetsen binnen het biologie-onderwijs drs. K.A.F. van Gendt en drs. N.W. Meijer
4 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
162
Voorwoord
VOORWOORD
Toetsen spelen een cruciale rol in het onderwijs. Mede daarom is het thema beoordeling een zeer belangrijk aandachtsgebied in de onderwijswetenschappen en is het de laatste jaren weer sterk in beweging. Vanaf de beginjaren zeventig wordt daarbij de computer ingezet. Aanvankelijk alleen bij het scoren en analyseren van toetsresultaten van meerkeuze-tentamens, maar meer recent ook voor bijvoorbeeld het ontwikkelen en afnemen van toetsen, het beoordelen van complexe vaardigheden en assessment. Deze bundel is een neerslag van de inleidingen, presentaties en workshops die gehouden zijn op het seminar ‘Toetsen en ICT in het hoger onderwijs’ dat plaatsvond op 10 december 1999 in Assen. Het seminar richtte zich op docenten, onderwijskundigen, ICT-medewerkers, Courseware ontwikkelaars en studenten. Doel was hun te informeren over de stand van zaken op het terrein van ICT en toetsen in het hoger onderwijs. Het accent lag daarbij op de inhoudelijke kant van het toetsen. Centrale vragen waren: wat is de stand van zaken op het gebied van toetsen, wat zijn belangrijke inhoudelijke ontwikkelingen, welke rol kan ICT vervullen bij het toetsen en welke meerwaarde kan met het gebruik van ICT worden bereikt.
Zeven thema's stonden centraal: 1. kwaliteitsverhoging van klassieke meerkeuzetoetsen; 2. beoordelen van klassieke open vraag- en essaytentamens; 3. itembanking en toetssystemen; 4. toetssoftware toegepast in de onderwijspraktijk; 5. toetsen in een elektronische leeromgeving; 6. assessment en assessmentcenters; 7. toetsen van complexe vaardigheden. Deze thema’s zijn in plenaire en parallelsessies aan de orde gekomen. Het seminar werd geopend met een algemene, verkennende inleiding over de rol van ICT in studietoetsen. De dag werd afgesloten met een forumdiscussie. Op de website van Stichting SURF (http://www.surf.nl/bijeenkomsten.htm) vindt u onder de 'dossierknop' meer informatie over de inhoud van het seminar. De bijdragen in deze bundel zijn ook geordend rond de zeven thema's. Van vrijwel alle bijdragen aan het seminar zijn artikelen opgenomen. De bundel is niet alleen op papier verschenen maar ook integraal geplaatst op de EduSite (http://www.edusite.nl/toetsdag).
Voorwoord
Het seminar is in opdracht van SURF Educatie georganiseerd door het COWOG, Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs en het ECCOO, Expertise Centrum Computer Ondersteund Onderwijs van de Rijksuniversiteit Groningen. De voorbereidingscommisie bestond uit Yta Beetsma, Gerard Heijnen en Theo Joostens van het COWOG en Bas Cordewener, Sanne Meeder en Saskia Noordewier van het ECCOO. Zij vormden tevens de redactie van deze bundel. De eindredactie is verzorgd door Gerard Heijnen en Sanne Meeder. De technische organisatie van het seminar is verzorgd door SURF Educatie, met name door Jeannet Schutrops en Tom Dousma. Aan de totstandkoming van deze bundel hebben vele sprekers hun medewerking verleend. De redactie bedankt hen hiervoor en bedankt tevens alle sprekers voor hun bijdragen aan het seminar. De opkomst was hoog en de evaluatie positief. Zonder hun kwaliteit en inzet was het seminar niet zo succesvol geweest! De redactie. Groningen, 26 april 2000.
6 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Inleiding
INLEIDING De rol van ICT in studietoetsen: een verkenning prof.dr. C. van der Vleuten, dr. L.Schuwirth, dr.ing. A. Muijtjens en E. Driessen Universiteit Maastricht, capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch
Inleiding Informatie- en communicatietechnologie (ICT) heeft onze maatschappij verstrekkend beïnvloed. Het is dan ook logisch dat ICT niet aan het onderwijs voorbij kan gaan (vgl. Tijdschrift voor Hoger Onderwijs, oktober, 1999). De vraag of ICT moet worden toegepast in het hoger onderwijs is dan ook niet aan de orde. De vraag hoe ICT in het hoger onderwijs moet worden toegepast echter des te meer, zeker gezien de snelle onderwijskundige ontwikkelingen van de laatste jaren. Het is duidelijk dat het hoger onderwijs aan een fundamentele onderwijskundige heroriëntatie bezig is. Het conventionele model van leerstofoverdracht door middel van frontale lesmethoden komt steeds meer onder druk te staan, en wordt aangevuld met vormen van onderwijs waarbij meer de nadruk ligt op het leerproces. Van een meer docentgecentreerde benadering van onderwijs gaan we
in toenemende mate over op studentgericht onderwijs. Hierbij ligt het accent op de zelfwerkzaamheid, zelfsturing en leren in een betekenisvolle authentieke context. Ook wordt nadruk gelegd op het aanpakken van complexe problemen en vaardigheden, en op het samenwerken met anderen (medestudenten). Deze beweging in het hoger onderwijs gaat echter langzaam, veel langzamer dan menigeen zou wensen (Tuninga, 1999). ICT wordt gezien als een middel om dit proces te versnellen. Strategisch gezien kan dit een geschikte aanpak zijn, maar het draagt ook het risico in zich dat ICT niet op de juiste wijze wordt ingezet of dat mogelijkheden ervan niet optimaal benut worden. Meer aandacht voor de specifiekere bijdragen die ICT al dan niet kan leveren bij de geschetste onderwijskundige ontwikkelingen is daarom gewenst. Deze bijdrage richt zich op de vraag welke rol ICT kan spelen met betrekking tot het toetsen van studiepres-
Inleiding
taties. Daartoe wordt eerst teruggeblikt op wat tot op heden bereikt is, om vervolgens enkele mogelijkheden voor de toekomst te schetsen.
Een terugblik Voor een bespreking van de rol die ICT tot nog toe bij studietoetsen heeft gespeeld kan een onderverdeling gemaakt worden naar haar rollen bij het beheer van toetsen, de analyse en scoring van toetsen en de afname van toetsen. Elk zullen we apart bespreken. Voor elk onderdeel zullen we enkele observaties toevoegen dan wel onderzoek bespreken. Van elk toepassingsgebied zullen niet alleen de ervaren voordelen maar ook de ervaren nadelen besproken worden, en waar mogelijk zullen enkele kanttekeningen geplaatst worden. We zullen hieruit proberen enkele lessen voor de toekomst te destilleren. Beheer van toetsen Een van de bekendste toepassingen van ICT bij toetsen is de ondersteuning die de computer kan bieden bij het beheer van items en toetsen. De meeste instellingen kennen specifieke, vaak in eigen beheer gemaakte software voor deze toepassing. Met name valt hierbij te denken aan een itembank. Dit is een geautomatiseerd systeem van opslag van toetselementen (items). Soms wordt dit ook gecombineerd met software waarmee scores en itemanalyses kunnen worden berekend. In dat geval wordt veelal gesproken over een toetsservicesysteem. Itembank en toetsservicesystemen kunnen in principe grote voordelen bij het beheer van toetsen hebben (Van der Linden, 1983). Er zijn een aantal, meest Amerikaanse, toetsservicesystemen commercieel verkrijgbaar (Schade heeft daarover een bijdrage geleverd op de conferentie). Hoewel de verschillende systemen een uitgebreide variëteit bieden voor wat betreft hun opties, is
8 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
het ook zo dat de opties die aangeboden worden meestal gestandaardiseerd zijn en relatief weinig mogelijkheden bieden voor aanpassing aan de lokale wensen. Dit kan problemen geven met de aansluiting op de lokale organisatie en de specifieke gebruikerswensen. Het gevolg is dan dat de gebruikerswensen aangepast moeten worden aan de mogelijkheden van de software, in plaats van andersom. Een belangrijker aspect is echter het verschil tussen de algemene verwachtingen ten aanzien van itembanken en de praktische beperkingen ervan. Een eerste verschil betreft de misconceptie dat als een itembank eenmaal gevuld is, hieruit met een druk op de knop eenvoudig toetsen samen te stellen zijn. Het blijkt bijvoorbeeld dat mogelijkheden tot hergebruik van items in de praktijk beperkt is. Veelal zijn items verouderd of voldoen ze niet meer aan de itemconstructieeisen van de organisatie. Het blijkt dat items die reeds afgenomen zijn en een tijdlang geblokkeerd zijn (om te voorkomen dat ze te snel weer in een toets zouden verschijnen) bij een zorgvuldige review maar voor ongeveer 60% zonder wijziging weer in een toets toegelaten kunnen worden. Ook is het goed te beseffen dat een goede toets meer is dan een willekeurig getrokken verzameling items. In een normaal kwaliteitszorgproces is het van belang dat een concepttoets nog een keer integraal bekeken wordt, bijvoorbeeld om te voorkomen dat gegevens van het ene item het antwoord op een ander item weggeven. Een verder probleem bij het gebruiken van een itembank is het definiëren van de database structuur. Wanneer een docent items wil trekken die aan bepaalde kenmerken voldoen dan is het namelijk van belang dat ook alleen die items gevonden worden die aan de kenmerken voldoen en dat ook alle items gevonden worden die aan de kenmerken voldoen. Wanneer niet of onvoldoende aandacht aan het opzetten van de structuur besteed wordt, leidt dit ertoe dat de itembank al snel onbruikbaar wordt.
Inleiding
Ondanks deze nadelen zijn er grote voordelen verbonden aan een goed opgezette itembank. Op de eerste plaats kan een itembank dienen als medium voor opslag van items, toetsen en afnamegegevens, waardoor de kwaliteitscontrole van toetsmateriaal systematischer en beter verloopt. Dit kan nog verder ondersteund worden als de itembank ook gebruikt wordt als itemvolgsysteem, waardoor getraceerd wordt waar een item zich in de productiecyclus bevindt. Ook is een itembank natuurlijk een uitgelezen instrument om hergebruik van items in de hand te houden en te voorkomen dat items te vroeg hergebruikt worden. Helaas zijn vele initiatieven die in het verleden genomen zijn om flexibele itembanksystemen te ontwikkelen toch niet succesvol geëindigd. We noemen hier een project uit de eigen instelling als voorbeeld. De Universiteit Maastricht is inmiddels bezig met haar tweede project. Het eerste project is nooit opgeleverd en het tweede project is nu lopende. Het betreft de ontwikkeling van een toetsservice systeem voor voortgangstoetsen en casustoetsen. Hoewel vorderingen worden gemaakt, is de planning inmiddels geruime tijd overschreden en zijn de kosten vele malen hoger uitgevallen dan oorspronkelijk werd ingeschat. Het toont aan dat de problematiek weerbarstiger is dan men op het eerste gezicht zou vermoeden en dat dat blijkbaar voor iedereen geldt. Al snel worden de eisen te ambitieus en is te veel tijd nodig voor realisering. Vaak blijken ook nog eens de eisen inmiddels weer veranderd te zijn als gevolg van een veranderende onderwijsomgeving of is de gebruikte technologie achterhaald door een volgende. De les die uit het bovenstaande getrokken kan worden is dat ICT weliswaar grote mogelijkheden biedt bij het beheer van toetsen, maar dat de verwachtingen niet te hoog gespannen moeten zijn: hoge ambities worden duur betaald. Verstandiger is de ambities in te perken en waar mogelijk gebruik te maken van bestaande pakketten, of samen te werken met andere instellingen. Ontwikkeling van software in eigen beheer vergt een
toegesneden professionele organisatie, met kwalitatief en kwantitatief voldoende deskundigheid op toets- en informaticagebied met voldoende garanties voor continuïteit en permanente ontwikkeling, die beter in samenwerkingsverband dan alleen te realiseren zijn. De scoring en analyse van toetsen Vanuit de testpsychologie zijn statistische theorieën ontwikkeld die een belangrijke ondersteuning kunnen vormen bij de kwaliteitsbewaking van toetsen en waarmee nieuwe technieken van toetssamenstelling en toetsafname kunnen worden bereikt. Deze zogenaamde psychometrische modellen vereisen het nodige rekenwerk, en daar is de computer bij uitstek voor geschikt. Er zijn een drietal klassen van psychometrische theorieën. We zullen ze elk kort bespreken en nagaan in welke mate hun ICT-inzet in de onderwijspraktijk gerealiseerd is. De klassieke testtheorie is de oudste van de drie. De theorie levert een aantal gegevens op die het mogelijk maken de kwaliteit van toetsitems en de toets als geheel te onderzoeken (zie de bijdrage van Van Berkel in deze bundel over psychometrische indicatoren en de bijdrage van Hofstee daarover op de conferentie). Met relatief eenvoudige statistieken worden schattingen verkregen van de moeilijkheidsgraad en het onderscheidend vermogen van de afzonderlijke items en de toets als geheel. Deze parameters kunnen gebruikt worden om de kwaliteit van de toets te verbeteren. De klassieke testtheorie wordt in de praktijk zeer veel gebruikt. De meeste toetsverwerkingspakketten maken gebruik van dit psychometrische model. Ook standaard statistische pakketten (bijvoorbeeld SPSS of SAS) hebben toets- en itemanalyse-onderdelen in hun arsenaal. Veel docenten zijn daarmee in de loop der tijd vertrouwd geraakt.
Inleiding
De beschikbaarheid van (eenvoudige) software heeft wellicht in belangrijke mate bijgedragen aan de verbetering van de kwaliteit van toetsen en het veelvuldige gebruik ervan in de praktijk. Theoretisch gezien is Klassieke Testtheorie echter niet zo’n sterk model, wat aanleiding heeft gegeven voor ontwikkeling van andere modellen. De generaliseerbaarheidstheorie is een uitbreiding op het klassieke model. Het is een krachtiger model, omdat in de schattingen van de kwaliteitsparameters meerdere factoren betrokken kunnen worden die van invloed zijn op de kwaliteit. Daarmee is het een buitengewoon handig model, vooral in de meer complexe toetsvormen waarbij er sprake is van meerdere factoren die de toetsing beïnvloeden. In de onderwijspraktijk komen we het gebruik van de generaliseerbaarheidstheorie nauwelijks tegen. De reden daarvoor is mede gelegen in het feit dat er geen echt bruikbare software voor bestaat. Begin tachtiger jaren is een mainframe computerprogramma geschreven (GENOVA, (Brennan, 1983)), dat later zonder al te veel wijzigingen beschikbaar is gemaakt voor een PC. Het gebruik vereist behoorlijk specialistische kennis. Het is interessant te constateren dat een praktisch zinvol kwaliteitsinstrument nauwelijks doordringt omdat er geen goed ICT-hulpmiddel bestaat om het te gebruiken. Beide voorgaande modellen worden ‘zwakke’ theorieën genoemd, omdat zij enkele statistische nadelen kennen. De moderne psychometrische benadering, de zogenaamde item-respons modellen, kennen deze nadelen niet. Daarmee zijn in potentie belangrijke onderwijskundige voordelen te boeken. Zo kan de moeilijkheidsgraad van een toets kan beter in de hand worden gehouden, en kunnen toetsen afgestemd worden op de vaardigheid van het individu (cf. Van der Linden, 1983).
10 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
De verspreiding en het gebruik in de praktijk van deze ‘krachtige’ psychometrische modellen is echter betrekkelijk gering. Hoewel specialistische software beschikbaar is, is het gebruik daarvan te ingewikkeld voor de doorsnee gebruiker. Het zou handig zijn als deze modellen onderdeel zouden zijn van bestaande toetsservicesystemen, maar dat is helaas (nog) niet het geval. Het gebruik blijft dan ook beperkt tot de professionele instanties die zich met toetsing bezig houden, dan wel tot de wetenschapper met interesse op psychometrisch gebied. Ondanks de toch al lang bestaande kennis op dit gebied is er van de mogelijkheden in de praktijk nog slechts weinig gerealiseerd: de belofte is nog niet waargemaakt. De les uit deze observaties is vergelijkbaar met de conclusie uit de voorgaande paragraaf. Blijkbaar zijn er in principe belangrijke toepassingen voor ICT in toetsing die de kwaliteit van de toetsing in belangrijke mate kunnen bevorderen, maar laat de feitelijke realisatie daarvan nog op zich wachten. Dat wat eenvoudig en (softwarematig handig) beschikbaar is, wordt gebruikt en voor het overige moeten we ambities bijstellen aan de realiteit van de praktijk. Veel beloftes moeten dus nog worden waargemaakt. Afname van toetsen Afname van toetsen met gebruikmaking van ICT biedt een aantal grote voordelen boven afname in mondelinge of schriftelijke vorm. Niet alleen zijn interfaces voor computermatige afname van eenvoudige toetsen vrij snel te maken en algemeen commercieel verkrijgbaar, maar door te werken met netwerken is het produceren van grote aantallen papieren kopieën niet nodig. Indien het toetsen betreft die op verschillende locaties afgenomen moeten worden is de verspreiding ook eenvoudiger. Het gebruik van multimedia bij toetsen heeft een verder voordeel; indien plaatjes en geluid geschikt ingezet worden, kan het sterk bijdragen aan de authenticiteit
Inleiding
van de toets. Een extra voordeel betreft tenslotte de mogelijkheid om de kandidaat opties te bieden die met een papieren toets onmogelijk zijn. Hierbij valt te denken aan de mogelijkheid om de lettergrootte te veranderen, of het programma mee te laten tellen hoeveel items ingevuld zijn en hoeveel nog niet, etc. Natuurlijk zijn er ook keerzijden van de medaille. Open vragen die lange stukken tekst vereisen zijn (nog) niet met voldoende accuratesse computermatig te scoren, het lezen van een computerscherm is over het algemeen minder prettig dan van papier, wat weer leidt tot een snellere vermoeibaarheid van de kandidaat. Ook zijn de eisen die gesteld worden aan de beveiliging en voorkoming van fraude van een andere orde dan bij papieren toetsen. Een zorgvuldige afweging van deze voor- en nadelen is dus belangrijk. Veel belangrijker echter is de bepaling of de mogelijkheden die bij computertoetsen bestaan ook werkelijk hun onderwijskundige meerwaarde hebben, of dat ze alleen maar beter lijken. Met andere woorden: we moeten afwegen of we willen wat we kunnen of dat we kunnen wat we willen. In een voorbeeld willen we dit aspect verduidelijken. ICT biedt de gelegenheid tot het ontwikkelen van dynamische simulaties. Met name op dit gebied zijn belangrijke onderwijskundige en psychometrische lessen geleerd, omdat de toetsing van probleemoplossende vaardigheden in het medisch onderwijs reeds een lange geschiedenis heeft en er het nodige onderzoek naar verricht is (Swanson, Norcini, & Grosso, 1987; Swanson, Norman, & Linn, 1995; zie ook de bijdrage van Schuwirth et al. in deze bundel). Een zwaarwegend struikelblok bleek uit het gegeven, dat de gemeten competentie op de ene simulatie nauwelijks voorspellende waarde had voor de gemeten competentie op een andere simulatie. Zelfs relatief beperkte wijzigingen in de aangeboden context hebben andere resultaten tot gevolg. Competentie bleek systematisch inhoudsspecifiek. Om met een
toets bestaande uit simulaties betrouwbare of reproduceerbare conclusies te kunnen trekken, dient tengevolge hiervan het aantal simulaties (erg) groot te zijn. Er is dus een (erg) lange toetstijd noodzakelijk en de kosten van ontwikkeling worden zeer hoog. Een tweede struikelblok was dat uitkomsten op eenmaal betrouwbare metingen met (kostbare) complexe simulaties erg voorspellend bleken te zijn voor eenvoudige (minder kostbare) toetsresultaten (zoals meerkeuzetoetsen). De incrementele informatiewaarde is blijkbaar beperkt. Ook meer complexe scorings-methodieken bleken hierin geen verandering te brengen (integendeel zelfs). De ICT mogelijkheden bleken hier dus onvoldoende onderwijsen toetskundige basis te hebben. Er moet daarom helaas geconcludeerd worden dat een hoog ambitieniveau kan leiden tot een complexiteit die niet bijdraagt aan de meerwaarde van het toetsinstrumentarium. Algemeen Deze laatste gevolgtrekking wijst in de richting van de algemene conclusie van deze terugblik. ICT kan wellicht de nodige voordelen hebben voor toetsing, maar het is duidelijk dat gewaakt moet worden voor te veel ambitie. Dit kan eerder contraproductief werken en tot teleurstellingen leiden. De winst van ICT zit eerder in kleine stapjes, dan in grote sprongen. Tot op heden blijken de voordelen van ICT vooral van logistieke aard te zijn of de verbetering van efficiëntie. Veel onderwijskundige mogelijkheden (beloftes) moeten nog worden waargemaakt.
Een vooruitblik Gewapend met deze wat ontnuchterende conclusies kunnen we naar de toekomst kijken. Wat kan ICT wel betekenen voor toetsing, wat zijn relevante nieuwe onderwijsontwikkelingen en hoe moeten we daarop met toetsing en ICT op inspelen?
Inleiding
Het hoger onderwijs van de toekomst Zowel nationaal als internationaal ondergaat het (hoger) onderwijs een fundamentele koerswijziging. Het conventionele frontale onderwijs maakt in toenemende mate plaats voor moderne onderwijsvormen. Daarin is meer aandacht voor het leerproces en vaardigheden. De maatschappelijke ontwikkelingen vereisen andere kwaliteiten van de afgestudeerden uit het (hoger) onderwijs. Kennis is sterk aan verandering onderhevig en een levenslang leren traject is onvermijdelijk. De bekwaamheden om kennis eigen te maken zijn even belangrijk als de kennis zelf. Bovendien worden andersoortige vaardigheden in toenemende mate belangrijk geacht, zoals bijvoorbeeld het vermogen in teams te kunnen werken of de bekwaamheid om zowel in woord als geschrift te kunnen communiceren met anderen. Tegelijkertijd is de onderwijsfilosofische basis aan het veranderen. In plaats van een objectivistische visie op kennis, die kennis beschouwt als een absoluut gegeven (wetenschappelijk vastgesteld, feiten als objectieve gegevens), dat overgedragen dient te worden aan degene die deze kennis niet heeft, wint in toenemende mate een constructivistische visie op kennis terrein (Jan Vermunt in het handboek over de onderwijskunde). Kennis is hierin geen vaststaand gegeven, maar kennis dient door de lerende actief te worden ‘geconstrueerd’. Kennis is niet objectief, maar wordt bepaald door het begrip dat de lerende ervoor heeft. De wijze waarop met kennis wordt omgegaan bepaalt ook de wijze waarop kennis zal worden gebruikt. Tenslotte verandert het onderwijs door de invloed van de toenemende kennis over leerprocessen en de effectiviteit van instructiemethoden (Van der Vleuten, 1997). Door deze ontwikkelingen verandert het onderwijs van een meer docentgerichte benadering naar een meer studentgerichte benadering. Typerend is dat het leren in een zinvolle context plaatsvindt, bijvoorbeeld door studenten herhaald te confronteren met realistische problemen uit de (professionele) praktijk en hieraan (zelfstudie)
12 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
opdrachten te verbinden. Expliciete aandacht wordt besteed aan het zelfregulerend vermogen van studenten: zelfverantwoordelijkheid, reflectie en bijsturing zijn belangrijk. Typerend is ook dat groepsgericht onderwijs en samenwerkend leren een centrale rol krijgen. Deze fundamentele verandering in het onderwijs is zich breed aan het verspreiden. De rol van toetsing zal hierin van cruciale betekenis zijn. Toetsing dicteert namelijk in belangrijke mate het leren (Frederiksen, 1984). Voor studenten vormen de toetsen de sleutel voor succes in hun onderwijsloopbaan. De vorm, de inhoud, de programmering en de regelgeving bepalen feitelijk wat en hoe studenten zullen leren. Voor studenten is de toetsing het feitelijke curriculum. Wanneer onderwijsdoelen en de doelen van het toetsingsprogramma strijdig zijn met elkaar, dan ‘wint’ de toetsing. Met andere woorden, de zich aftekenende verandering in het onderwijs kan alleen slagen wanneer de toetsing zich eveneens aanpast. De vaardigheden die worden benadrukt in modernere vormen van onderwijs (reflectief vermogen, metacognitie, zelfsturend leren, leren leren, presentatievaardigheden, interpersoonlijke vaardigheden, presentatievaardigheden...) zullen in een modern toetsprogramma aan bod moeten komen. Toetsing dient strategisch gebruikt te worden om gewenste effecten te bereiken. We gaan van een ‘toetscultuur’ naar een ‘assessment cultuur’ (Dochy & De Rijke, 1995). De leertaak en de toetsing worden als het ware in elkaar geschoven: taak is toetsing. Daarmee wordt een maximale authenticiteit bereikt. De ‘toetsinstrumenten’ worden dus ook veel diverser: productevaluaties, presentatiebeoordelingen, werkstukbeoordelingen, dag- of logboekbeschrijvingen, zelfevaluaties, peeroordelen, observaties in authentieke (gesimuleerde) situaties, etc. De cruciale vraag die zich vervolgens opwerpt is in welke mate ICT in deze nieuwe ontwikkeling een rol kan spelen. Afgezien van het feit dat de leertaken in toenemende mate elektronisch ondersteund zullen worden, en er dus feitelijk ook een ondersteuning van de toetsing plaatsvindt (bij-
Inleiding
voorbeeld: werkstukken zullen elektronisch beschikbaar zijn, presentaties zullen met digitale ondersteuning plaatsvinden, onderlinge communicatie zal deels elektronisch geschieden), noemen we hieronder enkele gebieden waar de inzet van ICT in onze ogen zinvol zou zijn. De elektronische portfolio Portfolio-assessment is een vorm van toetsing die tegemoet komt aan een aantal van de veranderingen in het onderwijs. Portfolio-assessment komt voort uit kunsten en de architectuur. Een kunstenaar legt een portfolio aan met zijn (beste) werk en biedt dat ter beoordeling aan, aan een potentiële werkgever of koper. Deze analogie wordt doorgevoerd in portfolio-assessment. Kenmerkend voor portfolio-assessment is dat de lerende ‘bewijs’ moet aanvoeren voor gebleken competentie. Dit kunnen allerlei producten zijn, zoals bijvoorbeeld verslagen, presentaties, werkstukken, maar ook beoordelingen van anderen of beoordelingen van de student zelf. Alle eerdergenoemde instrumenten kunnen onderdeel van de portfolio zijn. Meestal wordt een periodieke zelfreflectie verwacht op de inhoud van de portfolio en vinden begeleidingsgesprekken plaats met een docent of met een mentor. Enkele nadelen van een papieren portfolio kunnen uitstekend worden opgevangen met een elektronische variant (zie ook de bijdrage van Van Tartwijk e.a. in deze bundel): • De fysieke omvang: al snel worden schriftelijke portfolio’s lijvig en onhanteerbaar voor gebruik. • Toegankelijkheid: de lezer of de beoordelaar van een elektronische portfolio is makkelijker in staat om door de portfolio te navigeren; verwijzingen (‘links’) naar andere relevante delen kunnen eenvoudig worden gemaakt, multimedia (bijvoorbeeld video) kunnen makkelijker worden opgenomen en doorgenomen; een structuur is eenvoudiger aan te brengen. • Meerdere kopieën: van schriftelijke portfolio’s bestaat
meestal slechts een exemplaar (meerder exemplaren geeft onmiddellijk administratieve rompslomp) en moeten ‘heen en weer’ worden gezonden, een (webgebaseerde) elektronische toegang is flexibel. Toegangsrechten en rechten voor aanpassing en toevoeging kunnen goed worden gereguleerd. • Het beoordelen van de producten in een portfolio is niet eenvoudig. Een portfolio kan grotere hoeveelheden tekst bevatten en het is moeilijk te controleren of het werk dat een student in zijn portfolio heeft gestopt ook echt zijn oorspronkelijk werk is. Hoewel de ontwikkeling van ICT applicaties die hierbij kunnen helpen nog in de kinderschoenen staan zijn ze wel veelbelovend. Een eerste ontwikkeling betreft applicaties die open teksten volgens een voorgedefinieerde antwoordsleutel zover voor kunnen beoordelen dat de workload voor de examinator drastisch verminderd wordt, omdat hij na toepassing van de applicatie nog slechts gericht enkele studenten te beoordelen heeft om voor alle studenten een beoordeling te kunnen geven (zie bijdrage van De Mulder in deze bundel). Een tweede ontwikkeling betreft applicaties die teksten met elkaar kunnen vergelijken om plagiaat op het spoor te komen. Een elektronische portfolio biedt dus uitstekende mogelijkheden om de informatie hanteerbaar te houden en de toegang tot de informatie goed te regelen. Zo wordt een longitudinaal en inhoudelijk rijk profiel van een student opgebouwd en wordt de sterke kant van ICT goed benut met een modern middel van toetsing. Adaptieve vormen van toetsen ICT biedt ook mogelijkheden ten aanzien van alternatieve vormen van afnameprocedures, zoals sequentiële en adaptieve toetsing. De bedoeling van deze procedures is de toetstijd (en dus het gebruik van items) zodanig te reguleren dat met een minimale toetstijd een maximum aan zekerheid over de beheersing van de stof door de kandidaat bereikt kan worden.
Inleiding
Bij sequentiële toetsing wordt daartoe aan alle kandidaten een relatief korte ‘screenende’ toets voorgelegd. Na afloop hiervan berekent de computer de score van ieder van de kandidaten, en vergelijkt deze met de zak-slaaggrens of cesuur. Dan wordt een beslissing genomen: die studenten wier score ver genoeg van de cesuur af ligt om met voldoende zekerheid te kunnen stellen dat ze gezakt dan wel geslaagd zijn hoeven eigenlijk niet verder getoetst te worden. Die studenten echter, die te dicht bij de cesuur gescoord hebben om een zekere uitslag te geven krijgen een extra set vragen voorgelegd. De scores hierop worden opgeteld bij die van de eerste set. In feite wordt een toetsverlening gerealiseerd. In principe zou dit net zo vaak herhaald kunnen worden totdat van iedere student met voldoende zekerheid bepaald kan worden of hij gezakt of geslaagd is. Een gecompliceerdere aanpak is de zogenaamde computer adaptive testing of adaptieve toetsing. Hierbij wordt uitgegaan van een itembank waarvan van alle items de moeilijkheidsgraad bekend is. De items worden voor iedere student individueel getrokken. Het eerste item dat een student gepresenteerd wordt heeft een middelmatige moeilijkheidsgraad. Afhankelijk van het antwoord van de student wordt nu bepaald aan welke eisen het volgende item moet voldoen. Heeft de student het eerste item goed dan wordt een iets moeilijker item getrokken, heeft hij het eerste item fout dan wordt een iets makkelijker item getrokken. Dit wordt herhaald totdat voldoende zekerheid over de competentie van de student verkregen. Het conceptuele verschil tussen sequentiële en adaptieve toetsing is dus dat bij sequentiële toetsing de toetslengte varieert afhankelijk van het niveau van de student en bij adaptieve toetsing de toetsinhoud varieert afhankelijk van het niveau van de student. Het moge duidelijk zijn dat de statistische modellen die de itembanken bij dergelijke procedures ondersteunen niet eenvoudig zijn: bij sequentiële toetsing zou eventueel nog met klassieke test theorie of generaliseerbaarheidstheo-
14 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
rie gewerkt kunnen worden, maar bij adaptieve toetsing zijn IRT-modellen onontbeerlijk. Feedback Een laatste punt betreft de mogelijkheden van feedback. Een bekende reclameslogan van enige tijd geleden stelde dat een ontbijt pas voedzaam is als iemand het eet. Parallel daaraan zou als ‘onderwijswet’ gesteld kunnen worden dat feedback pas nuttig is als de student deze ook daadwerkelijk in zich opneemt. Bij normale toetsen is feedback veelal een standaard formulier. Dit kan variëren van het terugrapporteren van de score, de grens en de kwalificatie (of cijfer) tot zeer uitgebreide feedback over de eigen prestaties op alle onderdelen van de toets vergeleken met de prestaties van jaargroepen, e.d. Het geven van feedback wordt daardoor vaak dansen op het slappe koord: te weinig feedback levert geen effect op, maar te veel kan al gauw leiden tot een informatie-overschot waardoor het doel voorbij gestreefd wordt. ICT biedt hierin twee mogelijkheden. Een eerste en voor de hand liggende mogelijkheid is om de feedback meer in grafische en zelfs in dynamische vorm aan te bieden. Hierdoor kunnen gegevens snel en overzichtelijk gepresenteerd worden, waardoor toch veel informatie gegeven kan worden zonder dat direct het gevaar van een ‘informatie-overload’ bestaat. Een mogelijk interessantere aanpak is zogenaamde ‘query-gebaseerde feedback’. Naar aanleiding van de toetsresultaten zal de behoefte aan informatie van student tot student verschillen. Door de toetsinformatie zo aan te bieden dat de gebruiker zelf op geleide van zijn interesse vragen (query opdrachten) kan formuleren, wordt ingegaan op de specifieke informatiebehoefte van iedere student.
Epiloog De balans opmakend, zien we dat ICT op toetsgebied nog een hele weg te gaan heeft. Het gebruik van ICT
Inleiding
wordt op dit moment nog sterk gedomineerd door de introductie van toetsservicesystemen. Deze ontwikkeling kost de nodige tijd. De meerwaarde van ICT ligt vooralsnog voornamelijk in de bevordering van de efficiëntie en de logistiek. De onderwijskundige meerwaarde moet in veel gevallen nog worden bereikt. Uit de ontwikkeling van ICT producten blijkt dat ontwikkelingen vooral in kleine stappen worden gezet. Het is verstandig voortdurend waakzaam te zijn voor een te hoog ambitieniveau bij de ontwikkeling en inzet van ICT bij toetsing. Zeker bij het ontwikkelen van eigen ICTproducten is deze waarschuwing op zijn plaats. Zelf maken is duur en gevaarlijk. Een strategie gebaseerd op uitbesteding, samenwerking of deling is aanbevelenswaardig. Zorg er bovendien voor dat ICT-toepassingen eenvoudig blijven en vermijd een verlies in al te grote complexiteit (het z.g. ‘KISS principle’: Keep It Simple and Stupid). Voor het bereiken van een goede onderwijskundige meerwaarde van ICT moet eerder de vraag worden gesteld ‘waarom wel ICT?’ in plaats van de vraag ‘waarom niet ICT?’. Het vervangen van het bestaande door ICT-hulpmiddelen levert uiteindelijk niet veel op. De uitdaging voor de komende jaren is de ontwikkeling van ICT als ondersteuning van een toetsontwikkeling die het leren op een moderne manier bevorderd. Enkele onderwijskundige voordelen van ICT-inzet in toetsing zijn daarbij genoemd. Maar ook daarvoor geldt dat deze ontwikkelingen niet van vandaag op morgen gerealiseerd zullen zijn. We zullen nog wel in paar valkuilen vallen voor het zo ver is. Het lijkt ons overigens dat de lessen en de eraan verbonden conclusies met betrekking tot ICT niet beperkt zijn tot toetsingsactiviteiten, maar even geldig zijn voor overige ICT-ontwikkelingen op onderwijsgebied.
Literatuur Brennan, R. L. (1983). Elements of Generalizability Theory. Iowa: ACT Publications. Dochy, F. J. R. C., & De Rijke, T. R. (Eds.) (1995). Assessment centers: nieuwe toepassingen in opleiding, onderwijs en HRM. Utrecht: Lemma. Frederiksen, N. (1984). The real test bias: Influences of testing on teaching and learning. American Psychologist, 39(3), 193-202. Linden, W. J. van der (1983). Van standaardtest naar itembank. Enschede: Inaugurale rede Universiteit Twente. Swanson, D. B., Norcini, J. J., & Grosso, L. J. (1987). Assessment of clinical competence: written and computer-based simulations. Assessment and Evaluation in Higher Education, 12(3), 220 - 246. Swanson, D. B., Norman, G. R., & Linn, R. L. (1995). Performance-based assessment: Lessons from the health professions. Educational Researcher, 24(5), 5-11,35. Tuninga, R. S. J. (1999). Internationalisering, netwerken, informatie- en communicatietechnologie en het hoger onderwijs. Tijdschrift voor Hoger Onderwijs, 17(3), 173-183. Vleuten, C. P. M. van der (1997). De intuïtie voorbij. Tijdschrift voor Hoger Onderwijs, 15(1), 34-46.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
1
KWALITEITSVERHOGING VAN KLASSIEKE MEERKEUZETOETSEN Psychometrische indicatoren voor toetsen* dr. H.J.M. van Berkel Universiteit Maastricht, capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch
Samenvatting Wanneer de summatieve toets is nagekeken, kan worden begonnen met een psychometrische analyse. Psychometrisch wil zeggen ‘getalsmatig’. Het is dus geen inhoudelijke analyse. Puur op grond van de toetsresultaten wordt getracht informatie te vergaren over de kwaliteit van de vragen en van de toets als geheel. Indien een toets bestaat uit twee onderdelen, een open en een gesloten gedeelte, is het noodzakelijk twee analyses uit te voeren. Hieronder worden de meest gangbare indicatoren voor de afzonderlijke toetsvragen en voor de toets als geheel besproken: p-waarde (vraagmoeilijkheid), Rit, Rat, Rir en Rar (onderscheidingsvermogen) en coëfficiënt alpha
*
(betrouwbaarheid). Van de vermelde indicatoren worden tevens normwaarden aangegeven. Daarnaast worden de beperkingen geschetst van een psychometrische analyse.
Inleiding Computers zijn een uitstekend hulpmiddel bij het analyseren van toetsscores. Op vrijwel iedere personal computer is tegenwoordig een statistisch pakket te installeren dat docenten in staat stelt enkele eenvoudige, maar noodzakelijke berekeningen uit te voeren. Er zijn veel kant en klare analyseprogramma’s, maar ook standaard statistische pakketten als SPSS voldoen. Tijdens het rekenwerk vraagt de computer aan de gebruiker te kiezen uit een aantal opties. Omdat de keuze uit de ver-
Deze tekst is een bewerking van hoofdstuk 7 uit: Berkel, H.J.M. van (1999). Zicht op toetsen. Assen: Van Gorcum.
16 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
schillende opties mede bepalend is voor de uitkomsten, is het op de eerste plaats de verantwoordelijke docent die wordt geacht de vragen van de computer te kunnen beantwoorden en niet degene die de computer bediend. Computermatige verwerking van toetsscores leent zich goed voor verdere analyse met behulp van statistische pakketten. Het doel van een dergelijke psychometrische analyse is docenten op basis van de toetsscores inzicht te geven in de kwaliteit van de toetsvragen en de toets. Psychometrische analyse is een controle achteraf. Controle dient plaats te vinden op: de moeilijkheid van iedere toetsvraag, de moeilijkheid van de toets als geheel, het discriminerend vermogen van iedere toetsvraag, de aantrekkelijkheid van de afleiders, de bijdrage van iedere vraag aan de toetsbetrouwbaarheid en de toetsbetrouwbaarheid zelf. Wanneer de data zijn geprepareerd overeenkomstig de eisen die een computer hieraan stelt, kan de psychometrische analyse beginnen. Om inzicht te verkrijgen in de psychometrische kwaliteit van een toets dienen de volgende gegevens te worden berekend. 1. De moeilijkheid van de toetsvraag en van de gehele toets. 2. De aantrekkelijkheid van de afleiders van meerkeuze vragen. 3. Het onderscheidingsvermogen van de toetsvraag. 4. De toetsbetrouwbaarheid. 5. De meetfout. Toetsservicebureau Er zijn docenten die een weerstand hebben tegen het hanteren van een computer. Zij vragen zich af of de psychometrische toetsanalyse niet beter kan worden uitbesteed aan een rekenaar, aan een soort toetsservicebureau dat voor docenten de analyses uitvoert en hen adviseert. Het is wellicht een utopie te verwachten dat
iedere docent vaardig genoeg is om een computer te bedienen. Veel instellingen van hoger onderwijs hebben dit onderkend en hebben daarom een zelfstandig bureau opgericht dat voor alle opleidingen van de instelling de toetsen analyseert. Er zijn zelfs instellingen die de toetsanalyse uitbesteden aan een extern bureau. Toch kennen dergelijk bureaus één groot nadeel: zij verrichten werk dat uiteindelijk onder de verantwoordelijkheid valt van de docenten zelf. Docenten moeten bepalen welke vraag uit de toets een slechte vraag is geweest. Externen, die meestal geen verstand hebben van de inhoud van de toets, kunnen dit niet, laat staan een computerprogramma. Natuurlijk zal zo’n bureau niet op eigen houtje wijzigingen aanbrengen in de toets. Het zal de docent adviezen geven. Maar omdat doorsnee docenten weinig begrijpen van al die cijfertjes, komen zij in de verleiding de adviezen blindelings op te volgen zonder naar de inhoudelijke kant te kijken. Het behoort echter tot de docententaak om zelf te onderzoeken in welke mate de toets en de toetsvragen kwaliteit hebben en, bij ontbreken hiervan, welke maatregelen moeten worden genomen. Dat kan en mag een extern bureau niet van hen overnemen.
Vraagmoeilijkheid (P-waarde) Gesloten toetsvraag De vraagmoeilijkheid van een gesloten toetsvraag is de proportie studenten die de vraag correct heeft beantwoord. Deze waarde wordt ook wel aangeduid met de p-waarde. De ‘p’ staat voor proportie. Wat dat betreft is de aanduiding ‘vraagmoeilijkheid’ voor de p-waarde dus verwarrend. Er geldt immers: hoe hoger de moeilijkheid des te lager is de p-waarde. Er is wel eens getracht de aanduiding ‘moeilijkheidsgraad’ te vervangen door het semantisch correctere ‘gemakkelijkheidsgraad’, maar die aanduiding is nooit ingeburgerd.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Als de vraag door tachtig studenten is gemaakt en zestig studenten hebben de vraag correct beantwoord, is de p-waarde 60/80 = 0,75. In formule: p-waarde = aantal studenten dat de vraag correct beantwoordt aantal toetsdeelnemers Het spreekt voor zich dat een gedeelte van de p-waarde van gesloten toetsvragen wordt veroorzaakt door het feit dat studenten door puur gokken al een kans hebben de vraag correct te beantwoorden. Zo zal de raadkans bij een 4-keuze vraag 0,25 zijn. Er is een kans van 1 op 4 dat een student die niets van de inhoud af weet, de vraag toch correct beantwoordt. Je kunt de p-waarde corrigeren. Dat vergemakkelijkt de interpretatie. De gecorrigeerde p-waarde is dan een indicatie voor de proportie studenten die de vraag echt kent. De correctieformule is: Pc = P – (1-P)/(K-1) Pc = Gecorrigeerde P-waarde P = Oorspronkelijke P-waarde K = Aantal alternatieven Een voorbeeld: De p-waarde van een toetsvraag bestaande uit vier alternatieven is 0,83. De gecorrigeerde p-waarde is dan: Pc = 0,83 – (1-0,83)/(4-1) = 0,83 – 0,17/3 = 0,83 – 0,06 = 0,77. Open toetsvraag De vraagmoeilijkheid van open toetsvragen is wat moeilijker te berekenen. Naast de maximale en de minimale score per vraag zijn doorgaans tussenliggende waarden
18 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
mogelijk. Indien studenten op een open toetsvraag bijvoorbeeld maximaal vijf punten kunnen behalen, zal de score waarden kunnen aannemen die lopen van 0 tot en met 5. De berekening van de p-waarde voor open toetsvragen is niet fundamenteel anders dan die voor gesloten vragen. In feite is de p-waarde van een open vraag computermatig te berekenen door de score van iedere student op de betreffende vraag op de tellen en te delen door het aantal toetsdeelnemers vermenigvuldigd met de maximale score. Deze berekening komt neer op het simpel berekenen van het gemiddelde op de toetsvraag, gerelateerd aan de maximale score. Als de gemiddelde score op de vraag 2,7 is, en de maximale score 5, dan is de p-waarde 2,7/5 = 0,54. Het spreekt vanzelf dat een correctie voor raden bij open vragen niet aan de orde is omdat op dergelijke vragen de invloed van raden te verwaarlozen is. Normwaarden Hoe hoog moet de p-waarde zijn? Het antwoord op deze vraag is afhankelijk van het doel waarvoor men toetst. Als uitgangspunt wordt de situatie genomen waarin de docenten ‘het kaf van het koren willen scheiden’, dat wil zeggen dat met de toetsuitslag het mogelijk moet zijn te bepalen welke studenten competent zijn en welke niet. Dit is de summatieve functie van een studietoets. Iedere vraag die deel uitmaakt van de toets moet een bijdrage leveren aan de summatieve functie. Dat betekent dat iedere vraag zo goed mogelijk onderscheid moet maken tussen competente en niet-competente studenten. Met andere woorden, de toetsvraag moet tussen beide groepen discrimineren. Een noodzakelijke voorwaarde om te kunnen discrimineren is dat niet alle studenten alle vragen correct of incorrect beantwoorden. Dat is ook wel voor te stellen. Indien iedere student alle vragen correct beantwoordt, is op basis daarvan geen scheiding aan te brengen tussen studenten. Je zou hooguit kunnen concluderen dat gezien het feit dat iedere student de vraag correct heeft beantwoord, iede-
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
re student competent is. Dat is wel wat optimistisch. Deze situatie zal zich in de praktijk niet voordoen. Vragen zullen in de meeste gevallen niet door alle studenten correct worden beantwoord. Het is statistisch aan te tonen (Ebel & Frisbie, 1991) dat wanneer een toetsvraag een gemiddelde moeilijkheid heeft, de vraag een maximale bijdrage levert aan de summatieve functie van een toets. Gemiddeld wil zeggen, precies op de helft tussen de maximale en minimale moeilijkheid. Voor een open toetsvraag is deze waarde eenvoudig uit te rekenen. Stel een toetsvraag levert een student maximaal vijf punten op. Dan is de wenselijke p-waarde 2,5/5 = 0,50. Dit betekent dat indien de gemiddelde score op deze toetsvraag 2,5 bedraagt, de vraag een maximale bijdrage levert aan de summatieve functie van de toets. Het berekenen van de ideale p-waarde voor een gesloten toetsvraag is iets ingewikkelder. Je moet namelijk rekening houden met de raadkans. Een p-waarde die gelijk of lager is dan de raadkans, geeft geen zinvolle informatie over het kennisniveau van studenten. De beste pwaarde ligt daarom in het midden tussen de maximale pwaarde (1,00) en de raadkans. Indien het een 5-keuzevraag betreft, waar de raadkans dus 1,00/5=0,20 is, is de beste p-waarde (1,00+0,20)/2 = 0,60. In tabel 1 staan p-waarden die bij een gegeven toetsvraag een maximale bijdrage leveren aan de summatieve functie van een toets.
Stabiliteit Men moet voorzichtig zijn bij het beschouwen van de normwaarden. Het is veelvuldig aangetoond dat p-waarden onderhevig zijn aan toevallige fluctuaties. Als men bijvoorbeeld dezelfde toetsvraag voorlegt aan twee groepen studenten die qua kennisniveau als gelijkwaardig mogen worden beschouwd, zou de gevonden pwaarde gelijk moeten zijn. Dat is lang niet altijd het geval. De stabiliteit van de p-waarde bij verschillende groepen, is afhankelijk van de aantallen deelnemers aan de toets. Indien de groep toetsdeelnemers klein is (<25) zal men minder waarde kunnen hechten aan de gevonden p-waarde dan indien er meer dan honderd studenten de toets hebben gemaakt.
Aantrekkelijkheid van afleiders van meerkeuze vragen (A-waarde) Gesloten toetsvragen bevatten naast het correcte antwoord, ook een of meer afleiders. Afleiders zijn de foute alternatieven. De mate waarin studenten een van deze afleiders kiezen (bij tweekeuze vragen is er slechts één afleider), geeft informatie over de kwaliteit van de vraag. Naar analogie van de p-waarde kan de zogenaamde a-waarde (alternatief- waarde) worden berekend: a-waarde = aantal studenten dat de betreffende afleider kiest
Tabel 1. Normen voor p-waarden bij summatieve toetsen aantal toetsdeelnemers Soort toetsvraag Open: Gesloten:
Norm voor de p-waarde
twee alternatieven drie alternatieven vier alternatieven vijf alternatieven
0,50 0,75 0,68 0,63 0,60
Op die wijze kan voor ieder van de afleiders van een gesloten toets de a-waarde worden berekend. De awaarde is een indicatie voor de aantrekkelijkheid van de afleider. Hoe hoger de a-waarde, des te aantrekkelijker is de afleider geweest voor studenten. Sommige docenten hanteren daarom de a-waarde als een aanduiding voor de aantrekkelijkheid van het alternatief.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Normwaarden Het streven moet er op zijn gericht iedere afleider even aantrekkelijk te maken. Dan pas functioneren de afleiders als gelijkwaardig (Dousma e.a., 1997). In de praktijk is dit lang niet altijd het geval. Vooral bij gesloten toetsvragen die vier of meer alternatieven bevatten, blijkt vaak dat één alternatief nauwelijks door studenten wordt aangestreept. Vaak is het zo dat de inspiratie van een vraagconstructeur op raakt. De derde of vierde afleider lijkt er dan met de haren te zijn bijgesleept. Dit is een van de belangrijkste redenen om het hanteren van driekeuze vragen te propageren (Van Berkel, 1999). Ook mag het niet zo zijn dat de a-waarde (bijna) nul is. Als dat het geval is, zou dat betekenen dat de afleider niet als zodanig heeft gewerkt. Eerder is uitgelegd wat de ideale p-waarde is. Deze is afhankelijk van het aantal alternatieven (zie tabel 1). Omdat het streven er op gericht moet zijn dat iedere afleider dezelfde a-waarde heeft, is het gemakkelijk uit te rekenen wat de ideale awaarde is: Ideale a-waarde = (1 - Pi) aantal afleiders Pi = Ideale p-waarde gegeven het aantal alternatieven (zie de tabel 1) Er zijn auteurs (bijvoorbeeld Dousma e.a., 1997) die aanbevelen dat de a-waarde van een van de alternatieven niet hoger mag zijn dan de p-waarde. Die aanbeveling snijdt echter geen hout. Indien een van de a-waarden hoger is dan de p-waarde, zal de p-waarde laag zijn. De vraag is kennelijk moeilijk. Maar dan hoeft de vraag niet slecht te zijn. Als de betreffende afleiders worden gekozen door niet-competente studenten, en het correcte alternatief door competente studenten, is er geen
20 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
reden om de vraag om kwalitatieve gronden te veroordelen. De vraag is dan wel moeilijk, maar kennelijk maakt de vraag wel onderscheid tussen studenten. In de volgende paragraaf wordt dit begrip, het onderscheidingsvermogen, nader uitgewerkt. Het berekenen van a-waarden, en de hierna te bespreken Rat, vereist specifieke software programma’s die speciaal voor het analyseren van studietoetsen zijn ontwikkeld.
Onderscheidingsvermogen van toetsvragen (Rit, Rat, Rir, Rar) Een summatieve toets moet de goede (competente) studenten laten slagen en de slechte (niet-competente) laten zakken. Met andere woorden, de toetsvragen moeten onderscheid maken tussen goede en slechte studenten. Maar wat is een goede student? En wat is precies een slechte? Hoewel je hiervan talloze definities kunt geven, zijn de definities in een toetssituatie op een simpele wijze inhoud te geven: goede studenten zijn studenten die hoog scoren op de toets (hoogscoorders), slechte studenten zijn de laagscoorders. Voor deze definities is wel wat te zeggen. Als de toets op een zorgvuldige wijze is geconstrueerd (dat wil zeggen, de toetsvragen representeren de blauwdruk en/of de leerstof), zullen studenten die de leerstof goed hebben bestudeerd veel vragen correct beantwoorden en studenten die het slecht hebben bestudeerd weinig. Op die wijze gedefinieerd is de eindscore van studenten een criterium om goede en slechte studenten te definiëren. Waar het dus bij summatieve toetsen om gaat is dat toetsvragen zo goed mogelijk onderscheid maken tussen studenten met een hoge en met een lage eindscore. Om deze functie van toetsvragen aan te duiden, is een term bedacht, het onderscheidingsvermogen. In de literatuur wordt vaak een andere aanduiding gehanteerd: het dis-
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
criminatieve vermogen of de discriminatie-index. Dit zijn verschillende aanduidingen voor één en dezelfde functie: een toetsvraag dient goede van slechte studenten (hoogscoorders van laagscoorders) te scheiden. Berekening van het onderscheidingsvermogen Om het onderscheidingsvermogen van een vraag te bepalen is het van belang de score op de betreffende vraag te relateren aan de eindscore. Toetsvragen die in meerdere mate door hoogscoorders correct worden beantwoord dan door laagscoorders, zijn kennelijk vragen die een onderscheid tussen beide groepen kunnen maken. Vragen die in gelijke mate door hoogscoorders en laagscoorders correct worden gemaakt, maken geen onderscheid. Vragen die laagscoorders beter beantwoorden dan hoogscoorders, onderscheiden de beide groepen wel, maar op een verkeerde manier. Met andere woorden, om het onderscheidingsvermogen van een toetsvraag te bepalen, moet de score op de vraag worden gerelateerd aan de eindscore op de toets. De samenhang tussen vraagscore en eindscore is een indicatie voor het onderscheidingsvermogen van de toetsvraag. Een samenhang tussen twee variabelen is te berekenen door de correlatie uit te rekenen. Zo ook voor het onderscheidingsvermogen. Het onderscheidingsvermogen van een toetsvraag is de correlatie tussen de score op de vraag en de eindscores. Deze correlatie wordt vaak kortheidshalve aangeduid met Rit, uit te spreken als R-I-T. De ‘R’ is een aanduiding voor de correlatie, terwijl ‘it’ aangeeft dat het hier de correlatie betreft tussen de vraag (item) en de eindscore (total score). De eindscore is de optelling van de afzonderlijke vraagscores per toetsdeelnemer. Een wat meer technische, maar ook gebruikelijke aanduiding voor het onderscheidingsvermogen is de item-testcorrelatie. Deze term geeft preciezer aan hoe het onderscheidingsvermogen is berekend. De Rit is simpelweg de correlatie tussen de vraagscores en de eindscore.
Rit, Rir, Rat en Rar In feite bevat de Rit een onnauwkeurigheid. Zoals gesteld is de Rit de correlatie tussen de score op de vraag en de eindscore. De vraag waarvan men de Rit wil berekenen maakt deel uit van de eindscore. Dat veroorzaakt een correlatie die enigszins overschat is, te hoog dus. Vooral bij toetsen met weinig vragen zal de overschatting relatief hoog zijn. Immers, de score van de ene vraag waarvan men de Rit wil uitrekenen, is in een toets met weinig vragen van grotere invloed op de eindscore dan in een toets met veel vragen. De eindscore moet daarom worden gecorrigeerd door de score van de vraag waarvan men de Rit wil berekenen, er van af te trekken. Een meer precieze berekening van het onderscheidingsvermogen van toetsvragen is daarom via het berekenen van de correlatie tussen de vraagscores en de scores op de totale toets minus die ene vraag. Dus tussen die ene vraag met de eindscore op de rest van de toetsvragen. De aanduiding hiervoor is de Rir, uit te spreken als R-I-R. De laatste ‘r’ staat voor ‘rest’. De technisch correcte aanduiding is de item-restcorrelatie. Op dezelfde wijze als de Rit of de Rir, kunnen met behulp van specialistische software de Rat en de Rar worden berekend. De vorige paragraaf ging over de aantrekkelijkheid van de alternatieven. De aanduiding hiervoor is a-waarde. Als aanvulling op deze kwaliteitsmaat gelden de Rat en de Rar. De Rat, uit te spreken als R-AT, is de correlatie tussen het betreffend alternatief met de eindscore, de alternatief-testcorrelatie. De Rar (uit te spreken als R-A-R), is de correlatie tussen het alternatief met het totaal van de rest van de vragen. Normwaarden De Rit en de Rir zijn correlatiecoëfficiënten. De Rit en de Rir hebben daarom een maximale waarde van +1,00 en een minimale waarde van -1,00. Een Rit-waarde van +1,00 betekent dat alle studenten die hoog op de toets scoorden de betreffende vraag correct beantwoordden.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Een waarde van -1,00 betekent dat alle studenten die op de toets laag scoorden de vraag correct beantwoordden. In de toetspraktijk zullen deze extreme waarden zelden voorkomen. Door allerlei onvolkomenheden van een toetsvraag zal een vraag nooit door alle hoogscoorders correct worden beantwoord en door alle laagscoorders foutief. De waarde voor de Rit en Rir zullen daarom ergens liggen tussen -1,00 en +1,00. Een eerste eis aan een goede Rit of Rir is dat de waarde positief is. Een positieve waarde duidt er op dat hoogscoorders in meerdere mate de vraag correct beantwoorden dan laagscoorders. Het zal vreemd zijn wanneer dat andersom is. De meest voor de hand liggende verklaring voor een negatieve uitkomst is bij gesloten toetsvragen een foutieve sleuteling. Dat wil zeggen, aan de computer is bijvoorbeeld opgegeven dat alternatief A correct is, terwijl dit alternatief B moet zijn. Dit moet terstond worden gecorrigeerd door de toetsanalyse opnieuw uit te voeren, nu met de gecorrigeerde sleutel. Welke positieve waarde is acceptabel? Allereerst geldt dat de waarde voor het onderscheidingsvermogen van een toetsvraag verkregen bij een relatief kleine groep studenten (<50), weinig stabiel is. Dat wil zeggen, indien dezelfde vraag bij een vergelijkbare groep studenten wordt afgenomen, de Rit of Rir een beduidend hogere of lagere waarde kan aannemen. Wat dat betreft is de stabiliteit van deze indices lager dan de p-waarde waarvoor geldt dat het aantal toetsdeelnemers tenminste 25 moet zijn om er betekenis aan toe te kunnen kennen. Voor de Rit en Rir ligt het aantal dus hoger. Een lage waarde, bij weinig toetsdeelnemers verkregen, hoeft dus niet direct te wijzen op een slechte vraag. Evenmin is een hoge waarde een garantie dat men met een goede toetsvraag heeft te maken. Toch komt men in de toetsliteratuur wel normen tegen (Ebel & Frisbie, 1991; Ory & Ryan, 1993).
22 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Tabel 2: Normen voor het onderscheidingsvermogen (Rit of Rir) Gevonden waarden
Beoordeling
0,35 en hoger 0,25 - 0,35 0,15 - 0,25 minder dan 0,15
Goed/zeer goed Voldoende/goed Middelmatig/voldoende Slecht/middelmatig
Nogmaals, bij weinig toetsdeelnemers dienen de normen voorzichtig te worden geïnterpreteerd. In het algemeen geldt echter: hoe hoger het onderscheidingsvermogen van een toetsvraag, des te hoger de psychometrische kwaliteit.
Toetsbetrouwbaarheid In de toetsliteratuur wordt de betrouwbaarheid van een toets(uitslag) gezien als de meest belangrijke beschikbare indicatie voor de kwaliteit van de toets (Ebel & Frisbie, 1991). Als een toets perfect betrouwbaar is, wil dat zeggen dat onwenselijke factoren als vermoeidheid, toetsangst, gokgedrag, een verkeerde verdeling van de vragen over de eindtermen, nakijkfouten, onduidelijke vragen, storende toetsomstandigheden etc., zich niet hebben voor gedaan of niet aanwezig zijn geweest. Geen enkele toets echter is perfect betrouwbaar. Altijd schort er wel wat aan. De betrouwbaarheid van een toets geeft aan in hoeverre je vertrouwen kunt hebben in de toets als meting, ongeacht de inhoud van de toets. Meet de toets echt iets of kun je net zo goed een muntstukje opwerpen om uitspraken te doen over studenten. Als een weegschaal de ene keer 85 kilo aangeeft en vijf minuten later met dezelfde persoon er op, 90, is de weegschaal niet betrouwbaar. Zo ook met toetsen. Als na een tweede
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
afname blijkt dat een toets, die vergelijkbaar is met de eerste, bij dezelfde deelnemers leidt tot een zodanig andere toetsscores dat een student die de eerste keer als beste uit de bus komt en de tweede keer in de middenmoot eindigt, is de toets op z’n minst niet 100% betrouwbaar. De correlatie tussen de scores op de beide toetsen is een aanduiding voor de betrouwbaarheid van de toets, de zogenoemde test-hertestbetrouwbaarheid. Deze correlatie is een belangrijke indicatie voor de kwaliteit van de toets als geheel.
methoden worden verkregen, vallen daarom onder de noemer ‘interne consistentiematen’ omdat alle drie de methoden nagaan in hoeverre de toets intern consistent is geweest, of anders gesteld, in hoeverre de opsplitsingen op elkaar lijken. De overeenkomst met de methode die leidt tot de test-hertest betrouwbaarheid is duidelijk. In plaats van de noodzaak een tweede toetsafname te organiseren om een test-hertest betrouwbaarheid te kunnen berekenen, deelt men de ene toets in gedeelten en vat die delen op als verschillende afnamen.
Benaderingen voor de test-hertest betrouwbaarheid Het is noodzakelijk na iedere toetsafname de betrouwbaarheid te berekenen omdat de hoogte van de betrouwbaarheid grenzen stelt aan de betekenis die een docent kan hechten aan de toetsuitslag. Natuurlijk is het in de toetspraktijk onmogelijk twee toetsen vlak na elkaar bij dezelfde studenten af te nemen. Daarom heeft men andere methoden bedacht die de betrouwbaarheid zo goed mogelijk benaderen. In praktijk heeft men uitsluitend de beschikking over de scores per vraag per student. Met deze gegevens blijkt het zeer wel mogelijk enkele kwaliteitsindices als de p-waarde, de Rit en de Rir te berekenen. Met behulp van dezelfde gegevens is het ook mogelijk een indicatie te verkrijgen van de betrouwbaarheid van de toets als geheel.
Er is veel onderzoek verricht naar zowel de overeenkomst tussen de verschillende methoden als de overeenkomst van de benaderingen met de werkelijkheid. Steeds weer blijkt dat, indien het aantal toetsdeelnemers voldoende groot is, de overeenkomsten hoog tot zeer hoog te zijn. Dat betekent dat de verschillende benaderingsmethoden niet alleen onderling uitwisselbaar zijn (dat is handig omdat je dan de te kiezen methode kunt laten afhangen van wat in praktijk mogelijk is), maar ook dat deze goede benaderingen zijn van de werkelijkheid.
Ofschoon er vele benaderingen zijn bedacht, zijn in praktijk drie methoden gebruikelijk. Alle drie de methoden zijn hanteerbaar in de situatie waar de toets één keer is afgenomen. Het is dus niet nodig een tweede toetsafname te organiseren. De drie methoden stemmen theoretisch overeen: ze delen de toets in gedeelten. Vervolgens berekenen ze de overeenkomst tussen de verschillende delen en verkrijgen op die wijze een indicatie voor de betrouwbaarheid. De betrouwbaarheden die met behulp van de drie
Split-half methode De split-half methode is gebaseerd op het in tweeën splitsen van de toets onder de aanname dat de beide helften vergelijkbaar zijn. De eindscores die studenten verkrijgen op de beide deeltoetsen worden gecorreleerd. Aldus wordt berekend in hoeverre studenten die hoog scoren op de ene helft van de toets, ook hoog scoren op de andere helft. De correlatiecoëfficiënt is dan een aanduiding voor de toetsbetrouwbaarheid. De maximale waarde van een op deze wijze verkregen betrouwbaarheid is +1,00 en de minimale -1,00. Een goede manier om de toets in tweeën te splitsen is de even vragen bij elkaar te nemen en de oneven. (De misschien meer voor de hand liggende methode om de eerste en de tweede helft te nemen, is niet aan te bevelen omdat de toetsvragen vaak zijn geclusterd rond bepaalde onderwerpen.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Indien zo’n toets in twee helften wordt opgesplitst, is de kans groot dat de toetshelften niet gelijkwaardig zijn.) Omdat door de split-half methode de toetsbetrouwbaarheid in feite is gebaseerd op de helft van het aantal toetsvragen, ook al zijn alle toetsvragen meegenomen in de berekening, valt de betrouwbaarheid kunstmatig te laag uit omdat de toetsbetrouwbaarheid sterk afhankelijk is van het aantal vragen in de toets. De verkregen betrouwbaarheid moet dus worden gecorrigeerd als ware het een betrouwbaarheid van een toets van dubbele lengte. Hiervoor bestaat een formule, de zogenoemde Spearman-Brown formule (zie bijvoorbeeld Van Berkel, 1999). Kuder-Richardson methode Een veel gehanteerde benadering voor de betrouwbaarheid van een toets waarvan de vragen gescoord worden met ‘0' of ‘1', doorgaans dus een toets met gesloten vragen, is ‘de KR-20'. In theorie kan de KR-20 waarden aannemen tussen 0 en 1,00. De KR-20 hoeft niet per se te leiden tot dezelfde schatting van de betrouwbaarheid als de split-half methode. Bij deze laatste methode deelt men de toets in tweeën, terwijl de KR-20-methode uitgaat van het opsplitsen van de toets in net zoveel delen als het aantal vragen in de toets. Iedere vraag wordt opgevat als een deeltoets. De basis voor de berekening van de KR-20 zijn de correlaties tussen de scores op de toetsvragen. Deze correlaties worden intercorrelaties genoemd. Hoe hoger de intercorrelaties des te hoger de betrouwbaarheid. Indien de correlaties tussen de vraagscores hoog zijn, wil dat zeggen dat ze tot bepaalde hoogte hetzelfde meten. Een toets met een hoge betrouwbaarheid (berekend met behulp van de KR-20), wordt daarom ook wel aangeduid als een homogene toets: een toets waarvan de vragen hetzelfde meten. Hoe homogener de toets des te hoger de betrouwbaarheid. Vandaar dat de KR-20 wel eens wordt aangeduid als een homogeniteitsmaat.
24 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Coëfficiënt alpha methode Coëfficiënt alpha, ook wel aangeduid als Cronbach’s alpha (naar Cronbach, 1951) of kortweg ‘alpha’, is bij uitstek geschikt om de toetsbetrouwbaarheid te bereken van een toets die uit open vragen bestaat. In tegenstelling tot de KR-20 is het bij het gebruiken van alpha niet noodzakelijk dat een toetsvraag uitsluitend mag worden gescoord met nullen en enen. Alle mogelijke waarden zijn toegestaan. Coëfficiënt alpha gaat, evenals de KR-20, uit van het opsplitsen van de toets in deeltoetsen, te weten alle vragen worden ieder voor zich opgevat als een deeltoets. Via een berekening van onder andere de standaarddeviaties van de vraagscores, wordt coëfficiënt alpha berekend. De mogelijke waarden die alpha kan aannemen, liggen tussen de nul en één (ofschoon er computerprogramma’s bekend zijn die tot negatieve waarden komen. Deze programma’s hanteren dan een benaderingsformule. Indien een negatieve alpha wordt berekend, kan men deze gelijkstellen aan de theoretische minimum waarde 0). Alpha is een homogeniteitsmaat: hoe meer de vragen hetzelfde meten, des te hoger alpha. Normwaarden Wanneer een toets niet betrouwbaar is, kan men geen enkele betekenis hechten aan de toetsuitslag. Wanneer een toets 100% betrouwbaar is, heeft men in ieder geval de zekerheid dat de toetsuitslag iets heeft te betekenen. (Of de toetsuitslag ook zinvolle betekenis heeft, is uit de hoogte van de betrouwbaarheid niet af te leiden. Dat blijkt uit de bestudering van de inhoudsvaliditeit van de toets.) Alle tussenliggende gradaties van betrouwbaarheid gaan dus gepaard met een onzekerheid: hoe dichter de betrouwbaarheid naar het minimum toegaat, des te onzekerder men kan zijn of de toetsuitslag wat voorstelt. Je zou kunnen zeggen dat wanneer een toetsscore
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
van bijvoorbeeld 85 bij een 100% betrouwbare toets inderdaad 85 is, en niet 84 of 86. Bij een toets die bijna 100% betrouwbaar is, zal er een klein gebiedje rondom de toetsscore van 85 zijn waarvan men zeker kan zijn dat de toetsscore daar ergens ligt. Een uitspraak die men dan bijvoorbeeld kan doen, is: wanneer de toetsbetrouwbaarheid 0,95 bedraagt en de toetsscore is 85, dan weet men met een bepaalde zekerheid dat de score dicht in de beurt van 85 ligt. Met andere woorden, rondom de eindscore ligt een gebied, meestal aangeduid met interval, waarbinnen de werkelijke eindscore met een bepaalde zekerheid ligt. Is de betrouwbaarheid perfect dan is de eindscore precies de score die met de toets is verkregen. Is de toets niet 100% betrouwbaar dan ontstaat er interval rondom de eindscore waarbinnen de score ligt. Hoe onbetrouwbaarder de toets, des te groter het interval rondom de eindscore.
Meetfout Het interval rondom de eindscore kan men opvatten als een indicatie van de meetfout. Aan iedere meting zit een meetfout. Om het begrip ‘meetfout’ uit de kunnen leggen, is het noodzakelijk het begrip ‘ware’ score te introduceren. De ware score is de score die een getrouwe afspiegeling is van de kennis van een student zoals gemeten met een toets. Als studenten echt 85 van de 100 vragen kennen, moet in dat geval hun toetsscores ook 85 zijn. Hun ‘ware’ score is dan 85. Dat wil echter nog niet zeggen dat studenten met een ware score van 85 ook een score krijgen van 85. De betreffende studenten kunnen tijdens de toets zijn afgeleid en per ongeluk het streepje op een verkeerde plaats hebben gezet. Of ze kunnen pech of geluk hebben gehad met de vragen die ze niet kenden en daarom hebben gegokt. Dat gokken kan per saldo slecht of juist goed voor hen uitpakken. Zo zijn er tal van factoren die onbedoeld van invloed zijn op de toetsscore. Iedere toetssco-
re heeft daardoor een interval om zich heen waarbinnen de ware score zich moet bevinden. Hoe breed dit interval is, is afhankelijk van de betrouwbaarheid van de toets. Nogmaals, hoe onbetrouwbaarder de toets, des te breder het interval. De breedte is een aanduiding voor de meetfout. De meetfout van een toets is dus afhankelijk van de betrouwbaarheid. Hoe hoger de betrouwbaarheid, des te kleiner de meetfout. Voor het berekenen bestaat een formule: Se = Sx √(1-R) Se = Meetfout, ook wel aangeduid als standaard meetfout Sx = Standaard deviaties van de eindscores R = Betrouwbaarheid De interpretatie van de meetfout is als volgt. Statistisch kun je aantonen dat je 68% zeker kunt zijn dat de ware score ergens ligt binnen het interval dat wordt omgrensd tussen toetsscore plus de meetfout en de toetsscore min de meetfout. Indien bijvoorbeeld de eindscore van een student op een toets 36 is en de meetfout van die toets is 4,36, kun je er 68% zeker van zijn dat zijn/haar ware score ergens ligt tussen 31,64 (36 - 4,36) en 40,36 (36 + 4,36). Wil je voor 95% zeker weten binnen welk interval de ware score ligt van een student die 36 punten heeft behaald op de toets, dien je de meetfout met twee te vermenigvuldigen. Het 95%zekerheidsinterval loopt dan van 27,28 (36 - 2*4,36) tot 44,72 (36 + 2*4,36). De scores binnen dit interval zijn statistisch gezien niet verschillend van elkaar, althans als je 95% zeker wilt zijn dat het verschil inderdaad een verschil is. Dat betekent nogal wat. Pas wanneer een score van student A 18 of meer punten hoger/lager is dan die van student B, mag je met 95% zekerheid concluderen dat de ware score van student A hoger/lager is dan die van student B. Indien je tevreden bent met 68% zekerheid, volstaat een verschil van 9 of meer.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
De meetfout is een belangrijk begrip bij het bepalen van zak/slaaggrens van een toets. Het zal duidelijk zijn dat docenten slechts die studenten willen laten slagen die dat ook verdienen. Als een docent de zak/slaaggrens bij de vermelde toets (die dus een 95%-zekerheidsinterval heeft van 17.44) legt bij 35, weet je 95% zeker dat studenten die minder scoren dan 27 terecht zijn gezakt. Maar je weet ook met 95% zekerheid dat studenten met een hogere score dan 43 terecht zijn geslaagd. Daartussenin ligt een gebied waarover niet met 95% zekerheid kan worden gezegd dat studenten terecht zijn gezakt of geslaagd. Het spreekt voor zich dat dit onzekerheidsgebied zo klein mogelijk moet zijn. Dan pas zal het aantal onjuiste beslissingen (onterecht geslaagd of onterecht gezakt) binnen aanvaardbare proporties blijven. Het aantal onjuiste of foute beslissingen is afhankelijk van de betrouwbaarheid (hoe lager de betrouwbaarheid, des te meer foute beslissingen) en van het percentage gezakte
studenten (hoe meer het zakpercentage in de buurt ligt van 50%, des te meer foute beslissingen). Met behulp van statistische formules is te berekenen hoeveel foute beslissingen worden genomen bij het bepalen van wie gezakt of geslaagd is, gegeven een bepaalde betrouwbaarheid en een bepaald zakpercentage. In tabel 3 staat het aantal foute beslissingen (in percentage van het aantal toetsdeelnemers) bij een aantal veel voorkomende waarden van de toetsbetrouwbaarheid. Op grond van statistische berekeningen is het waarschijnlijk dat zelfs bij een redelijke betrouwbaarheid een behoorlijk aantal studenten een foute uitslag heeft verkregen. Normwaarden Om te voorkomen dat er relatief veel foute beslissingen worden genomen, moet de toets zo betrouwbaar mogelijk zijn. Een toets die 100% betrouwbaar is, is echter onmogelijk. Er zal dus een soort compromis moeten worden
Tabel 3: Percentage foute zak/slaag beslissingen, gegeven de toetsbetrouwbaarheid en het zakpercentage (Uit: Dousma e.a., 1997) Betrouwbaarheid Zak %
0,0
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1.00
5 10 15 20 25 30 35 40 45 50
10 18 26 32 38 42 46 48 50 50
8 14 18 23 26 29 31 32 33 33
7 13 18 21 25 27 29 30 31 31
7 12 17 20 23 25 27 29 29 30
7 11 16 19 22 24 25 27 27 28
6 11 14 17 20 22 23 24 25 25
6 10 13 16 18 20 21 22 23 23
5 9 12 14 16 18 19 20 20 20
4 8 10 12 14 15 16 17 18 18
4 6 8 10 11 12 13 14 14 14
3 4 6 7 8 9 9 10 10 10
0 0 0 0 0 0 0 0 0 0
26 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
gevonden ten aanzien van wat nog aanvaardbaar is. Het compromis zal rekening moeten houden met het belang van de beslissing. Hoe belangrijker de beslissingen die op basis van de toetsuitslag worden genomen, des te minder foute beslissingen men zich kan veroorloven. In de praktijk van het hoger onderwijs waar een enkele toets deel uitmaakt van een reeks toetsen, neemt men al vaak genoegen met de waarde 0,80 als ondergrens. Daarbij wordt aangenomen dat een student die ten onrechte slaagt, op de volgende toets wel tegen de lamp zal lopen. En een student die ten onrechte zakt, kan nog altijd meedoen aan de herkansing, zo luidt dan de redenering. In sommige gevallen zijn lagere betrouwbaarheden acceptabel. Dat geldt vooral in gevallen waar de verkregen toetsscore kan worden gecompenseerd door scores op een andere toets. In die gevallen mag je aannemen dat de somscore van beide toetsen tezamen betrouwbaarder zijn dan de afzonderlijke betrouwbaarheden. Maar een betrouwbaarheid van 0,60 geldt als absolute ondergrens.
De betrekkelijkheid van een psychometrische analyse Psychometrica is een wetenschap die zich bezighoudt met het getalsmatig analyseren van psychologische testen (waarvan een studietoets een bijzondere vorm is). Net als bij andere wetenschappen, zijn de uitkomsten van psychometrische onderzoeken naar normen gebonden aan plaats en tijd. Geen enkele norm heeft eeuwigheidswaarde en geldt in alle omstandigheden. De aantrekkelijkheid van normen uit de psychometrica is dat ze op het oog simpel zijn. Daarin schuilt precies het gevaar. Het is sterk aan te bevelen de normen niet absoluut op te vatten. Niet alleen zit aan iedere norm een onzekerheidsmarge vast (die vaak voor het gemak wordt weggelaten), maar vooral: psychometrische normen mogen niet doorslaggevend zijn. Waar het bij het proces
van toetsanalyse om gaat is via een psychometrische analyse een indicatie te verkrijgen over de kwaliteit van de toetsvraag. Psychometrische normen zijn uitsluitend handig om signalen uit te geven. Als de psychometrische kwaliteit van een toetsvraag afwijkt van de norm, zal de docent steeds de inhoud van de vraag moeten bestuderen. Op basis van die inhoudelijke analyse kan de docent besluiten de vraag al dan niet achteraf uit de toets te verwijderen, de score aan te passen of het modelantwoord te wijzigen. Het is beslist niet aan te raden uitsluitend op basis van de uitkomsten van psychometrisch onderzoek kwalitatieve uitspraken te doen over de toets.
Recapitulatie • Het gebruik van een computer is noodzakelijk om een toets te analyseren. • Iedere docent moet over de vaardigheden beschikken om zelf de toets te analyseren. • De docent die verantwoordelijk is voor de toets, is ook verantwoordelijk voor de analyse. • Een psychometrische analyse is slechts een hulpmiddel bij de beoordeling van de kwaliteit van de toets. • Het hanteren van een specifiek toetsanalyseprogramma is niet per se noodzakelijk; gangbare statistiekpakketten op de computer zijn voldoende om de meest elementaire analyses uit te voeren. • De basis van een toetsanalyse is de score per vraag per student. • Minimaal dienen de volgende indices te worden berekend: p-waarde, Rit of Rir, de betrouwbaarheid en de meetfout. • Vragen die een gemiddelde moeilijkheid hebben, differentiëren het beste tussen hoogscoorders en laagscoorders. • Aan een p-waarde verkregen op basis van minder dan 25 toetsdeelnemers, kan weinig betekenis worden toegekend.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
• Afleiders van één enkele gesloten vraag dienen alle ongeveer even aantrekkelijk te zijn. • De Rit en Rir zijn indices die aangeven in hoeverre een vraag onderscheid maakt tussen hoogscoorders en laagscoorders. • Het verschil tussen een Rit en Rir is bij toetsen met veel vragen te verwaarlozen. • Voor de Rit of Rir geldt: hoe hoger de waarde, des te hoger de psychometrische kwaliteit van de betreffende toetsvraag. • Aan een Rit- of Rir-waarde verkregen op basis van minder dan vijftig toetsdeelnemers, kan weinig betekenis worden toegekend. • De meest gangbare maten voor de toetsbetrouwbaarheid zijn homogeniteitsmaten. • Wanneer de toetsbetrouwbaarheid lager is dan 0,60, mag de toetsuitslag niet worden gehanteerd bij het nemen van wat voor soort beslissingen ook. • Indien de toetsbetrouwbaarheid laag is, zullen er relatief veel studenten ten onrechte zakken of slagen. • Pas wanneer de betrouwbaarheid hoger is dan 0,80 mogen er beslissingen worden genomen ten aanzien van het summatieve karakter van de toets.
28 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Literatuur Berkel, H.J.M. van (1999). Zicht op toetsen. Assen: Van Gorcum. Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334. Dousma, T., Horsten, A., & Brants, J. (1997). Tentamineren. Groningen: Wolters-Noordhoff. Ebel, R.L., & Frisbie, D.A. (1991). Essentials of Educational Measurement. Englewood Cliffs, N.J.: Prentice Hall (5th edition). Ory, J.C., & Ryan, K.E. (1993). Tips for improving testing and grading. Newbury Park: Sage.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
SONATE, verwerking en analyse van toetsen drs. S. Kunst en ing. A.H.W. van der Zanden Technische Universiteit Delft, sectie Didactiek en Onderwijsontwikkeling, faculteit Techniek, Bestuur en Management
Inleiding Bij de TU Delft is sinds april 1999 een nieuw systeem voor het verwerken en analyseren van meerkeuzetoetsen in gebruik. Dit systeem, Sonate, is ontwikkeld ter vervanging van twee reeds lang bestaande systemen, Testbeeld en Toetskit. Het heeft de positieve punten van beide systemen behouden en veel tekortkomingen van deze systemen opgeheven. Sonate is een gebruikersvriendelijk en flexibel Windows-programma, waarmee docenten zelf de cijferbepalingen toets- en itemanalyse van hun toetsen kunnen verrichten. In dit artikel wordt eerst beknopt de totstandkoming van Sonate beschreven. Daarna worden de mogelijkheden van het programma belicht. Vervolgens wordt stilgestaan bij de ervaringen van de gebruikers. Tenslotte worden de plannen voor de nieuwe versie van Sonate besproken.
De totstandkoming van Sonate Tot voor kort bestonden er bij de TU Delft twee faciliteiten voor de automatische verwerking van schriftelijke meerkeuzetoetsen, Testbeeld en Toetskit. Beide systemen maakten gebruik van een schrapkaartlezer, gebaseerd op Optical Mark Recognition.
In 1997 werd duidelijk dat deze systemen hun langste tijd hadden gehad. Het mainframe waarop Testbeeld draaide, zou binnen korte termijn door andere serversystemen worden vervangen. De schrapkaartenlezer van Toetskit was aan het einde van de technische levensduur en begon serieuze mankementen te vertonen. Het ICTO Expertise Centrum (een samenwerkingsverband tussen DidO en de afdeling Systemen voor Onderwijs en Onderzoek van de Dienst Technische Ondersteuning (DTO) van de TU Delft) is in 1997 begonnen met het ontwikkelen van een nieuw systeem ter vervanging van beide bestaande systemen. Van tevoren is een uitvoerige behoefteanalyse verricht onder de gebruikers van de twee oude systemen, waarmee zowel de positieve aspecten van deze systemen, als ook de tekortkomingen duidelijk in kaart werden gebracht. Het nieuwe systeem, Sonate, heeft die positieve punten behouden en de tekortkomingen van de oude systemen zoveel mogelijk opgeheven. De vervanging van de oude systemen is in twee stappen verlopen. Allereerst is de leesapparatuur vervangen door een image scanner. De huidige technologie van deze scanners biedt meer flexibiliteit ten aanzien van de formulieren dan de oude optical mark readers. Formulieren hoeven niet meer aan zeer strikte eisen te voldoen en kunnen eigenhandig (met de daarvoor beschik-
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
bare software) samengesteld worden en gewoon met de kopieermachine worden vermenigvuldigd. In de tweede stap is de nieuwe analyse-software, Sonate, ontwikkeld. De officiele release hiervan was op 28 april 1999.
De mogelijkheden van Sonate Het systeem Sonate bestaat uit twee delen, de centrale formulierenverwerking en de analysesoftware op de pc van de docent. De formulierenverwerking ondersteunt docenten bij het automatisch nakijken van schriftelijke meerkeuzetoetsen. De analysesoftware biedt docenten geavanceerde instrumenten voor itemanalyse en toetsanalyse. Docenten kunnen hiermee inzicht krijgen in de kwaliteit van de gestelde vragen binnen de toets en van de toets als geheel. Ze hebben de mogelijkheid om de kwaliteit van de toets te verbeteren door bijvoorbeeld een dubieuze vraag bij de cijferbepaling niet mee te laten tellen. De formulierenverwerking Bij Sonate worden meerdere standaardformulieren meegeleverd, die zijn gebaseerd op de gehanteerde schrapkaarten en A4-formulieren van Toetskit en Testbeeld. Zo zijn er tweekeuze-, vierkeuze- (vier verschillende versies van dezelfde toets ter voorkoming van spieken), vijfkeuze-, achtkeuze- en enquêteformulieren (zonder studienummer) beschikbaar. De docent kan deze kopiëren en aanpassen aan de eigen situatie door bijvoorbeeld alvast de ‘vaste’ gegevens (datum, tentamennaam en –code) in te vullen, en overbodige vragen en alternatieven af te plakken. Hierna kan hij het gewenste aantal kopieen maken. De ingevulde formulieren worden bij DTO ingeleverd om te laten scannen, inclusief de antwoordensleutel op het zogenaamde ‘0-formulier’ (studentnummer 0000000). Binnen een dag krijgt de docent het formulierenbestand per e-mail toegezonden.
30 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
De analysesoftware De analysesoftware is volgens de Windowsstandaards ontwikkeld. Het is een gebruikersvriendelijk en flexibel programma. Het bestaat uit vier onderdelen, die de gebruiker na elkaar kan afhandelen. Wanneer er in het ene onderdeel iets wordt veranderd of toegevoegd, wordt dit direct in de andere onderdelen aangepast. De gebruiker kan eenvoudig tussen de onderdelen heen en weer springen. De vier onderdelen zijn: 1. Invoer-gegevens (zie figuur 1, p. 31) Hier wordt het formulierenbestand ingelezen, op basis waarvan een toetsdefinitie wordt gegenereerd. De gegevens van deze toetsdefinitie (onder andere het aantal vragen, de weegfactor van een vraag en het aantal antwoordalternatieven) kunnen achteraf nog aangepast worden. Ook kan hier het aantal toetsversies en de specificatie van deze versies worden ingevoerd. Wanneer het formulierenbestand is ingelezen, worden direct de toets-analyse gegevens getoond. Deze gegevens zijn altijd (in alle vier de onderdelen) zichtbaar en worden bij iedere verandering direct aangepast. De volgende gegevens worden getoond: • de minimaal-, gemiddeld- en maximaal behaalde score; • de maximaal te behalen score; • standaard meetfout; • moeilijkheidsgraad; • gecorrigeerde raadkans; • standaard-deviatie; • variantie; • spreidingsgraad; • betrouwbaarheid. 2. Score-cijfer transformatie In dit onderdeel kan de docent de score-cijfer transformatie specificeren. Hij heeft hier drie mogelijkheden. Hij kan kiezen voor een indeling in gelijke klassen (zie figuur 2, p. 32). Hier specificeert hij de
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Figuur 1
score voor een 1, een 5.5 en een 10, waarna de gelijke klassen worden berekend. De tweede mogelijkheid is die van een vrije indeling, waarbij hij voor ieder cijfer de bijbehorende score moet specificeren. De derde mogelijkheid is de interval indeling, waarbij voor ieder cijfer het scorebereik kan worden gespecificeerd. 3. Itemanalyse (zie figuur 3, p. 33) In dit onderdeel worden de itemanalyseresultaten
gepresenteerd. De volgende waarden worden hierin berekend: • de aantrekkelijkheid van de afleiders: a-waarde; • gemiddelde score van een student per gekozen alternatief: M-waarde; • moeilijkheidsgraad: p-waarde; • gecorrigeerde moeilijkheidsgraad: p’-waarde; • Rit waarde; • Rir waarde; • Raadkans, gecorrigeerd voor dat item en de toets.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Figuur 2
Op basis van deze itemanalyse wordt er per item een kwaliteitsoordeel bepaald. Dit kwaliteitsoordeel moet worden beschouwd als een signalering voor de docent en niet als een absolute keuring. Wanneer de docent van mening is dat een bepaalde vraag bij nader inzien beter niet meegerekend kan worden bij de cijferbepaling, kan hij deze vraag in dit onderdeel ‘uitzetten’. Hij ziet hiervan dan direct de gevolgen op de toetsanalyse. Het kwaliteitsoordeel van een item wordt bepaald
32 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
doordat het item al dan niet voldoet aan vier vuistregels waarin (een combinatie van) p’, de a-waarden, de M-waarden en de Rit waarde een rol spelen, bijvoorbeeld: Een alternatief functioneert niet goed als afleider. Elk alternatief dat zich onder een bepaalde grens bevindt, levert een minpunt op. Afhankelijk van de p’-waarde wordt de ondergrens als volgt berekend: Is (0 < P <= 0,7) dan is de ondergrens ➠ {0,3 / (2*(aantal opties-1))};
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Figuur 3
Is (0,7 < P < 0,9) dan is de ondergrens ➠ {(1-p) / (2*(aantal opties-1))}. Het uitgangsoordeel voor ieder item is 5 punten. Wanneer er aan een vuistregel wordt voldaan, krijgt het item een strafpunt. Een item met kwaliteitsoordeel 1 of 2 zou dus nog een kritisch moeten worden bekeken. Om de aandacht van de gebruiker naar deze dubieuze vragen te trekken, wordt het kwaliteitsoordeel niet alleen in de getallen 1-5 aangegeven maar ook in een roodschakering; hoe roder het oordeel, hoe dubieuzer
de vraag. Wanneer meer dan 90% van de studenten de vraag goed heeft beantwoord, wordt er geen kwaliteitsoordeel gegeven, maar krijgt de vraag een ‘---‘ notering. Deze vraag wordt als weggevertje beschouwd. 4. Student Informatie In dit onderdeel kunnen allerlei studentoverzichten verkregen worden. De lijsten kunnen naar eigen inzicht gesorteerd worden door op de betreffende kolomtitel te klikken.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Figuur 4
Ook zijn er een tweetal grafieken te bekijken, de student-score grafiek en de student-cijfer grafiek (zie figuur 4, p. 34). De student-score grafiek biedt de mogelijkheid om de cesuur te veranderen door deze met de muis naar links of rechts te slepen. De consequenties van deze verandering worden direct getoond. Alle overzichten en grafieken kunnen worden geprint en geëexporteerd naar andere programma’s.
34 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Ervaringen van gebruikers Sonate is dit studiejaar (1999/2000) voor het eerst door docenten gebruikt. Op dit moment is er nog geen grootschalige evaluatie uitgevoerd. Een dergelijke evaluatie zal begin volgend studiejaar plaatsvinden. Desalniettemin valt er wel het een en ander over de ervaringen van de gebruikers te zeggen, onder meer op basis van een telefonische enquête en individuele gesprekken met gebruikers.
Kwaliteitsverhoging van klassieke meerkeuzetoetsen
Over het algemeen zijn de reacties van de docenten erg positief. De Testbeeld en Toetskit gebruikers noemen vooral de overzichtelijke presentatie en de gebruikersvriendelijkheid. De nieuwe gebruikers noemen vooral de snellere verwerking van hun tentamens en de gereedschappen voor de analyse. Binnen een half jaar tijd is het aantal gebruikers verdubbeld. Er zijn nu 59 gebruikers. Uit het telefonisch interview onder een steekproef van de gebruikers kwam naar voren dat bijna alle docenten het kwaliteitsoordeel bij de itemanalyse hoog waarderen. Een vraag met een laag oordeel (1, 2 en soms ook 3) wordt door hen kritisch bekeken en eventueel aan collega’s voorgelegd. Wanneer ze constateren dat de vraag eigenlijk niet geschikt is voor de toets, wordt hij buiten de cijferbepaling gehouden. Docenten die gebruik maken van een itembank verwijderen slechte vragen uit deze bank of ze herformuleren de vragen. De docenten gaven aan dat ze door deze werkwijze beter inzicht hebben gekregen in het formuleren van goede toetsvragen.
Plannen voor de toekomst De communicatie tussen de ontwikkelaars van Sonate en de gebruikers is goed. Wanneer de gebruikers bepaalde wensen hebben kunnen ze dat doorgeven. Indien het kleine aanpassingen betreft, worden deze in een volgende upgrade meegenomen. Voor grotere zaken wordt nagegaan hoe breed het draagvlak hiervoor onder de gebruikers is. Indien dit groot genoeg is, komt het op het lijstje voor een volgende versie. Op deze wijze zijn de volgende uitbreidingsplannen voor versie 2 tot stand gekomen. • Een Toets Management functionaliteit is gewenst voor de verwerking van meerdere tentamens tegelijkertijd. Sonate versie 1.x richt zich op één toets of tentamen. Er is behoefte aan een mogelijkheid om meerdere toetsen te kunnen selecteren voor deel- of totaalanalyses en deel- of totaalverwerkingen. • Als de student vaker aan metingen deelneemt, wil hij weten hoe hij presteert in relatie tot zijn studiegenoten. Sonate zal worden voorzien van persoonlijke studentrapportages, gekoppeld aan scoreoverzichten van de groep als geheel.
Beoordelen van klassieke open vraag- en essaytentamens
2
BEOORDELEN VAN KLASSIEKE OPEN VRAAGEN ESSAYTENTAMENS Computer ondersteund nakijken van open vragen prof.dr. R.V. De Mulder MBA en mr. C. van Noortwijk Erasmus Universiteit Rotterdam, Centrum voor Informatie en Recht
CODAS is een afkorting voor ‘computer ondersteund document analyse systeem’. De programmatuur is oorspronkelijk bedoeld om het woordgebruik in juridische teksten te inventariseren en om op basis daarvan intelligent te kunnen zoeken in omvangrijke juridische databases. De methode kan worden aangeduid als ‘conceptueel’. De onderwijskundige toepassing van de techniek is bij toeval tot stand gekomen. In deze bijdrage zal de werking van de programmatuur worden uiteengezet.
Inleiding Het nakijken van opdrachten, werkstukken en tentamens wordt door docenten in het algemeen als een zware last ervaren. Een gevolg is dat met name bij een groot aantal deelnemers dikwijls wordt teruggegrepen op opdrachten of toetsen die geheel of gedeeltelijk uit meerkeuzevra-
36 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
gen bestaan, aangezien deze sneller – en vaak machinaal – zijn na te kijken. Toch zijn de meeste docenten het erover eens dat 'open' vragen in veel gevallen beter geschikt zijn om inzicht te verkrijgen in de bij studenten aanwezige kennis en vaardigheden en in ieder geval beter dienstbaar zijn aan de onderwijsdoelstelling 'verhoging van schriftelijke uitdrukkingsvaardigheid'. Automatisering op dit gebied was tot nu toe alleen mogelijk bij gebruik van meerkeuzevragen. Door het Centrum van Informatica en Recht aan de Erasmus Universiteit wordt echter al geruime tijd onderzoek gedaan naar het lezen en (tot op zekere hoogte) interpreteren van tekstmateriaal met behulp van de computer. Dit onderzoek is er ondermeer op gericht om effectievere, zogenaamde conceptuele zoeksystemen te ontwikkelen waarmee juridische databestanden kunnen worden ontsloten. Als een uitvloeisel hiervan is enkele jaren geleden een prototype-
Beoordelen van klassieke open vraag- en essaytentamens
computerprogramma ontwikkeld dat kan dienen als hulpmiddel bij het nakijken van (in elektronische vorm ingeleverde) open-vraag opdrachten, werkstukken, e.d. Dit programma is sinds begin jaren '90 in gebruik. Het computerprogramma in kwestie is gebaseerd op de volgende gedachte: het is weliswaar op dit moment nog niet mogelijk om een computer een tekst te laten 'begrijpen', maar het is wel mogelijk om de vorm van de tekst, en met name het woordgebruik in die tekst, met behulp van de computer nauwkeurig te analyseren. Het blijkt zo te zijn dat opdrachten die qua woordgebruik een hoge mate van overeenkomst vertonen, in de meeste gevallen ook qua inhoud veel met elkaar gemeen hebben. Meer specifiek blijkt het zo te zijn dat uitwerkingen van open-vraag opdrachten die voor wat betreft het woordgebruik sterke overeenkomst vertonen, in veel gevallen ook van gelijk niveau zijn, en door een docent ongeveer gelijk worden beoordeeld. Niet geheel onverwacht blijkt er dus een duidelijk verband te bestaan tussen de vorm van de uitwerking (uitgedrukt in het in die uitwerking aangetroffen woordgebruik) en de betekenis of inhoud van die uitwerking. Van dit principe wordt gebruik gemaakt bij het nakijken van opdrachten van studenten. Praktisch kan een en ander als volgt in zijn werk gaan. Studenten krijgen bijvoorbeeld wekelijks een opdracht uitgereikt. Hun uitwerkingen typen zij in met behulp van een tekstverwerkingsprogramma, waarna zij het resulterende bestand in de vorm van een e-mail opsturen naar de docent. Deze start dan het nakijkproces door het nakijken van enkele opdrachten, waarbij deze bijvoorbeeld als 'goed', 'voldoende' of 'onvoldoende' worden aangemerkt. Op basis van deze informatie rangschikt het systeem alle opdrachten en plaatst deze in een lijst. De rangschikking weerspiegelt de mate waarin een opdracht overeenkomt met uitwerkingen die kunnen
gelden als 'voorbeelden' (goede uitwerkingen) en de mate waarin deze afwijkt van onvoldoende uitwerkingen (we zouden dit 'tegenvoorbeelden' kunnen noemen). De score die de mate van overeenkomst weergeeft wordt bepaald aan de hand van het woordgebruik in elk van de uitwerkingen, en komt tot stand door middel van een aantal statistische berekeningen. De score van een document wordt in het algemeen verhoogd wanneer het veel woorden bevat die ook in de 'voorbeelden' voorkomen, en verlaagd wanneer het veel woorden bevat die juist in de 'tegenvoorbeelden' voorkomen. In een iteratief proces kan nog een aantal voorbeelden en tegenvoorbeelden worden toegevoegd, totdat de volgorde praktisch vastligt. Vervolgens moet nog bepaald worden waar de precieze grenzen liggen tussen 'goede', 'voldoende' en 'onvoldoende' uitwerkingen, en dan kunnen aan alle opdrachten cijfers worden toegekend. Het systeem biedt tenslotte nog een faciliteit om de overeenkomsten tussen alle ingeleverde opdrachten systematisch te onderzoeken, waarbij aangegeven wordt welke opdrachten het meest op elkaar lijken. Op die manier kan fraude op effectieve wijze aan het licht worden gebracht. Het systeem wordt al enkele jaren met succes toegepast in het onderwijs aan de Erasmus Universiteit Rotterdam, o.a. bij het keuzevak 'Computergebruik voor juristen'. Aan dit keuzevak namen de afgelopen jaren tussen de 100 en 200 studenten deel, die gedurende een periode van 12 weken iedere week een opdracht moesten inleveren. Dit betekende dat er over het semester gerekend ongeveer 2000 opdrachten moesten worden nagekeken, waarvan de gemiddelde omvang 3 tot 4 pagina's bedroeg. Het 'met de hand' nakijken van al deze uitwerkingen zou eenvoudig niet mogelijk zijn geweest met de beschikbare stafcapaciteit. Het bleek echter met de door het Centrum ontwikkelde programmatuur wel mogelijk te zijn een betrouwbare beoordeling van alle
Beoordelen van klassieke open vraag- en essaytentamens
uitwerkingen te geven door per week zo'n 25 tot 50 opdrachten na te kijken; een aanzienlijke besparing dus. De wens van de studenten individuele opdrachten te vervullen en daarop feedback te ontvangen kan hiermee worden vervuld, ook bij de thans gangbare grote aantallen studenten gecombineerd met een afnemende docentencapaciteit. De mogelijkheden van de Codas-programmatuur zijn dus tweeledig: 1. komen tot efficiency- en kwaliteitsverhoging bij het nakijken van schriftelijke tentamens of opdrachten; 2. bevordering van het gebruik van schriftelijke opdrachten en van open-vraag toetsen, zulks ter verhoging van de schriftelijke uitdrukkingsvaardigheid, door het mogelijk maken van een intensievere en frequentere feitelijke oefening waaraan gekoppeld een meer adequate feedback aan studenten.
De CODAS modules De CODAS programmatuur kent thans twee modules: een fraudecheck-module en een nakijk-module. De fraudecheck-module wordt in het algemeen het eerst toegepast. Deze module dient om de uitwerkingen te identificeren die de sterkste overeenkomsten vertonen. Deze uitwerkingen komen in aanmerking om door de docent te worden gecontroleerd op 'fraude', het ongeoorloofd overnemen van gedeelten van andermans uitwerking (en ook: het ongeoorloofd aan anderen ter beschikking stellen van de eigen uitwerking zodat die daaruit gedeelten kunnen overnemen). De nakijk-module vormt de kern van de CODAS programmatuur. Met behulp van deze module worden uitwerkingen door de docent op volgorde geplaatst (van goed naar slecht), en voorzien van een beoordeling.
De fraudecheck-module De werking van de fraudecheck-module is gebaseerd op de similariteit tussen documenten. Dit begrip kan voor deze toepassing als volgt worden gedefinieerd. Onder similariteit wordt verstaan de mate waarin twee documenten voor wat betreft hun vorm en in het bijzonder voor wat betreft de woordtypen waaruit zij zijn opgebouwd met elkaar overeenstemmen. Het gaat hier dus om een overeenkomstmaat, waarin tot uitdrukking komt hoe sterk twee documenten qua woordgebruik op elkaar lijken. De similariteit kan volgens verschillende methoden worden berekend (zie voor details dienaangaande (Van Noortwijk 1995). Twee van deze methoden zijn in de fraudecheck-module geïmplementeerd. De eenvoudigste maakt uitsluitend gebruik van zogenaamde hit1's, woordtypen die twee documenten gemeenschappelijk hebben ('overlapping'). Hierbij wordt er overigens wel rekening mee gehouden dat niet alle woordtypen even belangrijk zijn. Typen die zelden voorkomen hebben een hoog 'gewicht', terwijl typen die bijna in ieder document voorkomen vrijwel geen bijdrage leveren aan de similariteitsscore. De andere, wat gecompliceerdere methode maakt naast hit1's ook gebruik van hit2's, woordtypen die beide documenten juist missen, maar die in andere documenten uit dezelfde set wel voorkomen. Het vermijden van een bepaald woord is hiermee dus ook een punt van overeenkomst geworden. Overigens wordt hierbij eveneens rekening gehouden met de verschillende gewichten van woordtypen. In geval van een hit2 hebben juist veelvoorkomende woorden een hoog gewicht, aangezien de kans dat twee documenten dit woord allebei niet bevatten slechts gering is. De fraudecheck-module vergelijkt dus een serie documenten (opdrachten) met elkaar op overeenkomsten
38 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Beoordelen van klassieke open vraag- en essaytentamens
Schermafbeelding fraudecheck-module
in woordgebruik en kent ieder paar een zogenaamde fraudescore toe (een getal van 1 tot 10000, een hoge waarde duidt op meer overeenkomst). De paren documenten worden gesorteerd op fraudescore en weergegeven op het scherm. De documentenparen met de hoogste fraudescores staan bovenaan de lijst en komen het meest in aanmerking voor een visuele controle op al te grote overeenkomsten. Deze controle is vanuit Codas mogelijk: met een druk op de knop kunnen de betreffende bestanden op het scherm worden getoond.
De nakijk-module De nakijk-module sorteert de documenten naar gelang ze het meest lijken op gekozen voorbeeld-documenten (‘goede opdrachten’) en het minst op gekozen tegenvoorbeeld-documenten (‘onvoldoende opdrachten’).
Het computer-ondersteund nakijken van opdrachten gaat nu als volgt in zijn werk. Allereerst moeten enkele opdrachten worden nagekeken, waarbij het de bedoeling is om met name enkele ‘goede tot zeer goede’ en enkele ‘slechte’ c.q. ‘onvoldoende’ uitwerkingen op te sporen. Het programma helpt hierbij door een initiële score uit te rekenen en de documenten op grond van deze score in een voorlopige volgorde te plaatsen. Deze eerste score is gebaseerd op de fraude-scores (zoals uitgerekend in de fraudecheck-module). De initiële score van ieder document is gelijk aan de gemiddelde fraudescores met alle overige documenten. De gedachte hierbij is, dat gemiddeld de studenten wel weten waar ze het over hebben. De opdracht die het meest lijkt op alle andere zal dus als onder die veronderstelling niet tot de minste behoren, terwijl opdrachten die zeer weinig lijken op alle andere, vermoedelijk tot de slechtste beho-
Beoordelen van klassieke open vraag- en essaytentamens
ren. In de praktijk blijkt de veronderstelling over minder goede opdrachten wat beter op te gaan dan over de goede: inderdaad worden de zwaar onvoldoende opdrachten gewoonlijk onderaan de rangorde aangetroffen, maar de beste opdrachten meestal niet helemaal bovenaan. Een tweede praktische mogelijkheid om gemakkelijk enkele 'goede' en 'slechte’ voorbeelden te vinden bestaat in het toevoegen van reeds beoordeelde opdrachten van voorafgaande cursussen. (Ook voor het opsporen van fraude kan dit een belangrijk middel zijn.) Iedere nagekeken opdracht kan worden voorzien van een beoordeling, in de vorm van een letter. Beschikbaar zijn de letters A t/m F (6 gradaties), maar er kan voor worden gekozen om opdrachten bijvoorbeeld alleen als ‘vol-
Schermafbeelding nakijk-module
40 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
doende/onvoldoende’ (A of B) te beoordelen, of als ‘goed/voldoende/onvoldoende/slecht’ (A, B, C of D). Daarnaast - en in dit stadium van het nakijken is dat het belangrijkst - worden de ‘goede’ opdrachten (opdrachten die een voorbeeldfunctie kunnen vervullen) gemarkeerd met een ‘+’, en de slechte (tegenvoorbeelden) met een ‘-’. Wanneer enkele ‘voorbeelden’ (markering ‘+’) en enkele tegenvoorbeelden (markering ‘-’) zijn gevonden kan op de toets ‘herberekenen’ [F9] worden gedrukt. Het effect hiervan is dat voor elk document een ‘overeenkomstscore’ wordt berekend. Deze score geeft aan in hoeverre ieder document in de lijst (qua woordgebruik) lijkt op de ‘voorbeelden’, en afwijkt van de ‘tegenvoorbeelden’. De lijst van documenten wordt nu gesorteerd op deze
Beoordelen van klassieke open vraag- en essaytentamens
overeenkomstscore. De overeenkomstscores zijn zichtbaar in de kolom ‘Score’.
voor onder andere de rekensnelheid zal moeten worden verhoogd.
De op deze wijze verkregen volgorde van documenten dient nu door de docent getoetst te worden. Deze kijkt daartoe nog enkele uitwerkingen na, zowel boven- als onderaan de lijst en spoort aldus nog zoveel mogelijk duidelijk goede en duidelijk onvoldoende uitwerkingen op. Alle ‘scores’ kunnen dan opnieuw worden berekend (door opnieuw op [F9] te drukken) waarna bezien kan worden in hoeverre de oorspronkelijke volgorde verandert. Dit proces kan zonodig nog enkele malen worden herhaald, totdat de docent beslist dat de volgorde praktisch vastligt, en een geschikte basis vormt voor de beoordeling van de gehele groep. Dan kan bepaald worden waar de precieze grenzen liggen tussen de beoordeling ‘A’, ‘B’, ‘C’ etc. Juist rond de grensgevallen is het vaak nodig nog enkele opdrachten na te kijken, ook al staat de volgorde al vrijwel vast. Zijn de grenzen vastgesteld, dan kan met een druk op de knop aan de overige (nog niet beoordeelde) opdrachten de beoordeling die bij het betreffende deel van de lijst hoort worden toegekend. Tenslotte kan het programma dan worden afgesloten, en kan de lijst met beoordelingen worden verwerkt en/of uitgeprint. De A’s, B’s en C’s kunnen daarbij worden vervangen door een ‘echt’ cijfer (bijvoorbeeld: een A staat voor het cijfer 10, een B voor een 7 en een C voor een 4).
Samenvatting
Verdere ontwikkelingen Zoals uit het voorgaande valt op te maken zijn van de CODAS-programmatuur al versies gereed, die ook in de praktijk zijn toegepast. Het systeem wordt steeds verder beproefd en verbeterd. Onder andere wordt de gebruikersvriendelijkheid nog verhoogd, opdat ook docenten die weinig ervaring hebben met computers er snel mee kunnen werken. Voorts zal het systeem geschikt worden gemaakt voor nog grotere aantallen documenten, waar-
Alle docenten hebben een hekel aan nakijken. Maar zij vinden wel dat studenten meer zouden moeten schrijven en leren correct te formuleren. Het hier besproken computerprogramma kan voor dit dilemma een oplossing zijn. In de praktijk van het grootschalig onderwijs is het eenvoudig niet mogelijk in een semester meerdere schriftelijke toetsen of opdrachten met open vragen uit te voeren. De docenten hebben geen tijd om meerdere weken correctiewerk uit te voeren. Bovendien brengt een groter aantal toetsen extra administratie met zich mee. Als het om individuele opdrachten gaat, die de studenten thuis uitvoeren, bestaat de kans dat er fraude wordt gepleegd. De CODAS-programmatuur maakt het mogelijk de hoeveelheid correctiewerk aanzienlijk terug te brengen, juist bij grote studentenaantallen. Het nakijken van een zorgvuldig gekozen steekproef volstaat voor de beoordeling van de gehele groep. Het programma biedt hulp bij het kiezen van de steekproef. Ook in het verleden nagekeken opdrachten kunnen in het werk worden betrokken. Dit leidt tot - nog - minder nakijkwerk en bovendien tot grotere consistentie in beoordeling over de jaren. Voorwaarde voor gebruik van de programmatuur is dat de opdrachten van de studenten in elektronische vorm beschikbaar zijn. Iedere tekstverwerkingsstandaard voldoet. Zelfs bij aantallen van zo'n 50 opdrachten levert het gebruik van CODAS al voordelen op. Boven de 100 zijn de besparingen aanzienlijk. Bij nog grotere aantallen opdrachten vormt het handmatige correctiewerk nog maar een fractie van wat het vroeger geweest zou zijn. Een aparte CODAS module signaleert opdrachtenparen
Beoordelen van klassieke open vraag- en essaytentamens
die sterk met elkaar overeenkomen. Er wordt een rangorde opgemaakt van de meest waarschijnlijk fraudegevallen. Ook hier kunnen opdrachten van vorige jaren bij de analyse worden betrokken.
Tot slot Uitgeverij Edu'actief te Meppel heeft sinds enkele maanden een ‘Nationale Nakijkcentrale’ in bedrijf, waarin van de CODAS-programmatuur gebruik wordt gemaakt. Binnenkort wordt een eerste evaluatiestudie van de CODAS-programmatuur gepubliceerd. In deze studie wordt aandacht besteed aan enerzijds de programmatuur, inclusief de technische koppeling en aanpassing aan de netwerkomgeving en anderzijds de validiteit, de gebruiksvriendelijkheid en de inpasbaarheid van CODAS binnen de huidige onderwijspraktijk.
Literatuur Combrink-Kuiters, Lia, Richard V. De Mulder, Henk Elffers and Kees van Noortwijk – ‘Comparing Student Assignments by Computer’. In: CYBERSPACE 1999: Crime, Criminal Justice and the Internet. 14th annual Bileta Conference, York, 29th & 30th March 1999. Published in electronic form (CD-rom), 10 pp. Noortwijk, C. van en R.V. De Mulder – ‘The Similarities of Text Documents’. In: JILT - Journal of Information, Law and Technology, Issue 2/1997, 10 pp. University of Warwick, Coventry 1997.
42 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Noortwijk, C. van and R.V. De Mulder – ‘Word use in legal texts: Statistical facts and practical applicability’. In: Kralingen, R.W. van et al. (eds.), Legal Knowledge Based Systems: Foundations of Legal Knowledge Systems (Jurix’96), p 91-100. Tilburg University Press, Tilburg 1996. Noortwijk, C. van – Het Woordgebruik Meester. Een vergelijking van enkele kwantitatieve aspecten van het woordgebruik in juridische en algemeen Nederlandse teksten. Lelystad, Koninklijke Vermande, 1995, 320 pp. Mulder, R.V. De – ‘Juridische begrippen en waarschijnlijkheid’. In: Computerrecht nr. 3 1994, pp. 113-117. Mulder, R.V. De, C. Wildemast en M.J. van den Hoven – ‘Conceptuele geautomatiseerde juridische documentatie-systemen’. In: Computerrecht nr. 2 1993, pp. 69-77. Mulder, R.V. De, M.J. van den Hoven and C. Wildemast – ‘The concept of concept in ‘conceptual legal information retrieval’’. In: Proceedings of the 8th Bileta Conference, 1st and 2nd April 1993, University of Warwick, Coventry., pp. 79-91. Wildemast, C.A.M. en R.V De Mulder – ‘Some considerations for the design of conceptual legal information retrieval systems’. In: C.A.F.M. Grutters et al. (eds.), Information Technology and Law, Jurix 1992, Koninklijke Vermande B.V., Lelystad, pp. 81-92.
Beoordelen van klassieke open vraag- en essaytentamens
De scoring van open vragen dr. D.N.M. de Gruijter Universiteit Leiden, ICLON, Sectie Onderwijsontwikkeling
Samenvatting Onder de noemer open vraag valt een aantal verschillende vraagtypen die een schriftelijke reactie vergen. In de bijdrage worden twee vraagtypen besproken. Het eerste vraagtype is de korte open vraag. Bij dit vraagtype wordt veelal een antwoord van één of enkele woorden verlangd. Het tweede vraagtype is de essayvraag. De essayvraag wordt wel eens gekenschetst als een vraag waarbij een samenhangend antwoord bestaande uit minstens één zin, maar meestal meer dan één zin, wordt verwacht. Bij de antwoorden op een essayvraag is er niet sprake van goed of fout: er is een gradatie aan kwaliteit in de antwoorden te ontdekken. Niet besproken wordt een opdracht waarbij berekeningen moeten worden uitgevoerd. De problemen die zich bij deze vragen voordoen lijken op de problemen die zich voordoen bij essayvragen. Allereerst worden de problemen bij de beoordeling van de korte open vraag besproken. Deze problemen worden besproken in samenhang met de constructie van de korte open vraag. Vervolgens worden de problemen bij de beoordeling van de essayvraag besproken. Er wordt ingegaan op de manieren waarop de essayvraag kan worden beoordeeld.
De computer kan op verschillende manieren worden ingeschakeld bij tentamens die (mede) uit open vragen bestaan. De meest voor de hand liggende toepassing van de computer is die bij de analyse van de gegevens en rapportage van de uitkomsten. Toch wordt zo een analyse weinig gedaan bij toetsen die helemaal uit open vragen bestaan, in tegenstelling tot een toets- en itemanalyse bij toetsen met gesloten vragen. De computer kan ook gebruikt worden bij de beoordeling zelf als de antwoorden van de studenten in een computerbestand zijn opgeslagen. Daarbij moeten wij vooral denken aan toetsen die met behulp van een computer zijn afgenomen en waarbij naast gesloten vragen open vragen voorkomen. Wij kunnen gebruik maken van de mogelijkheid om records te groeperen en (her)groeperen. Tot slot wordt ingegaan op de mogelijkheden die de computer biedt bij het scoren van de vragen. De vraag daarbij is in hoeverre de computer het werk van de menselijke beoordelaar kan overnemen bij de scoring van de antwoorden. Computerscoring van korte antwoordvragen is al onderdeel van toetssoftware. Toepassing van computerscoring is echter niet zonder problemen. Ook bij de computerscoring van essayvragen zijn vorderingen gemaakt. Bij computerscoring van essayvragen
Beoordelen van klassieke open vraag- en essaytentamens
moeten wij denken aan het gebruik van de computer in grootschalige toetsprojecten.
Inleiding De open vraag is bij veel opleidingen de dominante toetsvorm. Voor veel docenten lijkt de grotere validiteit van de open vraag boven die van de gesloten vraag vanzelfsprekend. Bij sommige toetsen kan de open vraag gezien worden als een ‘performance’ test, een meer directe meting van de onderwijsdoelen dan de gesloten testvraag. Het stellen van open vragen heeft ook een uitstraling op het eraan voorafgaande onderwijs. Bij teveel meerkeuzetoetsen kan men bevreesd zijn voor een ‘backwash’ effect. Anderzijds blijkt uit onderzoek dat de subjectieve factor bij het nakijken van open vragen dikwijls groot is. Mede daardoor is de betrouwbaarheid van een toets met open vragen dikwijls lager dan de betrouwbaarheid van een toets met gesloten vragen. Het lijkt erop dat zowel open als gesloten vragen vooren nadelen hebben. In sommige toetsen zijn beide vraagvormen opgenomen. De docent hoopt daarmee het goede van beide vraagvormen te krijgen. In mijn bijdrage ga ik uit van het nut van een toets, geheel of gedeeltelijk bestaande uit open vragen. Ik zal mij concentreren op de problemen die zich bij het gebruik van open vraagvormen voordoen. Alvorens verder te gaan, moeten wij weten wat wij onder de noemer open vraag verstaan. Er zijn verschillende vraagtypen die een schriftelijke reactie vergen. In de bijdrage worden twee vraagtypen besproken. Het eerste vraagtype is de korte open vraag. Bij dit vraagtype wordt veelal een antwoord van één of enkele woorden verlangd. Het tweede vraagtype is de essayvraag. De essayvraag wordt wel eens gekenschetst als een vraag waarbij een samenhangend antwoord bestaande uit minstens één zin, maar meestal meer dan één zin, wordt
44 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
verwacht. Bij de antwoorden op een essayvraag is er niet sprake van goed of fout: er is een gradatie aan kwaliteit in de antwoorden te ontdekken. Niet besproken wordt een opdracht waarbij berekeningen moeten worden uitgevoerd. De problemen die zich bij deze vragen voordoen lijken op de problemen die zich voordoen bij essayvragen. Ik zal eerst de korte open vraag bespreken en de problemen die zich bij de beoordeling van de korte open vraag voordoen. Daarna volgt een discussie over de essayvraag en de beoordelingsproblemen bij deze vraag. Ik zal meer nadrukkelijk de manieren van beoordelen bij de essayvraag bespreken. De computer kan op verschillende manieren worden ingeschakeld bij tentamens die (mede) uit open vragen bestaan. Allereerst bespreek ik de meest voor de hand liggende toepassing van de computer: de analyse van de gegevens en rapportage van de uitkomsten. Daarna komen andere computertoepassingen aan de orde. Zo kan de computer gebruikt worden bij de beoordeling als de antwoorden van de studenten in een computerbestand zijn opgeslagen. De computer kan zelfs worden ingeschakeld voor het scoren van de vragen. Computerscoring van korte antwoordvragen is al onderdeel van toetssoftware. Ook bij de computerscoring van essayvragen zijn vorderingen gemaakt.
De korte open vraag In de meest eenvoudige vorm is de korte open vraag een soort invuloefening, de aanvul- of invulvraag. Enkele voorbeelden: De hoofdstad van Bolivia is . . . . . Als . . . . . verdronken is, dempt men de put.
Beoordelen van klassieke open vraag- en essaytentamens
De oppervlakte van een rechthoek met zijden van 10 en 12 meter is . . . . .m2. De korte open vraag lijkt vaak niet meer te toetsen dan eenvoudige kennis en het onderscheid tussen de korte open vraag en de meerkeuzevraag zou niet meer zijn dan het verschil tussen productie van een antwoord en herkenning ervan. Deze typering van het verschil tussen korte open vragen en meerkeuzevragen is echter te simpel. Neem het volgende voorbeeld: (-b2)3 = A. –b6 B. –b5 C. +b5 D. +b6 (Timmer, 1969). Deze vraag wordt niet beantwoord door herkenning van het juiste alternatief. De opgave wordt gemaakt en het antwoord wordt opgezocht in de lijst van alternatieven. Als de leerling niets weet, gokt hij. Er is eigenlijk geen verschil met de open vraag: alle relevante antwoordalternatieven zijn opgenomen. Als de leerling de open vraag niet kan beantwoorden, kan hij/zij ook gokken wat het goede antwoord zou moeten zijn en de alternatieven die als antwoord in aanmerking komen zijn naar alle waarschijnlijkheid dezelfde als die van de meerkeuzevraag. Onder de korte open vraag kan men ook ingewikkelder vragen laten vallen, zoals: Noem een aantal mogelijkheden om alcoholmisbruik in de steden te verminderen: De korte open vraag lijkt meestal zo eenvoudig dat de scoring van het antwoord aan een administratief medewerker (of, zoals wij later aan de orde zullen stellen, een computer) kunnen overlaten. In de praktijk valt dat toch dikwijls tegen. Vragen blijken dikwijls minder een-
duidig dan men had verwacht en er is een deskundige beoordelaar nodig om knopen door te hakken. Wesman (1971) geeft in zijn beschrijving van de korte open vraag enkele voorbeelden, zoals: When did the War between the States end? _________ in 1865 (gewenst antwoord) in the 1860s when Lee surrendered to Grant. Achteraf is het gemakkelijk concluderen dat de vraag anders had moeten luiden: er had naar een jaartal gevraagd moeten worden. Als dat niet is gedaan en men verschillende antwoorden krijgt, rijst de vraag hoe deze te beoordelen. Dat kan niet aan een administratief medewerker worden overgelaten. Een probleem is dat deskundige beoordelaars van mening kunnen verschillen over wat goed is en wat niet goed is. Met name mag men verwachten dat de ene beoordelaar strenger is dan de andere. Als één docent verantwoordelijk is voor de beoordeling, kan de docent door middel van een steekproef nagaan welke antwoorden voorkomen. Alle antwoorden uit de steekproef kunnen van een beoordeling worden voorzien. Aan de hand daarvan kan een scoretabel worden gemaakt waarin staat bij welk antwoord welke score hoort. Vervolgens kan een administratief medewerker de beoordeling van de overige antwoorden ter hand nemen. Als er meer dan één beoordelaar is, zullen verschillende beoordelaars de antwoorden verschillend waarderen. Zij moeten in overleg tot een gemeenschappelijke scoringsregel komen. Er is natuurlijk een risico dat niet alle soorten antwoorden in de steekproef voorkomen.
De essayvraag De essayvraag vergt een langer antwoord, geformuleerd in op zijn minst enkele zinnen. Er is niet sprake van één
Beoordelen van klassieke open vraag- en essaytentamens
goed antwoord, maar van veel mogelijkheden in een gradatie van kwaliteit. Een typische essayvraag (Coffman, 1971) is: American foreign policy during the period 1789-1826 and during the 1930’s is often characterized as ‘isolationalist.’ Compare the ‘policies of isolation’of these two periods. How appropriately does the term ‘isolation’ characterize these policies? Hoe algemener een essayvraag is, des te groter de variatie aan antwoorden die men van studenten kan verwachten en hoe moeilijker de beoordelingstaak. Coffman noemt drie conclusies die ten aanzien van de consistentie van beoordelingen kunnen worden getrokken: a. verschillende beoordelaars geven verschillende beoordelingen bij hetzelfde antwoord; b. een beoordelaar geeft op verschillende gelegenheden verschillende beoordelingen bij hetzelfde antwoord; c. de verschillen zijn in het algemeen groter naarmate de vrijheid van antwoorden groter is. Bij (a) kan men denken aan een verschil in strengheid, een verschil in de neiging om extreme (hoge en lage) waarderingen te geven en een verschil in criteria die de beoordelaars hanteren. Beoordelaars blijken ook gevoelig voor de context waarin zij oordelen. Zo kunnen zij antwoorden die zij later beoordelen, anders beoordelen dan de eerste antwoorden die zij onder ogen hebben gehad. De beoordeling van een antwoord kan afhankelijk zijn van de kwaliteit van een antwoord dat de beoordelaar direct daarvoor onder ogen had gekregen. Dat kan een antwoord van dezelfde student op een andere vraag zijn. In de literatuur wordt aangeraden om ter vermijding van dit effect, het halo effect, per vraag in plaats van per student na te kijken en de studenten in wisselende volgordes.
46 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Manieren van beoordelen Een manier om de betrouwbaarheid van het nakijken te verhogen, is om tevoren vast te leggen op welke aspecten bij de beoordeling van een antwoord moet worden gelet. De beoordeling op aspecten is de analytische beoordeling. Deze wijze van beoordelen ligt voor de hand als de inhoud van een vak wordt getoetst. Bij analytisch oordelen loopt men het risico dat teveel op elementen uit een antwoord wordt gelet. Dat is schadelijk voor de validiteit van de beoordeling. Een alternatieve vorm van beoordeling is de globale waarbij de beoordelaar een oordeel geeft op basis van een algemene indruk van de kwaliteit van het antwoord. Het risico van een grotere onbetrouwbaarheid wordt beperkt door het inschakelen van meer dan één beoordelaar per vraag. Bij een beoordeling op aspecten, de analytische beoordeling, kan men natuurlijk ook aan de beoordelaar vragen om apart van de afzonderlijke aspecten een globaal oordeel te geven. Indien meer dan één beoordelaar bij een tentamen wordt ingeschakeld, zijn daartoe verschillende mogelijkheden. De Gruijter (1993) bespreekt verschillende mogelijke nakijkschema’s met meer beoordelaars.
Analyse met de computer Bij meerkeuzetoetsen worden de antwoorden dikwijls ingelezen via een apparaat voor optisch leesbare formulieren of via een scanner. Het is ook mogelijk dat de toets via de computer is afgenomen. Het is dan een eenvoudige stap om de verdere verwerking ook via de computer te doen. Zo worden totaalscores en cijfers berekend, en volgt er veelal ook een toets- en itemanalyse.
Beoordelen van klassieke open vraag- en essaytentamens
Schema 1. Spreadsheet met gegevens van een hypothetisch tentamen met open vragen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A
B
C
D
E
F
G
H
I
J
Nr student 1 2 3 4 5 6 7 8 9 10
v1 2 2 2 2 0 2 2 1 2 2
v2 2 2 2 2 2 2 2 0 2 2
v3 0 0 0 0 1 0 0 0 0 2
v4 2 2 2 2 0 2 2 1 2 2
v5 2 0 2 2 0 1 0 0 2 2
v6 1 0 0 0 2 1 0 1 1 1
v7 1 2 2 2 1 2 2 1 2 2
v8 2 2 2 2 2 2 2 0 2 2
v9 1 0 0 0 1 0 1 1 0 1
M= var= s= Mmax M/Mmax= rit= rir=
1.70 0.46 0.67 2 0.85 0.65 0.50
1.80 0.40 0.63 2 0.90 0.75 0.64
0.30 0.46 0.67 2 0.15 0.45 0.26
1.70 0.46 0.67 2 0.85 0.65 0.50
1.10 0.99 0.99 2 0.55 0.58 0.32
0.70 0.46 0.67 2 0.35 -0.20 -0.38
1.70 0.23 0.48 2 0.85 0.63 0.53
1.80 0.40 0.63 2 0.90 0.75 0.64
0.50 0.28 0.53 2 0.25 -0.13 -0.28
Bij tentamens met alleen open vragen zijn de antwoorden van de studenten dikwijls op papier opgeschreven. De beoordelingen worden door de beoordelaar naast de antwoorden gezet (als er geen sprake is van meer dan één onafhankelijke beoordelaar). De beoordelingen worden met de hand opgeteld en in cijfers omgezet. Een computeranalyse vindt zelden plaats omdat dat invoer van de gegevens in een computerbestand vergt en dat is extra werk. Toch komt het voor dat beoordelingen van open vragen in een computerbestand worden opgenomen, bijvoorbeeld in een spreadsheet. Het is dan vrij eenvoudig om
K
L
v10 totaal 0 13 2 12 0 12 0 12 0 9 1 13 2 13 0 5 0 13 2 18 0.70 0.90 0.95 2 0.35 0.53 0.28 alpha=
12.00 10.89 3.30
0.599
zonder fouten te maken totaalscores en cijfers te berekenen. Daarnaast kunnen wij een itemanalyse doen. Laat ik een demonstratie geven. Ik ga uit van 10 vragen beantwoord door 10 studenten (veel te weinig voor een zinvolle toets- en itemanalyse, maar een mooi aantal voor een demonstratie). Eén docent kijkt alle antwoorden na. De beoordelingen zijn in een spreadsheet ingevoerd (zie Schema 1). Als de docent de beoordelingen direct invoert, is een husseling van de antwoorden bij het nakijken mogelijk, maar niet echt handig. Wel is het gemakkelijk om bij het nakijken bij vraag 1 van student 1 naar student 10 te werken, bij vraag 2 van student 10
Beoordelen van klassieke open vraag- en essaytentamens
naar student 1, etc. In het spreadsheet kan ook gemakkelijk de totaalscore berekend worden. In het voorbeeld staat de (met een formule berekende) totaalscore in de kolom onder ‘totaal’. Vervolgens kunnen cijfers worden berekend. Bij een klein aantal studenten kan het cijfer door de beoordelaar worden ingevuld. Bij een groter aantal studenten kan voor de omzetting van totaalscores naar cijfers een formule worden gebruikt. De eenvoudigste formule is een lineaire transformatie van de totaalscores, gevolgd door een afronding. De keuze voor een omzetting naar cijfers moet echter niet door gebruikersgemak worden ingegeven. Een algemene omzetting van totaalscores naar hele cijfers van 1 tot en met 10 is mogelijk via de volgende spreadsheet-formule:
Schema 2. Frequentietabel uit een spreadsheet Cijfer
Frequentie
Cumulatief %
0 1 2 3 4 5 6 7 8 9 Meer
0 0 0 1 0 1 3 3 0 1 0
.00% .00% .00% 11.11% 11.11% 22.22% 55.56% 88.89% 88.89% 100.00% 100.00%
+ 1 + ALS(L2 > 2; 1; 0) + . . . + ALS(L2 > 18; 1; 0). In deze formule wordt de totaalscore van cel L2 naar een cijfer omgezet. De eerste term in de formule geeft aan dat het laagste cijfer een 1 is. Als de totaalscore groter dan 2 is, is het cijfer dankzij de tweede term uit de formule minstens een 2. Zo gaan wij door tot de hoogste totaalscores. Met de invoegtoepassing Histogram uit Excel kunnen wij een frequentietabel aanmaken (zie Schema 2). Uit het schema kunnen wij in de kolom onder Cumulatief % aflezen dat ongeveer 22 procent van de studenten een vijf of minder heeft gehaald. Het slaagpercentage is dus 78 procent De gegevens uit het spreadsheet kunnen zo nodig ook worden geëxporteerd naar andere programma’s.
1
In het spreadsheet uit Schema 1 is ook een eenvoudige itemanalyse uitgevoerd. In de rij achter ‘M’ staat de gemiddelde score op de vragen en de gemiddelde totaalscore. Achter ‘var’ staan de varianties1. In de rij daaronder staat de standaardafwijking s. De standaardafwijking is een maat voor de spreiding van de scores rond het gemiddelde. De standaardafwijking is de wortel uit de variantie. Achter ‘M/Mmax’ staat de gemiddelde score op een vraag (M) gedeeld door de maximale score (Mmax). Deze index geeft een indicatie van de gemakkelijkheid van de vraag en is vergelijkbaar met de p-waarde bij meerkeuzevragen met goed/fout scoring. In het voorbeeld hebben alle vragen een maximale score gelijk aan 2. De rit is de item-totaalcorrelatie, de mate van samenhang tussen scores op een vraag en de totaalscores. Men mag ervan uitgaan dat er een positieve samenhang
De variantie wordt berekend door een som van gekwadrateerde afwijkingen te delen door het aantal observaties (hier: studenten) of het aantal observaties min 1. De variantie wordt ook gebruikt bij de berekening van de betrouwbaarheid.
48 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Beoordelen van klassieke open vraag- en essaytentamens
is. Een lage of zelfs negatieve correlatie is een indicatie van een mogelijk probleem. In het voorbeeld zijn er twee vragen met een negatieve rit. Bij de berekening van de rit telt de vraag ook mee in de totaalscore. Dat flatteert de waarde van de rit. De item-restcorrelatie (rir) is daarom, zeker bij toetsen met weinig items, te prefereren. Ook de rir is in de tabel opgenomen. De rit is berekend via de correlatiefunctie binnen het spreadsheet. De rir is berekend met de volgende ingevoerde formule:
rir =
s t rit − s i s − 2 s i s t rit + s i2 2 t
waarbij st de standaardafwijking van de totale toets is, en si de standaardafwijking van item i. Bij de toetssoftware voor meerkeuzetoetsen wordt een betrouwbaarheidscoëfficiënt berekend. De betrouwbaarheid zegt iets over de mate waarin ware verschillen tussen studenten door geobserveerde verschillen worden gereflecteerd. De meest gebruikte (onder)schatting van de betrouwbaarheid is coëfficiënt α2:
waarbij k het aantal vragen is3.
2 3
Coëfficiënt α is ook een schatting van de betrouwbaarheid bij onze toets met open vragen. Bij de open vragen toets met één beoordelaar kan bij de betrouwbaarheidsschatting geen rekening gehouden worden met beoordelaareffecten. Als er meer dan één beoordelaar is, kan dat wel. Dan zijn er betere betrouwbaarheidscoëfficiënten dan coëfficiënt α beschikbaar.4 Coëfficiënt α kan in het spreadsheet berekend worden. Dat is in het voorbeeld ook gedaan. De schatting van de betrouwbaarheid is 0.599. Veronderstel nu dat er meer dan één beoordelaar voor het nakijkwerk beschikbaar is. Dan kunnen wij de antwoorden van alle studenten op alle vragen door deze beoordelaars onafhankelijk van elkaar laten nakijken. Wij kunnen berekenen in hoeverre de beoordelaars verschillen. Wij kunnen kijken naar de samenhang tussen de beoordelingen (de correlaties tussen paren van beoordelaars), het schaalgebruik (de varianties van de beoordelingen van de verschillende beoordelaars) en naar de strengheid (de gemiddelde scores van de beoordelaars). Als de verschillen groot zijn, kan dat aanleiding zijn om de beoordelaarvoorschriften aan te scherpen. Bij de schatting van de betrouwbaarheid kunnen wij rekening houden met beoordelaareffecten. De schatting van de betrouwbaarheid is ingewikkeld (zie: Shavelson & Webb, 1991). Dikwijls is het niet mogelijk om elk antwoord door twee of meer beoordelaars te laten nakijken. Als er meer beoordelaars zijn, wordt het werk onder hen verdeeld. Dat kan op verschillende manieren gebeuren (De Gruij-
Voor items met goed/fout scoring is deze coëfficiënt gelijk aan de coëfficiënt KR-20. Als de scores gewogen worden met gewichten wi, dan moeten wij bij coëfficiënt alpha de varianties van de afzonderlijke vragen wegen met wi2. 4 Bij twee beoordelaars per student kunnen de beoordelingen gemiddeld worden, waarna alpha kan worden berekend. Als beide beoordelaars identieke scores geven, dan is de coëfficiënt adequaat. Als ze verschillen dan geeft de middeling uiteraard een geflatteerd beeld.
Beoordelen van klassieke open vraag- en essaytentamens
ter, 1993). Eén van de mogelijkheden is de studenten in groepen te verdelen en elke beoordelaar een groep studenten toe te wijzen. Logistiek kan dit voordelen hebben. Als de beoordelaareffecten niet te verwaarlozen zijn, heeft deze wijze van handelen echter een flink nadeel. De ene groep studenten is dan bijvoorbeeld beoordeeld door een relatief strengere beoordelaar dan een tweede groep studenten en wordt daardoor benadeeld. Of dat het geval is, kan worden nagegaan door het vergelijken van de gemiddelde beoordelingen van de afzonderlijke beoordelaars (als de groepen studenten op aselecte wijze zijn samengesteld). Een tweede mogelijkheid is dat de vragen ter beoordeling onder beoordelaars worden verdeeld.
De computer als hulpmiddel bij de beoordeling Iedereen die open vragen nagekeken heeft, is wel eens een antwoord tegengekomen waarbij hij/zij twijfels over de beoordeling heeft. In een stapel antwoordvellen van studenten is een vraagteken bij een beoordeling moeilijk op te zoeken. Als wij beoordelingen op een vel papier (het traditionele rekenblad) noteren of in de computer invoeren, is terugzoeken van een twijfelgeval (en het erbij horende studentnummer) echter geen enkel probleem meer. Dan kunnen eerst de niet problematische antwoorden worden beoordeeld. Daarna kan men met een grotere ervaring de twijfelgevallen opnieuw tegen het licht houden. Veronderstel nu dat de antwoorden van de studenten zelf in de computer zijn ingevoerd (via toetssoftware). Het feit dat de nakijker niet hoeft te worstelen met een soms praktisch onleesbaar handschrift is voor hem of haar pure winst. De kwaliteit van de beoordeling kan ook omhoog gaan als de leesbaarheid van de tekst geen storende factor meer is.
50 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
In principe is het mogelijk de antwoorden eerst te classificeren. Vervolgens kunnen de records met antwoorden worden gesorteerd op classificatiecode. Daardoor komen antwoorden met dezelfde code bij elkaar te staan en is de beoordelaar beter in staat om zo nodig wijzigingen aan te brengen. Deze wijze van werken is verwant aan de ‘codeer en vind’- benadering in het kwalitatieve onderzoek (Fielding & Lee, 1998).
Scoring met de computer Niet alleen het beantwoorden van open vragen via de computer is tegenwoordig mogelijk, ook de scoring van antwoorden op korte open vragen. Een voorbeeld van software waarmee dit kan is The Examiner. Voor de scoring van een korte open vraag door het softwarepakket moeten wij van tevoren opgeven welk antwoord het goede antwoord is. Bij de bespreking van de korte open vraag hebben wij echter al geconstateerd dat dikwijls niet één antwoord goed is. Dat betekent dat wij tevoren synoniemen en zinvolle alternatieven moeten bedenken en opgeven. Dat is niet eenvoudig. Al te gemakkelijk zien wij een mogelijk goed antwoord over het hoofd. Daarmee lopen wij het risico dat het nakijken met de computer een bias naar beneden zou kunnen vertonen: de computer zou wel eens strenger kunnen zijn dan de menselijke beoordelaar. Een uitgebreid onderzoek naar de mogelijkheden van computerscoring van een bepaald soort open vraag, een vraag waarbij hypotheses moeten worden geformuleerd, werd verricht door Burstein, Kaplan, Wolff en Lu (1996). Bij dit vraagtype kunnen door de kandidaten meerdere goede antwoorden worden gegeven. De onderzoekers instrueerden de software aan de hand van ‘training’antwoorden die door menselijke beoordelaars waren beoordeeld. In het onderzoek bleken enkele typen fouten voor te komen. Onder andere werden bij het nakijken via de computer goede antwoorden gemist die niet in de trainingantwoorden waren vertegenwoordigd.
Beoordelen van klassieke open vraag- en essaytentamens
Er is ook onderzoek gedaan naar computerscoring van essayvragen. Al in de jaren zestig werd er onderzoek verricht naar de mogelijkheden van de computer (Page, 1967). Recenter onderzoek is dat van Burstein, Kukich, Wolff, Lu, Chodorow, Bragden-Harder en Harris (1998). Zij onderzochten de scoring van essay vragen bij de TWA (Test of Written English) en de GMAT (Graduate Management Admissions Test). De vragen werden gewaardeerd op een zespuntsschaal. Voor elke schaalwaarde was vastgelegd welke kenmerken een essay met die schaalwaarde had. Bij de computerscoring van een vraag werden kenmerken geëxtraheerd die gerelateerd waren aan de kenmerken die de beoordelaars gebruikten. Per kenmerk werd een schaalwaarde toegekend. Vervolgens werd een stapsgewijze lineaire regressie tussen de door de computer berekende kenmerken en de scores van de beoordelaars op een ‘training’ verzameling van 270 antwoorden berekend. De gevonden regressievergelijking werd vervolgens toegepast om ook aan de overige antwoorden computerscores toe te kennen. De overeenstemming tussen de drie beoordelaars, te weten het computerprogramma en twee menselijke beoordelaars was hoog. Een ander voorbeeld van de toepassing van de computer bij het nakijken van essayvragen is in dit hoofdstuk uitgebreid door De Mulder behandeld. Serieuze toepassing van de ‘computer als nakijker’ bij essayvragen is pas mogelijk als een groot aantal essays over hetzelfde onderwerp moet worden nagekeken. Daarbij is ook de periode waarin de essays worden aangeleverd van belang. Het is nu mogelijk om toetsen met gesloten en open vragen via de computer – al dan niet met Internet - af te nemen. Daarmee is een grotere vrijheid in het afnametijdstip te realiseren. Dat heeft als mogelijke consequentie dat de antwoorden op een bepaalde open vraag langzaam binnendruppelen. Voor het nakijken met de computer waarbij eerst een groot
aantal essays door een menselijke beoordelaar moet worden nagekeken, geeft dat problemen. De computer kan niet vermoeid raken of zich ergeren. Voor zover deze factor bij de beoordeling door een menselijke beoordelaar een rol speelt, is computerscoring een winst. Met de computer wordt bovendien altijd anoniem beoordeeld; als een menselijke beoordelaar de beoordeelde kent, kan dat van invloed zijn op de beoordeling. Computerscoring van open vragen betekent echter niet dat de subjectiviteit van de beoordeling door de menselijke beoordelaar verdwijnt. De computer volgt de stelregels die door de menselijke beoordelaar zijn ingevoerd. Het is mogelijk dat beoordelaars geen goede afspraken daarover hebben gemaakt en van mening verschillen. De ene beoordelaar is bijvoorbeeld van mening dat bij het antwoord alleen vaktermen goed gerekend mogen worden terwijl een tweede soepeler maatstaven hanteert. Als beide onafhankelijk van elkaar de nakijksoftware instellen, zal de computer van de ene beoordelaar gemiddeld lagere waarderingen geven dan die van de tweede beoordelaar. Scoring van open vragen kan riskant zijn als het gaat om een summatieve toetsing.. Als het risico bestaat dat goede antwoorden over het hoofd worden gezien, kunnen wij besluiten om de door de computer als fout aangemerkte antwoorden door een menselijke beoordelaar opnieuw te laten nakijken. Wij zouden in ieder geval de antwoorden van studenten met een onvoldoende die zou kunnen worden omgezet in een voldoende, heel goed moeten controleren. Wij zouden het toepassingsgebied van computerscoring ook kunnen beperken tot formatieve toetsing
Beoordelen van klassieke open vraag- en essaytentamens
Literatuur Burstein, J., Kaplan, R., Wolff, S., & Lu, C. (1996). Using lexical semantic techniques to classify free-responses. In: Proceedings from the SIGLEX 1996 Workshop, Annual Meeting of the Association of Computational Linguistics, University of California, Santa Cruz. Burstein, J., Kukich, K., Wolff, S., Lu, C., Chodorow, M., Braden-Harder, L., & Harris, M.D. (1998). Automated scoring using a hybrid feature identification technique. In: the Proceedings of the Annual Meeting of the Association of Computational Linguistics, Montreal. Coffman, W.E. (1971). Essay examinations. In: R.L. Thorndike (red.), Educational Measurement. Washington, DC: American Council on Education. De Gruijter, D.N.M. (1993). Beoordelen met open vragen. In: H.J.M. van Berkel en A.E. Bax (red.), Beoordelen in het onderwijs, Houten/Zaventem: Bohn Stafleu Van Loghum.
52 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
De Mulder, R.V. (1999). Nakijken en fraudecheck van essay-vragen per computer. Bijdrage aan het seminar. Fielding, N.G., & Lee, R.M. (1998). Computer analysis and qualitative research. London: Sage. Page, E.B. (1967). Grading essays by computer: Progress report. In Proceedings of the 1966 Invitational Conference on Testing Problems. Princeton, N.J.: Educational Testing Service. Shavelson, R.J., & Webb, N.M. (1991). Generalizability theory. Newbury Park, CA: Sage.. Timmer, J. (1969). Wiskunde-items voor de lagere klassen van het m.o. In: De groot, A.D., & Van Naerssen, R.F. Studietoetsen. Den Haag: Mouton. Wesman, A.G. (1971). Writing the test item. In: R.L. Thorndike (red.), Educational Measurement. Washington, DC: American Council on Education.
Itembanking en toetsystemen
3
ITEMBANKING EN TOETSSYSTEMEN SYS : Het toetsservicesysteem van de Open Universiteit Nederland drs. D. Joosten – ten Brinke Open Universiteit Nederland, Onderwijstechnologisch Expertisecentrum
Wat houdt het systeem in? Het toetsservicesysteem van de Open Universiteit Nederland (OUNL), SYS genaamd, is een systeem dat op twaalf studiecentra van de Open Universiteit studenten de mogelijk biedt om tentamens af te leggen. Het systeem bevat itembanken van cursussen die afgesloten worden met meerkeuzevragen (ongeveer 120) en enkele itembanken van cursussen die met open vragen worden afgesloten. De computer selecteert de vragen voor een tentamen en dit tentamen wordt voor de studenten geprint. Na afloop van het tentamen krijgen de studenten direct hun voorlopige score of deelscore. Het systeem is bovendien geschikt voor het aanmelden van studenten, waarbij studenten kunnen aangeven in welk studiecentra en op welk tijdstip ze tentamen willen afleggen. Bij de aanmelding kan een medewerker van het studiecentrum direct controleren of de student alle rechten heeft
om aan een tentamen deel te nemen. Ook kan informatie over absentie van studenten en opmerkingen over de tentamenitems goed gedocumenteerd worden. Op de centrale vestiging van de Open Universiteit in Heerlen worden de itembanken in het systeem opgeslagen. Indien een student zich heeft aangemeld voor een tentamen komt deze aanvraag bij de centrale computer die direct een tentamen aanmaakt en klaarzet op het door de student gewenste studiecentrum. SYS bestaat uit drie subsystemen en een analysedeel. Het eerste systeem is het boekingssysteem dat vanuit verschillende werkplekken (de twaalf studiecentra) in Nederland direct communiceert met de centrale database. Dit onderdeel geeft informatie over tentamentijden, plaatsen en reserveringen. Het itembanksysteem wordt gebruikt om de tentamens voor te bereiden, vanaf
Itembanking en toetsystemen
opbouw itembank tot en met het genereren van een individueel tentamen en het naar de juiste locatie versturen. De afhandeling van de tentamens wordt ook door dit subsysteem ondersteund en het verschaft gegevens voor de statistische verwerking van de itembanken. Het afnamesysteem verzorgt het afdrukken van de individuele tentamens, de registratie van de antwoorden op gesloten vragen en het verstrekken van een voorlopige uitslag en de terugkoppelingsinformatie. Deze drie subsystemen en het analysedeel zullen nu achtereenvolgens beschreven worden.
Het boekingssysteem De Open Universiteit Nederland heeft 12 studiecentra verspreid over het land waar studenten SYStentamens kunnen afleggen. Op deze studiecentra zijn medewerkers aanwezig die het SYStraject beheren. Om studenten te kunnen informeren over de tijdstippen waarop SYStentamens afgelegd kunnen worden en in welke studiecentra, moet de SYSmedewerker een sessierooster maken. Een sessierooster is een schema van momenten waarop voor studenten faciliteiten worden geboden voor een tentamen of inzage. In dit rooster worden per sessie de datum, de tijd en het aantal beschikbare stoelen aangegeven. SYS waarschuwt als er binnen een studiecentrum in datum en tijd overlappende sessies worden gepland, als sessies op niet-werkdagen worden geroosterd of als er geen stoelen beschikbaar zijn. De sessieroosters van ieder studiecentrum kunnen door alle studiecentra worden ingezien. De sessies worden ook gepubliceerd in het studentenblad ‘Modulair’. Nadat de sessies geroosterd zijn kunnen studenten zich voor een tentamen of inzage op een tentamen aanmelden. De aanmelding voor deelname aan een SYStentamen of inzage is decentraal geregeld en gebeurt schriftelijk door indiening van het aanmeldingsformulier bij het studiecentrum van de eerste voorkeurssessie. In de aanmeldingsprocedure zijn drie stappen te onderscheiden:
54 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
(1) mondelinge of telefonische reservering, (2) schriftelijke reservering, tegelijk beschouwd als voorlopige aanmelding en (3) definitieve aanmelding. Het verschil tussen een reservering en een definitieve aanmelding is dat bij een reservering op basis van studentnummer en cursuscode een stoel in een gewenste sessie gereserveerd wordt en dat deze pas omgezet wordt in een definitieve aanmelding als is vastgesteld dat de student rechtmatig mee mag doen. Dit houdt in dat de student nog ingeschreven staat, betaald heeft en ook nog tentamenrechten heeft. Een student moet zich minimaal 14 dagen en kan zich tot maximaal 8 kalenderweken voor de sessiedatum aanmelden. Hij mag op één dag niet deelnemen aan overlappende sessies en mag binnen een sessie slechts één plaats reserveren. Indien de student geen voldoende haalt voor het tentamen mag hij niet eerder dan na minimaal twee weken nogmaals tentamen doen voor dezelfde cursus. De SYSmedewerker meldt de student aan voor de sessie van eerste voorkeur. Is hier geen plaats meer dan worden de andere opgegeven voorkeurssessies geprobeerd. Door de handtekening op het aanmeldingsformulier heeft de student zich met boeking op een van de sessies akkoord verklaard. Als alle voorkeurssessies vol zijn mag de student niet aangemeld worden, maar probeert de medewerker in contact te komen met de student. Er kan dan overlegd worden over een andere voorkeurssessie die wel vrij is. Lukt dit, dan retourneert de medewerker het formulier naar de student, met de nieuwe reserveringsdatum. De student dient dit ondertekend terug te sturen. De student ontvangt na de aanmelding een oproepbrief thuis. In deze brief wordt onder andere vermeld dat de aanmelding is goedgekeurd en de datum en tijd van de sessie. Bovendien kan in de oproepbrief de student erop gewezen worden dat er belemmeringen zijn, bijvoorbeeld dat het een nog te betalen tentamenkans betreft. Dit houdt in dat de officiële tentamenuitslag pas ver-
Itembanking en toetsystemen
strekt wordt nadat de student aan de betalingsverplichting voldaan heeft. De student kan dan wel aan het tentamen deelnemen. De oproepbrief moet meegenomen worden naar de tentamensessie. Afmelden voor een tentamensessie heeft tot gevolg dat de student een tentamenkans verbruikt. Als de student een geldige reden denkt te hebben voor de afmelding (bijvoorbeeld een ziekenhuisopname), dan dient de student een brief, met eventueel motiverende stukken zoals een bijvoorbeeld een doktersverklaring, naar de centrale vestiging te sturen. De Commissie voor de Examens bepaalt of de student inderdaad een geldige reden heeft voor de afmelding en stelt de student schriftelijk op de hoogte van de beslissing. Bij een geldig bevonden afmelding, wordt de tentamenkans teruggegeven. Een student kan na het afleggen van een tentamen inzage wensen in het tentamenwerk om een eventueel beroep nader te motiveren. Om de itembestanden zoveel mogelijk geheim te houden is de inzageprocedure aan strenge regels gebonden. Een en ander gebeurt onder toezicht van de SYSmedewerker die erop toeziet dat er geen vragen worden overgeschreven. Tijdens de inzage ontvangt de student de foutief beantwoorde gesloten vragen en de terugkoppeltekst van de foutief beantwoorde gesloten vragen: de juiste antwoorden, de door de student gegeven antwoorden en de verwijzing naar de leerstof. Gebruik van studiemateriaal en hulpmiddelen is toegestaan, voor zover dat bij het tentamen ook van toepassing is. Inzage vindt plaats tijdens een SYSsessie en de maximale inzageduur is 1,5 uur per tentamen. De student moet zich binnen twee weken na de voorlopige uitslag aanmelden. Voor hetzelfde tentamen mag de student maar één keer inzage doen. Er zullen altijd studenten zijn die niet via de reguliere weg aangemeld kunnen worden. Bijvoorbeeld iemand die voor korte tijd in Nederland is en in deze periode een
SYStentamen wil doen. Of studenten die buiten de studiecentra tentamen moeten doen, bijvoorbeeld in de gevangenis of op zee. Dergelijke gevallen worden in behandeling genomen via de centrale vestiging in Heerlen. Daarnaast heeft de Open Universiteit een regeling voor studenten die behoren tot een speciale categorie. Dit zijn onder meer buitenlandse studenten, gehandicapten en Belgische studenten die in België een tentamen willen afleggen. Belgische studenten kunnen wel via de gewone SYSaanmeldingsprocedure bij een Nederlands studiecentrum SYStentamen doen. Voor gehandicapte studenten kunnen bijvoorbeeld ruimere sessietijden nodig zijn; de centrale vestiging heeft de mogelijkheid om afwijkende sessies te roosteren. Indien een student een geldige tentamenaanmelding heeft, genereert SYS centraal een individueel tentamen en bijbehorende antwoordformulieren. Als een tentamen open vragen bevat, genereert SYS hiervoor ook een scoreformulier. Voor elke geldige inzage genereert SYS een inzagetentamen en een inzageprotocol. De gegenereerde tentamens, formulieren en inzagetentamens worden door SYS elektronisch verstuurd naar de corresponderende studiecentra. Bij de studiecentra kunnen deze documenten, vanaf 10 dagen voor de sessie worden afgedrukt.
Het afnamesysteem In het afnamesysteem komen zaken aan de orde die te maken hebben met het voorbereiden en afhandelen van een tentamenzitting. Nadat de aanmeldingen door het systeem rechtmatig zijn bevonden genereert SYS één tot twee dagen na ontvangst van het aanmeldingsformulier een tentamen. Hierbij wordt een tentamen op studentnummer, naam, cursuscode, datum en tijd aangemaakt. De tentamens worden centraal op de hoofdvestiging gegenereerd en
Itembanking en toetsystemen
elektronisch verstuurd naar de studiecentra. Een tentamen bestaat uit twee verschillende bestanden die apart verzonden worden: de metagegevens (o.a. de sleutel, cijferscore verdeling) en de Wordbestanden (de tentamenopgaven). De elektronische verzending van de metagegevens verloopt sneller dan die van de Wordbestanden. Bij het studiecentrum merkt men hier normaal gesproken niets van, want de tentamens kunnen pas vanaf tien dagen voor de sessie bij het studiecentrum worden afgedrukt. De medewerker bij het studiecentrum zorgt ervoor dat ten minste twee werkdagen voor een sessie alle tentamens voor die sessie zijn geprint. Geadviseerd wordt, voor mogelijke calamiteiten, om vijf werkdagen voor de sessie de tentamens uit te printen. Een tentamen bestaat uit een voorblad, eventuele bijlagen zoals formulebladen en de tentamenopgaven, een antwoordformulier voor gesloten vragen en in geval van een tentamen met open vragen, een scoreformulier voor het waarderen van antwoorden op open vragen (bestemd voor de corrector). In principe worden alle genoemde documenten door SYS geprint. Sommige bijlagen, zoals fotoboeken, worden echter apart geleverd of er zijn al standaard enkele exemplaren van bij het studiecentrum aanwezig. Voor een inzage worden de volgende documenten geprint: een voorblad, een inzageprotocol en van de foutief beantwoorde gesloten vragen: de tentamenopgaven, de antwoordsleutel, de door de student gegeven foute antwoorden en de terugkoppeltekst. Voor elke SYSsessie print het systeem voor de SYSmedewerker de gegevens van de sessie (studiecentrum, datum, tijd), de cursusgegevens (cursuscode en toegestane hulpmiddelen) en de studentgegevens (studentnummer, naam, geboortedatum, voorzieningen). De tentamens dienen één dag voor de tentamensessie klaar te liggen, dus ook allemaal gecontroleerd te zijn. Als er niet voor elke aanmelding een tentamen aanwezig
56 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
is, wordt eerst geprobeerd om de ontbrekende tentamens (opnieuw) met behulp van SYS te printen. De SYSmedewerker moet ruim voor de aanvang van de tentamenzitting aanwezig zijn op de SYSlocatie. De tentamenruimte moet dan gecontroleerd worden op overzichtelijkheid van de opstelling (onderlinge afstand, eigen tafel per kandidaat, per cursus om en om laten plaatsnemen), voldoende verlichting, verwarming, sanitaire mogelijkheden, eventuele koffievoorziening, de benodigde voorzieningen voor de kandidaten OUNLmaterialen, zoals potlood met scherpe punt, vlakgom, kladpapier en uitwerkpapier voor open vragen. Een student dient zich minimaal 15 minuten voor het begin van de tentamensessie bij de medewerker te melden. De medewerker controleert de legitimatie van de student. Daarbij toont de student de oproepbrief en een geldig legitimatiebewijs. De medewerker verifieert de legitimatie met de gegevens van de student zoals die vermeld zijn op het sessieoverzicht. De voorlopige uitslag van het tentamen zal direct na het tentamen worden vastgesteld. Deze voorlopige uitslag zal in principe niet verschillen van de definitieve uitslag die binnen twee weken na de tentamendatum (bij tentamens met open vragen binnen vier weken) bij de studenten is. De tentamenzitting duurt maximaal drie uur, te beginnen als iedereen zijn tentamen heeft ontvangen. Direct bij inname van het tentamen krijgt de student de mogelijkheid aangeboden om na afloop van de sessie gebruik te maken van het informatiemoment. Het informatiemoment houdt in dat de student in de gelegenheid wordt gesteld om gedurende maximaal 15 minuten de volgende documenten te bekijken: de tentamenopgaven (d.w.z. het gehele tentamen), van de foutief beantwoorde gesloten vragen: de juiste antwoorden, de door de student gegeven antwoorden en de terugkoppelteksten (de verwijzing naar de leerstof). De student mag
Itembanking en toetsystemen
tijdens het informatiemoment gebruik maken van het studiemateriaal en van de toegestane hulpmiddelen voor zover bij het betreffende tentamen van toepassing was. Het is de student niet toegestaan tijdens het informatiemoment aantekeningen te maken. Studenten mogen de tentamenruimte voor het einde van de zitting verlaten na beëindiging van hun tentamen of inzage en na inlevering van alle materialen. Studenten mogen daarna tijdens de sessie niet meer terugkeren in de tentamenruimte, evenmin mogen ze eenmaal ingeleverd materiaal weer terugkrijgen. De medewerker kan een student toestaan gedurende een korte periode de tentamenruimte te verlaten wanneer een student onwel wordt. De student mag echter geen materiaal mee naar buiten nemen. Na het innemen van de tentamens, worden de tentamens één voor één door de SYSmedewerker verwerkt. De tentamens kunnen handmatig of automatisch (via de scanner) worden verwerkt. Voor het automatisch inlezen van het antwoordformulier legt de medewerker het antwoordformulier in de scanner en start de scanfunctie. Dit resulteert in het inlezen en automatisch vastleggen van de gegeven antwoorden in SYS. Als de scanner niet werkt, of niet goed werkt, kiest de medewerker voor opnieuw inlezen of voor handmatige invoer van de antwoorden. De antwoorden worden op het scherm op geldigheid gecontroleerd en eventueel worden wijzigingen aangebracht op basis van het antwoordformulier. De antwoorden worden vervolgens afgedrukt op het controleformulier, zodat de SYSmedewerker en de student een controle mogelijkheid op de invoer hebben. Dit formulier heeft dezelfde layout als het antwoordformulier, maar met de antwoorden zoals die nu in SYS staan (na scannen). Het antwoordformulier en controleformulier worden tegen elkaar gelegd en tegen het licht bekeken op afwijkende antwoorden. Ook de student wordt in de gelegenheid gesteld de antwoorden op het controleformulier te controleren. Mogelijke afwijkingen worden
gewijzigd. Ook na wijzigingen moet opnieuw een controleformulier worden afgedrukt. Het afdrukken van het controleformulier is verplicht, de voorlopige uitslag kan niet worden bepaald als er nog geen controleformulier voor het betreffende antwoordformulier is geprint. Na bepalen van het voorlopige cijfer kunnen namelijk geen antwoorden meer gewijzigd worden. Als medewerker en student akkoord zijn met de antwoorden op het controleformulier, wordt deze voor akkoord getekend door de student. De medewerker kan nu in SYS het voorlopige cijfer laten bepalen. Direct daarna worden automatisch de voorlopige uitslag en de terugkoppeltekst geprint. De student mag deze meenemen, evenals een kopie van het controleformulier. De medewerker noteert de voorlopige uitslag op het originele controleformulier en houdt deze achter. Zowel de medewerker als de student dienen dit protocol te tekenen. Wanneer een student op basis van de voorlopige uitslag al vrijwel zeker weet voor het zojuist afgelegde tentamen te zijn gezakt, dan kan heraanmelding gewenst zijn. Aanmelding voor een herkansing is mogelijk maar dit kan echter niet direct na het bepalen van de voorlopige uitslag, maar pas de volgende dag. De tentamenresultaten dienen eerst centraal verwerkt te worden. Het is wel mogelijk dat de student direct na het tentamen alvast een plaats in een bepaalde sessie voor een hertentamen reserveert en de schriftelijke aanmelding bij de SYSmedewerker achterlaat. Deze kan de volgende dag de aanmelding in SYS invoeren, waarna alles via de normale aanmeldingsprocedure verloopt. Een sessie dient binnen drie kalenderdagen te zijn afgehandeld. Na drie dagen worden de gegevens voor de centrale verwerking overgehaald en kan men bij het studiecentrum niet meer over de sessiegegevens in SYS beschikken. Niet afgehandelde sessies zullen dan centraal verder verwerkt worden. Na afloop van de sessie moet de SYSmedewerker nog een aantal gegevens noteren die betrekking hebben op het verloop van de sessie.
Itembanking en toetsystemen
In de centrale vestiging van de Open Universiteit moeten de gegevens opgehaald en verwerkt worden. Het centrale verwerkingsproces bestaat uit een aantal vaste onderdelen: alle decentrale gegevens worden verwerkt, de formulieren worden afgehandeld en de definitieve uitslag wordt gegenereerd en verzonden. In dit traject nemen de tentamens met open vragen een bijzondere plaats in, omdat hiervoor nog een corrector ingeschakeld moet worden. De uitwerkingen van open vragen van bepaalde tentamens worden gebundeld met het corresponderende scoreformulier en verstuurt naar de verantwoordelijke corrector. Deze moet binnen vijf werkdagen de tentamens nakijken en de scoreformulieren ingevuld terugsturen.
Het itembanksysteem Zodra vastgesteld is van welke cursussen een itembank in SYS ontwikkeld gaat worden, wordt in overleg met de betrokken partijen een tijdschema opgesteld dat aangeeft wanneer welke itembank ontwikkeld moet worden en wanneer deze gereed moet zijn. Op basis van dat tijdschema dient de examinator afspraken te maken met de toetskundige over de volgende punten: het aantal en soort items (aantal alternatieven) dat de examinator levert, het tentamenprofiel (hoe ziet het tentamen eruit), de clusterindeling (hoeveel cluster en hoeveel items per cluster) en het screenen. De toetskundige heeft een adviserende functie, de examinator is verantwoordelijk voor de genomen beslissingen. De examinator zorgt ervoor dat de itembank (samen met de terugkoppelingsteksten en de antwoordsleutel) worden aangeleverd aan de afdeling Vormgeving. Na ontvangst van de teksten worden deze verwerkt in Word 95. Een itembank is compleet als de volgende elementen aanwezig zijn: het voorblad van het tentamen met de juiste tentamengegevens, eventueel een bijlage met tekst, formules of figuren, de datum vanaf wanneer tentamens gegenereerd kunnen worden, het aantal items,
58 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
het maximaal aantal te behalen punten voor een tentamen, het aantal bonuspunten, de gegevens van de clusters en per cluster de omschrijving van het cluster, het type (open of gesloten) vragen, het aantal items van het cluster dat in een tentamen opgenomen dient te worden, het aantal antwoordalternatieven en het aantal punten van een item in het cluster (alle items van één cluster moeten hetzelfde aantal punten hebben). Verder de gegevens van alle op te nemen items, per item vraagtekst, bij gesloten vragen inclusief de antwoordalternatieven, de terugkoppelingstekst, de antwoordsleutel en de clusterverwijzing. Pas als alles aanwezig is gaat er een afdruk van de conceptitembank voor controle naar de examinator. Na ontvangst van de conceptitembank beoordeelt de examinator of de itembank gereed is voor opname in SYS. Hierbij controleert hij zowel de layout, de inhoud van de teksten als de metagegevens van de itembank (sleutels, gegevens clusters, totaal aantal items en aantal te selecteren items). Als de beoordeling negatief is, geeft hij aan de afdeling Vormgeving door welke wijzigingen nog nodig zijn en herhaalt het proces zich. Indien de beoordeling positief is, meldt de examinator dit door het invullen van het formulier ‘verzoek opname itembank’. Na ontvangst van het ‘verzoek opname itembank’ kan de itembank in SYS worden opgevoerd. De toegestane hulpmiddelen en de omschrijving van de cursus worden automatisch opgehaald en kunnen eventueel worden gewijzigd in SYS. Nadat de itembank compleet in SYS is ingevoerd wordt er een vaststellingsverslag afgedrukt en een proeftentamen. Dit wordt naar de examinator gestuurd. Na ontvangst van het vaststellingsverslag beoordeelt de examinator de inhoud van de itembank en vraagt de examinator de toetskundige om advies. De toetskundige beoordeelt de bank op basis van de eerder gemaakte afspraken over de vraagvorm, het aantal items, de spreiding van de items over de stof, de aan-
Itembanking en toetsystemen
sluiting tussen de items en de leerdoelen van de betreffende cursus, de toetstechnische kwaliteit van de items op grond van een steekproefsgewijze controle en de evenwichtigheid van de tentamens. De toetskundige adviseert de examinator over eventuele wijzigingen. De examinator controleert de inhoudelijke correctheid van de items en is verantwoordelijk voor layout en correcte spelling. Indien de examinator besluit dat er nog wijzigingen doorgevoerd moeten worden, retourneert hij het niet getekende vaststellingsverslag met daarbij een lijst met de benodigde wijzigingen. Indien de itembank door de examinator akkoord is bevonden, ondertekent en retourneert hij het vaststellingsverslag, waardoor de itembank definitief is vastgesteld. Hiermee geeft de examinator tevens aan dat de itembank vrijgegeven kan worden voor tentaminering. De examinator bepaalt welke herzieningen er aan de itembank nodig zijn (onder andere naar aanleiding van opmerkingen over items van studenten of medewerkers en de resultaten van de analyse). In overleg met de betrokken partijen stelt de examinator een planning op en wordt vastgesteld wanneer de wijzigingen gereed moeten zijn. De examinator vult het formulier ‘Verzoek herziening itembank’ in waarop de planning en de beschrijving van de wijzigingen (eventueel in de bijlagen) vermeld dienen te worden. Tevens geeft de examinator hierop aan of de te wijzigen cursus en items gedurende het onderhoud actief mogen blijven (wel of niet gebruikt mogen worden voor tentamengeneratie).
De analyse De gegevens die door het itembanksysteem worden opgeleverd worden opgeslagen in een database. Hieruit wordt een bestand gevormd dat bestaat uit de itemnummers en de gegeven antwoorden van de studenten. Aangezien de kans dat er twee identieke tentamens gegenereerd worden zeer klein is, kan er aangenomen worden dat elke student een uniek tentamen krijgt. Het gevolg
hiervan is dat de standaard theorie voor de analyse van de examenresultaten niet bruikbaar zijn. Daarom is er voor de SYStentamens een analysemodule ontwikkeld gebaseerd op het Rasch-model. Daarbij wordt de betrouwbaarheid van de items in relatie met de latente cesuurscore en de vaardigheidsverdeling bekeken. Examinatoren krijgen in eerste instantie drie maanden nadat de itembank voor de eerste maal is gebruikt een analyse om een indruk te krijgen van de bank en zo nodig sleutelfouten te corrigeren. Daarna krijgen ze jaarlijks informatie over de itembank. In combinatie met reacties van studenten kunnen items aangepast en verbeterd worden.
Hoe is het ingepast in de onderwijspraktijk? Studeren bij de Open Universiteit Nederland betekent studeren bij een instelling die hoger afstandsonderwijs aanbiedt en daarvoor, naast schriftelijk cursusmateriaal, gebruik maakt van een elektronische leeromgeving. De studenten krijgen een eigen werkplek op het Studienet en via dit net worden de studenten onder andere geïnformeerd over tentamenmogelijkheden. Als een student de cursusstof doorlopen heeft en de module wil afronden moet hij zich aanmelden voor een tentamen. Bij de schriftelijke tentamens wordt een onderscheid gemaakt tussen een regulier schriftelijk of een SYStentamen. De regulier schriftelijke tentamens worden driemaal per jaar afgenomen. Dit is altijd 's avonds en op vooraf vastgestelde data die de student bij de informatie over de betreffende cursus op Studienet, in de studiegids en in het studentenblad 'Modulair' kan vinden. Na een regulier tentamen krijgt de student een zogenaamd 'antwoordmodel' mee, waarmee een voorlopige indruk van het resultaat kan worden verkregen. Bij de SYStentamens kan de student zelf bepalen wanneer hij tentamen doet. De student maakt (minimaal 2 weken van tevoren) een afspraak met het studiecentrum
Itembanking en toetsystemen
van zijn keuze en stelt in overleg een datum vast. Op die dag stelt de computer speciaal voor de student een tentamen samen.
zaken als absentie/presentie, opmerkingen en kritiek, maar ook registratie van fraude zijn beter te documenteren. Tevens is de beveiliging van de itembanken toegenomen door de tentamens centraal te genereren.
Welke ervaringen zijn er mee opgedaan? Wat is de meerwaarde van ICT SYS draait vanaf 1990 en op dit moment is vanaf maart 1999 de vijfde versie in gebruik. Per jaar worden er ongeveer 17.500 tentamens met SYS gegenereerd. Dit gebeurt in twaalf verschillende studiecentra en er zijn op dit moment ongeveer 120 cursussen die op deze manier worden afgesloten. In de eerste versie van SYS draaide de computer nog niet de complete tentamens uit, maar werd er gewerkt met itemboeken. De student kreeg een itemboek (met daarin alle items) en een lijst met nummers. Hij moest dan zelf zijn items opzoeken en beantwoorden. Verbeteringen ten opzichte van eerdere versies zijn: standaard tekstverwerking met MSWord, mogelijkheid om voor het boeken van studenten vooraf (rechtmatigheid), achteraf en tijdig controles uit te voeren, de service tegenover de student is verbeterd door vanuit locatie X te kunnen reserveren voor locatie Y en
60 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
ICT is voor de Open Universiteit van zeer grote waarde, aangezien de Open Universiteit een instelling is voor afstandsonderwijs. Door middel van ICT komen studenten met elkaar in contact in een elektronische leeromgeving. Voor SYS is de rol van ICT belangrijk. De studiecentra kunnen door ICT met elkaar communiceren en gegevens kunnen snel vanuit de centrale vestiging op het gewenste studiecentrum zijn. ICT wordt bij de Open Universiteit niet gebruikt voor interactieve toetsafname. Studenten krijgen een papieren uitdraai van het tentamen en de antwoorden moeten op optisch leesbare formulieren worden weergegeven. Daarna komt de computer weer in beeld en kunnen studenten snel een uitslag ontvangen en zich eventueel weer aanmelden voor een nieuw tentamen.
Itembanking en toetsystemen
Etude: een modern en integraal toetssysteem M.J.J.M. van de Ven Technische Universiteit Delft, sectie Didactiek en Onderwijsontwikkeling, faculteit Techniek, Bestuur en Management
Aan de TU Delft wordt een nieuw geautomatiseerd toetssysteem ontwikkeld, gebaseerd op de huidige technische en onderwijskundige methoden en technieken. Het systeem, Etude genaamd, moet het grote aantal aan de TU Delft ontwikkelde en gebruikte toetssystemen gaan vervangen. Etude biedt de functionaliteit van ieder van die systemen, aangezien de docenten al geruime tijd aan die toetssystemen gewend zijn. In de eerste helft van het jaar 2000 wordt Etude door enkele docenten binnen de TU Delft gebruikt. In de tweede helft 2000 zal het op grote schaal binnen de TU Delft beschikbaar komen. Daarnaast wordt onderzocht op welke wijze Etude beschikbaar gesteld kan worden aan andere onderwijsinstellingen.
1. Inleiding Docenten aan de TU Delft gebruiken al ruim 10 jaar geautomatiseerde toetssystemen (Dijkman & Staal, 1991; Staal, Boekbinder, van Peppen & Kunst, 1994 & Wilders, Peereboom & Staal, 1996). In veel cursussen worden regelmatig toetsen afgenomen om studenten te stimuleren tijdens de collegeperiode regelmatig te studeren. De belangrijkste redenen om deze toetsen per computer af te nemen zijn de organisatie van het grote aantal toetsen bij grote groepen studenten, het gebruik
van parameters om de toetsvragen uniek te maken, het toestaan van een aantal antwoordpogingen per vraag, het direct na de afname beschikbaar hebben van een toetsanalyse en het direct beschikbaar stellen van toetscijfers. Gedurende de laatste 15 jaar zijn er aan de TU Delft tenminste 17 geautomatiseerde toetssystemen ontwikkeld (van de Ven, 1997). Deze systemen kennen een grote overlap in functionaliteit, maar ieder van hen heeft ook een aantal unieke kenmerken die zijn afgestemd op de specifieke behoeften en wensen van de betrokken docenten. Hoewel ieder van de systemen vrij generiek is opgezet en uitstekend functioneert in de afdeling waarin ze ontwikkeld is, dringt zo'n systeem nauwelijks door in andere afdelingen. Dit ondanks het feit dat er voldoende mogelijkheden zijn om de producten te presenteren aan docenten binnen de TU Delft, bijvoorbeeld op de universiteitsbrede studiedagen die twee keer per jaar worden georganiseerd of in de ICTO Nieuwsbrief die twee keer per jaar binnen de TU wordt verspreid (ICTO staat voor Informatie en Communicatietechnologie in het Onderwijs). Daarnaast is het zo dat de bestaande systemen doorgaans niet door professionele systeemontwikkelaars zijn gebouwd en dat de betreffende ontwikkelaars niet zijn ingesteld op het leveren van de noodzakelijke technische ondersteuning.
Itembanking en toetsystemen
In het navolgende wordt eerst het disseminatieproject geschetst, waaruit Etude is voortgekomen. Vervolgens wordt het systeem Etude, bestaande uit verschillende componenten, beschreven. Daarna worden achtergronden van de ontwikkeling van Etude geschetst. Het artikel eindigt met een beschrijving van de manier waarop Etude in het onderwijs aan de TU Delft zal worden geïmplementeerd.
2. Het Disseminatieproject In september 1996 ging binnen de TU Delft het zogeheten Disseminatieproject van start. Binnen dit project is de ontwikkeling van het toetssysteem Etude gestart. Om de context aan te geven waarbinnen Etude ontwikkeld is, zal dit project hier in grote lijnen besproken worden. Het doel van dit project betrof het vergroten van de efficiëntie waarop de verschillende afdelingen binnen de universiteit courseware ontwikkelen en het stimuleren van hergebruik van applicaties door andere afdelingen. Het project werd uitgevoerd door de sectie Didactiek en Onderwijsontwikkeling (DidO) van de faculteit der Techniek, Bestuur en Management (TBM), in samenwerking met de Softwareontwikkelgroep (SOO) van de Dienst Technische Ondersteuning (DTO) en de stafeenheid Onderwijs Onderzoek en Studentenzaken (OOS). Binnen het project is een inventarisatie gemaakt van de courseware die op dat moment binnen de TU Delft was ontwikkeld. Er werden ongeveer 60 applicaties, waaronder 17 geautomatiseerde toetssystemen, geregistreerd. Over ieder van deze applicaties werd informatie ingewonnen bij ontwikkelaars en docentgebruikers. De meeste applicaties bleken specifiek te zijn toegesneden op specifieke cursussen en pasten niet goed bij andere cursussen. Daarnaast was de broncode van wisselende kwaliteit. De meeste toepassingen werden gebruikt zonder technisch onderhoud of technische ondersteuning. Uit deze inventarisatie werd geconcludeerd dat maatre-
62 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
gelen nodig waren om het huidig gebruik van courseware te verbeteren. Onder meer de volgende doelstellingen werden geformuleerd. • De oprichting van een professioneel team coursewareontwikkelaars Voor het ontwikkelen van courseware is deskundigheid op tenminste drie gebieden vereist, namelijk onderwijskunde, systeemontwikkeling en vakinhoud. De twee als eerste genoemde expertisegebieden zijn aanwezig bij respectievelijk DidO en SOO. Deze twee secties hebben gezamenlijk een team courseware-ontwikkelaars geformeerd. Het wordt belangrijk gevonden om de verschillende deskundigen te laten werken in hun eigen sectie, zodat ze zichzelf op de hoogte kunnen houden van de nieuwste ontwikkelingen in de eigen discipline en ze ook in andere projecten dan courseware-projecten kunnen worden ingezet. De docenten in de faculteiten leveren de vakinhoudelijke deskundigheid. Andere expertise, zoals grafisch ontwerpen, wordt naar behoefte ingehuurd. Behalve het ontwikkelen van nieuwe toepassingen, geeft het team courseware-ontwikkelaars ook onderwijskundige en technische ondersteuning aan docenten bij gebruik en ontwikkeling van ICTO-toepassingen. Bovendien onderhoudt het de standaard toepassingen voor onderwijs. • De ontwikkeling van een standaard geautomatiseerd toetssysteem (Etude) Als oplossing voor de problemen die gepaard gaan met het grote aantal in gebruik zijnde geautomatiseerde toetssystemen, is besloten een standaard toetssysteem te gaan ontwikkelen. Er werd samen met docenten een lijst van functionele eisen opgesteld. Veel van de benodigde functionaliteit hangt samen met de technische aard van de cursussen aan de TU Delft. Voorbeelden hiervan zijn het gebruik van numerieke antwoorden, het accepteren van formules als antwoord en het gebruik van parameters om vragen uniek te maken. Ondanks een grondige zoektocht op de markt van onderwijskundige
Itembanking en toetsystemen
software werd er geen bestaande applicatie gevonden die aan alle eisen voldeed. Dat was een van de redenen om te besluiten tot het zelf ontwikkelen van een dergelijk systeem. • Het formeren van een technische klankbordgroep en een klankbordgroep met docenten voor de ontwikkeling van Etude Binnen de TU Delft bestaat al jaren een netwerk van docenten met interesse voor het gebruik van ICT in het onderwijs. Twee keer per jaar wordt een studiedag georganiseerd waarin docenten met elkaar hun ervaringen met het gebruik van ICT in het onderwijs delen. Met hetzelfde doel wordt twee keer per jaar een nieuwsbrief ICT in het Onderwijs uitgegeven. Uit hun midden is een klankbordgroep voor het Etudeproject geformeerd. Daarnaast is een aparte klankbordgroep van technische courseware-ontwikkelaars opgericht. Beide groepen zijn in het begin van het Etude-project enkele keren om commentaar op de ontwikkelingen gevraagd. Op deze manier hopen de ontwikkelaars de uiteindelijke implementatie van het programma te vergemakkelijken. In het resterende deel van dit artikel zal Etude zelf worden beschreven, alsmede de manier waarop het wordt ontwikkeld en uiteindelijk zal worden geïmplementeerd.
3. Het ETUDE systeem Drie jaar geleden zijn de secties DidO en SOO begonnen met het ontwikkelen van het nieuw toetssysteem, genaamd Etude. Het ontwerpen van het systeem is eind 1996 gestart en heeft 5 maanden geduurd. Vanaf mei 1997 is de ontwikkeling begonnen. Eind 1999 is Etude versie 1.0 uitgebracht. Met deze versie worden momenteel twee pilots uitgevoerd. Het Etude systeem is gebaseerd op het principe van itembanking: een centrale database-server bevat items (afzonderlijke opgaven) die via een netwerk (het Internet of een Intranet) benaderd kunnen worden door cliënt-computers (gebruikt door docenten, studenten, ondersteuners of ontwikkelaars). Het gehanteerde itembank-principe bestaat uit 5 stappen (zie figuur 1): construeren van items, definiëren van een toetsprofiel, genereren van een toets (online of schriftelijk) en het analyseren van de resultaten. De resultaten van de item- en toetsanalyse worden gebruikt voor het aanpassen van de items en toetsen die in de database zijn opgeslagen. Deze vijf stappen corresponderen met de componenten van Etude (zie figuur 2).
Online afname Opgave constructie
Toets definitie
Toets trekking
Resultaat analyse Papieren afname
Terugkoppeling: aanpassing psychometrische data
Figuur 1. De vijf stappen volgens het gehanteerde itembank-principe.
Itembanking en toetsystemen
Ontwerpsysteem – opgave construeren – toets definiëren – resultatenanalyse – etcetera
Afnamesysteem – toets trekken – toets afnemen – etcetera
Itembank
Beheerssysteem – gebruikers definiëren – etcetera
Figuur 2. De componenten van het Etude systeem.
3.1 Het Ontwerpsysteem Dit systeem wordt gebruikt door docenten. Het bevat bijvoorbeeld de systemen voor het construeren van opgaven (Etude Opgave Systeem), het definiëren van toetsen (Etude Toets Constructie Systeem) en het bekijken van de resultaten. De docent gebruikt het opgave systeem voor het construeren van afzonderlijke items (zie figuur 3). Een item of opgave bestaat uit verschillende multimedia elementen, zoals tekst, numerieke variabelen, afbeeldingen, geluid, video, animatie en vragen. Ieder van deze elementen, inclusief vragen, kunnen meerdere keren binnen één item voorkomen en kunnen door de ontwikkelaar op iedere willekeurige plaats in het window van het item worden gepositioneerd. In versie 1 is het aantal vraagtypen gelimiteerd tot meerkeuzevragen (1-uit-m en n-
64 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
uit-m) en open numerieke vragen (met getallen of formules als antwoord). In volgende versies worden hieraan andere vraagtypen toegevoegd, zoals hotspotoftewel aanwijsvragen, kort-antwoordvragen en essayvragen. Bij het construeren van opgaven kan de ontwikkelaar een sjabloon gebruiken voor het construeren van een hele reeks opgaven met dezelfde opmaak. Veranderingen van een sjabloon beïnvloeden alle opgaven die daarmee zijn geconstrueerd. Items worden in een centrale database opgeslagen, maar lokale import en export van items is mogelijk Dit betekent dat de docent bijvoorbeeld op zijn computer thuis items kan construeren en die vervolgens via het netwerk in de centrale database kan opslaan. Bij het wegschrijven van items kunnen daaraan kenmerken worden toegekend, zoals vak, trefwoord of moeilijkheidsniveau.
Itembanking en toetsystemen
Figuur 3. Een scherm in het Etude Opgave Systeem.
De docent gebruikt het toetsconstructie systeem voor het definiëren van de structuur en de inhoud van zijn toetsen (zie figuur 4). De structuur van een toets bestaat uit één of meer groepen items. Iedere groep kent zijn eigen toetsmodel. Versie 1 van Etude kent twee toetsmodellen, namelijk het 'losse opgaven' model (bestaande uit een aantal individuele items) en het adaptieve model. In het laatste geval wordt vanuit de resultaten op voorgaande items door het systeem de moeilijkheidsgraad van het volgende item binnen een toets bepaald (hoger, lager of gelijk). In de toekomst zal een interactief model worden toegevoegd, waarbij de opeenvolging van items wordt bepaald door verwijzingen tussen items op basis van
gegeven antwoorden. Ieder antwoordalternatief kan leiden tot een ander vervolgtraject. Zo kan bijvoorbeeld met hoofdvragen en bijvragen gewerkt worden. In dat geval kan een student die een hoofdvraag goed beantwoord direct doorgaan met de volgende hoofdvraag. Een student die een hoofdvraag fout beantwoord daarentegen, kan worden doorgestuurd naar een serie bijvragen die hij moet beantwoorden voordat hij met de volgende hoofdvraag kan beginnen. Vervolgens bepaalt de docent de inhoud van de toets door het definiëren van een toetsprofiel oftewel toetsmatrijs. Voor ieder niveau in de structuur van de toets legt de docent een aantal selectiecriteria vast, zoals
Itembanking en toetsystemen
Figuur 4. Een scherm in het Etude Toets Constructie Systeem.
inhoud, moeilijkheidsgraad, leerdoel of auteur. De niveaus zijn individuele items, groepen van items of de toets als geheel. In de huidige versie van Etude bestaat het profiel slechts uit één pool van items, terwijl voor ieder item slechts een beperkt aantal selectiecriteria gehanteerd kunnen worden (bijvoorbeeld moeilijkheidsgraad). In volgende versies zal het profiel kunnen bestaan uit twee dimensies (bijvoorbeeld een leerstofhiërarchie en een lijst van beheersingsniveaus) en zal het aantal selectiecriteria flink worden uitgebreid (bijvoorbeeld met trefwoorden of de datum waarop een item voor het laatst is gebruikt).
66 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Voor het bekijken van de resultaten heeft de docent momenteel twee mogelijkheden. Binnen Etude is een resultatenviewer beschikbaar, waarmee de docent toetsresultaten van studenten kan inzien en verwerken. Hij kan hiermee echter geen psychometrische analyses uitvoeren. Om allerlei praktische en historische redenen is ongeveer een jaar geleden binnen de TU Delft een nieuw systeem voor het analyseren van toetsresultaten in gebruik genomen, genaamd Sonate (zie hoofdstuk 1). De docent kan de resultatenviewer gebruiken voor het maken van een databestand dat met Sonate geanalyseerd kan worden. Uiteindelijk zal een directe koppeling
Itembanking en toetsystemen
tussen Etude en Sonate worden gerealiseerd. Het zal dan ook mogelijk worden om na iedere afname de psychometrische gegevens van de gebruikte items en van de toets in de itembank aan te passen. 3.2 Het Afnamesysteem Etude kan gebruikt worden voor online afname van toetsen. Tijdens de afname van de toets biedt het afnamesysteem de student een aantal opties, bijvoorbeeld opties om tussen items te navigeren en de optie om tussentijdse resultaten van de toets in te zien. Afhankelijk van de door de docent ingevoerde instellingen, biedt het afnamesysteem de student onmiddellijke, formatieve terugkoppeling op ieder gegeven antwoord en een terugkoppeling over de totale toets nadat de student deze heeft afgerond. Momenteel is alleen de online versie geïmplementeerd, die bovendien alleen via een server kan worden afgenomen. In volgende versies zal ook schriftelijke afname worden ondersteund en zal een online toets ook lokaal kunnen worden afgenomen. 3.3 Het Beheersysteem Naast de hierboven beschreven componenten kent Etude een aantal programma's voor het beheer van de itembank. Voorbeelden hiervan zijn het opslaan en opzoeken van items en toetsen, het opslaan en opzoeken van logging data en toetsresultaten en het identificeren en autoriseren van gebruikers. In de toekomst zal Etude worden gekoppeld aan andere onderwijssystemen die aan de TU Delft worden gebruikt, bijvoorbeeld voor tentamenregistratie, cijferpresentatie en opstellen van roosters.
4. De ontwikkeling van ETUDE 4.1 Technische achtergrond Etude is gebouwd als een cliënt-server systeem. De cliëntprogramma's draaien onder Windows '95, Windows
'98 of Windows NT 4.0. De kern van Etude is de itembankserver, die is gebaseerd op Windows NT 4.0 en MS SQL-server versie 7.0. In technische termen is de ontwikkeling van Etude gebaseerd op Windows principes (zoals object georiënteerd programmeren, 'three-tier model' architectuur en gebruikersvriendelijke interfaces) en moderne standaarden (zoals DCOM, Active-X en OLEDB). Het beheer van Etude is in tweeën opgesplitst. Het inhoudelijk beheer van de toetsen en de opgaven wordt uitgevoerd door de docenten en de opleidingen. Het technisch systeembeheer wordt deels uitgevoerd door decentrale, facultaire I&A-afdelingen en deels door de centrale dienst DTO. Etude heeft een gebruikersinterface die lijkt op die van standaard Windows toepassingen als Word en Excel. 4.2 Onderwijskundige achtergrond en functionele eisen Etude bevat een combinatie van enerzijds klassieke testtheorieën en anderzijds moderne testtheorieën zoals Item Response Theory (Essenius, 1995). Daarnaast is de functionaliteit van Etude vooral afgestemd op de eisen die hieraan door de docenten worden gesteld. Door hun jarenlange ervaring met het gebruik van zelfgemaakte, specifiek op hun wensen toegesneden toetssystemen hanteren zij een hoog eisenpakket waaraan geen enkel op de markt verkrijgbaar toetssysteem voldoet. Voorbeelden van dergelijke eisen zijn het gebruik van variabelen binnen een item, het leggen van onderlinge verbanden tussen variabelen, het accepteren en doorrekenen van formules die door de student als antwoord op een vraag worden gegeven en het tijdens de afname van een toets koppelen van het toetssysteem met andere programma's (bijvoorbeeld mathematische analyse programmatuur of simulatie programma's). 4.3 De projectorganisatie De twee belangrijkste partijen in de ontwikkeling van
Itembanking en toetsystemen
Etude zijn de secties DidO (van de faculteit Techniek, Bestuur en Management) en SOO (van de Dienst Technische Ondersteuning). Het ontwikkelproject wordt geleid door een technisch projectleider van SOO, onder verantwoordelijkheid van een Project Management Team (bestaande uit het hoofd van SOO en de ICTO-coördinator van DidO) en met ondersteuning van een onderwijskundig adviseur van DidO. Maandelijks vergaderen deze 4 personen. Daarnaast werd het ontwikkelteam in de eerste periode begeleid door twee klankbordgroepen. De eerste bestond uit docenten die ruime ervaring hebben met online toetsen, de tweede uit software ontwikkelaars die ervaring hebben met het ontwikkelen van courseware. De inbreng van deze groepen bij de ontwikkeling van het systeem was heel belangrijk voor de toekomstige implementatie daarvan in het onderwijs.
5. De implementatie van ETUDE Iedere component van Etude is en wordt grondig getest, eerst door de ontwikkelaars en vervolgens door een groep van bèta-testers. In het eerste kwartaal van het jaar 2000 wordt Etude in twee pilot projecten in het onderwijs uitgeprobeerd. Een pilot project vindt plaats binnen de opleiding Civiele Techniek, de andere binnen de opleiding Technische Wiskunde. Tijdens de pilot projecten draait de centrale database van Etude op de afzonderlijke computersystemen van de betreffende faculteiten en vindt de afname plaats in PC-zalen. In het najaar komt Etude versie 1.1 beschikbaar. Deze versie is bestemd voor intern gebruik door docenten van de TU Delft. Stap voor stap zal het materiaal van de gebruikers van de oudere toetssystemen worden geconverteerd naar het Etude formaat. Binnen een paar jaar zullen meerdere docenten van de TU Delft gebruik maken van een modern, integraal toetssysteem dat de specifieke functionaliteit biedt die in het technisch hoger onderwijs gevraagd wordt. Tegen die tijd is er één toetssys-
68 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
teem in gebruik, wat betekent dat er ook maar één systeem moet worden onderhouden en dat nieuwe functionaliteit direct beschikbaar is voor alle gebruikers. Naast het ontwikkelen van versie 1.1 voor intern gebruik, zal in het komende half jaar worden onderzocht op welke manier vanuit de TU Delft kan worden samengewerkt met andere organisaties (onderwijsinstellingen en bedrijven) om te komen tot een toetssysteem dat ook buiten de TU Delft gebruikt kan worden. Het streven is dit onderzoek in het najaar 2000 af te ronden.
Literatuur Dijkman, M.W.J.W. & Staal, R.H.A. (1991). Computer aided testing makes students work regularly (and increases transfer rates drastically), Proceedings of the 33rd Annual International Conference of the Association for the Development of Computer-Based Instructional Systems (ADCIS), pp 88-91. Columbus Ohio: ADCIS International. Essenius, R. (1995). Adaptive Computer-based Training in Engineering Education. Phd.-thesis. Delft University of Technology. Staal, R., Boekbinder, P., van Peppen, A. & Kunst, S. (1994). Computertests in a first year Engineering Mechanics course, International Conference on Computer Aided Learning and Instruction in Science and Engineering CALISCE’94, pp 393-399. Paris: Telecom. Van de Ven, M.J.J.M., (1997). Inventarisatie COO-producten aan de TU Delft en Plan van Aanpak Disseminatieproject. Unpublished manuscript, Delft University of Technology. Wilders, P., Peereboom, M. & Staal, R.H.A. (1996). Regelmatige zelfstudie, direct tentamen doen en geen uitstelgedrag: kan dat?, Onderzoek van Onderwijs, 25 (2), 31-32.
Itembanking en toetsystemen
Voortgangstoetsing, Itembanking en ICT dr.ing. A.M.M. Muijtjens, ing. R. Peperkamp, E. Jansen, R.J.M. Hoogenboom, dr. L.W.T. Schuwirth, drs. H.A.M. Snellen en prof.dr. C.P.M. van der Vleuten Universiteit Maastricht, capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch
Inleiding In de afgelopen 20 jaar is de Maastrichtse voortgangstoets (VT) uitgegroeid tot een gewaardeerd instrument voor kennismeting in een medisch curriculum. Het platform waarop opslag en verwerking van de toets plaatsvinden is echter gedateerd en inflexibel. Daarom is er behoefte aan de ontwikkeling van een nieuw systeem dat gebruik maakt van nieuwe methoden voor opslag en verwerking en dat gebaseerd is op een up to date platform. De behoefte aan een nieuw flexibeler systeem wordt nog versterkt door het onlangs gestarte samenwerkingsverband van de geneeskundefaculteiten in Groningen, Maastricht en Nijmegen waarin gewerkt wordt aan de totstandkoming van een interfacultaire VT. In het nu volgende wordt eerst een introductie van het concept voortgangstoetsing gegeven. Vervolgens wordt ingegaan op de tekortkomingen van het huidige systeem en tenslotte wordt aangegeven op welke wijze met gebruikmaking van itembanking en ICT een nieuw VTsysteem ontwikkeld wordt.
nemen. Daarbij wordt uiteraard per jaargroep een verschillende cesuur gehanteerd voor het vaststellen van de onvoldoende/voldoende kwalificatie. De toets betreft in principe alle onderwerpen die relevant zijn voor een afgestudeerd basisarts De medische kennis van een student wordt dus op tenminste 24 momenten (6 jaar, 4 toetsen per jaar) herhaald gemeten. Elke toets bestaat uit 250 juist/onjuist items en wordt samengesteld aan de hand van een toetsmatrijs (blauwdruk) waarin per categorie is aangegeven hoeveel items de toets dient te bevatten (bijv. Ademhalingsstelsel: 30 items, Voortplantingstelsel: 14 items, Wetenschapsleer en methodologie: 5 items). De items zijn alle van het type juist/onjuist met een ‘weet-niet’optie. Een vraag in de toets bestaat uit een stam, een item en een literatuurverwijzing. In de stam wordt de context aangegeven en het item is een stelling waarvan moet worden aangegeven of ze juist of onjuist wordt geacht. De literatuurverwijzing geeft aan waar het antwoord gevonden kan worden. Voorbeeld: STAM:
Voortgangstoetsing De voortgangstoetsing aan de medische faculteit Maastricht bestaat uit een vier maal per jaar afgenomen toets waaraan alle geneeskundestudenten tegelijkertijd deel-
ITEM:
Er zijn anti-astma middelen die de bronchiale hyperreactiviteit beïnvloeden en andere die dit niet doen. Tot de anti-astma middelen die dit WEL doen behoren: 14. inhalatiecorticosteroïden [juist/onjuist/weet niet]
Itembanking en toetsystemen
Figuur 1. Voor de scores van geneeskundestudenten op alle VT’s in de periode 1984 tot en met 1994 zijn per meetmoment de percentielen bepaald. In de figuur zijn met de doorgetrokken lijnen het 10e, 20e,…, en 90e percentiel aangegeven (het 50e percentiel vet); de stippellijn toont het verloop in de VT-score voor een individuele student.
LIT.VERW.: H. Rang e.a., Pharmacology, 3e dr. ’95 blz. 357-358 De gehanteerde score is het percentage goed minus fout beantwoorde items. Met de voortgangstoets wordt de groei van (medische) kennis gemeten gedurende de loopbaan van een student (figuur 1). De belangrijkste voordelen van de VT zijn: • het voorkomt toetsgestuurd leren; • er wordt beklijvende kennis gemeten; • de groei van kennis kan worden gemeten; • de toets is curriculumonafhankelijk; • er zijn ruime mogelijkheden voor het geven van feedback aan studenten en docenten.
70 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Er zijn meerdere universiteiten waar het concept voortgangstoetsing in een medische studie wordt toegepast. De Universiteit van Missouri (Kansas City) en McMaster University (Hamilton, Canada) gebruiken een eigen variant die gebaseerd is op meerkeuzevragen. De Pretoria University (Zuid-Afrika) construeert een eigen VT die qua opzet en uitvoering overeenkomt met de Maastrichtse VT. Een belangrijk kenmerk van de Maastrichtse VT is de uitgebreide inhoudelijke kwaliteitscontrole die vragen ondergaan alvorens opgenomen te worden in de toets. Bij diverse zusterinstellingen is grote belangstelling voor het toepassen van de Maastrichtse VT. In het kader van het samenwerkingsverband AMFON (geneeskundefaculteiten Groningen, Maastricht, Nijmegen) wordt vanaf september 1999 een gezamenlijke VT afgenomen. Op dit
Itembanking en toetsystemen
moment is dat een Maastrichtse toets die tegelijkertijd in de drie faculteiten bij alle geneeskunde studenten wordt afgenomen; daarbij wordt op alle faculteiten een zelfde onvoldoende/voldoende norm gehanteerd. Het is de bedoeling om geleidelijk aan de vraagproductie in Groningen en Nijmegen zodanig op te voeren dat uiteindelijk een evenredige bijdrage door de drie deelnemende faculteiten wordt geleverd. Naast het AMFON samenwerkingsverband zijn er enkele zusterinstellingen (Universiteit van Gent, Universiteit Leiden) die de Maastrichtse VT aankopen en regelmatig afnemen bij hun geneeskundestudenten. Daarnaast is er belangstelling van de Erasmus Universiteit Rotterdam, de Freie Universität Berlin en de Universiteit van Århus.
Itembanking en ICT-aspecten De VT wordt al twintig jaar in Maastricht toegepast met als gevolg de vorming van een ruime verzameling items (ongeveer 16000). Deze items zijn in computerbestanden opgeslagen en op grond van de grondige inhoudelijke kwaliteitscontrole die ze hebben ondergaan is er sprake van een itembank. De psychometrische aspecten van de verzameling hebben tot nog toe te weinig aandacht gekregen om te kunnen spreken van een volwaardige itembank. Het computergebaseerde verwerkingssysteem van de toets is in de twintigjarige geschiedenis van de VT geleidelijk aan uitgegroeid tot een weinig overzichtelijk geheel van losse programma’s die draaien op een gedateerd platform (VAX alpha) waarbij geen gebruik wordt gemaakt van een moderne database. Gevolgen daarvan zijn moeizame uitwisseling van gegevens, inflexibiliteit (kleine afwijkingen hebben grote gevolgen), handmatig herhaalde invoer van gegevens en moeizaam databeheer (tape). Het huidige systeem sluit ook volstrekt niet aan op de nieuwe ontwikkelingen (PC-netwerken met webge-
baseerde gegevensuitwisseling). Kortom, redenen te over om een nieuw VT-systeem te overwegen, zeker tegen de achtergrond van een ontwikkeling naar een interfacultaire VT. Het nieuwe systeem zou de volgende functies moeten ondersteunen: • beheer van een casusbank; • constructie van een toets volgens een blauwdruk (keuze uit meerdere blauwdrukken); • opslag van de toetsantwoorden; • berekening en opslag toetsresultaten; • itemanalyse; • feedback resultaten (webgebaseerd, vraaggestuurd); • verzamelen van gegevens voor onderzoek. Casusgebaseerde opslag geeft een verruiming van de mogelijkheden voor de context waarin items worden aangeboden: een casus kan bestaan uit bijvoorbeeld een stam gevolgd door een item met daarna weer een stam die op zijn beurt gevolgd wordt door twee items. Ook afbeeldingen, geluiden of videoweergaven kunnen deel uitmaken van een casus. De nieuwe blauwdruk van de VT betreft niet alleen de eerdergenoemde categorie waarbij een item hoort (ademhalingsstelsel, voortplantingstelsel, etc.) maar ook de bijbehorende discipline (cardiologie, fysiologie, etc.). Dat houdt in dat de blauwdruk twee-assig is en gerepresenteerd wordt door een matrix met in elke cel het aantal items in de toets voor de betreffende combinatie van categorie en discipline. Daarnaast is het gewenst om de mogelijkheid te hebben voor het hanteren van meer dan één blauwdruk. De feedback wordt webgebaseerd uitgevoerd zodat eenieder die over een web-browser en een modem beschikt de gewenste informatie kan verkrijgen. De feedback dient daarnaast vraaggestuurd beschikbaar te komen zodat de gebruiker alleen die informatie krijgt waarin hij of zij op dat moment geïnteresseerd is.
Itembanking en toetsystemen
Ontwikkeling: Delphi en Web-based
Clients: Casus invoer en screening
Samenstelling toets
Opvragen resultaten
Database server
SYBASE
Centrale database
Figuur 2. Architectuur van het te ontwikkelen VT-systeem.
De randvoorwaarden voor een nieuw VT-systeem zijn: • PC netwerk, Windows; • grafisch menugestuurd; • relationele database; • webgebaseerde, grafische feedback (student, docent, management). Vervolgens is de vraag: kopen of zelf ontwikkelen. Er is bij het nieuwe VT-systeem gekozen voor zelf ontwikkelen omdat op de markt geen systeem werd gevonden dat de gehanteerde productielogistiek in voldoende mate ondersteunde.
Ontwikkeling nieuw VT-systeem De globale architectuur van het te ontwikkelen systeem is in figuur 2 weergegeven: een database server (SYBASE) die de centrale database beheert en voor de diverse functies (casusinvoer en -screening, samenstelling toets, etc.) lokale clients die ontwikkeld worden in Delphi, HTML, Java Script en JAVA (applets).
72 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Om dit systeem te realiseren worden de volgende stappen doorlopen: • gegevensanalyse: structuur en inhoud van de database wordt vastgesteld; • procesanalyse: alle verwerkingsprocessen worden in kaart gebracht; • functies en taken specificeren: aan de hand van verwerkingsprocessen worden functies en taken gedefinieerd; • database en modules implementeren: de voor de database ontworpen structuur wordt in tabellen vastgelegd en functies en taken worden als programmamodules gerealiseerd. Momenteel is de gegevensanalyse en de procesanalyse afgerond en wordt er gewerkt aan de implementatie van de database en het functionele ontwerp van de modules. Ter illustratie van de resultaten van de gegevensanalyse wordt in figuur 3 de structuur van het casusdeel van de database (VOSYS-CAD) gepresenteerd. In verband met
Itembanking en toetsystemen
Case Resources (pictures, photos, etc.)
Bibliogr. references
CaseClass
CasePart Item
Cases Authors
Tests
Classifications
Test
TestCase
Blueprints
TestItem
Figuur 3. Gegevensstructuur van het casusdeel van de database van het VT-systeem.
buitenlandse interesse voor het VT-systeem zijn Engelse namen gebruikt voor de entiteiten in de database. In figuur 3 zijn de verschillende entiteiten (Case, Author, Test, etc.) aangegeven als ellipsen. Indien entiteiten een relatie hebben dan is dat weergegeven door de ellipsen te laten overlappen. Voor de entiteiten Case en Test zijn de bijbehorende tabellen (recordtypen) als rechthoeken weergegeven. Centraal in dit deel van de database is een casus (Case) die door een auteur (Author) is geconstrueerd. Een casus hoort bij een Categorie (ademhalingsstelsel, etc.) en bij een Discipline (cardiologie, etc.); deze labels worden opgeslagen als Classifications. Ook een auteur heeft een aantal classificerende labels: de universiteit waarbij hij is aangesteld en zijn afdeling (capaciteitsgroep of anderszins). Een casus bestaat uit een aantal onderdelen, de CaseParts. Voorbeelden van onderdelen zijn een stam of een item maar ook plaatjes, geluiden of stukjes video (Resources) kunnen (in de toe-
komst) deel uitmaken van een casus. Bij een casus hoort een literatuurverwijzing; het algemene deel daarvan (auteur, titel, uitgever boek) is ondergebracht in Bibliogr. References. Een toets (Test) bestaat uit een verzameling casus (relatie TestCase) en, daarvan afgeleid, een verzameling items (relatie Testitem). Een toets wordt samengesteld op basis van een blauwdruk (Blueprint). Nadat de gegevensstructuur volledig in kaart is gebracht kunnen de bijbehorende tabellen (recordtypes) in de database gedefinieerd worden. Ter illustratie van de resultaten van de procesanalyse wordt in figuur 4 de structuur van de reguliere verwerkingscyclus gepresenteerd. Het proces start met het construeren van casus. Deze casus worden beoordeeld door een centrale voortgangstoetsbeoordelingscommissie die in overleg met de auteur eventueel wijzigingen aanbrengt ter bevordering van de kwaliteit van de
Itembanking en toetsystemen
Casus & toets constructie
Casus
Definitieve toets
Toets
Berekening resultaten
Toetsafname
Toets resultaten
Commentaar
Antwoorden
Evaluatie
Rapportage resultaten
Website feedback
Toetsuitslag
Browser
Student Docent Beleids- maker
Definitieve toets
Figuur 4. De reguliere verwerkingscyclus van de voortgangstoets.
casus. Uit de verzameling goedgekeurde casus wordt een toets samengesteld. De afname van de toets leidt tot antwoorden op de items en eventuele studentcommentaren. Op basis van de antwoorden wordt een itemanalyse verricht. Het resultaat van de itemanalyse en de verwerking van de studentcommentaren leidt tot vaststelling van de definitieve inhoud van de toets. In deze Evaluatie kunnen nog sleutelwijzigingen plaatsvinden, of indien daartoe aanleiding is (bijvoorbeeld tegenstrijdigheden in de literatuur) komen vragen te vervallen. Aan de hand van de definitieve toets worden de resultaten berekend. De uitslag (onvoldoende/voldoende) wordt schriftelijk gerapporteerd en gedetailleerde feedback ten aanzien van resultaten per catego-
74 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
rie en discipline worden op een website ter beschikking gesteld aan de drie doelgroepen: student, docent en beleidsmaker.
Ambitieniveau nieuw VT-systeem Er wordt op dit moment niet gestreefd naar een computergebaseerde VT. Een dergelijke opzet zou in AMFONverband 4 maal per jaar 3 zalen uitgerust met 1200 computers vergen. Een computergebaseerde toets kan interessant zijn als meerdere equivalente toetsen afgenomen kunnen worden op verschillende tijdstippen. Denkbaar is dat een toets voor iedere deelnemer individueel wordt samengesteld door een steekproef te nemen
Itembanking en toetsystemen
uit de casusbank, of nog een stap verder, dat er een adaptieve toets wordt samengesteld aan de hand van de antwoorden van de student. Dit brengt echter andere problemen met zich mee (de noodzaak tot equivalering van toetsen en calibratie van items). Een goed toegankelijke itembank brengt deze mogelijkheden wel dichterbij. Vooralsnog zijn onze korte-termijn ambities bescheidener: er wordt een systeem ontwikkeld dat geënt is op het concept casus en dat items aankan van het type
juist/onjuist en meerkeuze met één juist alternatief. Er wordt daarbij gebruik gemaakt van een relationele database zodat volwaardige itembanking tot de mogelijkheden behoort. Daarnaast wordt in- en uitvoer van het systeem webgebaseerd en zal feedback van resultaten vraaggeoriënteerd plaats kunnen vinden. Door de kwaliteit van de ICT-ondersteuning bij de voortgangstoets te bevorderen wordt gestreefd naar behoud en waar mogelijk verbetering van de toetskwaliteit.
Itembanking en toetsystemen
WISCAT: Adaptieve toetspakketten voor het opsporen van deficiënties op het gebied van rekenen en wiskunde dr. G.J.J.M. Straetmans Cito, Instituut voor Toetsontwikkeling
Samenvatting Is het mogelijk om voor een zeer breed onderwijsveld een toetspakket voor rekenen en wiskunde te ontwikkelen dat voldoende flexibiliteit biedt om door alle sectoren binnen dat veld op effectieve en efficiënte wijze te kunnen worden ingezet voor het opsporen van deficiënties bij instromende studenten? Dat is, kort gezegd, de vraag die in deze bijdrage centraal staat en waarop een positief antwoord gegeven kon worden dankzij de inzet van ICT. De oplossing waarvoor gekozen is, heet ‘adaptief toetsen’. Concreet wordt deze oplossing uitgewerkt in een toetspakket voor het middelbaar beroepsonderwijs, maar een uitwerking voor het hoger (beroeps)onderwijs is evenzeer mogelijk.
Inleiding Het middelbaar beroepsonderwijs en het hoger onderwijs worstelen al enkele jaren met het probleem van de slechte interne rendementen. Voor beide onderwijsvormen ligt het gemiddelde rendement ergens tussen 60 en 70%, wat betekent dat tussen 30 en 40% van de deelnemers zonder diploma dit onderwijs verlaat (OC&W, 1998). In de afgelopen jaren hebben vele commissies van deskundigen deze problematiek bestudeerd en allerlei mogelijke oorzaken gesuggereerd. Die variëren van
76 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
aansluitingsproblematiek tot slechte motivatie, inadequaat studeergedrag en tekorten op het gebied van ondersteunende vakken. Wat de laatste oorzaak betreft: uit diverse studies is gebleken dat zowel in het middelbaar beroepsonderwijs (Harskamp & Suhre, 1992) als in het hoger onderwijs (Voogt & Vlas, 1995) de kennis en vaardigheid van instromende studenten op het gebied van rekenen en wiskunde geregeld tekort schiet. In veel opleidingen probeert men deficiënties op dit gebied weg te werken door het verzorgen van ‘bijspijkercursussen’ welke klassikaal dan wel in de vorm van zelfstudiemateriaal worden aangeboden. Over het effect van die cursussen is weinig bekend, maar aangenomen mag worden dat het rendement toeneemt als de inhoud en het niveau daarvan beter aansluiten op zowel de instroomeisen van de opleiding als op de reeds verworven kennis en vaardigheden van de cursisten. Om bijspijkercursussen ‘op maat’ te kunnen aanbieden is een tweetrapsbeslissing over instromende studenten wenselijk: 1. Als eerste moet worden nagegaan welke studenten een kennis- en vaardigheidsniveau hebben dat onvoldoende geacht wordt om de gekozen opleiding met succes te kunnen doorlopen. 2. Daarna dient te worden vastgesteld ten aanzien van welke onderdelen uit het vakgebied rekenen/wiskunde de kennis tekortschiet en op welk niveau een bijspijkercursus op elk van die onderdelen moet beginnen.
Itembanking en toetsystemen
Voor de eerste beslissing is informatie over de vooropleiding zeer behulpzaam maar niet altijd toereikend. Het bezit van een diploma van een geschikte vooropleiding, bijvoorbeeld, geeft weliswaar het recht op toegang maar biedt geen garantie dat de kennis en vaardigheid voor rekenen/wiskunde van een voldoende niveau is om de betreffende opleiding te kunnen volgen. Immers, diplomering met een onvoldoende voor wiskunde behoort tot de mogelijkheden. Daarnaast is uit onderzoek gebleken dat opleidingen soms eisen stellen die niet tot het curriculum behoren van de vooropleiding. Zelfs niet als het gaat om vooropleidingen die beschouwd worden als de voorbereiding bij uitstek, zoals bijvoorbeeld het geval is bij havo-hbo (Voogt & Vlas, 1995). Bij twijfel is het raadzaam in deze fase extra informatie te verzamelen over het kennis- en vaardigheidsniveau van de instromende studenten. Wanneer geconstateerd is dat het niveau tekortschiet, moet, om doelgericht te kunnen remediëren, vastgesteld worden ten aanzien van welke onderdelen sprake is van deficiënties. Zowel voor de eerste als voor de tweede beslissing is de inzet van toetsen gewenst, zo niet noodzakelijk. Omdat wiskunde-deficiënties bij een groot aantal opleidingen aan de orde zijn, lijkt het voor de hand te liggen om de benodigde toetsen op centraal niveau te ontwikkelen. Op diverse plaatsen hetzelfde wiel uitvinden is zonde van het geld en van de inspanning van de noodzakelijke deskundigen. Een centraal ontwikkeld toetspakket zou, gelet op de functies die het moet vervullen, aan de volgende eisen moeten voldoen: • Eenduidig te interpreteren toetsscores. Wat de betekenis van een bepaalde toetsscore is, wordt pas duidelijk als er sprake is van een betekenisvolle cesuur op de scoreschaal. De kunst is om het onderscheid tussen beheersers en niet-beheersers kwantitatief te vertalen in een positie op de score-
schaal. De veel gebruikte 80%-regel (de toetsprestatie wordt geïnterpreteerd als ‘voldoende’ wanneer die minimaal 80 procent bedraagt van de maximaal haalbare score) biedt niet zonder meer een garantie dat degenen die deze norm halen ook werkelijk over de vereiste kennis en vaardigheid beschikken. • Toetsafnames moeten leiden tot accurate beslissingen over studenten. De kwaliteit van de toetsen moet zodanig zijn dat het ten onrechte toewijzen aan of het ten onrechte onthouden van een ‘bijspijkercursus’ tot een minimum beperkt blijft. • Lage drempel om te gebruiken. Toetspakketten die van docenten veel tijd en moeite vergen ten behoeve van de (voorbereiding van de) afname, het nakijken en interpreteren van de resultaten en ook de administratie daarvan, lopen het risico niet of slordig te worden ingezet. • Gestandaardiseerd maar toch op maat. Inhoud en niveau moeten afgestemd kunnen worden op de behoeften van een specifieke opleiding. Met een en dezelfde toets is het niet mogelijk om in een divers onderwijsveld als het HBO binnen elke opleiding op betrouwbare en valide wijze deficiënties op te sporen. De instroomeisen voor rekenen/wiskunde van een bepaalde opleiding moeten bepalend zijn voor de inhoud en het niveau van de toets. Een deficiëntietoets voor PABO-studenten zal naar inhoud en niveau verschillen van die voor studenten die een hogere informatica opleiding volgen. Maar ook binnen dezelfde opleiding moet rekening gehouden worden met de soms grote verschillen in vaardigheid tussen studenten. Om in die situatie toch nauwkeurige beslissingen te kunnen nemen, is het noodzakelijk het niveau van de toets aan te passen aan de vaardigheid van elke individuele student. Is het mogelijk om een pakket te ontwikkelen dat aan al die eisen voldoet? Ja, voor het middelbaar beroepson-
Itembanking en toetsystemen
derwijs is een dergelijk pakket in een verregaande staat van ontwikkeling. Voor het hoger (beroeps)onderwijs zijn nog geen concrete ontwikkelingsplannen, maar in principe zou daarvoor dezelfde aanpak gevolgd kunnen worden. De kern van deze bijdrage richt zich op een bespreking van de belangrijkste eigenschappen van dit pakket. Eén daarvan is dat het op basis van adaptieve principes toetsen samenstelt. Daarom wordt nu eerst in algemene zin aandacht besteed aan het verschijnsel adaptief toetsen.
Wat is adaptief toetsen? Adaptief toetsen wil zeggen dat de moeilijkheidsgraad van de opgaven wordt aangepast aan de vaardigheid van de cursist. Dat aanpassen gebeurt tijdens de afname. Elke keer als een cursist een opgave gemaakt heeft, wordt zijn vaardigheid geschat en wordt een nieuwe opgave geselecteerd uit de opgavenbank die wat betreft moeilijkheid zo goed mogelijk past bij die vaardigheid. Dit betekent dus dat de toets die de cursist maakt niet op voorhand klaar ligt, maar tijdens de toetafname wordt samengesteld. Met deze werkwijze wordt in de eerste plaats bereikt dat elke toetsopgave – en dus de toets als geheel – zo nauwkeurig mogelijk de vaardigheid van de cursist kan meten. Waarom dit zo is, kan worden duidelijk gemaakt aan de hand van het volgende voorbeeld. Stel u wilt vaststellen hoe hoog iemand kan springen. Het ligt voor de hand dat u eerst een grove inschatting maakt van de capaciteit op dit gebied van de betreffende persoon. U gebruikt daarvoor de vuistregel dat langere, slanke personen hoger kunnen springen dan korte, dikke personen en dat mannen over het algemeen hoger springen dan vrouwen. Op grond van die informatie komt u tot de conclusie dat het vermoedelijk zinloos is om een bepaalde persoon te laten springen over lathoogtes lager dan 60 cm en hoger dan 160 cm omdat de uitslag daarvan zeer voorspelbaar is en dus niet of nauwelijks bijdraagt aan uw kennis over de hoog-
78 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
spring-capaciteit van de betreffende persoon. U kiest ervoor om ergens in het midden van het interval 60 – 160 cm te beginnen, bijvoorbeeld op 110 cm. U neemt de persoon tijdens diens poging over de lat te springen nauwkeurig waar en signaleert dat hij er ruimschoots overheen springt. U heeft uit deze eerste sprong veel informatie gekregen: namelijk dat de persoon waarschijnlijk nog een flink stuk hoger kan springen dan 110 cm. U besluit daarom de lat op 130 cm te leggen. Zowel de eerste als de tweede sprong over deze lathoogte mislukken maar net. U concludeert dat de capaciteit van de persoon dichter bij de 130 cm zal liggen dan bij de 110 cm en legt de lat vervolgens op 125 cm. Als de persoon hier over heen blijkt te kunnen springen, concludeert u dat de hoogspring-capaciteit van deze persoon ergens ligt tussen de 125 en 130 cm. Met deze schatting bent u tevreden en u beëindigt daarom de sessie. Deze techniek om motorische vaardigheden vast te stellen, wordt ook toegepast in het cognitieve domein. Bij mondelinge toetsen en examens zal de ervaren docent bij de cursist op zoek gaan naar de grenzen van diens kennis en vaardigheid door de moeilijkheidsgraad van de vragen die hij stelt af te stemmen op de antwoorden die de cursist geeft. Als de cursist een goed antwoord geeft, stelt de docent vervolgens een moeilijker vraag, was het antwoord fout, dan wordt een wat makkelijker vraag gesteld. Door de massaliteit van het hedendaagse onderwijs zijn mondelinge toetssituaties eerder uitzondering dan regel. Echter, nu computers op grote schaal ter beschikking komen van docenten en cursisten in het onderwijs, behoort individualisering van instructie en toetsing weer tot de mogelijkheden. Bij toetsing is het mogelijk de computer de rol van de mondelinge examinator te laten nabootsen. Dat is wat gebeurt in een computergestuurde adaptieve toets. Globaal werkt een adaptieve toets als volgt: • er wordt een opgave gepresenteerd op het beeldscherm;
Itembanking en toetsystemen
• de cursist geeft antwoord; • de computer ‘kijkt’ of het antwoord goed of fout is en schat op grond van alle tot dan toe gegeven antwoorden wat de vaardigheid is van de cursist; • de computer beslist of de toets al beëindigd kan worden of dat er een nieuwe opgave moet worden aangeboden; • als het laatste het geval is, wordt een opgave uit de opgavenbank geselecteerd met een moeilijkheidsgraad die afgestemd is op de geschatte vaardigheid van de betreffende cursist; • wanneer de toets beëindigd wordt, krijgt de cursist uitslag over zijn toetsprestatie.
De vaardigheidsschaal: voorwaarde voor adaptief toetsen Centraal concept in de procedure voor adaptief toetsen is de vaardigheidsschaal. Dat is een soort meetlat voor cognitieve vaardigheden. Deze meetlat bestaat uit een groot aantal opgaven die wat betreft moeilijkheidsgraad geordend zijn van eenvoudig naar moeilijk. De schaalwaarden geven de relatieve moeilijkheidsgraad aan van de verschillende opgaven. Deze moeilijkheidsgraden zijn vastgesteld op grond van de antwoorden die vele honderden cursisten uit de doelgroep gegeven hebben. Wanneer een cursist een toets maakt die is samengesteld uit opgaven die deel uitmaken van deze schaal, dan kan op grond van zijn antwoorden een schatting gemaakt worden van zijn vaardigheid in termen van de schaalwaarden. Anders gezegd: op de schaal kunnen zowel opgaven (wat betreft moeilijkheidsgraad) als cursisten (wat betreft vaardigheid) worden afgebeeld. Met dit principe kan in een adaptieve toets het computerprogramma de moeilijkheidsgraad van een opgave nauwkeurig afstemmen op de vaardigheid van de cursist. Vaardigheidsschalen, zoals hierboven aangeduid, zijn het resultaat van statistische procedures die tot doel
hebben items te schalen op grond van een model uit de itemresponstheorie (IRT). Een van de meer bekende IRTmodellen, het Raschmodel, is een zeer eenvoudig model dat de kans op correcte beantwoording definieert als een functie van de vaardigheid van de persoon en de moeilijkheidsgraad van een item. De modellering is van die aard dat de kans op correcte beantwoording precies 50% bedraagt wanneer de moeilijkheidsgraad van de opgave even groot is als de vaardigheid van de persoon. Dit komt overeen met wat intuïtief verwacht wordt als iemand een taak krijgt uit te voeren die wat betreft moeilijkheidsgraad ‘raakt aan de grenzen van zijn capaciteit’. Als de moeilijkheidsgraad groter is dan de vaardigheid wordt de kans op correcte beantwoording kleiner dan 50% en wanneer de vaardigheid groter is dan de moeilijkheidsgraad van een item, wordt de kans op correcte beantwoording groter dan 50%. Het schalingsconcept impliceert dat een kandidaat die een correct antwoord geeft op een bepaalde opgave waarschijnlijk ook correct zal antwoorden op opgaven met lagere moeilijkheidsgraden. Een andere bijzondere eigenschap van IRT-geschaalde opgavenbanken is dat het voor de schatting van de vaardigheid niet uitmaakt met welke reeks opgaven dit gebeurt. De vaardigheidsschatting op basis van toets A zal, behoudens een foutenmarge, gelijk zijn aan de vaardigheidschatting op basis van toets B, waarvan de items wat betreft inhoud en moeilijkheidsgraad verschillen van die van toets A. Deze eigenschap komt goed van pas wanneer het doel van de toets is om deficiënties op te sporen, zoals in de subparagraaf ‘toetsmodule’ nader beschreven zal worden. Een meer gedetailleerde beschrijving van de IRT, de verschillende modellen, het kalibratieproces en de modelpassing valt buiten het bestek van deze bijdrage. Geïnteresseerde lezers vinden bij Baker (1985) een toegankelijk geschreven inleiding over deze onderwerpen.
Itembanking en toetsystemen
Tabel 1. Kenmerken van computergestuurd adaptief toetsen Kenmerken
Computergestuurde adaptieve toets
Traditionele pen-en-papier toets
Inhoud van de toets Moeilijkheidsgraad Toetslengte
Elke cursist maakt een andere toets. Afhankelijk van de cursist. Relatief kort. Aantal opgaven varieert per cursist. Niet zonder meer onder controle. Beperkt. Op een tijdstip dat de cursist schikt. Vergt weinig tijd. Direct na beantwoording van de laatste opgave.
Elke cursist maakt dezelfde toets. Afgestemd op de gemiddelde cursist. Relatief lang. Voor elke cursist is het aantal opgaven gelijk. Onder controle van de toetsconstructeur. Relatief veel vrijheid. Op een vast tijdstip. Arbeidsintensief. Afhankelijk van het aantal cursisten en de beschikbare tijd van de docent.
Representativiteit Vrijheid van de cursist Toetsmoment Organisatie van de afname Tijdstip van de uitslag
Bron: Straetmans & Eggen (1998)
Kenmerken van adaptief toetsen Wat zijn nu de specifieke kenmerken van adaptief toetsen? Die kunnen het beste besproken worden door ze af te zetten tegen de kenmerken van de beter bekende pen en papiertoets. Tabel 1 geeft een overzicht van deze vergelijking. Inhoud van de toets Anders dan bij een traditionele pen-en-papiertoets maakt elke cursist in principe een andere toets. Dat is een gevolg van het feit dat bij een computergestuurde adaptieve toetsafname geprobeerd wordt het niveau van de toets zo goed mogelijk af te stemmen op de vaardigheid van de cursist. Hele vaardige cursisten krijgen moeilijker opgaven dan cursisten met een gemiddelde of lage vaardigheid. Omdat een computergestuurde adaptieve toetsafname gebaseerd is op een geschaalde opgavenbank kunnen de prestaties van cursisten op verschillende toetsen toch direct met elkaar vergeleken worden.
80 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Moeilijkheidsgraad In een traditionele pen-en-papiertoets is de moeilijkheidsgraad van de toets vaak afgestemd op het niveau van de gemiddelde cursist. Cursisten die ver onder of boven het gemiddelde zitten, krijgen daardoor een toets te maken die veel te moeilijk respectievelijk veel te eenvoudig is. In een computergestuurde adaptieve toets krijgt een cursist alleen opgaven die uitdagen zonder te moeilijk of te makkelijk te zijn. Toetslengte Korte toetsen zijn gevoelig voor allerlei 'toevalligheden' die de toetsprestatie kunnen beïnvloeden, zoals bijvoorbeeld de toevallige affiniteit of afkeer die een cursist heeft met een bepaald onderwerp. Daarom wordt in handboeken voor toetsconstructie aanbevolen om lange toetsen te maken. Omdat bij een computergestuurde adaptieve toets alleen opgaven worden aangeboden die zo goed mogelijk zijn afgestemd op de vaardigheid van de cursist, kan vaak met korte toetsen volstaan worden. Uit onderzoek is gebleken dat computergestuurde adap-
Itembanking en toetsystemen
tieve toetsen met de helft van het aantal opgaven even nauwkeurig meten als traditionele pen-en-papiertoetsen (Vispoel, Rocklin & Wang, 1994). De 'online' toetssamenstelling van de computergestuurde adaptieve toetsing maakt het bovendien mogelijk om de toetslengte te laten afhangen van de prestaties van de specifieke cursist. Het stopcriterium is dan niet dat alle opgaven beantwoord zijn (zoals bij een traditionele pen-enpapiertoets) maar, bijvoorbeeld, dat de vaardigheid geschat is met een vooraf gespecificeerde nauwkeurigheid. Het aantal opgaven dat nodig is om de vaardigheid met de vereiste nauwkeurigheid te kunnen schatten, kan van cursist tot cursist verschillen. Representativiteit In een goede toets worden de doelstellingen van het onderwijs weerspiegeld. Om dit te bereiken wordt vroeg in de ontwerpfase een toetsmatrijs opgesteld. Dit is een soort blauwdruk van de toets waarin verticaal de leerstof staat afgebeeld en horizontaal de operaties die cursisten op die leerstof moeten kunnen uitvoeren. De toetsopgaven moeten evenwichtig verdeeld zijn over beide dimensies. In een computergestuurde adaptieve toets wordt bij de samenstelling van de toets primair gelet op de afstemming van de moeilijkheidsgraad van de opgave op de voorlopige schatting van de vaardigheid van de cursist. Zonder speciale maatregelen zal de computer geen acht slaan op de verdeling van de opgaven over de leerstofonderwerpen en de verrichtingen. Bij onevenwichtig opgebouwde itembanken (als er bijvoorbeeld een duidelijk verband is tussen leerstofonderwerpen en moeilijkheidsgraad) kan dit leiden tot toetsen die te weinig representatief zijn in de ogen van docenten en/of cursisten. Wijzigingen in de software die de computer kunnen dwingen een representatieve toets te maken, bieden soelaas maar hebben wel tot gevolg dat er meer opgaven nodig zijn om met dezelfde nauwkeurigheid te kunnen meten.
Vrijheid cursist Bij een traditionele pen-en-papiertoets bepaalt de cursist zelf in welke volgorde de opgaven gemaakt worden. Doorgaans wordt een toets eerst in zijn geheel doorgekeken. Een cursist kan op grond daarvan snel een schifting maken tussen opgaven die probleemloos beantwoord kunnen worden en opgaven waarvoor meer tijd nodig is. Er kan voor gekozen worden om de eenvoudige opgaven eerst te beantwoorden en pas daarna aan de moeilijke te beginnen. Bovendien is het mogelijk om eerder gegeven antwoorden nog eens rustig te overdenken en eventueel te herzien. Bij computergestuurde adaptieve toetsing is dit alles niet mogelijk. De computer bepaalt welke opgave op welk moment in de toets beantwoord moet worden. Eenmaal gegeven antwoorden kunnen niet meer opgeroepen en herzien worden. Bij sommige cursisten kan dit gevoelens van toetsangst oproepen of versterken. Toetsmoment Om te voorkomen dat cursisten informatie over de toetsinhoud aan elkaar doorgeven wordt doorgaans geprobeerd het aantal toetsmomenten zo beperkt mogelijk te houden. Dit kan haaks staan op het streven naar geflexibiliseerd onderwijs. Bij computergestuurde adaptieve toetsing behoort dit probleem tot het verleden. Immers, bij deze toetsmethodiek krijgt elke cursist in principe een andere toets te maken en is doorgeven van informatie zinloos geworden. Het toetsmoment kan daarom zonder problemen bepaald worden door de cursist zelf. Organisatie afname Computergestuurde adaptieve toetsing verlaagt de drempel om veelvuldig te toetsen omdat de meest arbeidsintensieve taken door de computer worden uitgevoerd, te weten: de samenstelling van de toets en het nakijken daarvan.
Itembanking en toetsystemen
Tijdstip uitslag Omdat bij traditionele pen-en-papiertoetsing bij voorkeur veel cursisten tegelijk getoetst worden, heeft een docent na afloop veel werk met nakijken. Als gevolg daarvan laat de uitslag enige tijd op zich wachten. Voor de cursist komt dit oponthoud vaak ongelegen. Bij computergestuurde adaptieve toetsing volgt de uitslag onmiddellijk op de beantwoording van de laatste opgave.
WISCAT-bo: deficiëntietoetsen voor het mbo
4 uit de kwalificatiestructuur educatie (KSE), een raamwerk van kwalificatieniveaus en eindtermen voor de volwasseneneducatie. Binnen elk KSE-niveau zijn de eindtermen geclusterd in domeinen: • rekenen en meten; • meetkunde; • informatieverwerking, statistiek en kans; • (woord)algebra, verbanden, grafieken en functies; Tabel 2 geeft een overzicht van de beschikbare opgaven zoals verdeeld over KSE-niveaus en -domeinen.
WISCAT-bo is een toetspakket dat geheel automatisch toetsen op het gebied van rekenen/wiskunde samenstelt, afneemt, nakijkt en de resultaten rapporteert en administreert. Het pakket is ontwikkeld om bij de instroom in het middelbaar beroepsonderwijs deficiënties op te sporen bij cursisten ten einde door gerichte remediëring het interne rendement van de betreffende opleiding te kunnen verbeteren. De belangrijkste onderdelen van het pakket zijn de opgavenbank, de administratiemodule en de toetsmodule.
Wat betreft vraagformat zijn de opgaven ongeveer gelijk verdeeld over de typen meerkeuze-vraag en kort open antwoord vraag.
De opgavenbank De basis voor WISCAT-bo wordt gevormd door een opgavenbank van ongeveer 700 opgaven. Deze opgaven beogen de eindtermen te meten van niveau 1 tot en met
De administratiemodule De administratiemodule vervult de volgende functies. • Aanpassen van de software zodat de toetsresultaten optimaal bruikbaar zijn voor de specifieke opleidings-
Alle 700 opgaven zijn op basis van proefafnames bij vele honderden proefpersonen uit de doelgroep geschaald met het OPLM-model (Verhelst & Glas, 1995). Dit is een itemresponsmodel dat naast de moeilijkheidsgraad ook een parameter voor het discriminerend vermogen van de opgave onderscheidt.
Tabel 2. Verdeling van opgaven over KSE-niveaus en –domeinen. Domein Rekenen en meten Meetkunde Informatieverwerking, kans en statistiek (woord)algebra, verbanden, grafieken, functies Totaal
82 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
KSE-1
KSE-2
KSE-3
KSE-4
Totaal
85 8 14 3 110
118 18 21 16 173
75 37 33 65 210
47 79 23 55 204
325 142 91 139 697
Itembanking en toetsystemen
situatie van de gebruiker. WISCAT-bo is over de volle breedte van het middelbaar beroepsonderwijs inzetbaar. Maar niet alle ruim 700 opleidingen in dit veld stellen dezelfde instroomeisen voor rekenen/wiskunde. Daarom moet een gebruiker, wanneer die zich voor het eerst aanmeldt bij de administratiemodule, het pakket op bepaalde onderdelen instellen. Zo dient bijvoorbeeld aangegeven te worden of het gaat om een basisberoepsopleiding of een vakopleiding. In het laatste geval wordt de cesuur op de vaardigheidsschaal hoger gelegd Tevens dient de gebruiker op te geven welke domeinen (zie tabel 2) in de toetsen aan bod moeten komen. Niet alle domeinen zijn even relevant voor bepaalde beroepsopleidingen. In een opleiding voor kapster, bijvoorbeeld, is kennis en vaardigheid op het gebied van meetkunde en (woord)algebra geen noodzakelijke voorwaarde om de vaktheorie in die opleiding te kunnen volgen. Een gebruiker kan in zo’n geval deze domeinen ‘uitzetten’.
Toetsresultaten van: 34271 R. Gimbrère Datum toetsafname Instelling aftestgrens
• Cursisten inplannen voor een toetsafname. De toetsmodule kan pas een toets samenstellen en afnemen als er een cursist is ingepland voor een toetsafname. Dit betekent dat een cursist geen toets kan maken zonder dat zijn docent daarvan op de hoogte is. Vrijblijvend toetsen maken om op die manier kennis te nemen van de opgaven in de bank is bij verantwoord gebruik dus uitgesloten. • Administreren van de resultaten. Alle toetsafnamegegevens en ook de toetsuitslag worden opgeslagen en kunnen door de gebruiker worden opgevraagd. Het toetsresultaat wordt gerapporteerd in de vorm van een schaalwaarde. WISCAT-bo geeft een interpretatie van die schaalwaarde in termen van het KSE-niveau waarop de betreffende cursist functioneert en in termen van voldoende of onvoldoende beheersing gelet op het niveau van de opleiding die gevolgd wordt. Afhankelijk van het type toets dat is afgenomen, wordt tevens een scoreprofiel gegeven dat inzicht
Instroomniveau: KSB-2 28-09-99 111
Flitstoets Beslissing Functioneel niveau Profieltoets (totaalscore) Beslissing Functioneel niveau w Domein 1: Rekenen w Domein 2: Meetkunde w Domein 3: Informatie w Domein 4: Algebra Figuur 1. Voorbeeld van een rapportage voor de docent.
01-10-99 111
103 Onvold KSE-3 102 Onvold. KSE-3 111 90 107 108
Itembanking en toetsystemen
geeft in sterke en zwakke punten van de betreffende cursist. Figuur 1 is een voorbeeld van een rapportage die gebruikers te zien kunnen krijgen. In deze voorbeeldrapportage staan alle behaalde toetsresultaten van cursist R. Gimbrère. Op 28 september 1999 heeft deze cursist een Flitstoets afgelegd met onvoldoende resultaat. De cursist is een instromer in een administratieve opleiding op KSB-2 niveau. De behaalde score van 103 is lager dan de voor deze opleiding standaard gehanteerde aftestgrens van 111. Bij laatstgenoemde schaalwaarde beheerst men de eindtermen van niveau KSE-3, wat, volgens documenten waarin de relatie tussen KSB en KSE beschreven is, voldoende is om het onderwijs in een KSB-2 opleiding te kunnen volgen. De betekenis van de behaalde score wordt uitgedrukt in het KSE-niveau waarop de cursist functioneert maar waarvan de betreffende eindtermen nog niet allemaal beheerst worden. In dit geval is het functionele niveau KSE-3. Om betere aanknopingspunten te krijgen voor een remediërende cursus wordt R. Gimbrère kort daarna door zijn docent ingepland voor een Profieltoets. De uitslag daarop is, zoals verwacht, nagenoeg gelijk aan die van de Flitstoets maar de profielscore geeft aan welke leerstofonderdelen ‘onder de maat’
zijn. De vaardigheidsschattingen van zowel domein 2, 3 als 4 blijven onder de nagestreefde waarde van 111 maar alleen van de schatting van domein 2 is met voldoende zekerheid (90%) te zeggen dat die achterblijft ten opzichte van de schatting op de hele toets. Deze schatting is daarom vet weergegeven. Voor de docent is dit een duidelijke aanwijzing voor de inrichting van een remediërende cursus.
De toetsmodule De toetsmodule is het programma-onderdeel dat toetsen samenstelt en afneemt en de resultaten rapporteert naar de cursisten. De toetsmodule in WISCAT-bo kan twee typen toetsen genereren: de Flitstoets en de Profieltoets. Tabel 3 geeft de kenmerken van beide toetsen weer. Zoals de naamgeving al doet vermoeden gaat het bij de Flitstoets om een deficiëntietoets die in zeer korte tijd kan worden afgenomen. De toets heeft slechts tot doel om instromende cursisten te verdelen in ‘beheersers’ en ‘niet-beheersers’ van het vakgebied rekenen/wiskunde. Tijdens de toetsafname wordt bij de selectie van elk nieuw item geprobeerd de moeilijkheidsgraad zo goed mogelijk af te stemmen op de lopende vaardigheids-
Tabel 3. Kenmerken van de Flits- en Profieltoets. Kenmerken
Flitstoets
Profieltoets
Functie Itemselectie Inhoudelijke opbouw Toetslengte Stopbeslissing Rapportage
Wie voldoet aan de instroomeisen? Adaptief Geen toetsmatrijs Tussen 10 en 15 opgaven Toetsing of schatting In termen van voldoende of onvoldoende beheersing
+ identificeren van sterke en zwakke punten Adaptief Volgens toetsmatrijs Tussen 12 en 40 opgaven Toetsing of schatting
84 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Profielscore
Itembanking en toetsystemen
schatting1. Op deze wijze kan met een relatief korte toets een nauwkeurige schatting van de vaardigheid worden gemaakt. Uit simulatiestudies is gebleken dat het verantwoord is om beslissingen te nemen over voldoende of onvoldoende beheersing met Flitstoetsen die tussen de 10 en 15 opgaven lang zijn (zie ook de volgende paragraaf). Tussen de 10e en de 15e opgave bepaalt het toetsalgoritme wanneer de toetsafname beëindigd kan worden. Er zijn hiervoor twee verschillende methodes uitgewerkt. In de eerste methode bepaalt een statistische toetsing na elk gegeven antwoord of de kans op misclassificatie (hiervan is sprake als over een
cursist ten onrechte de beslissing ‘beheerser’ of ‘niet beheerser’ genomen wordt) gelijk aan of kleiner is dan een bepaalde criteriumwaarde, bijvoorbeeld 10%. Als dit het geval is, wordt de toets gestopt. In de tweede methode wordt na elk antwoord een betrouwbaarheidsinterval gelegd rondom de laatste vaardigheidsschatting. De toets wordt afgebroken zodra de cesuur onder of boven het betrouwbaarheidsinterval ligt en er met een bepaalde zekerheid, bijvoorbeeld 90%, geconcludeerd kan worden dat de betreffende persoon een (niet) beheerser is. Als de toetsafname gestopt is, krijgt de cursist onmiddellijk de resultaten gepresenteerd. Dit
voldoende kennis/vaardigheid
moeilijkheidsgraad
aftestgrens
onvoldoende kennis/vaardigheid = betrouwbaarheidsinterval = vaardigheidsschatting = moeilijkheidsgraad
1
2
3
4
5
6
7
8
9
10
11
12
toets- lengte
Figuur 2. Grafische weergave van een toetsafname van de Flitstoets. 1 Dit is niet helemaal conform de werkelijkheid. In feite kiest het toetsalgoritme voor het item dat de grootste informatie waarde heeft bij de lopende vaardigheidsschatting. Bij het Raschmodel zal dat inderdaad het item zijn waarvan de moeilijkheidsgraad het best correspondeert met de lopende vaardigheidsschatting, maar bij het hier gebruikte OPLM-model hoeft dat niet altijd het geval te zijn.
Itembanking en toetsystemen
gebeurt grafisch door zijn vaardigheid af te beelden op de vaardigheidsschaal waar ook de KSE-niveaus en de van toepassing zijnde cesuur op afgebeeld zijn. De cursist ziet in één oogopslag of hij voldoende of onvoldoende beheersing heeft en, in het laatste geval, hoe ver hij van beheersing verwijderd is. In figuur 2 (p. 85) wordt een toetsafname van de Flitstoets grafisch weergegeven. Duidelijk is te zien dat de toets zich qua moeilijkheidsgraad aanpast aan het responspatroon van de betreffende cursist. Omdat de cursist veel goede antwoorden geeft (10 van de 12 opgaven) stijgt de vaardigheidsschatting vrij geleidelijk. Omdat de opgaven qua moeilijkheidsgraad deze stijgende lijn volgen, komt de toets als geheel op een hoger niveau te liggen dan wanneer de cursist meer foute antwoorden zou hebben gegeven. Merk op dat vaardigheidsschatting en moeilijkheidsgraad regelmatig zeer dicht bij elkaar liggen. Na beantwoording van de 12e opgave breekt het toetsalgoritme de toetsafname af. Het 90%- betrouwbaarheidsinterval rondom de lopende vaardigheidsschatter is zo klein geworden dat het nu
niveau 1
niveau 2
helemaal boven de cesuur ligt. Dit betekent dat de kans op een verkeerde beslissing (ten onrechte besluiten tot beheerser) kleiner is dan 10%. De Profieltoets wijkt op een aantal punten aanzienlijk af van wat hierboven over de Flitstoets is gezegd. Omdat er een profielscore gegeven moet worden, zal het toetsalgoritme bij de selectie van een item niet alleen letten op de moeilijkheidsgraad van de opgave maar ook op de inhoud van de opgave met het oog op het bereiken van een evenwichtige verdeling van opgaven over de relevante domeinen. De efficiëntie van het toetsproces wordt daardoor aangetast, wat teruggevonden wordt in het feit dat Profieltoetsen doorgaans langer zijn dan de gemiddelde Flitstoets (zie ook de volgende paragraaf). De minimale en maximale toetslengte zijn vastgesteld op het aantal domeinen dat ‘aanstaat’ vermenigvuldigd met 6 respectievelijk 10. Als er twee domeinen ‘aanstaan’ bedraagt de minimum toetslengte dus 12 opgaven en de maximum toetslengte 20 opgaven. Bij vier domeinen 24 en 40 opgaven.
niveau 3
niveau 4
niveau 5
Hele toets Rekenen/meten Meetkunde Informatie Algebra Uw kennis en vaardigheid op het gebied van rekenen/wiskunde is voldoende om de beroepsopleiding van uw keuze met succes te kunnen volgen.
Extra aandacht voor de leerstof van domein 2 is gewenst. Neem hierover contact op met uw docent.
Figuur 3. Rapportage voor de cursist naar aanleiding van een gemaakte Profieltoets.
86 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Itembanking en toetsystemen
Net als bij de Flitstoets bepaalt het toetsalgoritme binnen de grenzen van de minimum en maximum toetslengte wanneer de toetsafname gestopt wordt. De rapportage naar de cursist geschiedt grafisch zoals weergegeven in figuur 3. Het vermogen van de Profieltoets om met betrekking tot domeinen verschillen in beheersing te detecteren, is gebaseerd op een assumptie van de itemreponstheorie die zegt dat de vaardigheid van een kandidaat geschat kan worden met elke willekeurige set van items uit de IRT-geschaalde itembank (steekproefonafhankelijke vaardigheidsschatting). Bij de Profieltoets is sprake van twee, drie of vier deeltoetsen, afhankelijk van de toetsinstelling van de individuele gebruiker. Volgens de itemresponstheorie moeten de vaardigheidsschattingen op deze deeltoetsen min of meer (behoudens een foutenmarge die afhankelijk is van de meetnauwkeurigheid die de itembank toestaat) aan elkaar gelijk zijn. Als dit voor een bepaalde deeltoets niet het geval is, gaat het itemresponsmodel voor de betreffende persoon kennelijk niet op. Een mogelijke oorzaak zou kunnen zijn dat die persoon op het domein dat met de betreffende deeltoets gemeten wordt, kennis en vaardigheden mist waarover hij naar verwachting zou moeten beschikken. Van deze assumptie is bij de Profieltoets gebruik gemaakt om achterstanden op te sporen ten aanzien van één of meer domeinen. Eenvoudig
gezegd detecteert WISCAT-bo een deficiëntie als de bovengrens van een betrouwbaarheidsinterval rondom de vaardigheidsschatting op een bepaald domein kleiner is dan de vaardigheidsschatting op de hele toets.
Efficiëntie en nauwkeurigheid van de Flitsen Profieltoets Problematisch bij het beschrijven van de kwaliteit van een adaptief toetspakket is dat er niet één of enkele maar vele honderden verschillende toetsen zijn op basis waarvan beslissingen over cursisten genomen kunnen worden. Het is niet doenlijk om van al die mogelijke toetsen de kwaliteit te onderzoeken in een veldstudie. Simulatiestudies bieden hiervoor een oplossing. In dergelijke studies worden toetsafnames gesimuleerd door op basis van het gekozen itemresponsmodel antwoorden te genereren voor een persoon met een bepaalde vaardigheid. Het grote voordeel van simulatiestudies is dat er zowel een ware vaardigheid is (de vaardigheid van de ‘persoon’ voor wie een toetsafname gesimuleerd wordt) als een geschatte vaardigheid op basis van de toetsafname. De distantie daartussen is een maat voor de nauwkeurigheid van de betreffende toets. Voor de Flits- en de Profieltoets zijn, in allerlei varianten, duizenden toetsafnames gesimuleerd. Over de
Tabel 4. Efficiëntie en nauwkeurigheid van de Flits- en Profieltoets. Type toets Flitstoets • KSB-2 • KSB-3 Profieltoets • KSB-2 • KSB-3
Percentage correcte beslissingen
Gemiddelde toetslengte
93,7 94,7
13,0 13,7
96,0 91,9
27,5 30,7
Itembanking en toetsystemen
nauwkeurigheid van beide toetsen wordt hier niet gerapporteerd in termen van het absolute verschil tussen ware en geschatte vaardigheid maar in termen van beslissingsconsistentie. Van dit laatste is sprake als de beslissing die op grond van de toetsuitslag genomen wordt identiek is aan de beslissing die op grond van de ware vaardigheid genomen zou moeten worden. In tabel 4 wordt gerapporteerd over de efficiëntie (gemiddelde toetslengte) en de nauwkeurigheid van enkele varianten van de Flits- en de Profieltoets. De resultaten zijn gebaseerd op een toetssituatie waarin alle domeinen ‘aan’ stonden. Voor de Profieltoets betekent dit dat de minimum toetslengte 24 opgaven was en de maximum toetslengte 40 opgaven.
Besluit: op naar een WISCAT-ho? In deze bijdrage is een schets gegeven van een toetspakket dat binnenkort beschikbaar komt voor het middelbaar beroepsonderwijs en dat tot doel heeft instromende cursisten te toetsen op hun kennis en vaardigheid ten aanzien van het vak rekenen/wiskunde. Uit de verstrekte informatie mag worden geconcludeerd dat dit pakket voldoet aan alle vier in de inleiding geformuleerde eisen voor centraal vervaardigde toetspakketten. Interessant is dan de vraag of een dergelijk toetspakket ook ontwikkeld zou kunnen worden voor het hoger onderwijs, waar, op een ander niveau, min of meer dezelfde problematiek speelt ten aanzien van wiskundedeficiënties als in het middelbaar beroepsonderwijs. In principe kan die vraag bevestigend beantwoord worden. De principes van adaptief toetsen en de tweetraps-beslissing middels het achtereenvolgens afnemen van een Flits- en een Profieltoets zouden in het hoger onderwijs ook een efficiënte procedure kunnen zijn om deficiënties op te sporen en het effect van bijspijkercursussen te vergroten. Startpunt en tevens lastigste onderdeel van de ontwikkeling van een WISCAT-ho is het opstellen van een document met begintermen voor reke-
88 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
nen/wiskunde. De ervaringen in het verleden hebben geleerd dat het niet realistisch is te veronderstellen dat voor die begintermen eenvoudig de eindtermen van het voortgezet onderwijs genomen kunnen worden.
Literatuur Baker, F.B. (1985). The basics of item response theory. Portsmouth (NH), Heinemann. Harskamp, E.G., & Suhre, C.J.M. (1992). Rekenen/wiskunde voor het beroepsonderwijs aan volwassenen. Groningen: RION, Instituut voor Onderwijsonderzoek. Ministerie van Onderwijs, Cultuur en Wetenschappen, 1998. OC&W in kerncijfers 1998. Internetpagina: http://www.minocw.nl/kerncijf/ Straetmans, G.J.J.M., & Eggen, T.H.J.M. (1998). Computerized Adaptive Testing. What it is and how it works. Educational Technology, 38, 1, 45-52. Verhelst, N.D., & Glas, C.A.W. (1995). The one-parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds). Rasch models. Foundations, recent developments and applications. (pp 215-238). New York: Springer Verlag. Vispoel, W.P., Rocklin, T.R., & Wang, T. (1994). Individual differences and test administration procedures: a comparison of fixed-item, computerized-adaptive, and self-adapted testing. Applied Measurement in Education, 7, 53-79. Voogt, J.M., & Vlas, W.D.J. (1995). Aansluiting havohbo: vereiste en gewenste wiskunde-kwalificaties. Enschede: OCTO, Onderzoekscentrum Toegepaste Onderwijskunde, Universiteit Twente.
Toetssoftware toegepast in de onderwijspraktijk
4
TOETSSOFTWARE TOEGEPAST IN DE ONDERWIJSPRAKTIJK Automatisch toetsen met Question Mark drs. G.J. Veldhuis Universiteit Leiden, faculteit Letteren
1. Inleiding Het toetspakket, hoe ziet het eruit? Binnen de Leidse Letterenfaculteit is enige jaren ervaring opgedaan met automatisch toetsen. Er wordt binnen de faculteit automatisch getoetst met WebCT, Hologram en Question Mark. Question Mark is een pakket speciaal ontwikkeld om automatische toetsen mee te ontwikkelen en af te nemen. In deze uiteenzetting wordt weergegeven hoe Question Mark wordt gebruikt aan de Leidse Letterenfaculteit. Natuurlijk is het gebruik van Question Mark niet uit de lucht komen vallen. Voordat het pakket werd aangeschaft is er een uitgebreide inventarisatie uitgevoerd naar de toetspakketten die destijds op de markt beschikbaar waren, maar het gaat te ver om hierop in te gaan. Wel zullen de wensen die een aantal jaren geleden binnen onze faculteit zijn geformuleerd ten aanzien van automatisch toetsen wor-
den opgesomd. Belangrijke aspecten die bij de inventarisatie destijds centraal stonden waren; het pakket dient eenvoudig te zijn in gebruik, de kosten dienen beheersbaar te zijn, het pakket dient individueel door ontwikkelaars/ docenten gebruikt te kunnen worden, meerdere studenten dienen gelijktijdig getoetst te kunnen worden, het pakket dient in commerciële handen te zijn en voor langere tijd technisch ondersteund te blijven, er dient weinig overhead noodzakelijk te zijn en er dient geen ingewikkeld op te tuigen en te onderhouden toetsitembank-systeem noodzakelijk te zijn. Destijds voldeed Question Mark voor een groot gedeelte aan geformuleerde eisen. Het pakket werd aangeschaft bij de Question Mark distributeur in Nederland, STOAS. Hierna hebben wij ervaring opgedaan met het pakket. In dit artikel wordt geen informatie gegeven over de werking van het pakket, deze informatie kan betrokken worden bij de leverancier. Wel wordt informatie gegeven
Toetssoftware toegepast in de onderwijspraktijk
over de gevolgde werkwijze en processen die een belangrijke rol spelen bij de constructie van automatische toetsen. Question Mark bestaat uit de volgende drie onderdelen. I. Question Mark designer II. Question Mark presenter III. Question Mark reporter I.
Question Mark designer stelt de toetsontwikkelaar in staat om vragen te ontwikkelen, feedback aan de vragen toe te voegen, en (proef)toetsen samen te stellen. II. Question Mark presenter dient ervoor om de (proef)tentamens aan studenten aan te bieden, dit is ’het presentatiejasje’ van het pakket. III. Question Mark reporter dient voor de afwikkeling van de toets, waaronder de beoordeling en statistische bewerking van toetsen en toetsvragen vallen. De mogelijkheden binnen Question Mark zijn vrij basaal. Het werken met Question Mark is daarom relatief eenvoudig en inzichtelijk; nadat men de bekende beginnersproblemen heeft overwonnen, kan snel met het pakket aan de slag worden gegaan. Ook de driedeling van het pakket draagt ertoe bij dat toetsontwikkelaars duidelijk weten waar zij mee bezig zijn. Question Mark in zijn huidige versie bestaat al enkele jaren en is voor gebruikers van Windows een ouderwets ogend en star programma. Er kleven dus wel een aantal nadelen aan het gebruik van Question Mark, hierop wordt later ingegaan. Binnen de Leidse Letterenfaculteit wordt Question Mark gebruikt door docenten en docentgroepen. Meestal wordt in projectteams gewerkt om delen van het onderwijs binnen een opleiding om te vormen zodat er automatisch getoetst kan worden. Op dit moment wordt binnen de faculteit gebruikt gemaakt van Question Mark bij de volgende opleidingen: Geschiedenis, Engels, Nederlands en Kunstgeschiedenis.
90 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
2. Toetsconstructie, van stof naar toets ... Hoe zou je nu kunnen komen tot een automatische toets? Wat zijn de te volgen stappen? De te volgen aanpak verschilt waarschijnlijk per instelling. Er zal altijd gekeken moeten worden naar de mogelijkheden die er politiek en organisatorisch gezien binnen een organisatie liggen. Er kan zeker niet één bepaalde werkwijze worden ontwikkeld die algemeen geldend is en in alle situaties succes verzekerd. Omdat deze ‘sleutelwerkwijze’ niet zomaar uit de kast kan worden getrokken, moet deze wel worden opgesteld indien men met automatisch toetsen gaat beginnen. Dit vergt enig handwerk, maar de inspanning verdient zich tijdens het ontwikkelproces ruimschoots terug. De binnen onze faculteit gevolgde werkwijze was voor alle partijen begrijpelijk en leidde tot goede bruikbare resultaten. De eindproducten zijn inmiddels ingezet in het onderwijsproces en stemmen overwegend naar tevredenheid. De ontwikkelde werkwijze zal hieronder worden toegelicht. De werkwijze Allereerst dient er een projectplan te worden opgesteld. Dit projectplan wordt geschreven door de uitvoerende opleiding of sectie in samenwerking met de binnen de faculteit opererende projectgroep Computer Ondersteund Onderwijs. In dit projectplan staan algemene gegevens als: fasering, doelstelling en deeldoelen, beoogde uitvoerder(s), projectleider en begeleidingscommissie, looptijd, benodigde formatie, en het implementatietraject. Het beschrijven van deze aspecten is van het grootste belang voor het welslagen van het project. De betrokken opleiding toont haar commitment ten opzichte van de ontwikkeling en de implementatie van de uitkomsten van het project, onderschrijft het projectplan en wordt na formalisering verantwoordelijk voor de uitvoering. De begeleidingsgroep, waarin diverse docenten vanuit de opleiding zitting nemen, is van
Toetssoftware toegepast in de onderwijspraktijk
groot belang voor het vergroten van het draagvlak ten opzichte van de op handen zijnde verandering. In deze begeleidingsgroep kunnen docenten meedenken en waar nodig ook meewerken aan de productie en revisie van vragen. Goedkeuring Het projectplan wordt voorzien van een advies en ter goedkeuring voorgelegd aan het faculteitsbestuur. Indien het project door het faculteitsbestuur is geaccordeerd, kan er met de uitvoering van het project worden gestart. Eventuele aanstellingen van tijdelijke krachten (extra docent- of student-assistenturen) worden geformaliseerd. Leerstofanalyse Na goedkeuring kan begonnen worden met het analyseren van de leerstof. De belangrijkste onderdelen uit de leerstof worden beschreven en er wordt een sequentiering in de te leren stof aangebracht. Zonodig worden eindtermen scherper gesteld, zodat eindterm en toets goed op elkaar aansluiten. Deze analyse vormt de basis van de latere itembanken de zogenaamde ‘bibliotheken’, waarover later meer. Constructie van de vragen Na de analyse kunnen de uiteindelijke toetsvragen worden opgesteld. Dit gebeurt in een tekstverwerkingprogramma, bijvoorbeeld Word of WordPerfect. De vragen moeten volgens een basisstructuur worden opgesteld zodat ze later eenvoudig kunnen worden geïmporteerd in het toetsprogramma (zie stap 1 in tabel I). Natuurlijk kunnen de vragen ook rechtstreeks in Question Mark worden gemaakt. Om te zorgen dat de vervaardigde vragen later niet meer te exporteren zijn naar een ander toetspakket, is er voor gekozen om de vragen in een tekstverwerkingsprogramma te construeren. De vragenbestanden in het tekstverwerkingsprogramma dienen als een backup voor wanneer er bestanden zoek mochten
raken en voor eventuele export naar andere programmatuur. Vragen coderen Na het maken van de vragen moeten de vragen worden gecodeerd. Hiervoor moet de speciaal door Question Mark te lezen code worden gebruikt. Alle vragen moeten worden voorzien van een unieke code. Deze unieke code stelt docenten in staat later te traceren welke student welke vragen heeft gekregen (belangrijk voor het eventueel later laten inzien van de toetsen en voor de vragenanalyse). De codering kan ook in een eerder stadium worden toegewezen, maar vaak hebben toetsconstructeurs nog geen duidelijk beeld hoeveel vragen er exact over desbetreffende onderdelen worden gesteld, deze stap wordt daarom meestal later uitgevoerd. Naast deze vraag-unieke code dienen alle vragen en antwoordcategorieën een door Question Mark te lezen code mee te krijgen. Alle vragen dienen te beginnen met een ‘?’, dit is voor Question Mark het teken dat er een nieuwe vraag begint. Alle informatie die na dit vraagteken staat wordt door Question Mark gezien als informatie behorende bij de betreffende vraag, tot aan het volgende ‘?’. Vervolgens worden alle antwoordcategorieën gecodeerd met een ‘@’. ‘@-’ voor een foutief antwoord, ‘@+’ voor een goed antwoord (zie stap 2 in tabel I). Invoeren in Question Mark Als (bijna) alle vragen gereed zijn, na een aantal redigeer rondes, worden zij in Question Mark geïmporteerd. Dit kan met de conversiemodule in Question Mark om de vragenbestanden een voor Question Mark leesbare extensie mee te geven (QDT, QDL). In Question Mark kunnen de vragen worden bewerkt totdat de gewenste layout is verkregen. Ook wordt in deze fase aan alle vragen punten toegekend. Standaard wordt door het pakket aan een meerkeuze vraag 1 punt toegekend, maar aan bijvoorbeeld een matchingvraag 4 punten. Om een evenwichtige toets te krijgen (indien men op de
Toetssoftware toegepast in de onderwijspraktijk
Tabel 1 In welke stad werd Willem van Oranje vermoord?
? ..... Code .... In welke stad werd Willem van Oranje vermoord? Waar werd Willem van Oranje vermoord?
Dokkum Delft Dordrecht ’s-Gravenhage
@- Dokkum @+ Delft @- Dordrecht @- ’s-Gravenhage
Stap 1. Vragen contrueren in tekstverwerker
Stap 2. Vragen coderen
at random methode de toets laat samenstellen), is het belangrijk dat de puntentelling voorafgaande aan de toets, of tijdens de berekening van de toetsscore na de toets wordt gecorrigeerd met behulp van een macro. Indien deze correctie niet plaatsvindt, bestaat de kans dat sommige studenten door het frequent krijgen van matchingvragen in totaal meer punten kunnen behalen voor een toets, in vergelijking met hun medestudenten die naar verhouding meer 1-puntsvragen krijgen. Alle vragen krijgen verder een ‘OK-, of doorgaan-’ knop. Dit is een arbeidsintensieve fase. (zie stap 3 in tabel I). Indelen in itembanken/ ‘bibliotheken’ Tijdens het ‘layouten’ van de vragen, wordt een begin gemaakt met de indeling van de vragen in itembanken. De vragen die betrekking hebben op een bepaald onderwerp en vragen met een bepaalde vorm, kunnen in een zogenaamde bibliotheken worden geplaatst. Voor de latere toetsconstructie is deze fase van groot belang. Deze fase vormt de basis voor het formeren van de uiteindelijke toets. Samenstelling toetsen Als de vragen en bibliotheken gereed zijn, kunnen de
92 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
O Dokkum O Delft O Dordrecht O ’s-Gravenhage
Stap 3. Vragen importeren en bewerken in Question Mark
voorbereidingen worden getroffen voor de constructie van de toetsen. Er moet worden bepaald hoeveel vragen de toets zal bevatten, in dit voorbeeld 40 vragen. Er moet worden bepaald of de toets at random wordt samengesteld, of dat de toets met vaste vragen en volgorde wordt aangeboden. Wij prefereren een at random toewijzing van de vragen. In geval van een at random toewijzing, wordt vervolgens bepaald hoeveel vragen per bibliotheek in de toets gesteld worden (docenten dienen een ‘toetssleutel’ vast te stellen). In onderstaand voorbeeld zijn er in totaal 600 vragen geconstrueerd, verdeeld over 5 bibliotheken. • Bibliotheek 1 bevat 73 vragen; hieruit worden 6 vragen in de toets opgenomen. • Bibliotheek 2 bevat 160 vragen; hieruit worden 10 vragen in de toets opgenomen. • Bibliotheek 3 bevat 67 vragen; hieruit worden 6 vragen in de toets opgenomen. • Bibliotheek 4 bevat 150 vragen; hieruit worden 9 vragen in de toets opgenomen. • Bibliotheek 5 bevat 150 vragen; hieruit worden 9 vragen in de toets opgenomen. Vervolgens worden algemene instellingen vastgesteld, zoals de beschikbare toetstijd. Wij nemen 1 minuut per
Toetssoftware toegepast in de onderwijspraktijk
vraag als uitgangspunt. Dus in het voorbeeld wordt 40 minuten toetstijd vastgesteld. In de praktijk blijkt dit ruim voldoende. Uitlegschermen Hierna worden de uitleg schermen gemaakt. Deze zijn noodzakelijk om studenten te laten lezen hoeveel vragen zij kunnen verwachten, hoe veel tijd de toets in beslag neemt en wat voor soort vragen er in de toets zitten. Ook krijgen studenten de gelegenheid om met deze vraagsoorten te oefenen. Oefentoetsen construeren Er wordt een selectie van de vragen uit de bibliotheken samengesteld. Hiermee wordt de oefentoets samengesteld. Er moet een evenwichtige steekproef van de vragen in de bibliotheken worden genomen. Dezelfde uitlegschermen als bij de toets worden ook in de oefentoets gebruikt. Tenslotte wordt voor alle vragen van de oefentoets feedback toegevoegd.
3. Toetsprocedure Installeren De oefentoets wordt geïnstalleerd in de computerzalen, zodat studenten kunnen oefenen. De uiteindelijke toets wordt alleen op de toetsdag zelf beschikbaar gesteld. Toetsprocedure De toetsprocedure moet vooraf met de docenten worden doorgenomen. De toetsen worden in speciale computerzalen afgenomen. Docenten dienen te weten hoe het in zijn werk gaat, hoe studenten moeten inloggen, wat er moet gebeuren met eventuele calamiteiten. Er wordt ook een oefengelegenheid georganiseerd waar zowel docenten als studenten kunnen wennen aan deze manier van toetsen.
Toetsaccounts Er worden voor de toets speciale toetsaccounts aangemaakt die alleen op de toetsdag toegang geven tot de toets. Indien alle voorbereidingen zijn getroffen wordt de toets altijd onder begeleiding van een docent afgenomen.
4. Toetsbeoordeling en -analyse Opvragen gegevens Na de toets worden de toetsgegevens opgevraagd van de server. Question Mark koppelt zelf al een percentage toe aan ieder antwoordbestand. Hierna worden de gegevens gereed gemaakt om te exporteren. Importeren in spreadsheetprogramma De gegevens uit Question Mark worden in een spreadsheetprogramma geïmporteerd, bijvoorbeeld Excel. Hier kunnen diverse bewerkingen worden uitgevoerd. Indien de score moet worden bijgewerkt, kan een macro worden gebruikt. Ook een grafische voorstelling van de uitslagen behoort tot de mogelijkheden. Bijstellen toets Hierna wordt bekeken of de vraagstelling eenduidig was. Zijn er vragen die veelvuldig fout of juist goed zijn gemaakt? Vragen dienen te worden bijgewerkt of verwijderd indien blijkt dat er vragen extreem makkelijk of moeilijk zijn, of indien er vragen niet goed geformuleerd blijken te zijn. Tevens moet worden beoordeeld of de gebruikte normering voldoet. Indien de stof in de toekomst wijzigt, kunnen ook onderwerpen uit de bibliotheken worden verwijderd.
5 Ervaringen met automatisch toetsen Studenten Uit studentevaluaties blijkt dat studenten tevreden zijn over de automatische toetsen. Zij zeggen dat zij door de
Toetssoftware toegepast in de onderwijspraktijk
oefenmogelijkheden beter voorbereid op het tentamen komen. Hoewel niet alle studenten van de oefenmogelijkheden gebruik maken, wordt de oefentoets met een diagnostisch karakter als positief ervaren. Verder zeggen de meeste studenten dat zij toetsen met behulp van de computer een leuke manier van toetsen vinden. Hierbij dient te worden opgemerkt dat dagstudenten overwegend positief zijn over deze nieuwe manier van toetsen, maar avondstudenten zijn minder positief. Deze, meestal oudere, studenten hebben het gevoel dat zij hun ‘ei’ niet voldoende kwijt kunnen en sommige deeltijdstudenten hebben angst voor techniek. Hoewel er ruimschoots mogelijkheden zijn om te oefenen, blijkt dit in hun ogen een knelpunt te zijn. Overigens blijken deeltijdstudenten niet lager te scoren dan hun voltijd collegae. Docenten Uit evaluatiegesprekken met docenten die ervaring hebben opgedaan met automatisch toetsen blijkt dat zij het in het begin lastig vinden om te wennen aan het maken van meerkeuze vragen. Bij Letteren heerst een ‘open’ essaygerichte vragencultuur. Het construeren van gesloten meerkeuze vragen is in dat opzicht voor veel docenten een nieuwe manier van toetsen. Docenten dienen daarom ook, zeker in het begin, intensief te worden begeleid in het maken van vragen met gesloten antwoord categorieën en deze nauwkeurig te archiveren. Verder dienen docenten ook te leren omgaan met het toetspakket. Docenten zeggen dan ook dat zij het werken met automatische toetsen in het begin lastig vonden, maar later worden de meeste docenten enthousiast over de mogelijkheden en voordelen die automatisch toetsen met zich meebrengen. Docenten denken ook dat studenten beter voorbereid op het tentamen verschijnen. Voor- en nadelen van Question Mark Zoals eerder vermeld blijken aan het gebruik van Question Mark enkele voor- en nadelen te zitten. De
94 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
belangrijkste voor- en nadelen (zoals wij die hebben ervaren) zullen in deze paragraaf worden besproken, het zijn dus geen voor- en nadelen in vergelijking met andere toetspakketten. Voordelen van Question Mark • Laagdrempeligheid. Het gebruik van Question Mark is laagdrempelig te noemen, om twee redenen. Gebruikers kunnen na installatie op hun werkstation direct aan de slag. En voor de werking van Question Mark zijn niet veel ingewikkelde ingrepen noodzakelijk op de server van de instelling. Wel is voor de organisatie rondom toetsing technische ondersteuning door medewerkers binnen de instelling zeer gewenst. • Oefentoetsen. Een zeer belangrijke meerwaarde van automatisch toetsen is de mogelijkheden die aan studenten kan worden geboden om de toets te oefenen. Mits geïnstalleerd op een voor studenten bereikbare plek op het instellingsnetwerk, kunnen studenten op het eigen gekozen tijdstip gebruik maken van de oefenmogelijkheid. Op deze wijze kunnen studenten zich goed voorbereiden op het uiteindelijke tentamen. • Feedback. Question Mark biedt de mogelijkheid om feedback aan vragen en toetsen toe te voegen. Dit in combinatie met de zojuist besproken oefenmogelijkheid van het pakket biedt studenten gerichte mogelijkheden in het verkrijgen van beter inzicht in de leerresultaten. De mogelijkheden van de feedback functie zijn wel beperkt, slechts aanbieden van korte teksten. • Type vragen. Er zijn verschillende vraagtypen mogelijk. Enkele voorbeelden zijn: 4 keuze vragen, matchingvragen en hotspotvragen. De mogelijkheden voor open vragen zijn beperkt. • Resultatenuitdraai. Een resultatenuitdraai biedt docenten de mogelijkheid om de vragen achteraf te analyseren en te bepalen of vragen wel of niet voldoen. Ook zit er een aantal statistische basismogelijkheden in het pakket. Analyse van de vragen en
Toetssoftware toegepast in de onderwijspraktijk
antwoordbestanden kunnen bijdragen tot het inhoudelijk aanscherpen van de toets. • Verschillende modules. De verschillende modules van Question Mark (designer, presenter en reporter) zorgen dat toetsconstructeurs en gebruikers, in onze situatie Letterenstudenten, niet over dezelfde mogelijkheden beschikken. Indien er geen scheiding is aangebracht tussen ontwerp en gebruikersmodulen kan er een situatie ontstaan dat onbevoegden bij bepaalde geclassificeerde informatie kunnen komen. Voor toetsconstructeurs is het duidelijk dat zij in gescheiden modulen werken aan de constructie, de afname en de verwerking van de toets. Deze scheiding versterkt het gevoel dat er met automatisch toetsen in verschillende fasen wordt gewerkt. • Bibliotheken. De toetsen kunnen met behulp van de bibliotheken worden opgebouwd. Indien de leerstof het komende jaar wijzigt, hoeven enkel die bibliotheken te worden aangepast waarvan de stof is veranderd. Bovendien kan de weging van verschillenende onderdelen in de toets verschillen. Nadelen van Question Mark • Technische beperking. Er zijn beperkte layout mogelijkheden in Question Mark. De gebruiker moet creatief zijn om de toets er behoorlijk uit te laten zien. Verder dienen de procedures consequent uitgevoerd te worden. Er kunnen na de conversie van tekstverwerker naar Question Mark wel aanpassingen worden uitgevoerd, maar deze zijn niet meer terug te exporteren naar het moederbestand in de tekstverwerker. Dus eventuele in Question Mark uitgevoerde wijzigingen dienen twee maal te worden uitgevoerd. Het is tevens lastig om vanuit Question Mark tentamens te printen. Dit is wel mogelijk, maar er worden in de meeste gevallen slechts twee vragen per pagina geprint. Wij adviseren docenten om een backup-toets achter de hand te hebben, mocht er een technisch probleem optreden tijdens de toets.
• Geen mogelijkheden voor afstandtoetsing. In Question Mark bestaan geen mogelijkheden voor afstandtoetsing. In Question Mark Perception, de opvolger van Question Mark wordt dit wel mogelijk. Of er conversieproblemen ontstaan indien Question Mark-gegevens in Question Mark Perception worden geïmporteerd, is niet duidelijk. Er bestaan wel mogelijkheden om toetsen op CD-roms uit te delen aan studenten, maar er zijn dan geen controle mogelijkheden meer. Dit laatste punt is overigens een algemeen probleem bij automatisch toetsen. • Interne navigatie. Er bestaan binnen Question Mark twee mogelijkheden om te navigeren. De navigatie boven in het scherm en de toegevoegde ‘OK- en doorgaan-’ knoppen meestal onder aan de pagina (zie tabel I, stap 3). Indien een student deze ‘OK/doorgaan-’ knop niet na elke vraag gebruikt om de volgende vraag op te roepen, kan dit tot problemen leiden. De toetsgegevens worden indien de student enkel de navigatieknoppen boven in het scherm gebruikt slechts opgeslagen wanneer de toets wordt afgesloten. In geval van storing of andere technische problemen, is niet meer te herleiden waar in de toets de student zich bevindt. • Open vragen. Een lastig punt in Question Mark is de beperkte mogelijkheden voor het stellen van open vragen. Zoals in de meeste toetspakketten is tekstherkenning enkel mogelijk door vooraf de antwoordmogelijkheden in te geven. Meerwaarde van ICT De noodzakelijke tijdsinvestering voor een grondige constructie van automatische toetsen is aanzienlijk. De meerwaarde van het gebruik van automatisch toetsen zit in de tijdwinst tijdens het beoordelen van de resultaten. Met één druk op de knop kan dit worden geregeld. Automatische toetsen kunnen leiden tot een vergroting van de objectiviteit; er kunnen eenvoudig at random
Toetssoftware toegepast in de onderwijspraktijk
toetsen worden samengesteld, met voor iedere student een andere set vragen en met antwoordcategorieën in een andere volgorde gepresenteerd. Automatische toetsen maken het verder mogelijk om nieuwe docenten de vragenbank te laten bestuderen, zodat hiermee de overdracht kan worden ondersteund. Een laatste belangrijke meerwaarde van automatisch toetsen is dat er door studenten kan worden geoefend op ieder willekeurig tijdstip. Dit kan ook op andere manieren worden bewerkstelligd, maar studenten ontvangen na de oefening van een automatische toets direct feedback. Studenten kunnen door deze zelfdiagnostiek inzicht verkrijgen in hun leervorderingen.
96 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Toetssoftware toegepast in de onderwijspraktijk
Examiner: niet volmaakt, wel goed bruikbaar ir. G. Wolters Hogeschool van Utrecht, faculteit Natuur en Techniek
Historie Het toetsprogramma Examiner is één van de oudste bekende toetsprogramma's. In de DOS-versie bestaat het al minstens tien jaar. Ik kom uit de technische hoek en, om eerlijk te zijn, was ik allerminst gecharmeerd van het oude DOS-Examiner. Je kon absoluut niets met formules etc. Onze eerste keus voor een toetsprogramma binnen de Faculteit Natuur en Techniek van de Hogeschool van Utrecht was dan ook niet Examiner, maar het programma TIBS van Omega. Daar kon je tenminste, weliswaar op een omslachtige manier, via WP-macro's, formules en plaatjes afdrukken. We hoopten natuurlijk dat er snel een Windows-versie van TIBS zou komen. Die liet echter zo lang op zich wachten dat we gingen uitkijken naar andere mogelijkheden. Zo'n jaar of vijf geleden was er een zeer beperkte shortlist voor Windows-georiënteerde toetsprogramma's: we vonden dat alleen Examiner en Question Mark (nu Perception) in aanmerking kwamen. Na een vergelijking gaven we de voorkeur aan Examiner. Onze voorkeur was onder meer gebaseerd op de betere eigenschappen wat betreft toetsanalyse- en resultaatopslag; de betere mogelijkheden voor schriftelijke toetsing
en het kunnen werken met een toetsmatrijs. De vraag of de keus nu, vijf jaar later, anders zou zijn uitgevallen, wil ik hier onbeantwoord laten. Daarvoor zouden we opnieuw een gedetailleerde vergelijking moeten uitvoeren. Wel kan ik zeggen dat we nooit spijt hebben gehad van onze keus en dat we nog nooit serieus hebben overwogen om naar een ander toetsprogramma over te stappen. Zo'n overstap zou natuurlijk ook een groot probleem opleveren. Inmiddels zijn er heel wat toetsbanken in het Examiner-formaat binnen onze faculteit geproduceerd. Een overstap naar een ander systeem zou daarom een gigantisch conversie-probleem opleveren.
Conversie en uitwisselbaarheid Een groot probleem bij toets-software is dat de toetsvragen in het algemeen niet uitwisselbaar zijn. De mogelijkheden van conversie tussen het ene formaat en het andere zijn uiterst beperkt. De consequentie hiervan is dat de keus van een toetsprogramma buitengewoon belangrijk is en dat de prijs nooit doorslaggevend mag zijn. Zorgvuldig kiezen van een softwarepakket is altijd belangrijk, maar bij toetspakketten is dit wel heel sterk het geval. Nu is het ook weer niet zo dat men tot in lengte van
Toetssoftware toegepast in de onderwijspraktijk
dagen met handen en voeten is gebonden aan een eenmaal gekozen toetsprogramma. Converteren van toetsvragen door middel van simpel ‘knippen en plakken’ binnen Windows vergt iets in de orde van vijf minuten per vraag. Dat lijkt veel, maar het is toch ook weer relatief weinig als men dit vergelijkt met de 30 - 45 minuten die staan voor het maken van een goede meerkeuzevraag. Wij hebben in elk geval een aantal van onze oude TIBS-banken op deze manier in het Examiner-formaat omgezet.
ling, de volgorde van de vragen, de volgorde van de alternatieven en kiezen uit meerdere parallelvragen.
Functionaliteit van Examiner
De toetsbank wordt opgebouwd volgens een vertakkings- of boomstructuur met maximaal negen lagen. Men kan de items voorzien van kenmerken, zoals trefwoorden, een classificatie (kennis, begrip/inzicht, toepassing, analyse, synthese, evaluatie), gewichtsfactoren en moeilijkheidsgraad. Elke vraag kan worden voorzien van feedbackteksten die de student tijdens of na de toets kan worden aangeboden.
Wat kun je met een toetspakket, of meer in het bijzonder, met Examiner? • Toetsvragen vormgeven en opslaan in een database, • samenstellen van een toets vanuit de database volgens een trekkingsvoorschrift (een ‘toetsmatrijs’ of ‘toetsprofiel’), • afdrukken van een toets, • het op een computer laten maken van een toets, • het opslaan van de toetsresultaten, • het vaststellen van het resultaat (de score), • het analyseren van de toets en de toetsvragen.
Examiner kent verschillende vraagtypen: meerkeuzevragen, stellingvragen (juist/ onjuist), kort-antwoord open vragen. De vragen kunnen worden ingevoerd als parallelvragen (nooit meer dan één ervan in een toets) of als een serievraag of case-vraag (een serie bij elkaar horende vragen met eventueel een gemeenschappelijke inleidende tekst).
In de tekst kunnen steeds zogenaamde windows-objecten worden opgenomen, bijvoorbeeld formules, grafieken, tekeningen, afbeeldingen en zelfs geluids- en videofragmenten.
Met Examiner kan zowel schriftelijk als aan de computer worden getoetst. Bij schriftelijk toetsen moeten de resultaten worden ingelezen, bijvoorbeeld met een scanner. De ingelezen resultaten kunnen daarna met Examiner worden verwerkt (geanalyseerd, opgeslagen, afgedrukt).
Bij de analyse kan men van een toets onder meer bepalen: het gemiddelde, de mediaan, de standaard-deviatie, de betrouwbaarheid (KR21) en de standaardmeetfout. Van elke toetsvraag worden bij de itemanalyse berekend: de moeilijkheidsgraad, de discriminatiefactor (correlatiefactor PBS) en de respons per alternatief.
Het maken, het samenstellen van een toets gebeurt door het definiëren van een toetsmatrijs of een toetsprofiel. Elke toets wordt volgens het voorschrift van de toetsmatrijs uit de toetsbank getrokken, waarbij elke toets in principe uniek is. Bij het definiëren van een toetsmatrijs kunnen verschillende random-elementen worden gebruikt: het random trekken uit een verzame-
Het zou, in dit bestek, te ver voeren om alle functies van het toetsprogramma uitgebreid te bespreken. Laten we volstaan met vast te stellen dat Examiner als een zeer volledig en ook redelijk gebruiksvriendelijk programma kan worden beschouwd. Het is echter zeker niet volmaakt. Er blijft nog één en ander te wensen over. Laten we een paar zaken noemen.
98 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Toetssoftware toegepast in de onderwijspraktijk
• Voor de Nederlandse gebruiker ontbreekt een cijferberekening. Examiner bepaalt een score of scorepercentage en geeft aan of de kandidaat is geslaagd of gezakt, maar uit de score kan geen cijfer worden bepaald. Dit moet de gebruiker zelf doen, bijvoorbeeld met een kleine applicatie in MS Access. • De mogelijkheden om de itemkenmerken te gebruiken bij het samenstellen van de toets kunnen duidelijk worden verbeterd. Het zou bijvoorbeeld mogelijk moeten zijn om in het toetsprofiel op te kunnen geven: 50% kennisvragen, 50% toepassingsvragen. • Er zouden enkele nieuwe vraagtypen kunnen worden toegevoegd, bijvoorbeeld een numeriek kort-antwoord vraag (waarbij een antwoord niet als een woord maar als een getal wordt gelezen). • De installatie en het gebruik op een netwerk zou wat eenvoudiger moeten zijn, wat minder problemen moeten opleveren. Een moeilijke zaak, omdat netwerken zo verschillend zijn geconfigureerd. • Het gebruik van Examiner via het Internet, bijvoorbeeld naast of als onderdeel van leeromgevingen als Lotus LearningSpace, zou door de leverancier beter moeten worden gedocumenteerd.
Examiner in de onderwijspraktijk Examiner kan zowel schriftelijk als online worden gebruikt. Toetsen aan de computer (online) kan op verschillende manieren: men kan studenten diskettes met een toets geven of ze de toets per e-mail toesturen. Men kan de toets via een lokaal netwerk aanbieden en afnemen of men kan het Internet gebruiken als logistiek element. Al deze methoden leveren relatief weinig problemen op (behalve technische) zolang het gaat om formatieve toetsen (oefentoetsen). Summatieve toetsen (toetsen voor een cijfer) vereisen gecontroleerde omstandigheden, bijvoorbeeld toetsafname in computerzalen met toezicht.
Binnen de Faculteit Natuur en Techniek van de Hogeschool van Utrecht gebruiken we Examiner vrijwel uitsluitend schriftelijk. Binnen een paar opleidingen zijn wat proeven gehouden met toetsen via het netwerk, maar mede door verhuis- en andere systeemperikelen heeft dit nog nergens geleid tot structureel gebruik van online toetsen. We hopen dat daar in de loop van dit jaar verandering in komt. Met schriftelijke toetsen via een toetsbank kan men verschillende doelstellingen proberen te realiseren. Met ‘normaal’ gebruik van de bank door een docent of een vakgroep voor een schriftelijk tentamen is het belangrijkste doel meestal erg praktisch: men hoopt de immense berg correctiewerk tijdens en na de toetsperioden te verminderen. Maar het verhogen van de kwaliteit van de toetsen door een goede analyse van de toetsvragen kan ook de belangrijkste motivatie zijn. Bij andere opleidingen wordt een Examiner-toetsbank gebruikt voor een zogenaamde integrale kennistoets. In een integrale kennistoets wordt alle verworven kennis van een bepaalde periode getoetst, bij voorkeur met vragen die de afzonderlijke ‘vakken’ integreren. Naast projecten en practica (skills labs is het modernisme daarvoor) wordt dan nog slechts één integrale kennistoets per periode gehouden. Naast overwegingen van efficiency speelt hierbij de wens tot integratie van vakgebieden een grote rol. Een aantal andere opleidingen gebruiken Examiner met nog een andere doelstelling. Men wil studenten in de propedeuse goede feedback geven op hun leerproces. Ook is het bij de nieuwe vormen van zelfstandig leren van groot belang om uitstelgedrag tegen te gaan. Om dit te bereiken geeft men tweewekelijks een voortgangstoets voor alle (maximaal vijf) theorievakken. Bij een bepaalde score kan met de voortgangstoetsen een bonuspunt voor het tentamen worden verdiend. De mogelijkheden van het gebruik van een toetsbank zijn daarmee natuurlijk nog lang niet uitgeput. Bij
Toetssoftware toegepast in de onderwijspraktijk
online gebruik en bij het gebruik van een teleleerprogramma zijn er nog veel zinvolle mogelijkheden van frequent of flexibel te toetsen aan te geven.
Wie doet wat? De knelpunten bij de invoering zijn vaak meer van organisatorische aard dan van technische. Of misschien is organisatorisch ook niet het goede etiket. Er zijn bijvoorbeeld ook belangrijke hobbels te nemen betreffende de acceptatie, de attitude van docenten. Veel docenten zien toetsautomatisering als een inbreuk op hun zelfstandig functioneren. Ze moeten bijvoorbeeld samenwerken, tijd vooraf investeren, zich strikt aan afspraken houden, etc. Vaak zijn ze bereid veel extra werk te verrichten om dit te vermijden. Het zien en ondervinden van de voordelen van toetsautomatisering is vaak een overtuigend argument. Ik ben er echter van overtuigd dat een zekere mate van verplichting onontkoombaar is voor een succesvol implementatietraject. Een moeilijke kwestie daarbij is: wie moet een toetsprogramma binnen een opleiding of faculteit beheren? De docent? Eén persoon binnen elke opleiding? Een toetscentrum voor de hele faculteit? Wij zijn er vast van overtuigd dat het zeer verstandig is om op een tamelijk hoog organisatieniveau (bijvoorbeeld binnen een toetscentrum op faculteitsniveau) te zorgen voor voldoende expertise. Hoe gebruiksvriendelijk een toetsprogramma ook is, acht of negen van de tien individuele gebruikers zullen nooit voldoende vaar-
100 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
digheden weten op te bouwen. Binnen onze organisatie is er bijvoorbeeld voor gekozen om toetsbanken te maken (toetsvragen in te voeren) binnen een toetscentrum. Docenten kunnen hun vragen aanleveren volgens een overeengekomen sjabloon in Word. Het toetscentrum zorgt ook voor het verwerken (scannen, analyseren) van schriftelijke toetsen. Als er docenten of vakgroepen of opleidingen zijn die wèl interesse hebben om zelf met toetsbanken te werken, dan worden ze daarin gestimuleerd en ondersteund. Ze kunnen met hun problemen direct terecht bij het toetscentrum.
Conclusie We hebben met dit beknopte artikel het onderstaande aannemelijk willen maken: • dat het door de slechte conversiemogelijkheden tussen toetsprogramma's zeer belangrijk is om een goede keus te maken bij de aanschaf ervan; • dat Examiner een zeer volledig, goed bruikbaar maar geen volmaakt toetsprogramma is; • dat een toetsprogramma binnen de onderwijspraktijk op veel verschillende manieren en met verschillende doelen kan worden ingezet; • dat andere dan technische aspecten bij de implementatie vaak van doorslaggevend belang zijn; • dat het nuttig is om te zorgen voor voldoende expertise op een relatief hoog organisatorisch niveau, bijvoorbeeld binnen een toetscentrum.
Toetssoftware toegepast in de onderwijspraktijk
TestBet: een toetsprogramma gebaseerd op Multipele Evaluatie prof.dr. A. Dirkzwager Better Systems
1. Inleiding Het is algemeen bekend dat om bij Multiple Choise een zo hoog mogelijke score te krijgen, altijd een antwoord moet worden ingevuld en bij het niet kunnen beantwoorden van een vraag desnoods maar moet worden gegokt. Naarmate studenten minder weten, wordt met dit gokken meer meetfout geintroduceerd. Daardoor krijgen studenten die onvoldoende weten een te hoge kans om -toevallig- toch nog een voldoende te halen. De kans daar op wordt groter naar mate meer ‘herkansingen’ worden toegestaan. Dit probleem is rond 1966 (theoretisch) opgelost met de introductie van ‘proper scoring rules’ door Shuford c.s. Het nadeel van hun methode was dat deze zonder online computerfaciliteiten praktisch niet bruikbaar was - een computer van drie ton was nodig om een student een toets volgens deze methode te laten maken. Tegenwoordig kan worden volstaan met een PC. (Inter)netwerkvoorzieningen maken het docenten mogelijk elkaars toetsen te gebruiken en van elkaars (item)analyses kennis te nemen. Het voordeel van Multiple Choice toetsen, dat ze eenvoudig en snel zijn af te nemen en te scoren met papier en potlood, weegt daardoor bij het maken van een keuze voor deze toetsvorm een steeds minder zware rol. Er is in het onderwijs duidelijk
behoefte aan een betrouwbare objectieve toetsmethode die niet de nadelen van Multiple Choice kent. Multipele Evaluatie (gebaseerd op een ‘proper scoring rule’) is zo'n methode. Het systeem TestBet dat in deze bijdrage aan de bundel wordt beschreven, is gebaseerd op het principe van Multipele Evaluatie.
2. Multipele Evaluatie Regelmatig diagnostisch toetsen is voor goed onderwijs essentieel. De toetsen moeten dan echter wel zeer nauwkeurig (op itemniveau) kennis en vaardigheden meten. Dit is bij Multiple Choice toetsen niet het geval omdat per item slechts een dichotome score mogelijk is. Het antwoord is of goed of fout. Als een item goed beantwoord is, kan het goed gegokt zijn bij afwezigheid van enige kennis, of het kan perfect geweten zijn. Als een item fout beantwoord is, kan het een ongelukkige gok zijn terwijl de student zich bewust is het niet te weten, of er is sprake van een ernstige misvatting. Dat is het geval als de student er van overtuigd is het juiste antwoord gekozen te hebben terwijl het fout is. Misvattingen dienen zo snel mogelijk hersteld te worden. Multiple Choice toetsen leveren hiervoor niet de benodigde informatie. Traditioneel wordt als oplossing voor dit probleem gekozen voor het presenteren van een groot
Toetssoftware toegepast in de onderwijspraktijk
aantal gelijksoortige items en het middelen van de resultaten. Dat brengt echter weer het probleem met zich mee dat de items niet al te ‘gelijksoortig’ mogen zijn omdat dan de student min of meer mechanisch ‘gelijksoortige’ antwoorden gaat geven, of ze nu goed of fout zijn. Het heeft geen zin precies dezelfde vraag vele malen te herhalen zodat de docent dan gedwongen de twijfelachtige aanname moet maken dat een groot aantal verschillende vragen ‘hetzelfde’ meten, wat in het algemeen zeer onwaarschijnlijk is. Multipele Evaluatie kent deze problematiek niet. Multipele Evaluatie levert voor ieder item een score op een continue schaal. Deze schaal heeft een natuurlijke eenheid (‘100% perfect geweten’) en een natuurlijke nulpunt (‘Over dit item in het geheel niets geweten en ook geen misinformatie’). De itemscore wordt negatief als de student denkt een vraag juist te weten en dat blijkt niet zo (misinformatie) te zijn. Zeer negatief wordt de score in geval er sprake is van een ernstige misvatting. Multipele Evaluatie geeft dus per vraag nauwkeurige informatie over wat de leerling weet en het onderwijs kan nauwkeurig afgestemd worden op ontbrekende kennis, vaardigheden en inzichten en op het deel van de leerstof waarover misvattingen bestaan. Zowel voor de individuele student als voor de totaalgroep. Ten slotte: diverse onderwijsinstellingen oriënteren zich momenteel op- of werken reeds met diverse op Multiple Choice gebaseerde geautomatiseerde toetssystemen die op de markt zijn. Geen van deze systemen werkt met een ‘proper scoring rule’. Het is onduidelijk welke ‘het beste’ is. Multipele Evaluatie biedt een alternatief en is aantoonbaar zowel psychometrisch als onderwijskundig ‘het beste’.
3. Belangrijkste kenmerken van TestBet Tijdens de conferentie werden de mogelijkheden van het toetsprogramma TestBet gedemonstreerd. Wat zijn nu de
102 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
belangrijkste praktische en theoretische kenmerken van dit toetssysteem? TestBet omvat een toetsbank waaraan men zelf toetsen kan toevoegen waarbij van beeld en geluid gebruik gemaakt kan worden. De items kunnen meerkeuze items zijn waarbij slechts één alternatief juist is, of open end items met een kort juist antwoord (doorgaans een woord of naam). In het laatste geval kan spellingstolerantie en/of tolerantie voor alternatieve formuleringen voor het juiste antwoord worden toegepast. Verder is TestBet een belangrijk administratief hulpmiddel dat de mogelijkheid biedt om toetsen voor afname te verroosteren. De toetsafname verloopt met TestBet volledig automatisch waarbij direct na afname de toetsresultaten beschikbaar zijn en getoond (desgewenst geprint) worden, voor diagnostische doeleinden zelfs desgewenst op het niveau van leerlingen x items op een ratioschaal. TestBet bevat ook een toets- en item-analyse gedeelte dat direct na de toetsafname opgestart kan worden en de essentiële gegevens geeft voor toetsverbetering en correctie. In de onderwijspraktijk kan TestBet op dezelfde wijze worden ingezet als Multiple Choice, de toetstijd is ongeveer gelijk. Het belangrijkste verschil is echter dat de student niet geforceerd wordt een keuze te maken, maar voor ieder antwoordalternatief op kan geven hoe waarschijnlijk hij het juist acht (een oordeel dat hij zich ook voor de beantwoording van Multiple Choice moet vormen). De scoringsmethode is zodanig dat het het meest profijtelijk is deze kansen eerlijk en overeenkomstig de eigen kennis op te geven. Wanneer ongerechtvaardigd wordt gegokt, is de kans op een negatieve score aanmerkelijk. Als de student al te bescheiden is, krijgt deze een lagere (positieve) score. De docent krijgt per item inzicht in het kennisniveau van de leerling: de itemscore loopt van 100 (perfect en zeker geweten) over nul (in het geheel niet geweten) tot zeer lage negatieve waarden in geval van misinformatie of een ‘ernstige misvatting’.
Toetssoftware toegepast in de onderwijspraktijk
Met TestBet wordt met een realismescore ook nagegaan hoe realistisch een student in zijn zelfbeoordeling is. Dit realisme wordt voor iedere student statistisch exact getoetst. Wanneer leerlingen zichzelf overschatten of te veel gokken wordt de realismescore significant negatief. Onderschatten zij zichzelf dan is de realismescore significant positief. Bij een realismescore van nul is er sprake van een optimaal realistische inschatting en weet de student zijn persoonlijke kansen op het geven van het juiste antwoord goed in te schatten: hij weet wat hij wel en wat hij niet beheerst. Een correcte zelfbeoordeling per studieonderdeel is belangrijk voor een efficiënte studiestrategie. TestBet heeft een lagere meetfout, vooral bij de zwakkere studenten die bij Multiple Choice veelvuldig moeten gokken. In het extreme geval dat de leerling geen enkel idee heeft over de juistheid van de antwoorden is de meetfout van TestBet zelfs nul als de leerling zijn kansen eerlijk opgeeft. Wordt in dat geval toch gegokt dan zal de verwachte score negatief worden. Met TestBet zal het zelden voorkomen dat een onvoldoende student die gunstig gokt een voldoende krijgt. Evenals bij Multiple Choice nadert de meetfout ook tot nul wanneer de student bij een item over perfecte kennis beschikt, maar bij Multiple Choice wordt de meetfout des te groter naarmate de student minder kennis heeft en meer moet gokken Voor de onderwijspraktijk betekent dit dat we met TestBet nauwkeuriger kunnen toetsen en belangrijke gedetailleerde diagnostische gegevens verkrijgen per item en per student om verder (remediërend) onderwijs te plannen. Deze gegevens verkrijgt men ook over de totaalgroep studenten zodat het onderwijs beter op het feitelijke actuele kennisniveau van de studenten kan worden afgestemd. TestBet geeft daartoe een overzicht in matrixvorm -'studenten x items' - zodat probleemgevallen direct gespot kunnen worden. Dit vereist uiteraard iets meer inzet van de docent dan wanneer slechts een
cijfermatig totaaloordeel behoeft te worden gegeven, maar behoort onzes inziens tot het geven van goed onderwijs. Overigens wordt met TestBet ook zo'n summatief totaaloordeel gegeven, zodat -wat overigens ongewenst lijkt- TestBet ook kan worden gebruikt als het uitsluitend om de toekenning van een globaal cijfer gaat in plaats van een gedetailleerd diagnostisch oordeel.
4. Ervaringen met TestBet In verschillende experimenten is uitvoerig ervaring opgedaan met TestBet. Bij eerste kennismaking ontstaat er bij het bekend worden van de toetsresultaten enige weerstand tegen de methode. Met name in de beginperiode zijn er tamelijk veel, zeer lage (negatieve) scores. Dat komt omdat studenten zich toch, ondanks de instructie, blijken gedragen alsof het een Multiple Choice toets was, waarbij steeds een alternatief met 100% gekozen moet worden. Ze hebben te veel gegokt en te weinig rekening mee gehouden dat elk alternatief een zekere waarschijnlijkheid heeft als men het antwoord niet perfect weet. Aan de hand van de toetsresultaten per item en met enige theorie is het studenten echter snel duidelijk te maken dat zij zich bij TestBet anders moeten gedragen dan bij Multiple Choice en dat zij dan een objectievere beoordeling krijgen omdat zij niet meer hoeven gokken en ook punten kunnen krijgen wanneer zij tussen een aantal alternatieven (waaronder het goede) twijfelen. Zelfs bij 11-jarige leerlingen bleek dat zij bij de tweede afname van een paralleltoets significant realistischer waren dan bij de eerste afname. Wanneer besloten wordt TestBet te gaan gebruiken, verdient het aanbeveling studenten eerst enkele oefentoetsen te laten maken om ze met de methode vertrouwd te maken. Zij blijken daarna de Multipele Evaluatie methode te waarderen boven Multiple Choice, omdat zij niet meer hoeven te gokken en per alternatief genuanceerd aan kunnen geven hoe groot zij denken
Toetssoftware toegepast in de onderwijspraktijk
dat de kans op juist is. Ook zijn er aanwijzingen dat daardoor de items beter bestudeerd worden voor ze beantwoord worden en dat daardoor de validiteit van de items beter wordt: antwoorden worden meer weloverwogen gegeven.
Dirkzwager, A. (1975) Computer-based Testing with automatic scoring based on Subjective Probabilities. Computers in Education, eds. Lecarne, O; Lewis,R; IFIP, North Holland Publ. Company 1975, 305-311.
5. ICT en TestBet
Dirkzwager, A. (1981) Multipele Evaluatie in plaats van Multiple Choice. Tijdschrift voor Onderwijsresearch, 6 nr.5, 230-246.
Het gebruik van TestBet vereist een computer met een online verbinding. Zonder computer is het praktisch onmogelijk de scores (itemscores, totaalscore, realismescore) snel en efficiënt te berekenen. Het gebruik van ICT is voorwaarde om met TestBet te kunnen werken.
Dirkzwager, A. a.o. eds. (1984) Leren met Computers in het Onderwijs. Stichting voor Onderzoek van het Onderwijs (S.V.O.) Flevodruk Harlingen b.v.
Nu steeds meer onderwijsinstellingen in voldoende mate computers ter beschikking krijgen, lijkt de tijd rijp om de Multiple Choice methode te vervangen door de Multipele Evaluatie methode. Dat verdient op theoretische en praktische onderwijskundige en psychometrische gronden duidelijk de voorkeur. Een systeem als Testbat biedt die mogelijkheid. Voor nadere inlichtingen en begeleiding bij de invoering van TestBet: [email protected] of 035-6981676.
Literatuur
Dirkzwager, A. (1993) A computer Environment to Develop Valid and Realistic Predictions and Self Assessment of Knowledge with Personal Probabilities. p.146-166 of: Leclercq, D.A.; Bruno, J.E. eds. Item Banking: Interactive Testing and Self-Assessment, Berlin, 1993, Springer Verlag. Dirkzwager, A. (1996) Scoringsregels en Toetsinstructie. Tijdschrift voor Onderwijsresearch, 21 nr. 3, 272-277. Dirkzwager, A. (1996) Testing with Personal Probabilities; Eleven Year Olds can Correctly Estimate their Personal Probabilities. Educ. & Psych. Measmnt., vol.56 p 957-971.
Baker, J.D. The uncertain student and the understanding computer, La Recherche en Enseignement Programme, tendances actuelles, actes d'un colloque OTAN, Dunod, Paris, 1969.
Dirkzwager, A. (1997) A Bayesian Testing Paradigm: Multiple Evaluation, a feasible alternative for Multiple Choice. Submitted to Psychometrika.
Brier, G.W. Verification of forecasts expressed in terms of probability. Monthly Weather Review 1950, 75, 747751.
Dirkzwager, A. (1998) Inzichtelijkheid van Scoringsregels en Tolerante voor Fouten. Tijdschrift voor Onderwijsresearch 23 nr. 3, 268-272.
De Finetti, B. (1970) Logical Foundations and the Measurement of Subjective Probabilities. Acta Psych. 1970, 34, 129-145.
Edwards, W. (1968) Conservatism in human information processing. P 17-52 of: B. Kleinmuntz (ed.) Formal representation of human judgement, New York 1968 Wiley.
104 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Toetssoftware toegepast in de onderwijspraktijk
Jensen, O.A. (1983) Increasing Testing Efficiency and Effectiveness per Item and per Minute of Testign Time. Public Personnel Management Journal 1983, 12:1, 63-82.
Shuford, E.H., Massengill, H., Albert, G. (1966) Admissable Probability Measurement Procedures. Psychometrica, 1966, 31, 125.
Leclercq, D. (1982) Confidence marking: its use in testing. Evaluation in Education 1982, 6, 161-287.
Shuford, E.H., Brown, T.A., (1975) Elicitation of Personal Probabilities and their Assessment. Instr. Science 1975, 4, 137-188.
Lichtenstein, S.; Fischhoff, B. Training for Calibration. Org.Beh. and Human Performance, 1980, 26, 149-171. Lichtenstein, S.; Fischhoff, B.; Phillips, L. (1982) Calibration of probabilities: The state of the art to 1980. In: Kahneman, D., Slovic, P., Tverski, A.(eds) Judgement under uncertainty: Heuristics and biases. New York, Cambridge Univ. Press. Lord, F.M. (1964) The Effect of Random Guessing on Test Validity, Educ. and Psych. Measmnt, 1964, 24, 745-748. Savage, L.J. (1951) The Foundations of Statistics. New York 1951, Wiley. Shannon, C.E.; Weaver, W. (1949) The Mathematecal Theory of Communication. Urbana, Ill.: Univ. Of Illinois Press.
Shuford, E.H. (1993) In pursuit of the fallacy: resurrecting the penalty. p.76-98 of: Leclercq, D.A.; Bruno, J.E. eds. Item Banking: Interactive Testing and Self-Assessment, Berlin, 1993, Springer Verlag. Van Lenthe, J. (1993 in press) Scoring-rule feedforward and the elicitation of subjective probability distributions. Org. Beh. And Human Decision Processes. Van Lenthe, J. (1993) ELI, The use of proper scoring rules for eliciting subjective probability distributions. PhD thesis, Leiden 1993 DSWO Press. Van Naerssen, R.F. (1962) A scale for the measurement of Subjective Probability Acta Psych. 1962, 20, 159-166.
Toetsen in een elektronische leeromgeving
5
TOETSEN IN EEN ELEKTRONISCHE LEEROMGEVING Toetsen in een digitale leeromgeving drs. L. de Jong Hogeschool Haarlem
In deze bijdrage wordt een schets gegeven van de manier waarop de Hogeschool Haarlem een verbinding legt tussen het centraal geautomatiseerd toets-systeem Question Mark Perception en de digitale leeromgeving Lotus LearningSpace.
programma van eisen waaraan een toetssysteem moet voldoen. De toetscomponent van de gekozen digitale leeromgeving is beoordeeld aan de hand van dit programma van eisen. De resultaten van deze analyse en de keuzes die daar een gevolg van zijn geweest, worden in deze bijdrage gepresenteerd.
1. Inleiding 2. De keuze van een digitale leeromgeving In een seminar over toetsen en hoger onderwijs hoort een bijdrage over ervaringen met toetsen in een digitale leeromgeving. Beide onderwerpen zijn zéér actueel en de ervaringen met de combinatie van beide onderwerpen zijn nog beperkt. De Hogeschool Haarlem heeft reeds een keuze gemaakt voor een digitale leeromgeving, gekozen is Lotus LearningSpace en het gebruik er van in de onderwijspraktijk staat in de steigers. De Hogeschool heeft wel al ervaring met verschillende systemen voor geautomatiseerd toetsen en dat heeft geleid tot een
106 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
De Hogeschool Haarlem heeft een proces afgerond om standaarden te bepalen voor geautomatiseerd toetsen en een digitale leeromgeving. Als onderdeel van de Kwaliteits- en Studeerbaarheidsprojecten is in 1997 gestart met een proef voor afstandsleren bij 40 studenten van de studierichting Personeel en Arbeid van de SOSA, een landelijk gespreid netwerk van agogische MBO- en HBO-deeltijdopleidingen. Inmiddels is het aantal studenten dat in meer of mindere mate gebruik
Toetsen in een elektronische leeromgeving
maakt van afstandsonderwijs langzaam gegroeid. Op dit ogenblik is het circa 2 procent van het aantal ingeschreven studenten en naar verwachting zal dat aantal de komende twee jaar stijgen tot 10 procent. De digitale leeromgeving wordt gedefinieerd als een technische voorziening die de interactie faciliteert tussen: • het proces van het leren, • de communicatie die nodig is voor dat leren en • de organisatie van het leren. De voorkeur voor Lotus LearningSpace was gebaseerd op inhoudelijke en praktisch/financiële gronden. Een belangrijk motief was dat het leren door middel van communiceren en samenwerken goed aansluit bij de visie van ‘het nieuwe leren’. Bekend is dat studenten de computer niet graag gebruiken als een alternatief voor geschreven lesmateriaal en dat een elektronische leeromgeving meer moet bieden dan het online presenteren van gedigitaliseerde boeken of klappers. Toch zou in een overgangsfase de leeromgeving zowel elementen uit het traditionele docentgerichte onderwijs als uit nieuwe, meer studentgeoriënteerde onderwijsvormen moeten kunnen bevatten. Zonder veel beperkingen in de keuze van didactische methoden biedt LearningSpace een flexibele integratie van virtueel klaslokaal, rooster, mediacentrum en portfolio. ‘Learning Space is een goede keuze, als communicatie zwaar weegt, doordat de intentie bestaat om samenwerkend leren vorm te geven en als de docent nog ruimte wil hebben om de leerstof of de toetsen zelf aan te passen. De portfolio waarin de student de behaalde resultaten automatisch ziet verschijnen en het waarschuwingssysteem voor de docent bij automatisch binnengekomen studentresultaten zijn handige hulpmiddelen. LearningSpace is, vanwege de uitgebreide communicatiefuncties, te overwegen, wanneer in deze gebruikssituatie ook sprake moet zijn van flexibiliteit naar didactische concepten en coaching.’ (Cinop 1998: ‘Een vergelijkend onderzoek naar teleleerplatforms’, Joke Droste)
Een praktische beperking van de keuze was het feit dat voor wat de technische realisatie betrof, de pilot zowel in een UNIX- als NT-omgeving moest functioneren.
3. Toetsen binnen de digitale leeromgeving De achterliggende gedachte om een digitale leeromgeving binnen de hogeschool te introduceren, is de flexibilisering van het aanbod door het onderwijs zo veel mogelijk tijd-, plaats- en docentonafhankelijk aan te bieden. Gezien de verwevenheid van toetsen met leren ligt het voor de hand om studenten toetsen te laten afleggen waar en wanneer zij dat wensen. Dat geldt in eerste instantie vooral voor self-assessment door middel van instap- of diagnostische toetsen. Bij certificerende toetsen is de plaatsonafhankelijkheid technisch immers moeilijk te realiseren. Omdat in de gekozen leeromgeving veel nadruk wordt gelegd op samenwerkend leren en communicatie, zal er in de praktijk meer gebruik gemaakt worden van beoordelen van eindproducten, werkstukken, portfolio’s, verslagen en reflecties dan van het digitaal aanbieden van tentamens. Voor het eerste doel is zoals al aangegeven Learning Space zeer geschikt. Overigens beschikt LearningSpace wel over een zogenaamd assessmentcenter. Hier kan een docent toetsvragen plaatsen of een enquête afnemen. De mogelijkheden zijn echter uiterst beperkt en voor serieuze toetsdoelen niet geschikt. Het is bijvoorbeeld niet mogelijk om: • items uit verschillende itembanken te halen; • ‘hotspot’-vragen te maken; • multimedia vragen samen te stellen; • antwoorden random te genereren; • matrix-vragen te gebruiken; • numerieke vragen met marges in te voeren; • matrix met pull-down keuzes toe te passen; • analyses uit te voeren; • statistieken te presenteren.
Toetsen in een elektronische leeromgeving
4. De keuze van een toetssysteem Los van de keuze voor een digitale leeromgeving was er inmiddels binnen de hogeschool al een start gemaakt met een onderzoek naar een geschikte standaard voor een geautomatiseerd toetssysteem. De keuze voor Question Mark Perception, de ‘Internetversie’ van het bekende Question Mark, is daarbij afhankelijk geweest van de volgende tamelijk triviale inhoudelijke, praktische en strategische eisen. Randvoorwaarden voor de keuze Het uitgangspunt was dat een geautomatiseerd toetsprogramma de volgende mogelijkheden zou moeten bieden: • toetsen en beoordelen van studenten door begeleiders/docenten; • zelf-toetsen en diagnostische/instap-toetsen door studenten; • evaluaties van medestudenten, docenten en studieonderdelen; • evaluaties van docenten onderling; • tevens kan het nuttig zijn als men via het toetssysteem ook andere schriftelijke enquêtes via het (inter/intra)net kan nemen. Wat kan en moet er worden getoetst? De Hogeschool Haarlem is zoals de meeste hogescholen een multisectoraal instituut met opleidingen die soms verschillende onderwijsmethoden hanteren. De introductie van een nieuw toetsinstrument kan in sommige gevallen een handvat zijn voor onderwijsvernieuwing maar in de meeste gevallen is een geautomatiseerd toetssysteem pas acceptabel en uitvoerbaar wanneer het aansluit bij de bestaande praktijk. Hoewel er vanuit een hogeschoolbrede visie richting wordt gegeven aan onderwijsvernieuwing waarbij geavanceerde didactische methodieken worden geïntroduceerd, zal een toetsprogramma toch voldoende flexibel moeten zijn om de diverse huidige en toekomsti-
108 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
ge onderwijsmethoden te ondersteunen. Dit houdt in dat er zowel ruimte moet zijn voor het toetsen van Kennis als van Kunde en van de eventuele integratie van beide: ‘Kunnis’. Daarbij wordt binnen het instituut zoveel mogelijk de taxonomie van Romiszowski gehanteerd (zie Bijlage 1). Bij de toetsconstructie zal door middel van een toetsmatrix per item aangegeven worden welke type kennis en vaardigheden gemeten wordt. Niet alle gewenste competenties en vaardigheden zijn met een geautomatiseerd systeem of op afstand toetsbaar. Eventuele mondelinge presentaties of videoverslagen kunnen dan extra beoordelingsmomenten opleveren. Hoe en waar moet er worden getoetst? Er zal op verschillende plaatsen getoetst moeten kunnen worden. In het ene geval leggen studenten bijvoorbeeld een zelftoets af als onderdeel van afstandsleren. In andere gevallen worden in een gesuperviseerde omgeving kwalificerende toetsen afgenomen. Een geautomatiseerd toetssysteem zal plaats-, tijd- en docentonafhankelijkheid moeten combineren met centraal beheer en onderhoud van itembanken. Een bijkomende bijzonderheid van de Hogeschool Haarlem is de aanwezigheid van de landelijke vestigingen van de SOSA. Het centraal onderhouden van centrale betrouwbare en valide toetsbanken die vanuit de verschillende dislocaties benaderd kunnen worden, is voor de opleidingen in de verschillende vestigingsplaatsen van groot belang.
5. Praktijkervaringen, vergelijkend onderzoek Op verschillende academies en opleidingen binnen de hogeschool waren al diverse toetssystemen in gebruik (Examiner, Question Mark, Tesban, eigen ontwikkelde programma’s, etc.). Voortbouwend op de evaluaties van het gebruik van deze pakketten en na enig deskresearch
Toetsen in een elektronische leeromgeving
werden er twee programma’s geselecteerd: Examiner en Question Mark. Een zelf ontwikkelde vragenlijst met 62 items werd opgesteld en naar docenten gestuurd met het verzoek kenbaar te maken aan welke eisen een geautomatiseerd toetssysteem zou moeten voldoen. Uit de beantwoorde vragenlijsten werden die kenmerken geselecteerd die meer dan 50% van de respondenten essentieel vonden en vervolgens werd bekeken in welke mate de beide programma’s uit de voorselectie de genoemde kenmerken bezitten. Opvallend is dat meer praktische dan didactische kenmerken van invloed zijn geweest op de keuze van essentiële elementen. Op slechts tien van de 35 essentiële criteria verschilden de twee programma’s van elkaar (zie Bijlage 2). Op negen van die tien aspecten scoort Question Mark beter dan Examiner. Examiner heeft als belangrijkste pluspunt dat vragen in niveau’s geordend kunnen worden. Question Mark heeft als sterke punten dat het Nederlandstalig is, dat het meer vraagtypes bevat en dat het met Internet en e-mail overweg kan. Zoals al uit ander onderzoek bekend was, zijn in Examiner slechts meerkeuzevragen [met twee of meer antwoordopties] mogelijk, terwijl Question Mark ook andere vraagtypes kent, zoals matching en ‘hot spot’ of aanwijzen. Examiner kan echter meerdere vraagniveaus onderscheiden, waardoor het invoeren van een toetsmatrijs makkelijker lijkt. Hoewel niet van meet af aan rekening werd gehouden met de mogelijkheid om het uiteindelijk geschikt bevonden toetsprogramma te koppelen aan de gekozen digitale leeromgeving, bleek het onderzoeken van mogelijke interacties tussen beide systemen de moeite waard.
• Docenten hebben voor het samenstellen van toetsen met dezelfde interface te maken. • Studenten blijven visueel binnen de LearningSpace omgeving. • Verschillende (zelf)toetsen worden rechtstreeks gekoppeld aan de bijbehorende modules of onderdelen. • Evenals bij LearningSpace kan er rechtstreeks feedback worden gegenereerd op de afgelegde toetsen. • Question Mark beschikt over ruimere mogelijkheden om (item)analyses te maken en kan meer vraagtypen aan. De techniek om dit mogelijk te maken wordt beschreven in Bijlage 3.
6. Conclusies Het programma van eisen voor een toetssysteem voor de hogeschool vormde de basis voor het nemen van een beslissing over het te kiezen toetssysteem. De toetscomponent van de gekozen digitale leeromgeving Lotus LearningSpace bleek daar niet aan te voldoen. Question Mark Perception voldoet wel aan die eisen. Dat heeft geleid tot de beslissing om met beide systemen te gaan werken; Lotus LearningSpace en Question Mark Perception. De systemen kunnen worden gekoppeld zonder dat dit ten koste gaat van de gebruiksvriendelijkheid voor de studenten. De bevinding van de hogeschool wijkt niet af van de ervaringen elders. Geen van de momenteel beschikbare systemen voldoen in alle opzichten aan de gewenste mogelijkheden. Daarom is een combinatie van verschillende systemen heel gebruikelijk.
Toetsen in een elektronische leeromgeving
Bijlage 1 Romiszowski onderscheidt twee gebieden: kennis en vaardigheden. (Romiszowski, A.J. (1984). Producing Instructional Systems. London: Kogan Page.) Kennis: Binnen het kennisgebied worden twee aspecten onderscheiden: feitelijk en begripsmatig. Feitelijke kennis Feitelijke kennis gaat over herkennen en zich herinneren van feiten en handelingsvoorschriften. Feitelijke kennis wordt weer onderscheiden in feiten en procedures. Op het niveau van feiten gaat het om het kunnen reproduceren van concrete feiten, gebeurtenissen of handelingsvoorschriften. Bij procedures moet een student in staat zijn het goede handelingsvoorschrift te koppelen aan een gegeven situatie. Begripsmatige kennis Begripsmatige kennis kan onderscheiden worden in begrippen en principes. Op het niveau van inzicht gaat het dan over het hebben van inzicht in bepaalde begrippen en begrippensystemen (van concreet naar abstract). Bij begripsmatige kennis van principes gaat het erom dat de student bepaald gedrag of een bepaalde situatie kan verklaren vanuit de theorie. Vaardigheden Er zijn vier soorten vaardigheden, die ieder kunnen worden onderscheiden in reproductieve en productieve vaardigheden. Reproductieve vaardigheden Bij reproductieve vaardigheden moet de student een handeling volgens een standaard procedure of een standaard voorschrift of een protocol uitvoeren.
110 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Productieve vaardigheden Voor een productieve vaardigheid is de eigen creativiteit van de student van belang: de student moet in een nieuwe situatie handelen, zonder dat er op een vaste of standaard procedure teruggevallen kan worden. De student moet een keuze maken en zijn handelingen afstemmen op de situatie. De termen die betrekking hebben op vaardigheden kunnen in vier soorten worden onderscheiden: Cognitieve vaardigheden Het toepassen van kennis, het interpreteren en/of analyseren van gegevens. Psychomotorische vaardigheden Het uitvoeren van fysieke, motorische handelingen waarbij kennis en inzicht een rol spelen. Reactieve vaardigheden Aspecten hiervan zijn (het ontwikkelen van) een beroepshouding, hanteren van emoties, omgaan met waarden en normen. Reactieve vaardigheden worden ook wel attitudevaardigheden genoemd: mensen en gebeurtenissen tegemoet treden vanuit een beroepshouding. Interactieve vaardigheden Communiceren, samenwerken met anderen, hanteren van sociale en communicatieve aspecten in de sociale omgang.
Toetsen in een elektronische leeromgeving
Bijlage 2: Vergelijking Examiner en Question Mark Elementen die docenten essentieel achten voor een geautomatiseerde toetssysteem. In de kolom conclusie staat q als Question Mark beter geschikt is en e als Examiner meer voldoet.
Examiner
Question Mark
Het programma moet zowel op een netwerk als op een stand alone computer kunnen draaien.
ja
ja
Het programma moet Nederlandstalig zijn.
nee
ja
q
Het programma moet een Nederlandstalige handleiding hebben.
nee
ja
q
Het programma moet de volgende vraagsoorten kunnen aanbieden: – multiple-choice (één antwoordoptie is goed) – multiple-response (meerdere antwoordopties zijn goed) – waar/niet waar – matchen (wat hoort bij elkaar?) – hot spot (plek aanwijzen op afbeelding)
ja ja ja nee nee
ja ja ja ja ja
q q
Het programma moet met de volgende tekstformaten kunnen omgaan: – WordPerfect (versie ....................) – Word (versie ....................)
nee ja
nee ja
Het programma moet met de volgende afbeeldingsformaten kunnen omgaan: – bitmap (bmp, ....................) – Internetformaat (gif, jpg, ....................)
ja nee
ja ja
Het programma moet per vraag opgemaakt kunnen worden.
ja
ja
De toetsen moeten via Internet af te nemen zijn.
nee
ja
q
Het programma moet een koppeling met e-mail kunnen maken.
nee
ja
q
Het programma moet antwoorden verschillend kunnen wegen.
ja
ja
Het programma moet vragen in een willekeurige volgorde kunnen aanbieden.
ja
ja
Conclusie
q
Toetsen in een elektronische leeromgeving
Het programma moet antwoorden in een willekeurige volgorde kunnen aanbieden.
ja
ja
Het programma moet het mogelijk maken om vragen aan elkaar te koppelen of over te slaan.
ja
ja
Het programma moet de student vragen terug kunnen laten bladeren.
ja
ja
Het programma moet de student overzicht kunnen geven van het aantal vragen en de overgebleven tijd.
ja
ja
Het programma moet de student feedback kunnen geven op de antwoorden.
ja
ja
Het programma moet de toetsresultaten statistisch kunnen analyseren.
ja
ja
Het programma moet de toetsresultaten per student kunnen presenteren voor nabespreking.
ja
ja
Het programma moet de volgende beveiligingsmogelijkheden hebben: – programma password – toets password
nee ja
ja ja
Het programma moet de toetsen ook op papier kunnen aanbieden.
ja
ja
Het programma moet toegangscontrole mogelijk maken bij toetsafname.
ja
ja
Het programma moet vragen in verschillende niveau’s kunnen ordenen (hiërarchisch).
ja
nee
Het programma moet frequentieverdelingen van scores in tabel en grafiek kunnen weergeven.
ja
ja
Het programma moet de betrouwbaarheid van de toets kunnen aangeven (KR-20, KR-21).
ja
ja
112 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
q
e
Toetsen in een elektronische leeromgeving
Bijlage 3 Technische details Lotus Domino kan geen ISAPI-DLL’s aanroepen zoals Perception. Er moet dus gebruik gemaakt worden van twee servers: een Microsoft IIS-server en Lotus Domino. Het is mogelijk om op dezelfde server zowel IIS als Domino te installeren, mits ze verschillende poorten gebruiken, bijvoorbeeld 80 en 8080. De IIS-server software wordt gratis geleverd bij iedere Windows-NT. Om Perception aan te roepen op een niet-standaard poort moet het poort-adres meegegeven worden bij de omschrijving van de URL, bijvoorbeeld: http://www.hogeschoolx.nl:8080/qm/perception.dll Om de betreffende sessie vanuit Learning Space te starten is het volgende nodig: Vindt de ID van de sessie. Dit is een 16-bit nummer, dat op twee manieren gevonden kan worden 1. Klik in de Sessie-Manager op de sessie en kies Eigenschappen. Hier staat de betreffende IS. Kopieer dit naar het klembord door op de rechter muisknop te klikken en te kiezen voor Kopiëren. 2. Start in de browser het programma open.dll en zoek de sessie in de lijst met sessies. Bekijk de bron van deze HTML-pagina en zoek daar de ID van de sessie. Stel de ID is 1234567890123456 dan wordt de URL http://hogeschoolx.nl/qm/open.dll?SESSION=1234567890123456 Het is ook mogelijk om een gebruikersnaam door te geven aan de server. Dan wordt de aanroep bijvoorbeeld: http://hogeschoolx.nl/qm/open.dll?NAME=JANSEN&SESSION=1234567890123456 Bij het gebruik van perception.dll moet de sessie eerst ingevoerd zijn in het ‘schedule’ van de Security manager. Als geen NAME-parameter is gespecificeerd, moet de student zijn naam invullen en kan de toets alleen afleggen als die naam in de security database aanwezig is en gekoppeld is aan de sessie. Een volledige beschrijving hiervan staat in het Perception handboek
(hoofdstuk 3). In ieder onderdeel van LearningSpace kan op deze manier een URL-koppeling gemaakt worden naar bijvoorbeeld een zelftoets, waarbij als parameter de naam van de desbetreffende toets wordt meegegeven. Er bestaan nog twee andere manieren om Perception vanuit Lotus aan te roepen: PIP en LEI. In het kader van dit artikel voert het te ver om de details te beschrijven en verwijs ik kort naar de Internetsites waar uitgebreide informatie te vinden is. Met PIP (Perception Integration protocol) kan ook via een URL-koppeling de Perception-toets gestart worden. Het is tevens mogelijk om bijvoorbeeld na afloop automatisch een e-mail te verzenden met de resultaten of om een certificaat te printen. Zie daarvoor: http://www.questionmark.com/perception/help/interface/pipintro.html Een derde manier om de Perception database te benaderen, is gebruik te maken van de Lotus Entreprise Integrator (LEI) (zie hiervoor: http://www.lotus.com/ products/eibu_knowbase.nsf/eipages/homeprolei). Deze toepassing is echter minder interessant voor LearningSpace dan voor andere Lotus-applicaties.
Toetsen in een elektronische leeromgeving
Toetsen binnen de VILO, de Virtuele Leeromgeving van ING Het concept, het ontwikkelproces en ‘lessons learned’ drs. J. in het Panhuis ING Nederland, Personele Zaken en Organisatie
Inleiding Voor ING Groep is het in toenemende mate van belang dat de kennis en vaardigheden van de medewerkers actueel worden gehouden. ING Groep is een wereldwijd opererende onderneming op het terrein van geïntegreerde financiële dienstverlening met ruim 80.000 medewerkers waarvan ruim 30.000 in Nederland. Klantentevredenheid is een kritische succesfactor. Snelle aanpassing aan nieuwe markten en flexibel inspelen op nieuwe vragen uit de diverse markten zijn in belangrijke mate bepalend voor het succes. Het vermogen om dat te realiseren hangt nauw samen met het vermogen van medewerkers, de Human Resources, om zich snel en doelgericht aan te passen aan die nieuwe markten en nieuwe vragen. Leren is cruciaal in dat proces. Traditionele leervormen alleen voldoen bij ING niet meer. Deze zijn onvoldoende in staat om dergelijke grootschalige opleidingsprocessen efficiënt te laten verlopen. ING ging dan ook op zoek naar nieuwe methoden, technieken en hulpmiddelen. Efficiëntie, effectiviteit en onafhankelijkheid van plaats en tijd waren daarbij de sleutelwoorden. Die zoektocht speelde zich af op het raakvlak van twee disciplines: onderwijskunde en technologie. Vanuit onderwijskundig perspectief was een
114 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
performance-gerichte benadering belangrijk. Vanuit de technologie moest vooral het distributievraagstuk worden opgelost: hoe kunnen de leerprocessen onafhankelijk worden gemaakt van plaats en tijd. In augustus 1998 heeft deze zoektocht geresulteerd in het implementeren van een virtuele leeromgeving ten behoeve van een opleidingsprogramma voor trainees uit alle landen waar ING actief is, de VILO genaamd. Dit is een platform waarmee zowel op de werkplek als op afstand het individuele en het groepsleerproces ondersteund kan worden. Het kunnen afnemen van toetsen is een belangrijke functionaliteit binnen de leeromgeving. In dit artikel zal aangegeven worden dat het fenomeen toetsen een kleine schakel binnen een breder didactisch leerconcept van de Virtuele ING Leeromgeving is.
Functionaliteit van de Virtuele ING Leeromgeving Het meetbaar kunnen maken van de kennis van een medewerker is een van de belangrijkste wensen die aan de leeromgeving ten grondslag ligt. Toetsen worden in de VILO voor twee doeleinden gebruikt. Ten eerste wil
Toetsen in een elektronische leeromgeving
men vast kunnen stellen of een cursus tot een gewenste kennistoename heeft geleid. Ten tweede speelt toetsen een rol bij het coachen van medewerkers. Om een medewerker gericht te kunnen coachen in zijn ontwikkeling dient de manager onder meer zicht te hebben op het kennisniveau van die medewerker. Binnen de huidige leeromgeving is het toetsen voornamelijk gericht op cognitieve kennis (kennis met betrekking tot producten en procedures). De toetsitems zijn meestal afgeleid van concrete klantvragen. Momenteel worden binnen de leeromgeving voornamelijk gesloten vragen (multiple choice items) gebruikt. Naast de afname van toetsen kunnen ook leeractiviteiten die logisch volgen op een toets virtueel ondersteund worden. Toetsen is maar een klein onderdeel uit een breder didactisch concept dat virtueel wordt ondersteund. Een toets vormt vaak de aanleiding om te gaan leren. De medewerker heeft bepaalde cursusdoelen niet gehaald of hij heeft hiaten in de kennis. Binnen ING hebben we er voor gekozen om ook de vervolg stappen in het leerproces virtueel te kunnen ondersteunen. Na afname van de toets wordt de score getoond en volgt een automatisch gegenereerd studieadvies. Dit scheelt tijd met een eerder gebruikt geautomatiseerd toetssysteem waarbij men wel de scores gepresenteerd kreeg, maar men zelf de vertaling moest maken naar de leeractiviteiten die de medewerker vervolgens moest ondernemen. Binnen een toets kan men vooraf verschillende onderwerpen definiëren en per onderwerp aangeven wat de medewerker moet bestuderen als hij voor dat onderwerp een score haalt die lager is dan een vooraf bepaald percentage. Als remediërende leeractiviteit kan men allerlei verschillende materialen aanbieden: een oefenmodule
(web based oefencases), een link naar een syllabus (bepaalde hoofdstukken), een kennisbank, een andere website, etc. Om de toetsen af te nemen moet de medewerker kunnen beschikken over een browser. Om tegemoet te komen aan de beveiligingseisen binnen ING worden er geen applets of plugins gebruikt. De gegevens worden op de server opgeslagen. Als een medewerker in een ander werelddeel een toets maakt, kan men in Nederland de resultaten bekijken. De omgeving biedt de mogelijkheid om de betrouwbaarheid van toetsitems vast te stellen.
Toetsen als aanjager van leerprocessen Toetsen kunnen ingezet worden als formeel onderdeel binnen functioneringstrajecten. Soms wordt het gebruikt als instrument om leerprocessen bij medewerkers aan te jagen. Het gaat er in zo’n geval om dat de medewerker er zich bewust van wordt dat hij een kennisprobleem heeft en vervolgens gemotiveerd is om zelf actief iets aan te doen. Bij de keuze van een leeromgeving is het van belang dat deze de basisfunctionaliteiten bezit die nodig zijn om een curriculum virtueel te ondersteunen. Het gaat er dan om hoe breed een leeromgeving inzetbaar is. ING heeft liever een beperkt aantal soorten interactietemplates (bijvoorbeeld multiple choice vragen) die veel mogelijkheid bieden. Er zijn toetssystemen die veel interactietypen bevatten, maar waarbij het niet mogelijk is om: • toetsresultaten op een server vast te leggen zodat die op afstand te bekijken zijn, • automatisch een studieadvies te genereren, • de vraagvormen ook voor leedoeleinden te gebruiken. Hiervoor is het noodzakelijk dat men bij een vraag verschillende pogingen kan geven en specifieke feedback per alternatief per poging kan presenteren.
Toetsen in een elektronische leeromgeving
Het is ook belangrijk dat de toets in een browser kan draaien zonder dat daarvoor een plug-in of een java applet nodig is. ING kan het leerproces op afstand ondersteunen door: • Het individuele leerproces te structureren door een lesplan aan te bieden dat de cursist een leidraad biedt voor het leerproces. Alle leeractiviteiten die de cursist in een bepaalde cursus doorloopt, zijn hierin beschreven. Het lesplan geeft aan wanneer er welke leeractiviteit verwacht wordt en geeft een directe verwijzing naar het bijbehorende studiemateriaal. Vanuit het lesplan zijn alle studiematerialen direct toegankelijk. • Allerlei soorten informatie te verstrekken: informatiekennisbanken, syllabi, verwijzingen naar andere interessante sites op het Internet, Powerpoint-presentaties etc. • Communicatiefaciliteiten aan te bieden die medewerkers in staat stellen om met elkaar te communiceren, zoals bijvoorbeeld een chat-faciliteit. Daarnaast kunnen cursisten e-mail naar elkaar en naar de docent sturen en deelnemen aan discussiegroepen. • Een Performance Support systeem aan te bieden waarmee men leerprocessen kan ondersteunen waarin kennis verworven of verbeterd moet worden. Dit systeem bestaat uit een combinatie van: • Toetsbanken waarmee men kennis meetbaar kan maken door op de werkplek of thuis toetsbanken aan te bieden. Na het maken van een toets kan automatisch een studieadvies gegenereerd worden. Dat studieadvies kan verwijzen naar allerlei opleidingsmaterialen zoals bijvoorbeeld zelf ontwikkelde oefenbanken en kennisbanken (zie hieronder). • Oefenbanken waarmee men op actieve manier aan de hand van bijvoorbeeld praktijksituaties kan oefenen met leerstof en specifiek feedback kan krijgen. • Kennisbanken (ook op de werkplek beschikbaar) waarin kennis rond een bepaald domein opgeslagen en snel terug te vinden is.
116 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Een combinatie van oefen-, toets- en kennisbanken wordt binnen ING al jaren succesvol gebruikt om medewerkers op te leiden ten behoeve van de primaire processen. Klantsituaties vormen hierbij het uitgangspunt. De leeromgeving biedt informatie op maat. Als de cursist inlogt en naar de leeromgeving gaat, dan krijg deze alleen die cursussen te zien waarvoor hij/zij geautoriseerd is. De docent of cursusontwikkelaar kan bijna alle informatie (inclusief de Computer Ondersteunde Opleidingsmodulen!) zonder te programmeren, 'just-in-time' en op afstand veranderen.
Het ontwikkelproces Fase 1: de analyse De verschillende vragen die hierbij beantwoord moesten worden waren: • kan de distributie van de opleidingsmaterialen efficiënter verlopen; • kan het leerproces efficiënter en effectiever gemaakt worden; • kunnen bepaalde onderdelen van het leerprocessen naar de thuissituatie worden verplaatst (individuele voorbereiding). Voordeel hiervan is dat de cursist zich thuis voorbereidt, waardoor tijdens de klassikale / groepssessie de nadruk kan liggen op het toepassen van concepten in plaats van het overdragen ervan; • kan het leerproces verrijkt worden met extra informatie dan wel studie-activiteiten; • kunnen opties aangeboden worden die het mogelijk maken om kennis te verbreden en te verdiepen. ING zocht een virtuele leeromgeving die zowel individueel leren als groepsleren zou kunnen ondersteunen en die docenten de mogelijkheid tot het coachen van medewerkers zou bieden. Ook werd gezocht naar een omgeving waarin zonder te programmeren snel opleidingsmaterialen ingevoerd kunnen worden.
Toetsen in een elektronische leeromgeving
Fase 2: De oriëntatie op bestaande systemen In fase 2 (voorjaar 1998) is gekeken of er bestaande virtuele leeromgevingen op de markt zijn, die de in fase 1 geformuleerde wensen en eisen ondersteunen. Dat leverde de volgende resultaten op: • de meeste van de bestaande omgevingen ondersteunden maar enkele van de bovengenoemde leeractiviteiten en concepten; • veelal was de bediening niet intuïtief genoeg of waren de verschillende functionaliteiten niet geïntegreerd; • meestal ontbrak de mogelijkheid tot het aanbieden van een lesplan, de leidraad voor de leeractiviteiten; • de aanschafkosten waren zeer hoog. Fase 3: de Bouw Specificatiefase Op basis van de wensen en eisen heeft ING samen met de TU Delft een ontwerp voor een leeromgeving gemaakt en een eenvoudig prototype ontworpen. Realisatie van het werkend prototype Met het prototype is een live proef uitgevoerd met een aantal cursisten. Voor deze proef is een cursusmodule ontwikkeld die alle door ING gewenste facetten van het leren op afstand bevatte, zoals: • individueel leren; • printen 'on demand'; • lezen van artikelen; • actief oefenen met leerstof met behulp van interactieve Web-based training; • toetsen van kennis; • samenwerken met andere cursisten aan een case; • feedback krijgen van de docenten. Op grond van deze proef is het prototype geëvalueerd. Daaruit bleek dat een aantal communicatiefaciliteiten, zoals document sharing (samen werken aan documenten) en video conferencing niet goed werkte. Het systeem was te traag.
Realisatie Met de kennis uit de test is het definitieve systeem aangepast en opgeleverd, inclusief een invoeromgeving die de opleidingsafdeling in staat stelt alle relevante zaken binnen de site op afstand te wijzigen, zonder dat daarvoor speciale technische kennis vereist is. Implementatiestrategie: de technische infrastructuur Bij een technische implementatie zijn bestaande technische infrastructuur en beveiligingsaspecten altijd de randvoorwaarden. Inloggen op de virtuele leeromgeving binnen een fysieke vestiging van ING is mogelijk als de medewerker Internettoegang op de werkplek heeft (dit is nog lang niet voor iedereen het geval). Wil de cursist thuis via het Internet met de leeromgeving werken dan kan hij/zij vanwege beveiligingsaspecten niet inloggen op de beveiligde ING-omgeving. Om toch aan die vraag te voldoen, kan gebruik worden gemaakt van externe aanbieders van Internetdiensten. Een dergelijke oplossing is snel te realiseren buiten de bestaande technische infrastructuur van ING om. Implementatieaspecten De virtuele leeromgeving is een krachtig medium met zeer veel mogelijkheden om het continue leren op een rijke manier te ondersteunen en om de verantwoordelijkheid voor het leren meer bij de cursist zelf te leggen. Daar is overigens wel een cultuuromslag voor nodig (zie ook verderop). De cursisten moeten leren om met de nieuwe leermiddelen om te gaan.
Ervaringen en tips Met de VILO is een aantal onderwijskundige ervaringen opgedaan: • De faciliteiten om directe communicatie ten behoeve van groepsleerproccessen te ondersteunen werken nog niet optimaal. Daardoor functioneert de virtuele
Toetsen in een elektronische leeromgeving
leeromgeving voornamelijk als ondersteuning van het individuele leerproces en minder van groepsleerprocessen. Om het proces van samenwerken op afstand te ondersteunen, is het van belang dat de cursisten zowel in directe communicatie (praten met elkaar of samen aan een document werken) als indirecte communicatie (versturen van documenten naar elkaar) gegevens kunnen uitwisselen. Vooral de directe communicatie via Internet is nog verre van optimaal. De bandbreedte van het Internet (de hoeveelheid gegevens die van A naar B gestuurd kunnen worden) is nog te beperkt om synchrone (gelijktijdige) communicatie bevredigend toe te passen, zoals video conferencing, telefoneren en het samenwerken aan documenten. Verwacht mag worden dat dit een kwestie van tijd zal zijn. • De virtuele leeromgeving is een krachtig medium met zeer veel mogelijkheden om het leerproces te verrijken. Er zijn veel bronnen op het World Wide Web die gebruikt kunnen worden als aanvulling op en verrijking van de opleidingsmaterialen die intern zijn ontwikkeld. • De verantwoordelijkheid voor het leerproces verschuift naar de cursist. Dit vereist een cultuuromslag zowel voor de cursist als de opleider (mentor). Cursisten moeten beseffen dat zij niet langer consument zijn, die in een klassikale situatie wel zien wat er over hen heen komt. Zij moeten beseffen dat van hen een actieve deelname aan het leerproces wordt verwacht. Tevens vraagt het een andere manier van denken en opleiden van degene die de opleiding geeft. In plaats van kennisoverdracht ligt de rol meer bij de begeleiding van het leerproces. Opleiders zijn vaak bang dat ze de sturing verliezen. Bij de implementatie verdient dit de nodige aandacht. Begeleiding en betrokkenheid van het management zijn hierbij cruciaal. • Cursisten moeten leren om met de nieuwe leermiddelen om te gaan. Vooral het communicatieproces tijdens groepsleerprocessen verloopt op afstand anders
118 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
dan in een direct contact met elkaar. Chatten is een surrogaat voor een gewoon gesprek en verloopt alleen redelijk als niet meer dan drie à vier personen tegelijkertijd discussiëren. Toch kan het een zinvol hulpmiddel zijn als de cursisten over meerdere continenten verspreid zijn en telefoneren te duur is. In dat geval kan men er voor kiezen om cursisten die synchroon met elkaar moeten communiceren zoveel mogelijk in dezelfde tijdzones in te delen. Als de ene cursist in Azië en de andere in de VS woont dan is het handiger om de communicatie via e-mail of nieuwsgroepen (asynchroon) te laten verlopen, om te voorkomen dat de communicatie voor een van de twee op ongebruikelijke tijden plaatsvindt. Bij ING wordt deze communicatie in een klassikale opleiding geoefend met PC’s en een Internetverbinding. • Relevante inhoud en zinvolle leerprocessen zijn cruciaal. Het curriculum moet dan ook herontworpen worden. Er dient opnieuw een media-analyse te worden gemaakt: welke leeractiviteiten zijn er; welke kunnen 'off campus' worden uitgevoerd; welke dienen ‘oncampus’ te gebeuren etc. In de aanpak van ING wordt de cognitieve kennis zoveel mogelijk online, via de virtuele leeromgeving aangeboden zodat on-campus de nadruk kan liggen op het toepassen van de kennis in plaats van op kennisoverdracht. Met het VILO-project zijn ook een aantal technische ervaringen opgedaan, zoals: • Kies voor ‘proven technology’, oftewel pas zoveel mogelijk technologische hulpmiddelen toe die stabiel zijn en zich bewezen hebben. Daarnaast is het belangrijk om nieuwe ontwikkelingen op het gebied van 'distance learning' op de voet te volgen en nieuwe faciliteiten in te bouwen als die zich hebben bewezen en toegevoegde waarde bieden binnen het leerconcept. • Internet is een grillig en deels onvoorspelbaar distributiemedium. Een multimedia-applicatie op CD-rom is
Toetsen in een elektronische leeromgeving
in grote mate voorspelbaar: als de applicatie werkt dan werkt die over het algemeen ook de volgende keer weer met een zelfde performance. Bij een leeromgeving op Internet kan men nooit 100% de garantie geven dat een opleiding binnen bepaalde kwaliteitsstandaarden functioneert, zoals 24 uur beschikbaarheid met standaard responsetijden. • Zorg er voor dat de invoer van informatie en cursusmateriaal geen programmeerkennis vereist. Als men opleidingen 'just in time' en online wil aanbieden, dan is het van belang dat zaken als leermaterialen, lesplannen en cursisten gebruiksvriendelijk kunnen worden ingevoerd en gewijzigd. • Registratie van gebruikers is noodzakelijk om informatie op maat te kunnen aanbieden, om cursistengedrag en -resultaten te kunnen volgen en om de leeromgeving te beschermen tegen ongewenst bezoek. Het invoeren en autoriseren van cursisten kan een zeer arbeidsintensief proces zijn. In de huidige leeromgeving van ING kost het ongeveer 6 minuten om één cursist in te voeren. Bij 100 cursisten kost dit al 6 uur. Bij 80.000 medewerkers van ING zou dat 8.000 uur zijn! Dit is ook een tijdrovend proces omdat de gegevens momenteel op afstand (met een niet al te snelle verbinding) ingevoerd worden. Op dit moment wordt de leeromgeving gekoppeld aan een personeelsadministratiesysteem zodat registratie en autorisatie sneller kan verlopen
• ING heeft in eigen beheer een leeromgeving ontwikkeld, in samenwerking met een externe partij. Een alternatief was geweest om te wachten op kant en klare leeromgevingen (schillen). Momenteel zitten we in een fase om de leeromgeving beschikbaar te maken voor ruim 80.000 medewerkers via Intranet. Omdat er momenteel commercieel alternatieven ontstaan die er twee jaar geleden niet waren, komt de vraag zelf ontwikkelen of kopen anders te liggen. Zelf ontwikkelen kost namelijk zeer veel energie en geld en specifieke expertise. ING heeft evenwel de (onderwijstechnologische) expertise in huis om zelf een ontwerp te maken. Een externe partij zorgt voor de zeer specialistische technologische kennis en vaardigheden op het gebied van Internettechnologie. Deze partij moet ook mee kunnen denken over onderwijskundige zaken (onze huisleverancier op dit gebied is Bit-IC). Het resultaat van die samenwerking is een leeromgeving op maat, die geheel aan de bedrijfsspecifieke wensen voldoet. Daarmee is ING niet klaar. Het ontwikkelen en verbeteren van een virtuele leeromgeving is een continu proces. Er moet rekening worden gehouden met het feit dat de wereld van Internet en Intranet voortdurend in beweging is. ING werkt dan ook vanuit het motto: 'If you think you are on track you're driving too slow'.
Toetsen in een elektronische leeromgeving
Bijlage: Virtuele ING Leeromgeving: een beschrijving van de functionaliteiten Hoofdscherm Nadat de cursist ingelogd heeft verschijnt dit scherm. Het hoofdmenu van de Virtuele ING Leeromgeving bestaat uit een archipel. Ieder eiland met een gebouw erop heeft een functie. Alle gebouwen zijn toegankelijk door erop te klikken of door de desbetreffende button in de linkerkant van het scherm te selecteren.
120 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Toetsen in een elektronische leeromgeving
Op het eiland COURSES vind de cursist alles wat relevant is om een bepaalde cursus te volgen. De site herkent automatisch welke cursussen hij/zij mag volgen en biedt op maat de bijbehorende studieactiviteiten aan.
De bibliotheek bevat artikelen, Internetlinks, Powerpoint presentaties, Web Based Training modules en andere multimedia-bronnen.
Het communicatie-eiland biedt de gebruikers van de leeromgeving de mogelijkheid om elkaar virtueel te ontmoeten. Ze kunnen met elkaar mailen, chatten en discussieren door middel van nieuwsgroepen.
Info geeft informatie over het gebruik van de leeromgeving en bevat zoekfuncties waarmee men binnen de leeromgeving en op het World Wide Web kan zoeken.
Dit gebouw geeft algemene informatie met betrekking tot ING met links naar alle Business Units van ING.
De elektronische butler attendeert de cursist erop dat er een nieuw e-mailbericht is of dat iemand met hem wil ‘chatten’.
Toetsen in een elektronische leeromgeving
In het gebouw COURSES kan de cursist afhankelijk van zijn user-id en pass-word cursussen op maat volgen. Het bevat een lesplan met studie-activiteiten waar vanuit allerlei studiematerialen (informatie, oefen- en toetsbanken) te benaderen zijn. Een ontmoetingsruimte waar je kunt communiceren met cursisten die dezelfde cursus volgen, informatie over medecursisten, etc.
De volgende faciliteiten zijn aanwezig: Study activities: hier kan de cursist kiezen om de studie-activiteiten per topic of chronologisch geordend te bekijken. Er wordt een beschrijving van de activiteit getoond, een datum wanneer de activiteit uitgevoerd moet zijn en de bijbehorende lesmaterialen zijn direct toegankelijk.
122 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Toetsen in een elektronische leeromgeving
Library binnen het COURSES gebouw biedt alle relevante leesmaterialen en interessante links die bij dat programma horen. Meeting Area biedt communicatiefaciliteiten binnen een bepaalde cursus. Members toont alle namen en eventueel beknopte CV-informatie van alle cursisten binnen een bepaalde cursus en de docenten. Tevens biedt members de mogelijkheid om een persoon direct te mailen. Hieronder ziet u een onderdeel van het lesplan als de cursist op study activities klikt:
Assessment en assessmentcenters
6
ASSESSMENT EN ASSESSMENTCENTERS De leerwaarde van toetsen Beoordelen en ontwikkelen van competenties met behulp van Assessment en Development Centers K. Eringa, J. Rietveld en W. Zwaal Christelijke Hogeschool Noord Nederland, Instituut voor Service Management
1. Inleiding De traditionele plaats van toetsen in het onderwijsleerproces is meestal ergens aan het einde. Het vormt in de regel de afsluiting van een onderwijsleerproces. Dat proces start met het aanbieden van leerstof door de docent, gevolgd door een verwerkingsfase door studenten en eindigend met een confrontatie in de vorm van een toets. Vanwege het grote belang dat aan slagen of zakken verbonden is, zullen studenten er alles aan doen om zich zo goed mogelijk te kunnen richten op de eisen van de toets. Zonder veel overdrijving kun je stellen: studenten werken voor toetsen. Dat geldt dan zowel in tijd als in aandacht. Daarmee is op zich ook niet zoveel mis, ware het niet dat docenten lijken te weigeren van die situatie optimaal te profiteren. Tijdens de toets zitten studenten op het hoogtepunt van hun kennen en kunnen en juist dan mag er met niemand meer over
124 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
gesproken worden. De interactie met medestudenten is expliciet verboden en met de docent wordt uitsluitend gecommuniceerd via het gestileerde vraag- en antwoordspel van de toetsitems. Dat is een gemiste kans, veroorzaakt door het streng onderscheiden van de studiefase en de toetsing. En dat terwijl van een goede toets zoveel te leren valt. Soms vallen pas bij de toets de stukjes op hun plaats, ontstaat een nieuw inzicht of worden verbanden begrijpelijk. Dan eerst twee of drie weken wachten tot de uitslag bekend is, werkt alleen de vergeetcurve in de hand en het werken op de korte termijn. Een andere reden om de plaats van de toets in het leerproces te herpositioneren, is het toenemende belang van zelfsturing in het moderne hoger onderwijs en op de arbeidsmarkt. Zelfsturing vraagt om beoordeling van je eigen gedrag en het gedrag van anderen. Feedback kunnen geven en ontvangen is tegelijkertijd de kern van
Assessment en assessmentcenters
beoordelen en de kern van leren en onderwijzen. Studenten zelf verantwoordelijk maken voor de voortgang van hun studie, betekent ook: hen leren om te beoordelen. Hoewel gaandeweg de verantwoordelijkheid voor verschillende componenten van het studiearrangement al verschoven is naar de student, is dat met de beoordeling vaak nog nauwelijks het geval. Het lijkt wel het laatste prerogatief van de docent. Een laatste bolwerk dat bovendien vaak met kracht verdedigd wordt. En juist op het punt waar gezel en meester, student en tutor zoveel van elkaar zouden kunnen leren, wordt een gedragsarme, communicatief dorre en educatief schrale situatie geschapen waar veel betere alternatieven voorhanden zijn. Een van die alternatieven is het toepassen van de methoden uit het assessment en development center (ADC). De ADC-technologie biedt niet alleen uitstekende mogelijkheden om onderwijs en toetsing, begeleiding en beoordeling sterker met elkaar te vervlechten, maar ook de gelegenheid om het accent sterker te leggen op professionele competenties. Competenties daarbij opgevat als een samenstel van kennis, vaardigheden en houdingsaspecten die in een levensechte situatie gedemonstreerd moeten worden. Door bij de ontwikkeling van het ADC bovendien aan te sluiten bij de kerntaken uit de beroepspraktijk kan tevens de kloof tussen onderwijs en werkveld overbrugd worden. De mogelijkheden voor het inschakelen van ICT bij het ontwikkelen, het uitvoeren, en het onderhoud van een assessment en development center zullen met name verkend worden in relatie met het onderwijsconcept dat aan de Christelijke Hogeschool Noord Nederland (CHN) sinds 1987 gehanteerd wordt, namelijk het thematisch modulair probleem gestuurd leren. In deze bijdrage zal eerst de achtergrond worden geschetst waartegen het ADC tot ontwikkeling is gekomen. In paragraaf 2 komen de doelen en functies van toetsen in het hoger onderwijs aan de orde. In paragraaf 3 wordt vanuit de knelpunten in de bestaande
toetspraktijk een profiel ontwikkeld voor een beter en wenselijk alternatief. Dat alternatief blijkt sterke overeenkomsten te hebben met de kenmerken van het ADC. De toepassingsmogelijkheden en de implementatie van het ADC in het curriculum wordt in paragraaf 4 besproken. De mogelijkheden van ICT daarbij worden in paragraaf 5 verkend. In de laatste paragraaf, 6 wordt dan tenslotte de balans opgemaakt over de leerwaarde van het ADC als toets- en werkvorm in het hoger onderwijs.
2. Toetsen in het hoger onderwijs De Groot & Van Naerssen (1969) noemen vier doeleinden van studietoetsen: predictie, selectie, evaluatie en operationalisatie van doelstellingen. Dousma & Horsten (1980) nemen de eerste drie daarvan over: de predictieve, de selectieve en de diagnostische functie. Starren (1988) maakt een onderscheid in: motiveren, beoordelen (waaronder: selecteren) en evalueren. Bij motiveren staat voorop de toetsing ten behoeve van leren en onderwijzen tijdens de rit, met name de feedback- en feedforward-effecten staan daarbij centraal. Bij beoordelen gaat het om toetsing ten behoeve van kwalificatie: voldoen de prestaties aan de vooraf vastgelegde minimumeisen? Bij evalueren tenslotte gaat het over beslissingen over onderwijsprogramma’s: voldoet het gegeven onderwijs aan eisen van effectiviteit en efficiëntie? In het boek van Berkel & Bax (1993) worden de hoofddoelen van beoordelen in het onderwijs gekoppeld aan het tijdstip van toetsing en de functie ervan. Vóór de start van een studieonderdeel is het hoofddoel ‘selectie’ met de functie ‘toelating’. Tijdens het programmadeel is het hoofddoel ‘voortgangscontrole’ met ‘bijsturing’ als functie. Aan het eind van de rit is ‘kwalificatie’ het hoofddoel met als functie ‘niveaubepaling’. De eisen die aan beoordelingen gesteld moeten worden vallen in twee groepen uiteen: doelmatigheidseisen (validiteit, betrouwbaarheid, efficiëntie) en billijkheidseisen (objectiviteit, transparantie, normering).
Assessment en assessmentcenters
Elders heeft De Groot (1982) een model geschetst waarin de didactische en evaluatieve operationalisatie van opleidingsdoelstellingen staan weergegeven. Tegen de achtergrond van dat model willen we aan de genoemde functies van toetsen, namelijk predictie, selectie, diagnostiek, kwalificatie en evaluatie nog een functie toevoegen: het gebruik van beoordelingen in het kader van de (studie)loopbaancoaching. Leren beoordelen en beoordeeld worden valt in dat verband zelfs te beschouwen als de kerncompetentie bij uitstek voor een verantwoorde professionele zelfsturing. Kijken we nu naar de bestaande praktijk van toetsen en toetsing in het hoger onderwijs dan valt een aantal problemen te constateren. Toets los van leerprogramma Een toets kan qua vorm of qua inhoud te weinig een afspiegeling zijn van het studieprogramma dat ermee beoordeeld zou moeten worden. Wie sociale competenties of interpersoonlijke vaardigheden wil meten met behulp van een juist/onjuist-toets zal de meetpretentie vermoedelijk niet waar kunnen maken. Een toets wordt in andere ruimte en onder andere condities afgenomen dan waarin en waaronder de studie heeft plaatsgevonden. Een toets wordt meestal niet in overleg met de studenten samengesteld. De student leert, de docent toetst. Toets als sluitpost De toets is vaak het sluitstuk en de afronding van een onderwijsmoduul. Het is het moment waarop zoals dat heet de student wordt ‘afgerekend’ op zijn studieprestaties. Naast deze summatieve toetsing – leidend tot de beslissing slagen of zakken - bestaat weliswaar ook een ‘zachtere’ variant, de zogenaamde formatieve toetsing, waarbij tussentijdse bijsturing het beoogde doel is. Het effect daarvan blijkt over het algemeen nogal beperkt te zijn, deels omdat juist de studenten die dat het minst
126 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
nodig hebben van dergelijke tussentijdse feedback gebruik blijken te maken. Betrouwbaarheid voor validiteit Hoewel elk boek over toetsconstructie zal aangeven dat betrouwbaarheid een noodzakelijke maar daarmee geenszins een voldoende voorwaarde voor validiteit is, lijkt de aandacht zich in de praktijk toch sterker op het eerste dan het tweede te richten. Het toetsen van presentatievaardigheden met een juist/onjuist-toets is een klassiek voorbeeld van hoe het niet moet. Hetzelfde geldt overigens ook voor het via omslachtige essayvragen toetsen van simpele feitenkennis. Waar het om gaat, is dat de toets enerzijds past bij de studietaak en anderzijds authentiek is in de zin van een afspiegeling zijn van de latere beroepspraktijk. De afweging van betrouwbaarheid en validiteit staat in de literatuur bekend als het ‘bandwith–fidelity’ dilemma. Wie uitspraken wil doen over een breed gedragdomein, zal in de regel een lagere betrouwbaarheid realiseren dan degene die een zeer smal segment wil aftesten. Illustratief is dat in de toetspraktijk van het hoger onderwijs nog wel eens betrouwbaarheidscoëfficiënten van studietoetsen worden gerapporteerd, maar validiteitgegevens nauwelijks voorkomen. Voornamelijk cognitief gericht; accent op kennis in plaats van vaardigheden Van de wijdverbreide drieslag ‘kennis, vaardigheden en attituden’ lijkt de eerste in het hoger onderwijs veruit de meeste aandacht te krijgen. Pas de laatste jaren lijkt zich een kentering voor te doen waarbij met name aan vaardigheden meer ruimte wordt gegeven. Traditioneel richt de toets zich echter voornamelijk op het meten van de kenniscomponent van de studieprestaties. Reproductief in plaats van productief Met name de gesloten toetsvormen, zoals de juist/onjuist-toets en de meerkeuzevragen hebben de naam
Assessment en assessmentcenters
vooral te appelleren aan het herkenningsvermogen van de deelnemers. Er wordt in die toetsvormen in elk geval geen actie van de studenten verwacht in de zin dat zij bepaalde gedragingen of vaardigheden actief moeten demonstreren. Althans nauwelijks ‘overt behavior’ doch vooral ‘covert behavior’, dat wil zeggen probleemoplossen en nadenken. Weinig en late feedback Een klacht van veel studenten is dat zij de toetsuitslagen pas erg laat ontvangen. In elk geval langer dan voor adequate feedback functie wenselijk zou zijn. Na enkele weken heeft de vergeetcurve ook reeds zo zeer toegeslagen dat het nauwelijks nog mogelijk is om de gedachtengang bij het beantwoorden van de items behoorlijk te kunnen reconstrueren. De feedback is ook nogal eens mager. Slechts over de eindscore wordt gerapporteerd zonder enige begeleidende analyse van het scoreprofiel van individuele deelnemers of vakclusters in de toets.
beoordelaar duidelijk van elkaar te scheiden, worden daar recentelijk ook wel vraagtekens bij geplaatst. Het is als met het onderscheid tussen summatieve en formatieve evaluatie of het verschil tussen proces- en productbeoordeling; al dergelijke onderscheidingen blijken bij nadere beschouwing nogal gradueel te zijn. Zo heeft summatieve beoordeling in een breder verband een formatieve functie (je weet nu wat je opnieuw en beter moet bestuderen), is het proces alleen te beoordelen aan (tussen)producten en vergt begeleiding van studenten altijd een beoordeling van student, stof en situatie. In die zin zou het goed zijn studenten en docenten elkaar explicieter te laten beoordelen. Niet aan alle beoordelingen hoeft dan een civiel effect of voortgangsbeslissing te worden gekoppeld (zie Hofstee, 1999), als ervaring in het leren beoordelen en beoordeeld worden, kan het ook al zijn waarde hebben.
Zetten we de voorafgaande beschouwing over de knelpunten en tekortkomingen van de bestaande toetspraktijk nu om in een ontwerp van een gewenste situatie, dan ontstaat het volgende profiel.
Beginnen met toetsen In het eerder aangehaalde model van De Groot werd de verstrengeling van de didactische en de evaluatieve operationalisatie van de opleidingsdoelstellingen al duidelijk. Eigenlijk zou bij de constructie van een studie-eenheid vanaf het begin af aan gedacht en gewerkt moeten worden in termen van de einddoelen, dat wil zeggen in termen van het nagestreefde gedragsrepertoire. In concreto zou dat kunnen betekenen dat de ontwikkeling van een moduul pas afgerond is zodra de beoogde toetsvormen bekend en de toetsitems geproduceerd en op voorraad beschikbaar zijn. Beginnen met toetsen kan ook betekenen dat er aan het begin van een moduul een instaptoets wordt afgenomen, afgestemd op het eindniveau van het desbetreffende moduul, en dat iedereen die aan de slaagnorm voldoet vrijstelling voor dat studieonderdeel krijgt, en alle anderen een gericht studieadvies voor dat specifieke moduul.
Vervlechten van begeleiding en beoordeling Hoewel vaak bepleit wordt om de rol van begeleider en
Kritische functiesituaties als uitgangspunt Aangezien studenten worden opgeleid voor de latere
Weinig variatie Hoewel niet door ons onderzocht, is de verwachting dat in het Nederlandse hoger onderwijs het leeuwendeel van de toetsing zal plaatsvinden met schriftelijke toetsen, waarvan weer het merendeel van het gesloten type zal zijn. Vermoedelijk is de spreiding van toetsvormen binnen een instituut ook nogal beperkt en sterker door tradities en pragmatische redenen bepaald dan door psychometrische argumenten.
3. Profiel van een beter alternatief
Assessment en assessmentcenters
beroepspraktijk zou het aanbeveling verdienen daarop al vroeg te anticiperen. De kernproblemen uit de beroepspraktijk zouden niet alleen in het curriculum maar ook in de toets een sleutelrol kunnen vervullen. Het vaststellen van die kernproblemen zou moeten plaatsvinden door middel van een regelmatig herhaalde functieanalyse van het desbetreffende beroep of de desbetreffende beroepen. Competentiegericht beoordelen Kennis verouderd over het algemeen snel en zowel het werkveld als het hoger onderwijs zelf hechten een steeds groter belang aan vaardigheden en houdingsaspecten. Levenslang leren, een leergierige instelling en een arsenaal aan handelingsmogelijkheden om effectief en efficiënt nieuwe informatie te verzamelen, te verwerken en te benutten, dat zijn een paar van de competenties waarom het tegenwoordig draait. Het daarbij gehanteerde begrip ‘competentie’ moet als overkoepelend gelden voor zowel kennis, vaardigheden en attituden. Doordat dezelfde competentietaal door het onderwijs en het werkveld gehanteerd wordt, kan tevens een brug geslagen worden tussen opleiding en arbeidsorganisaties. Accent op praktijkrelevante vaardigheden Een toets zou moeten bijdragen aan de ontwikkeling van competenties die centraal staan in de beroepsuitoefening van professionals in een bepaald werkveld. De term die in dat verband gebruikt wordt, is de zogenaamde ‘authentieke’ toets. Er kan daarbij worden gedacht aan min of meer gesimuleerde arbeidsproeven, waarin de deelnemer moet tonen over de vereiste vaardigheden te beschikken. Zo moet een dominee kunnen preken, gesprekken voeren, contacten onderhouden, plannen en organiseren en moet bijvoorbeeld een huisarts kunnen prikken, anamneses afnemen, visites rijden en overleggen met specialisten. Van architecten, uitvoerend musici of supermarktmanagers worden voor deel weer heel andere competenties gevraagd. De praktijk tot uitgangspunt van de toets nemen, zal overigens altijd met het nodige voorbehoud
128 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
moeten plaatsvinden, bijvoorbeeld vanwege het gevaar van vernauwing of ongewenst conservatisme. Demonstreren van passend gedragsrepertoire Aangezien het in de beroepspraktijk niet zozeer gaat om de spreekwoordelijke boekenkennis maar veeleer om de toepassing ervan op concrete vraagstukken, zou het goed zijn wanneer de toetsprocedure daarop zou vooruitgrijpen. In een variant op de slogan van De Groot dat kwaliteit moet blijken, zou je evengoed kunnen stellen: ‘bekwaamheid moet blijken’. Toetsen door middel van arbeidsproeven, mits enigszins gestandaardiseerd en doelmatig lijken daarvoor de aangewezen methode. Snelle en rijke feedback Uitslagen van toetsprestaties zouden bij voorkeur zo snel mogelijk gerapporteerd moeten worden. Een eenvoudige manier om dat te bewerkstelligen, is het direct na afloop van de toets vrijgeven van de sleutel zodat studenten onmiddellijk kunnen verifiëren hoeveel en welke fouten zij hebben gemaakt. Het toevoegen aan de sleutel van relevante informatie over de vindplaats van (de argumentatie voor) het juiste antwoord verdient evenzeer aanbeveling. Aarzeling bestaat soms over de vraag of ook de toetsitems zelf openbaar gemaakt moeten worden. Principieel lijkt dat wel degelijk de beste benadering om studenten optimaal in staat te stellen hun controlerende functie uit te oefenen en zich voor te bereiden op toekomstige toetsen. Feedback kan verder verrijkt worden door niet te volstaan met de mededeling dat het gegeven antwoord of de getoonde respons eenvoudig onjuist was, maar door een analyse te geven van mogelijke oorzaken van de verkeerde respons en aanbevelingen voor een aangepast leertraject om de lacunes aan te vullen. Gevarieerde taken en oefeningen Net zoals in het onderwijs gestreefd wordt naar kennis en vaardigheden die op een wendbare wijze zijn toe te
Assessment en assessmentcenters
passen, bijvoorbeeld door de vaardigheid contextonafhankelijk te maken of door de contextgebondenheid juist expliciet te trainen, zo zouden ook de toetsvormen die variëteit moeten weerspiegelen. In het boek van Berkel & Bax (1993) worden bijvoorbeeld als mogelijkheden genoemd: casustoetsen, stages, creatieve producten, scripties, met daarnaast de meerkeuzetoets, de mondelinge toets en de open vragen toets. Bevorderen van transfer of training en transfer of knowledge Een goede toets zou zo mogelijk moeten bijdragen aan het dichten van de kloof tussen onderwijs en beroepspraktijk. Dat betekent dat de toets enerzijds moet verduidelijken hoe bepaalde kennis en vaardigheden in het werkveld toegepast worden en anderzijds zou het werkveld er van kunnen leren hoe bepaalde ingeslepen gedragspatronen door andere vervangen zouden kunnen worden. Het idee van de Maastrichtse voortgangstoets die ook wordt voorgelegd aan een groep afgestudeerde artsen, die daarmee een soort referentiegroep vormen, verdient daarom navolging.
Hieronder wordt in schema 1 de overgang van de huidige toetspraktijk naar een profiel van het gewenste alternatief nog eens op een rijtje gezet.
4. ADCs in het hoger onderwijs Het profiel van de gewenste toetspraktijk toont erg veel overeenkomst met de beoordelingsaanpak die vooral in het bedrijfsleven al geruime tijd en op ruime schaal wordt toegepast, namelijk het assessment en development center (ADC). Was de doelstelling daarbij oorspronkelijk vooral gericht op selectie van hoger personeel, inmiddels wordt het ook gebruikt voor andere functieniveaus en strekt het toepassingsbereik zich ook uit tot andere aspecten van het human resource management. Zo kan het ADC ook een duidelijk rol spelen bij opleidingsvraagstukken, potentieelschatting, management development trajecten, bij beoordeling, bij beloning of bij promotie- en overplaatsingsbeslissingen. In het algemeen dus bij loopbaanvraagstukken in de ruimste zin des woords.
Schema 1 Huidige situatie
Profiel van gewenst alternatief
Toets los van leerprogramma Toets als sluitpost Betrouwbaarheid voor validiteit Voornamelijk cognitief Kennis i.p.v. vaardigheden Reproductief i.p.v. productief Weinig en late feedback Weinig variatie
Vervlechten van begeleiding en beoordeling Beginnen met toetsen Kritische functiesituaties als uitgangspunt Competentiegericht (kennis + vaardigheden + houding) Accent op praktijkrelevante vaardigheden Demonstreren van passend gedragsrepertoire Snelle en rijke feedback Verschillende taken en oefeningen. Bevorderen van transfer of training maar ook transfer of knowledge
Assessment en assessmentcenters
De belangrijkste kenmerken van de assessment en development center methode zijn: Gedrag voorspelt gedrag Dit adagium vormt de kern van de assessment center methode. Wie een vacature voor de functie van docent heeft, kan kandidaten selecteren op basis van brief of interview, maar de beste toets voor de bekwaamheden van kandidaten lijkt te zijn, hen voor een klas te zetten en een (proef)les laten geven. Dat daarmee niet alle kerntaken van de functie zijn afgedekt moge duidelijk zijn en zou betekenen dat misschien nog twee of drie herkenbare situaties gecreëerd moeten worden om bijvoorbeeld interpersoonlijke of organisatorische competenties te bepalen. Gestandaardiseerde evaluatie van gedrag De situaties waarin de kandidaten worden geplaatst, zijn in zoverre gesimuleerd dat niet alle ruis die zich in werkelijkheid voor kan doen wordt toegelaten in de oefeningen. Teneinde kandidaten zoveel mogelijk onder gelijke omstandigheden te laten werken, worden de simulaties zo goed mogelijk gestandaardiseerd. De tweede vorm van standaardisering vindt plaats door middel van het gehanteerde beoordelingsprotocol. Assessoren worden getraind in het gebruik van het beoordelingsprotocol en -formulier, zodat een hoge mate van intersubjectieve overeenstemming gerealiseerd kan worden. Gebaseerd op meervoudige observaties De beoordelingen worden gedaan in meerdere oefeningen. Uiteindelijk geven de assessoren eerst hun onafhankelijk oordeel op de verschillende gedragsdimensies die in een bepaalde oefening gemeten worden. Daarna wordt in een consensusvergadering besloten welke score de kandidaat zal krijgen. De oordelen van de afzonderlijke assessoren kunnen daarbij op verschillende manieren gecombineerd worden. Een eenvoudige procedure is het middelen van de door de afzonderlijke assessoren
130 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
toegekende scores, al dan niet gewogen naar rato van de kwaliteitsreputatie van de assessor. Een in de regel tijdrovender en niet noodzakelijk betere procedure is een uitvoerige discussie tussen de assessoren over elke gedragsdimensie voor elke afzonderlijke kandidaat (zie bijvoorbeeld Thornton, 1992). Meerdere instrumenten De meest gebruikte onderdelen van een ADC zijn een of meer praktijkproeven waar nodig aangevuld met enkele psychologische tests en persoonlijkheidsvragenlijsten. Ook gestandaardiseerde instrumenten voor interesseen vaardigheidsmeting kunnen onderdeel uitmaken van het ADC. De meest gebruikte simulaties in het assessment center zijn: de postbakoefening, een tweegesprek, een groepsopdracht, een presentatie en de fact-finding opdracht (Jansen & De Jongh, 1993). Meerdere getrainde observatoren De prestaties van de deelnemers worden door tenminste twee onafhankelijke assessoren beoordeeld. De assessoren krijgen vooraf een grondige training in het gebruik van het beoordelingsprotocol. Zij zullen in ieder geval vier taken bijna parallel aan elkaar moeten uitvoeren: gedrag opknippen in episodes, de episodes toewijzen aan de juiste competentie of gedragsdimensie, de observatie noteren, de observatie waarderen (zie ook Seegers, 1997). Gedragsbeoordelingen Hierboven is al aangegeven dat de kern van de assessment center methode bestaat uit het doen van uitspraken over gedrag van personen. Het gaat dus uitdrukkelijk niet om de oorzaken, motieven of drijfveren voor dat gedrag, maar om het waarneembare gedrag zelf. In die zin heeft de ADC benadering een nogal behavioristisch karakter. In de praktijk wordt overigens ook weer genoeg water bij de wijn gedaan bijvoorbeeld door het opnemen van tests en vragenlijsten in het ADC.
Assessment en assessmentcenters
Functiespecifieke simulaties De arbeidsproeven die in het ADC worden opgenomen, vloeien voort uit een zorgvuldige functieanalyse waarin de kernproblemen uit de beroepspraktijk gelokaliseerd en zonodig ontleed zijn. Zo zou bijvoorbeeld voor hotelmanagers een set kerntaken geformuleerd kunnen worden rondom de verschillende managementgebieden waarmee zij te maken krijgen: financiën, operations, strategie, marketing en sales, personeelszaken, kwaliteitszorg, informatie- en communicatietechnologie. Eindprofiel in termen van competenties De rapportage aan de deelnemers vermeldt behalve de eindscores per competentie ook de meest saillante observaties die tot een bepaald oordeel geleid hebben. Bij sommige competenties worden ook de scores op deelaspecten in de rapportage opgenomen.
5. Het ADC en het gewenste profiel Uit de bovengenoemde kenmerken komt al gedeeltelijk naar voren dat de ADC aanpak zeer goed tegemoet kan
komen aan een aantal wensen die eerder werden geformuleerd in het profiel van het ideale alternatief. Zo kan de vervlechting van begeleiding en beoordeling worden gerealiseerd door het ADC op te nemen als onderdeel van het studieprogramma. Dat kan betekenen dat practica, opdrachten en reguliere bijeenkomsten van de onderwijsgroep onderdeel gaan uitmaken van een in de tijd gespreid ADC. Het ADC zou ook goed gebruikt kunnen worden als voormeting bij een bepaald studieonderdeel. Het ADC is opgebouwd uit aan de beroepspraktijk ontleende kerntaken, die op hun beurt worden ontleed in afzonderlijke competenties. In simulaties die zo levensecht zijn als methodologisch verantwoord is, kunnen deelnemers hun gedragsrepertoire tonen aan getrainde assessoren. Assessoren, die uit het onderwijs of het werkveld gerekruteerd worden, zullen hun bevindingen in termen van een competentieprofiel aan de kandidaten rapporteren. Zowel de individuele kandidaten als de organisaties waarvoor zij (zullen gaan) werken kunnen met die informatie hun voordeel doen in het kader van loopbaanbeslissingen. Bijkomende opbrengst is dat de beoordelingsgewoonten van de assessoren hun uitstra-
Schema 2 Profiel van alternatief
Assessment en development center methode
Vervlechten begeleiding en beoordeling Beginnen met toetsen Kritische functiesituaties Competentiegericht Praktijkrelevante vaardigheden Demonstreren van gedragsrepertoire Snelle en rijke feedback Verschillende taken en oefeningen Transfer of training Transfer of knowledge
ADC als onderdeel van het studieprogramma ADC als voormeting Levensechte simulaties Competentiegericht werken en denken Kerntaken als uitgangspunt Focus op gedrag Rapportage Postbak, tweegesprek, groepswerk etc. Overdracht werkveld-opleiding Inschakelen van werkveld bij constructie en afname van oefeningen
Assessment en assessmentcenters
ling zullen hebben naar zowel de opleiding als het werkveld. In het ADC kunnen zij beide van elkaar leren. Samengevat in schema 2 komt het ADC als volgt tegemoet aan het profiel van de ideale toetsing.
6. Het ADC en de functies van toetsen In paragraaf 2 werden de verschillende doelen en functies van toetsen opgesomd. Drie daarvan willen we hier nog eens naar voren halen. In de eerste plaats de diagnostische functie van toetsen. Het ADC beoogt uiteindelijk een competentieprofiel van de kandidaten op te leveren. Dat zou vervolgens een rol kunnen spelen in het overleg tussen de student en zijn studiebegeleider of mentor. Tevens kan het ADC een voormeting opleveren, dat wil zeggen het instapniveau vaststellen op basis van het beroeps- en opleidingsprofiel, in termen van vereiste competenties. Dat zou bijvoorbeeld het ADC ook geschikt maken voor inschakeling bij het vaststellen van elders of eerder verworven kwalificaties (EVC). De voorspellende of predictieve functie zou het ADC kunnen vervullen doordat op basis van de uitkomsten van het ADC uitspraken zouden worden gedaan over de ontwikkelingsrichting, het ontwikkelingstempo en het
bereikbare eindniveau. Toetsing van dergelijke prognoses zou veel waardevolle informatie opleveren over de validiteit van het ADC als beoordelingsmethode. De belangrijkste functie van het ADC is vooralsnog die van ondersteuning van de (studie)loopbaancoaching. Dat zou idealiter betekenen dat het ADC adviezen oplevert over de optimale leerroute voor de afzonderlijke deelnemers. In concreto zou het ADC informatie moeten opleveren over de rangorde, de volgorde, de inhoud en de gewenste aanpak van de diverse studieonderdelen.
7. ADC en ICT Wanneer we kijken naar de mogelijkheden tot toepassing van informatie- en communicatietechnologie (ICT) in het ADC, dan is het verstandig eerst een onderscheid te maken tussen de verschillende fasen bij het gebruiken van een ADC in het hoger onderwijs. Het zijn er drie: Ontwikkeling, Uitvoering en Onderhoud. Ze staan hieronder weergegeven, met telkens de belangrijkste taken of tussenstappen per fase. Voor elk van de drie fasen zullen we proberen aan te geven op welke wijze ICT een bijdrage zou kunnen leveren aan het optimaliseren van de uitvoering van de taken die daarin aan de orde zijn.
Schema 3 Ontwikkeling
Uitvoering
Onderhoud
functieanalyse uitvoeren
werven en indelen van deelnemers
evalueren van de oefeningen
oefeningen ontwerpen en construeren organisatie van ruimtes en faciliteiten psychometrische analyses uitvoeren beoordelingsschalen en scoringsregels
werving en training van assessoren en rolspelers rapportage en nazorg
132 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
bijstellen van het instrumentarium
Assessment en assessmentcenters
Ontwikkeling In de fase van ontwikkeling van een ADC moeten drie taken volbracht worden. De eerste is de functieanalyse. De beroepspraktijk waarvoor het ADC wordt ontwikkeld, moet worden teruggebracht tot een beperkte verzameling kerntaken. Uit die verzameling moeten dan die onderdelen gekozen worden die het meest representatief zijn en het meest geschikt voor opname in het ADC. Toepassing van ICT bij de functieanalyse zou bijvoorbeeld kunnen bestaan uit het gebruiken van het door het LDC ontwikkelde pakket Traject ’99. Daarin is van een zeer groot aantal functies het functieprofiel opgenomen, inclusief allerlei voorwaarden voor het adequaat uitoefenen ervan. Bij de daadwerkelijke constructie van oefeningen kan worden overwogen de simulaties geheel of gedeeltelijk te automatiseren. Dat zou bijvoorbeeld kunnen betekenen dat deelnemers zich moeten inleven en bewegen in een virtuele omgeving (bijvoorbeeld een virtueel bedrijf of virtuele winkel, vgl. Beirendonck, 1999) of dat hen de mogelijkheid wordt geboden informatie te zoeken via Internet, of dat zij voor de berekening van wachttijd- of voorraadproblemen bestaande applicaties (Excel, SPSS, e.d.) mogen gebruiken. Bij het opstellen van een scoringsprotocol tenslotte zou ICT een rol kunnen spelen bij het combineren van de scores, met name wanneer ingewikkelde algoritmen gebruikt zouden worden. Samengevat in schema 4.
Uitvoering In de fase van de uitvoering van het ADC kan ICT een bijdrage leveren aan de werving en inroostering op afstand. Voor het inroosteren zou tevens roosterprogrammatuur gebruikt kunnen worden. Dat zou met name aan de orde zijn bij langdurige, omvangrijke en logistiek complexe afnames van het ADC. Of de computer op termijn als assessor ingezet zou kunnen worden, is om zowel praktische als principiële redenen voorlopig nog de vraag (vgl. Hofstee, 1999). Ervaringen met expertsystemen zijn nog steeds niet dusdanig dat het adaptieve menselijke oordeel gemist zou kunnen worden. Dat laat overigens onverlet dat op deelterreinen de computer onderdelen of redelijk objectief meetbare aspecten van de beoordeling heel goed zou kunnen overnemen. Sommige tests en vragenlijsten worden volautomatisch gescoord, waarna de resultaten welhaast per ommegaande aan de respondent teruggestuurd worden. Of geautomatiseerde rapportage haalbaar en wenselijk is, kan zeker bij de wat ingewikkelder loopbaanbeslissingen op zijn minst betwijfeld worden. Samengevat in schema 5. Onderhoud In de fase van onderhoud en onderzoek, ook samen te vatten onder de noemer ‘evaluatie’, kan ICT vooral worden ingeschakeld in de vorm van beschikbare statisti-
Schema 4 Functieanalyse Oefeningen construeren Beoordelingsschalen maken Scoringsprotocol opstellen
Functieprofielen uit Traject ‘99 Computersimulaties (virtuele omgeving, zoeken via Internet, data-analyse) Combineren van scores
Assessment en assessmentcenters
Schema 5 Werving en inroostering Organisatie Trainen assessoren en rolspelers Rapportage en nazorg
sche pakketten voor psychometrische analyses van de oefeningen, de beoordelingen en de beoordelaars. Daarnaast zou de evaluatie van de oefeningen door de deelnemers direct na afloop van de oefeningen kunnen plaatsvinden. In schema 6. Alles bij elkaar lijken de toepassingsmogelijkheden van ICT in het ADC nog niet zo erg groot. Een belangrijke reden daarvoor is gelegen in de nadruk die in het assessment en development center wordt gelegd op het tonen van beroepsrelevant gedrag. Voor zover in de functievervulling van professionals het gebruik van ICT tot het kerntakenpakket gerekend wordt, zouden de ADC oefeningen daarnaar gemodelleerd kunnen worden. Voor zover de levensechtheid van arbeidsproeven zich niet verdraagt met de kunstmatigheid van computersimulaties blijft de rol van ICT bij ADC ‘s nogal beperkt.
Netwerk- en e-mailvoorzieningen, roosterprogrammatuur De computer als assessor Geautomatiseerde rapportage
8. De leerwaarde van het ADC De hogeschool waaraan wij zijn verbonden, heeft haar onderwijsconcept gebaseerd op de volgende zes pijlers: • leren is construeren; • denken in ontwikkelingslijnen; • creëren van een uitdagende leeromgeving; • leren in een maatschappelijke context; • centraal stellen van de beroepspraktijk; • internationalisering. Verschillende elementen daarvan keren terug bij andere instellingen voor hoger onderwijs. Bovendien reflecteren ze vergelijkbare geluiden uit het werkveld. Het gaat dan om concepten zoals zelfgestuurd levenslang leren of competentiegericht leren en werken. Het accent wordt daarbij steeds gelegd op het ontwikkelen van een passend gedragsrepertoire. Dat gaat dan gepaard met een accentverschuiving van feitenkennis naar vaardigheden en houdingsaspecten. Levensechte kerntaken uit
Schema 6 Evalueren oefeningen Psychometrische analyses Bijstellen instrumentarium
134 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Deelnemers on-line laten evalueren Statistische pakketten voor betrouwbaarheidsen validiteitstudies -
Assessment en assessmentcenters
het werkveld dienen als basis voor studie en toetsing, zodat een optimale overdracht kan plaatsvinden van opleiding naar werkveld en vice versa. De leerwaarde van het ADC als toets- en als werkvorm strekt zich zodoende uit over tenminste de volgende drie partijen: 1. De student/deelnemer Een goed ontwikkeld en uitgevoerd ADC leidt tot meer zelfinzicht en levert een vooruitblik op de toekomstige beroepspraktijk en levert handreikingen op voor het samenstellen van een individuele leerroute. 2. De opleiding De opbrengst voor de opleiding bestaat uit een beter inzicht in de kerntaken uit het beroepsveld, verbeterde beoordelingsgewoonten van medewerkers-assessoren en ten derde een evaluatie van het curriculum en de prestaties van studenten. 3. Het werkveld Het werkveld wordt ook op tenminste drie manieren wijzer van het gebruik van ADCs in het hoger onderwijs. In de eerste plaats doordat via participatie bij de ontwikkeling van oefeningen en deelname als assessor invloed uitgeoefend kan worden op de samenstelling van het curriculum. In de tweede plaats kan het werkveld beter inschatten welke verwachtingen ten aanzien van afgestudeerden realistisch zijn. In de derde plaats kunnen organisaties uit het werkveld in hun personeels- en loopbaanbeleid aansluiten op de competentiesystematiek die men samen met het hoger onderwijs heeft ontwikkeld. Alles bij elkaar redenen genoeg om op de leerwaarde van het ADC in het hoger onderwijs verder te kapitaliseren.
Literatuur Beirendonck, L. van (1999). Beoordelen en ontwikkelen van competenties. Leuven/Amersfoort: Acco. Berkel, H.J.M. van & A.E. Bax (red.)(1993). Beoordelen in het onderwijs. Houten/Zaventem: Bohn Stafleu Van Loghum. Dousma, T. & A. Horsten (1980). Tentamineren. Utrecht: Het Spectrum. Groot, A.D. de (1982). Academie en Forum. Over hoger onderwijs en wetenschap. Meppel: Boom. Groot, A.D. de & R.F. van Naerssen (1969). Studietoetsen: construeren, afnemen, analyseren. Den Haag: Mouton. Hofstee, W.K.B. (1999). Principes van beoordeling. Methodiek en ethiek van selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger. Jansen, P.G.W. (1991). Het beoordelen van managers. Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers. Baarn: Nelissen. Jansen, P.G.W. (1993). Assessment centers; een open boek. Utrecht: Het Spectrum/Marka. Seegers, J.J.L. (1997). Assessment centers. Een personeelsinstrument voor de manager. Deventer: Kluwer bedrijfsinformatie. Starren, J., S.J. Bakker, A. van der Wissel (red.)(1995). Inleiding in de onderwijspsychologie. Instructie, beoordeling en behandeling. Muiderberg: Coutinho. Thornton, G.C. (1992). Assessment Centers in Human Resource Management. Reading: Addison-Wesley.
Assessment en assessmentcenters
Naar een digitaal portfolio dr. J.W.F. van Tartwijk, prof.dr. A. Pilot en prof.dr. T. Wubbels Universiteit Utrecht, IVLOS
Inleiding Hoewel er grote verschillen bestaan in de aard en omvang van de producten waarnaar met de term ‘portfolio’ wordt verwezen, gaat het vrijwel altijd om een product waarin niet alleen leerresultaten maar ook de leerervaringen van de samensteller zichtbaar worden gemaakt. Dat gebeurt door met behulp van documentatiemateriaal te tonen hoe (leer)taken zijn uitgevoerd en geëvalueerd. Daarnaast maken vaak analyses en evaluaties van de hand van de samensteller deel uit van de portfolio. In de Verenigde Staten heeft het gebruik van portfolio’s in het onderwijs in het laatste decennium een sterke groei doorgemaakt. Ook aan deze zijde van de oceaan worden portfolio’s en andere vormen van dossiers steeds vaker gebruikt in het onderwijs. Studenten aan lerarenopleidingen gebruiken portfolio’s om hun ontwikkeling zichtbaar te maken en/of om daar met anderen van gedachten over te wisselen, studenten toegepaste communicatiewetenschappen en studenten aan kunstacademies presenteren zich aan de buitenwereld met behulp van digitale portfolio’s en leerlingen in het voortgezet onderwijs houden in literatuurdossiers bij wat zij gedaan hebben en wat hun beoordelingen waren.
136 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Als redenen voor de populariteit van portfolio’s noemen Paulson, Paulson en Meyer (1991) ten eerste dat ze bij uitstek de mogelijkheid bieden om een authentiek en compleet beeld te krijgen van het leren over langere tijd in de vaak complexe context waarin onderwijs wordt gevolgd. Een tweede reden is volgens hen dat portfolio’s meer dan meer traditionele beoordelingsmethoden mogelijkheid bieden om instructie en beoordelen met elkaar te verbinden. In deze bijdrage gaan we niet alleen op de mogelijkheden die portfolio’s bieden voor het beoordelen van competenties, maar beschrijven we ook de rol die ze kunnen spelen bij het stimuleren van reflectie. We lichten dit toe aan de hand van ervaringen met het werken met portfolio’s die in de afgelopen vijf jaar aan de Universiteit Utrecht zijn opgedaan. Deze ervaringen vormen aanleiding voor het ontwerpen van een digitaal portfolio. Wij zullen daarbij uitgaan van een portfoliomodel dat in de afgelopen jaren in Utrecht werd ontwikkeld en dat qua structuur geschikt is. We willen gebruik maken van in het Nederlandse hoger onderwijs algemeen beschikbare ICT (Veen e.a., 1999). Nadat we het in Utrecht ontwikkelde model hebben beschreven, besluiten we onze bijdrage met onze overwegingen bij de keuze voor een digitaal portfolio.
Assessment en assessmentcenters
Doelen van het samenstellen van portfolio’s De structuur en inhoud van portfolio’s verschilt sterk al naar gelang het doel van het samenstellen. In deze paragraaf worden twee doelen onderscheiden en wordt ingegaan op de consequenties voor structuur en inhoud van een portfolio. Beoordelen van competenties In navolging van Thijssen omschrijven Buskermolen & de la Parra (1999) competentie als een cluster van vaardigheden, attitudes en achterliggende kenniselementen, dat als minimumstandaard geldt om bepaalde arbeidstaken correct te verrichten door het vertonen van adequaat gedrag. In een portfolio toont iemand zijn of haar competenties, door een indruk te geven van de wijze waarop taken worden uitgevoerd en geëvalueerd. In lerarenopleidingen wordt vaak een onderscheid gemaakt tussen de start- en doorgroeicompetenties van de student (Koetsier, 1991). Bij startcompetenties gaat het dan om het vermogen om taken naar behoren uit te kunnen voeren op het moment dat wordt beoordeeld. Met doorgroeicompetenties wordt verwezen naar het ontwikkelingspotentieel van de student. Hierbij worden reflectieve vaardigheden van groot belang geacht (Korthagen, 1998), omdat die noodzakelijk zijn voor de evaluatie en uitbreiding van reeds verworven competenties. In deze bijdrage zullen wij verder de begrippen start- en doorgroeicompetentie hanteren. Een beoordeling van start- en doorgroeicompetenties aan de hand van portfolio’s kan plaatsvinden in het kader van een opleiding, maar ook in de context van bijvoorbeeld een toelatingsprocedure, een personeelsbeoordeling of een sollicitatie. Om startcompetenties adequaat te kunnen beoordelen, moet eerst worden vastgesteld welke competenties relevant zijn. Vervolgens moet worden bepaald op basis van welke uitgevoerde taken uitspraken kunnen worden
gedaan over welke competenties. Daarna moet worden vastgesteld hoe de uitvoering van die taken zodanig kan worden gedocumenteerd en beschreven, dat een valide en betrouwbare beoordeling van die competentie mogelijk wordt. In de context van beoordelings- c.q. toelatingsprocedures waarin startcompetenties van de samensteller worden beoordeeld, zal dan ook vaak expliciet worden gevraagd om specifieke documentatiematerialen in de portfolio op te nemen, waarmee een ondubbelzinnig beeld gekregen kan worden van de wijze waarop specifieke taken werden uitgevoerd. Beschrijvingen door de samensteller zijn in dit verband functioneel wanneer ze feitelijke informatie geven over de aard van het materiaal en de situatie waarin het verzameld is. Wanneer ook doorgroeicompetenties in de beoordeling worden betrokken, is het juist belangrijk om zicht te krijgen op het reflectief vermogen van de samensteller. Er zal dan bijvoorbeeld gevraagd worden om beschrijvingen en analyses van het eigen functioneren en om aan te geven welke ruimte voor verbetering de samensteller ziet en hoe die eventueel gerealiseerd kan worden. In de context van een sollicitatieprocedure heeft de kandidaat relatief veel ruimte om zelf een selectie te maken van taken die in de portfolio worden gedocumenteerd en om in de beschrijving en de wijze van documenteren eigen accenten te leggen. Omdat de kandidaat daar een duidelijk belang bij heeft, zal dat vrijwel altijd leiden tot een relatief positieve presentatie van zijn of haar competenties. Naar een portfolio dat in een sollicitatieprocedure wordt ingezet, wordt vaak verwezen als een ‘show-case’ met dito redactie en vormgeving. De waarde van een beoordeling of summatieve evaluatie op basis van een portfolio is ten eerste dat uitgegaan kan worden van een authentiek (of ecologisch valide) beeld van de competenties van de samensteller. Dat wil zeggen dat meegewogen kan worden in welke situaties taken werden vervuld. Ten tweede kunnen bij een dergelijke beoordeling ver-
Assessment en assessmentcenters
schillende competenties in onderling verband (holistisch) beoordeeld worden. Daardoor kan bijvoorbeeld beter worden ingeschat in welke mate zwakke kanten een belemmering vormen bij het vervullen van taken en in welke mate sterke kanten ook daadwerkelijk leiden tot een beter functioneren Een derde punt waarop een beoordeling op basis van portfolio’s specifieke mogelijkheden kan hebben, is dat er ruimte is voor het profileren van individuele verschillen. Zeker in de context van een sollicitatieprocedure of personeelsbeslissing kan dat erg belangrijk zijn. Een laatste voordeel is dat kan worden uitgegaan van gegevens uit een veelheid van bronnen (triangulatie) waaruit over langere tijd gegevens zijn verzameld. Dit kan de validiteit van de beoordeling ten goede komen en bovendien kan groei in een bepaalde richting worden aangetoond. Stimuleren van leren door reflectie Wanneer een portfolio wordt samengesteld in een opleidingssituatie kan die worden gebruikt als instrument om zelfevaluatie van de samensteller te stimuleren. Een dergelijke evaluatie zal vaak het karakter hebben van een sterkte-zwakte analyse in het licht van beoordelingscriteria. Die analyse geeft vervolgens aanknopingspunten voor het formuleren van een strategie om de zwakke punten te verbeteren in de richting van het gewenste niveau. Het samenstellen en bespreken van een portfolio kan didactisch zinvol zijn omdat het de ontwikkeling van de metacognitieve kennis en vaardigheden van de samensteller kan stimuleren. Boekaerts en Simons (1993) omschrijven metacognitieve kennis als de kennis over eigen en andermans cognitief functioneren. Met metacognitieve vaardigheden (of zelfregulatie) bedoelen zij het vermogen om actief sturing te geven aan de eigen cognitieve of leerprocessen. Mensen die over relatief veel metacognitieve kennis en vaardigheden beschikken zijn onder meer betere probleemoplossers. Dergelijke
138 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
kennis en vaardigheden zouden vooral ontstaan door reflectie op het eigen leren en dat van anderen. Gesprekken met experts kunnen daarvoor een belangrijke stimulans vormen. Het systematisch beschrijven en zichtbaar maken van de wijze waarop taken worden uitgevoerd kan voor de samensteller van een portfolio een analyse betekenen van het eigen leerproces. Voor een begeleider biedt de portfolio inzicht in de ontwikkeling van competenties gedurende een opleidingstraject. In die zin kan een portfolio een belangrijke rol vervullen als monitor. Op basis daarvan kan gerichter feedback gegeven worden. Bovendien kan uit een portfolio een indruk worden gekregen van de mate waarin de samensteller systematisch reflecteert op het eigen functioneren. Behalve de betekenis van het samenstellen en analyseren van portfolio’s voor het ontwikkelen van meta-cognitieve kennis en vaardigheden, kan het werken met portfolio’s in een opleiding ook nog een andere functie hebben. Het werken met portfolio’s biedt ontwerpers van onderwijs bij uitstek de mogelijkheid om leerprocessen te organiseren zoals die in de praktijk, bijvoorbeeld een stage, plaatsvinden. Door in portfolio-opdrachten te vragen hoe specifieke taken werden vervuld, zal de samensteller gestimuleerd worden de uitvoering van dergelijke taken ook daadwerkelijk te zoeken. Een voorbeeld is de opdracht aan docenten om inzichtelijk te maken hoe de voortgang van hun studenten of leerlingen wordt gevolgd.
Portfolio’s binnen de Universiteit Utrecht Sinds 1994 wordt binnen de Universiteit Utrecht (UU) met portfolio’s gewerkt. Portfolio’s spelen ten eerste een belangrijke rol binnen professionaliseringstrajecten van (beginnende) docenten binnen de UU (van Tartwijk e.a. 1996, van Tartwijk, 1998). Daarnaast wordt binnen de Utrechtse universitaire lerarenopleiding gebruik
Assessment en assessmentcenters
gemaakt van portfolio’s (Don e.a., 1997; Evelein & van Tartwijk, 2000). In beide gevallen werd niet alleen ervaring opgedaan met het beoordelen van competenties aan de hand van portfolio’s, maar werden portfolio’s ook ingezet om begeleiding te faciliteren. In de lerarenopleiding werd bovendien kennis gemaakt met het gebruik van portfolio’s als instrument binnen sollicitatieprocedures. Op basis van deze ervaringen is een portfoliomodel ontwikkeld. Op basis van dit model kunnen portfolio’s worden samengesteld die zowel een redelijk betrouwbare en valide beoordeling van competenties mogelijk maken, als stimuleren tot het systematisch analyseren en evalueren van het eigen functioneren. Hieronder geven we eerst een indruk van de wijze waarop in Utrecht met portfolio’s werd gewerkt. We gaan daarbij ook in op knelpunten die zich voordeden. Vervolgens beschrijven we het ontwikkelde portfoliomodel.
teria plaatsvindt aan de hand van een door de docent zelf samengesteld portfolio. In de facultaire opleidingstrajecten spelen portfolio’s een structurerende rol. Gedurende het traject beschrijft en documenteert de docent in een portfolio zijn of haar ontwikkeling tot het voor de kwalificatie vereiste competentieniveau.
Ervaringen met het samenstellen van portfolio’s door docenten aan de UU In september 1995 is een start gemaakt met de invoering van een nieuwe functiestructuur voor wetenschappelijk personeel binnen de UU. In die functiestructuur wordt nadrukkelijk ruimte gemaakt voor een universitaire carrière op basis van competenties als docent. Onderwijskwalificaties spelen binnen die functiestructuur een belangrijke rol. Om voor die kwalificaties in aanmerking te komen, wordt van medewerkers verwacht dat vakinhoudelijke, didactische, organisatorische, sociale en reflectieve competenties voldoen aan facultaire criteria die passen binnen een universitair kader. Wanneer medewerkers nog niet het vereiste niveau hebben bereikt, kunnen ze deelnemen aan facultaire opleidingstrajecten. Daarin worden ze systematisch begeleid bij hun onderwijstaken en vindt eventueel op hun persoonlijke behoeften toegesneden bijscholing plaats. In het universitaire kader is aangegeven dat de toetsing van de competenties van docenten aan de facultaire cri-
Vanuit het perspectief van de samenstellers bleek positief dat het werken met een portfolio in veel gevallen een stimulans vormde om het eigen onderwijs systematisch te doordenken. Volgens de samenstellers kwam dit de kwaliteit van dat onderwijs ten goede. De instructie voor het samenstellen van de portfolio bleek echter problemen op te leveren. Hoewel die instructie bij eerste kennismaking helder leek, bood ze onvoldoende houvast wanneer daadwerkelijk aan de portfolio’s gewerkt moest gaan worden. De portfolio’s bleken dan ook qua structuur, omvang en inhoud sterk te verschillen. Vaak ontbrak materiaal zoals studentenevaluaties en video-opnamen van het onderwijs. Het gebrek aan een eenduidige structuur, de vaak grote omvang en het ontbreken van relevant materiaal leverde grote problemen op bij het beoordelen van competenties aan de hand van de portfolio’s. Het vroeg een (te) grote inspanning van beoordelaars om per portfolio, op basis van telkens verschillend materiaal intersubjectieve en gespecificeerde oordelen te geven over competenties van de samensteller. De beoordelaars vonden de
Ervaringen met een expirimenteel opleidingstraject In 1995 ging binnen de Faculteit Letteren een experimenteel opleidingstraject van start en werd binnen de Faculteit Sociale Wetenschappen geëxperimenteerd met het samenstellen en beoordelen van portfolio’s. In deze experimenten werd een instructie voor het samenstellen van portfolio’s gebruikt, die was opgesteld op basis van inzichten uit de literatuurstudie (van Tartwijk, Hoornweg & Wubbels, 1996). In verhouding tot instructies die later werden gebruikt liet deze instructie vrij veel ruimte aan de samensteller van een portfolio.
Assessment en assessmentcenters
eigen beschouwingen van de samenstellers over het algemeen wel hanteerbaar en informatief. Vervolgexperimenten In volgende experimenten zijn portfolio’s samengesteld aan de hand van meer sturende instructies. Docenten is daarin nadrukkelijk gevraagd de portfolio’s te structureren naar de verschillende competenties die beoordeeld werden. Bovendien werd voor zowel de samenstellers als de beoordelaars verhelderd hoe de portfolio’s beoordeeld zouden moeten worden en welk documentatiemateriaal voor welke competentie informatief zou kunnen zijn. In dit kader zijn voor een aantal faculteiten zogenaamde toetsmatrices ontwikkeld. Hierin werden per te beoordelen competentie de facultaire criteria opgesomd en werden per competentie suggesties voor materiaal gedaan waarmee gedocumenteerd kan worden hoe relevante taken werden uitgevoerd. Beschouwingen van de samenstellers kregen een centrale plaats in de portfolio. Daarin analyseerde de samensteller in het licht van de criteria de eigen competenties en verwees ter onderbouwing naar het in bijlagen opgenomen materiaal. Beoordelaars werd gevraagd geen oordeel te formuleren voor afzonderlijke criteria, maar te beoordelen op het hogere aggregatieniveau van competenties van de samensteller. Na één jaar werden de ervaringen van beoordelaars en samenstellers van portfolio’s binnen de Faculteit Sociale Wetenschappen via een vragenlijst geïnventariseerd. Hierbij ging het alléén om beoordelingen van medewerkers die portfolio’s samenstelden zonder gelijktijdig een opleidingstraject te doorlopen. Gemiddeld bleek de instructie de samenstellers voldoende houvast te bieden. De beoordeling van dergelijke portfolio’s met behulp van de toetsmatrix bleek goed hanteerbaar en er bleken redelijke correlaties tussen beoordelaars mogelijk. Een eerste punt van zorg was dat veel samenstellers twijfelden aan de kwaliteit en de volledigheid van het beeld dat de toetser zich op basis van hun portfolio kan
140 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
vormen over hun onderwijs. Bovendien werd het samenstellen en beoordelen van een portfolio door veel samenstellers als een bureaucratische exercitie ervaren. Het was teleurstellend dat veel samenstellers het werken met een portfolio weinig stimulerend vonden voor het denken over en aanpassen van het eigen onderwijs. Een verklaring hiervoor werd gevonden in het feit dat de respondenten portfolio’s samenstelden buiten de context van een professionaliseringstraject. Er bestond een zeer sterk verband tussen de mate waarin medewerkers het samenstellen van een portfolio als stimulerend hadden ervaren en hun positieve waardering van de (inhoudelijke) contacten met leden van de toetscommissie. Conclusies Geconcludeerd werd, dat wanneer reflectie op het eigen functioneren een doel is van het samenstellen van een portfolio, er een situatie gecreëerd moet worden waarin de portfolio een aangrijpingspunt is om met anderen van gedachten te wisselen over de eigen werkwijze als docent. Wanneer het doel enkel het beoordelen van competenties is en docenten niet deelnemen aan een dergelijke gedachtewisseling, ligt het gebruik van een portfolio waarin zelfevaluatie centraal staat niet voor de hand. Een alternatief is dan een louter summatieve beoordeling aan de hand van een dossier waarin alleen een beperkte hoeveelheid standaard-documentatiemateriaal is opgenomen (studenten-evaluaties, de gebruikte toetsen, een scriptie van een begeleide student, e.d.). Peterson (1995) en Gredler (1999) rapporteren over onderzoek waaruit blijkt dat een dergelijke toetsing kan voldoen aan de criteria die over het algemeen worden gehanteerd bij personeelsbeslissingen.
Ervaringen binnen de Utrechtse universitaire lerarenopleiding De geschiedenis van het werken met portfolio’s binnen de Utrechtse universitaire lerarenopleiding is in grote
Assessment en assessmentcenters
lijnen vergelijkbaar met de ervaringen zoals hierboven beschreven. Begin 1995 werd voor het eerst met het gebruik van portfolio’s geëxperimenteerd in de eenjarige postdoctorale variant van de opleiding (Don e.a. 1996). De lerarenopleiders die in verschillende cursussen met portfolio gingen werken, stonden zowel didactische als beoordelingsdoelen voor ogen. Er waren wel duidelijke accentverschillen. Zo werd in één cursus nadrukkelijk aangegeven dat de portfolio een functie zou hebben bij de eindbeoordeling van de cursus. Aan de hand van de portfolio moesten competenties zichtbaar worden gemaakt zoals die in de eindtermen van de opleiding werden genoemd. In deze cursus werd in een sollicitatietraining ook de potentiële rol van portfolio’s in sollicitatieprocedures toegelicht. De studenten gaven echter aan zich in een procedure ‘niet te zien aankomen’ met een portfolio wanneer dit voor een sollicitatiecommissie een nieuw fenomeen is en er dus niet om wordt gevraagd. Wel bleek het onderscheid tussen verschillende typen portfolio’s verhelderend: een ‘show-case’ portfolio dat in een sollicitatieprocedure kan worden gebruik; een beoordelingsportfolio waarin met een aantal gespecificeerde materialen wordt aangetoond dat de samensteller over de vereiste competenties beschikt; en een opleidingsportfolio waarin veel verschillend materiaal wordt gebruikt om zelfanalyses te onderbouwen en waaruit gedurende de rit materiaal kan worden verwijderd en waaraan steeds nieuw materiaal wordt toegevoegd. In een tweede cursus werd meer de nadruk gelegd op didactische doelen. Door de student een portfolio te laten samenstellen, zo was de verwachting, zou zijn of haar leerweg ook voor hem of haarzelf inzichtelijk worden. Uiteraard hadden deze accentverschillen consequenties voor de structuur van de portfolio. Waar meer nadruk werd gelegd op de rol van de portfolio bij tussentijdse en eindbeoordelingen werd explicieter gevraagd om
documentatiematerialen, waar meer nadruk werd gelegd op didactische doelen werd meer aandacht gegeven aan opdrachten die zelfanalyse moesten stimuleren. Terugblikkend is opvallend dat altijd werd gevraagd om zowel een zelfanalyse als documentatiemateriaal, maar dat relatief weinig expliciete handreikingen werden gedaan over hoe in de portfolio de zelfanalyse en het documentatiemateriaal te verbinden. Sindsdien is in verschillende cursussen met de portfolio gewerkt en zijn instructies tussentijds meerdere malen aangepast. Ook hier vormden (te) grote verschillen in structuur, omvang, inhoud en vormgeving van de portfolio daarvoor de aanleiding. Huidige situatie Nog steeds bestaan er duidelijke verschillen in de instructies zoals die in de diverse cursussen worden gebruikt. Die verschillen zijn niet alleen terug te voeren op de doelen die men voor ogen heeft, maar ook op verschillen in stijl van opleiders, (vak)achtergrond en visie op de opleiding. Toch is de tendens binnen alle cursussen vergelijkbaar: van een invalshoek waarbij de studenten relatief veel vrijheid werd geboden om een eigen selectie van materiaal, structuur en vormgeving te ontwikkelen, naar een veel sterker gestructureerd portfolio waarin eindtermen richting geven aan een zelfevaluatie die wordt onderbouwd met materiaal dat in bijlagen is op genomen (vergelijk Evelein & van Tartwijk, 2000; Tigchelaar, 2000).
Het binnen de UU ontwikkelde model Het portfoliomodel dat is ontwikkeld op basis van ervaringen in de professionaliseringstrajecten voor docenten aan de UU (Universiteit Utrecht) vertoont een sterke gelijkenis met het model dat men binnen de lerarenopleiding is gaan hanteren. Hieronder beschrijven we dit model.
Assessment en assessmentcenters
Zelfanalyse Kenmerkend voor het binnen de UU ontwikkelde model is dat de zelfanalyse van de samensteller centraal staat. In de zelfanalyse worden de eigen sterke en zwakke kanten systematisch geanalyseerd in het licht van de criteria voor de kwalificatie die wordt nagestreefd (de facultaire onderwijskwalificatie of de bevoegdheid die wordt verkregen na afsluiting van de lerarenopleiding). Het is overigens niet de bedoeling de vaak lange lijsten met criteria systematisch af te werken in de portfolio. Om de portfolio overzichtelijk en hanteerbaar te houden, is het belangrijk om in de zelfanalyse het hogere aggregatieniveau van competenties te kiezen. De inhoud van die competenties wordt dan in de instructie toegelicht met behulp van de veel gedetailleerdere en talrijkere criteria. Een competentie kan eventueel worden vertaald naar een specifieke docentrol. Bijvoorbeeld de rol als ‘Organisator van leerprocessen’ waarvoor criteria kunnen worden geformuleerd als ‘De docent is in staat relevante onderwijsdoelen te formuleren’, ‘De docent is in staat leerwinst te toetsen’ etc. Uitspraken in de zelfanalyse worden systematisch onderbouwd door te verwijzen naar het in bijlagen opgenomen documentatiemateriaal, bijvoorbeeld in de vorm van een voetnoot. Een voorbeeld: ‘Bij het ontwikkelen van toetsitems voor het door mij verzorgde onderdeel van het tracé ‘Organisatie en Advies’ heb ik steeds geprobeerd de relatie met de doelen van mijn bijdrage aan het tracé duidelijk te laten terugkeren en te zorgen voor een evenwichtige spreiding over de behandelde stof. (Noot: Vergelijk de in bijlage 6.2 opgenomen items en de verantwoording daarvan voor de coördinator van het tracé)’ Documentatiemateriaal Wat de ordening van het materiaal in bijlagen betreft, onderscheiden we twee systemen. Het eerste systeem is om alle materialen naar type in aparte bijlagen onder te
142 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
brengen. Bijvoorbeeld een bijlage schriftelijke evaluaties, een bijlage lesplanningen etc. Een alternatief is om de materialen chronologisch te ordenen. Een voorbeeld van een chronologische ordening is om in een docentportfolio het materiaal per verzorgde cursus of serie cursussen te ordenen in één bijlage. In die ene bijlage zijn dan documenten opgenomen die informatie geven over de doelstellingen, de beginsituatie van de studenten, de planning, de uitvoering, de toets en de evaluatie van een cursus. Wanneer op deze manier een serie cursussen wordt getoond, is het mogelijk om een cyclisch proces van onderwijsverbetering zichtbaar te maken (plannen-uitvoeren-toetsen-evalueren, opnieuw plannen-uitvoeren-toetsen-evalueren). Wat aard van het documentatiemateriaal betreft, kan een onderscheid worden gemaakt in drie typen. Ten eerste materiaal dat gestandaardiseerde informatie geeft. Hierbij kan gedacht worden aan schriftelijke evaluaties door studenten of leerlingen en invulformulieren over taken die werden uitgevoerd. Het tweede type materiaal geeft formele informatie. Het kan gaan om bijvoorbeeld cijferlijsten, certificaten en diploma’s. Het derde type is materiaal dat relatief veel interpretatie van de eventuele beoordelaar vraagt, omdat het informatie geeft over verschillende onderling samenhangende competenties. Veel materiaal dat gewoonlijk in portfolio’s wordt opgenomen kan tot dit type worden gerekend. Een eerste voorbeeld uit de portfolio van een student aan de lerarenopleiding is een video of een observatieverslag van een les die werd verzorgd. Een tweede voorbeeld is het eindverslag van een onderzoek door studenten en de beoordeling daarvan uit een portfolio van een docent aan de universiteit. Het adequaat interpreteren van de betekenis van dergelijk materiaal vraagt van de beoordelaar expertkennis. Toetsmatrix Aangeraden wordt om bij de beoordeling van de competenties aan de hand van een portfolio gebruik te maken
Assessment en assessmentcenters
van een toetsmatrix. Die matrix heeft de vorm van een tabel waarin per rij één te beoordelen competentie wordt gegeven. Nadat in de eerste kolom de competentie is omschreven, worden in de volgende kolom de criteria genoemd die richting kunnen geven over de wijze waarop de competentie moet worden geïnterpreteerd. In de derde kolom worden suggesties gedaan voor documentatiemateriaal dat een beeld kan geven over de te beoordelen competentie. In de vierde en laatste kolom is ruimte voor aantekeningen. Door het gebruik van een dergelijke matrix krijgen beoordelaars handvaten voor een beoordeling op het niveau van competenties. Door de matrix ook aan samenstellers te geven, krijgen zij niet alleen een indruk van de wijze waarop de portfolio zal worden gebruikt in een beoordeling, maar wordt tevens een inhoudelijke indeling in competenties gegeven waarnaar zij hun portfolio kunnen structureren.
Naar een digitaal portfolio Het binnen de UU ontwikkelde portfoliomodel leent zich qua structuur goed voor een vertaling naar een webbased digitaal portfolio. Met een digitaal portfolio wordt een aantal praktische problemen ondervangen die zich voordoen bij het werken met ‘papieren’ portfolio’s. Binnen de UU bestaat dan ook het voornemen om, samen met een aantal partners, een digitale variant van de eerder ontwikkelde portfolio te ontwerpen. De beschikbaarheid van de daarvoor noodzakelijk informatie en communicatie technologie (ICT) in het Nederlandse hoger onderwijs levert daarvoor niet langer problemen op (Veen e.a., 1999). In het eerste deel van deze paragraaf gaan we kort in op de digitale portfolio zoals we die voor ogen hebben. We besluiten deze bijdrage met onze overwegingen rond de keuze voor een digitaal portfolio. Een ontwerp voor een digitaal portfolio De structuur van het binnen de UU ontwikkelde portfo-
liomodel is eerder modulair of niet-lineair van aard dan chronologisch of lineair. Analyses van bijvoorbeeld vakinhoudelijke, didactische of interpersoonlijke competenties, hoeven niet chronologisch gelezen te worden maar kunnen naast elkaar en in willekeurige volgorde worden bestudeerd. Die analyses van verschillende competenties kunnen in een website als verschillende pagina’s worden opgenomen, die vanuit één startpagina kunnen worden bereikt. In de papieren variant wordt de deelanalyse onderbouwd door bijvoorbeeld in voetnoten te verwijzen naar documentatiemateriaal, waarnaar dan gebladerd kan worden. In de digitale variant kan door het aanbrengen van ‘links’ naar het (digitale) documentatiemateriaal met een muisklik onmiddellijk het materiaal worden bekeken.
Argumenten rond de keuze voor een digitaal portfolio Fysieke omvang Een eerste praktisch maar zeer reëel knelpunt bij het werken met papieren portfolio’s, is dat ze in het gebruik fysiek vaak onhanteerbaar zijn. Het kan om veel materiaal gaan (verslagen, video’s, etc.) dat in mappen of zelfs dozen verzameld wordt. Wolf (1991) stelt dat het archiveren van portfolio's vaak problemen oplevert en dat ze bovendien moeilijk zijn door te nemen en te ‘scoren'. De ervaringen in Utrecht bevestigen dit. Het beeld doemt op van een docent die de portfolio’s van dertig studenten moet gaan doornemen en aan zijn eigen auto niet voldoende heeft om de te beoordelen portfolio’s mee naar huis te nemen. Binnen de UU doen anekdotes de ronde over verzamelingen portfolio’s die bij beoordelaars per postzak werden aangevoerd. De commentaren van docenten op het bureaucratisch karakter van de portfolio beoordelingen kunnen deels ook in dit licht worden geïnterpreteerd. Dit probleem werkt in ieder geval zeer negatief in de beeldvorming rond portfolio’s. Door te werken met een portfolio die de vorm heeft van
Assessment en assessmentcenters
een (persoonlijke) website, spelen de problemen van fysieke omvang veel minder. Portfolio’s passen op één CD en in de meeste gevallen ook op de voor een eigen website toegemeten ruimte bij een provider. Probleem is wel dat niet al het materiaal waarmee competenties kunnen worden gedocumenteerd digitaal beschikbaar zal zijn (video). Hardwarecapaciteit kan ook een probleem vormen. Dat geldt bijvoorbeeld het opslaan van meerdere minuten video. Ook het afspelen van langere videofragmenten via de meest gangbare modems levert onacceptabele vertragingen op. Toegankelijkheid Beoordelaars kunnen een digitaal portfolio veel makkelijker doornemen dan een papieren variant. In de papieren portfolio moet vaak in bijgeleverde ordners gezocht worden naar het bedoelde materiaal. In een digitaal portfolio wordt in de zelfanalyses naar materiaal verwezen via een ‘link’. Die hoeft alleen aangeklikt te worden om dat materiaal te bekijken, waarna men weer terugklikt naar de zelfanalyse om verder te lezen. De beoordelaar wordt op deze wijze door de samensteller vanuit de zelfanalyse door het materiaal geloodst. Dat betekent wel dat de samensteller de leesroute en de context van waaruit wordt gelezen nadrukkelijk bepaald. De lezer zal minder snel materiaal zien waarnaar minder vaak of niet verwezen (gelinkt) is, omdat even door de portfolio bladeren minder vaak zal gebeuren. Een specifiek voordeel van digitale ten opzichte van papieren portfolio’s betreft de toegankelijkheid van videomateriaal. Wanneer gebruik wordt gemaakt van video’s in een ‘papieren’ portfolio, moet om de video af te spelen eerst een afspeelset worden gezocht en wanneer die is gevonden naar een relevant fragment worden gespoeld. Beoordelaars blijken dat vaak niet te doen. In een digitale portfolio kan eenvoudig naar het goede fragment worden geklikt, dat meteen op de eigen PC wordt getoond.
144 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Structuur Een voordeel van een digitaal portfolio dat via een website wordt aangeboden is dat een heldere en (eventueel) voortdurend zichtbare structuur aangebracht kan worden. In veel van de portfolio’s die met name door UU docenten werden aangeleverd was de structuur ondoorzichtig. In een digitaal portfolio kan die structuur eventueel via een centraal ontwerp worden aangebracht. Samenstellers kan worden gevraagd daar alleen bij hoge uitzondering van af te wijken. Die structuur dient wel zo eenvoudig mogelijk te zijn en teksten van de samenstellers moeten niet te lang worden om te voorkomen dat de ‘bezoeker’ van de portfoliosite afhaakt of verdwaalt. Meerdere kopieën Van een portfolio op papier is vaak maar één actuele kopie beschikbaar. Dat levert problemen op wanneer het instrument wordt gebruikt door beoordelings- en sollicitatiecommissies of in de context van intervisie. Daarnaast heeft een papieren portfolio grote nadelen in het gebruik bij begeleiding of intervisie op afstand. De portfolio moet dan gerouleerd of heen en weer gestuurd worden, wat niet alleen tot onacceptabele vertraging maar ook tot zoekraken kan leiden. Naar aanleiding van de ervaringen met het gebruik van portfolio binnen professionaliseringstrajecten werd geconcludeerd dat een vorm van super- of intervisie noodzakelijk is om de gewenste reflectie van de samensteller op het eigen functioneren op gang te brengen. Met name bij intervisie kan een digitaal portfolio handiger zijn dan een papieren variant omdat alle deelnemers gelijktijdig kunnen beschikken over een actuele versie. De deelnemers aan die intervisie moeten dan wel over de vaardigheden en faciliteiten beschikken om materiaal op het web te zetten, te ordenen, te bekijken en er eventueel commentaar op te geven.
Assessment en assessmentcenters
Gebruik in sollicitatieprocedures De ervaringen in de lerarenopleiding met het gebruik van portfolio’s in sollicitatieprocedures was in die zin teleurstellend dat, hoewel de meeste betrokkenen de potentie van dit gebruik van een portfolio wel zagen, ze er als puntje bij paaltje kwam nauwelijks gebruik van maakten. Reden was vooral dat samenstellers zich in sollicitatieprocedures ‘niet zien aankomen’ met een portfolio. Dit is jammer omdat gebruik van een portfolio in een sollicitatieprocedure een belangrijke prikkel kan vormen om zorgvuldig aan de portfolio te werken. Hier biedt een digitaal portfolio alleen voordelen. Het is veel makkelijker om in een sollicitatieprocedure ‘voor verdere informatie’ te verwijzen naar een ‘show-case’ portfolio op een website (inclusief het voordeel van de ICT-minded indruk die dat wellicht op de commissie maakt) dan naar een meegebrachte of op aanvraag beschikbare omvangrijke papieren portfolio. Bovendien hoeft de portfolio dan niet onder de leden van een commissie te rouleren.
Conclusie Het gebruik van digitale portfolio’s heeft een aantal belangrijke voordelen ten opzichte van een papieren variant alhoewel zich ook met name technische problemen en problemen ten aanzien van de vaardigheid van gebruikers zullen voordoen. Wanneer dergelijke problemen zijn overwonnen lijkt een digitale toekomst van de portfolio lijkt niet alleen onvermijdelijk maar ook gewenst.
Literatuur Boekaerts, M. & Simons, P.R (1993). Leren en instructie. Psychologie van de leerling en het leerproces. - Assen: Dekker & van de Vegt.
Buskermolen, F. & Parra, B. de la (1999) Een wereld in beweging. In F. Buskermolen, F., B. de la Parra & R. Slotman (Red.). Het belang van competenties in organisaties. - Utrecht: Lemma. Pp 17-28. Don, L., Haitink, A., Schrijnemakers, H.M.G., Tartwijk, J. van, & Veldman, I. (1997). Het gebruik van portfolio's in de lerarenopleiding. In J. Boter, en T. van der Veen (Red.), De lerarenopleiding: van opleidingsconcept naar opleidingspraktijk. - Apeldoorn: Garant. Pp. 160-168. Evelein, F. & Tartwijk, J. van (2000). Overwegingen bij het gebruik van Portfolio’s binnen een universitaire lerarenopleiding. VELON Tijdschrift voor lerarenopleiders, 21, nr. 1, 46-55. Gredler, M.E. (1999). Classroom assessment and learning. - New York: Longman. Koetsier, C.P. (1991). Een brug tussen opleiding en praktijk: Een studie over de individuele eindstage als brug tussen lerarenopleiding en praktijk (Dissertatie Universiteit Utrecht, 1991). - Utrecht: WCC. Korthagen, F. (1998). Leren reflecteren: naar systematiek in het leren van je werk als docent. In L. Fonderie, J. Hendriksen, (Red). Begeleiden van docenten, reflectie als basis voor de professionele ontwikkeling in het onderwijs. - Baarn: Nelissen. Pp. 43 – 56. Paulson, F.L., Paulson, P.R. & Meyer, C.A.(1991). What makes a portfolio a portfolio? Eight thoughtful guidelines will help educators encourage self-directed learning. Educational Leadership 48, nr. 5, 60-63. Peterson, K.D. (1995). Teacher evaluation: a comprehensive guide to new directions and practices. - Thousand Oaks, CA: Corwin Press.
Assessment en assessmentcenters
Tartwijk, J. van, Hoornweg, J., & Wubbels, T. (1996). Het gebruik van portfolio's bij de beoordeling van onderwijsgevenden: een literatuurstudie. In D. van Veen & W. Veugelers (Red.), Vernieuwing van leraarschap en lerarenopleiding. - Apeldoorn: Garant. Pp. 217- 227. Tartwijk, J. van, Vries, O. de, Cappetti, C., Wubbels, Th., & Keesen, F. (1996). Het gebruik van portfolio's bij de beoordeling van beginnende docenten. In D. Beijaard, J. Snippe, en W. van de Bor (red.), Werken aan hoger onderwijs - De Lier: Academisch Boeken Centrum. Pp. 7688. Tartwijk, J. van (1998). Een model voor portfolio‘s met als doel beoordeelbaarheid en het stimuleren tot reflectie. Eindrapportage van een ontwikkelingsonderzoek in de context van de invoering van onderwijskwalificaties binnen de Universiteit Utrecht. - Utrecht: IVLOS.
146 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Tigchelaar, A. (2000) Portfolio instructie voor de LIOstage. - Utrecht: IVLOS (interne publicatie). Veen, W., Tartwijk, J. van, Geloven, M.P., Moonen, J., Peters, E.M.A. & Lam, J.I. & Pilot, A. (1999). Educatief ICT-gebruik in het Nederlandse hoger onderwijs. I, A.B.M. Melief, Wetenschappelijk Technische Raad SURF (Red.), Werk in Uitvoering. Onderzoek en Visie. Den Haag: ten Hagen & Stam uitgevers. Pp.159-186. Wolf, K. (1991). The schoolteacher's portfolio: issues in design, implementation and evaluation. Phi Delta Kappan 73,129-136.
Het toetsen van complexe vaardigheden
7
HET TOETSEN VAN COMPLEXE VAARDIGHEDEN Het toetsen van gedragsvaardigheden per computer dr. K.I. van Oudenhoven-van der Zee Rijksuniversiteit Groningen, vakgroep Persoonlijkheids- en Onderwijspsychologie
Introductie Voor de beroepspraktijk van afgestudeerd psychologen is vaardigheid in het voeren van professionele gesprekken onontbeerlijk. Of het nu gaat om een psycholoog die als therapeut gesprekken voert met cliënten of om een personeelsmanager die belast is met selectie van personeel of het coachen van medewerkers, of om een onderzoeker die respondenten interviewt, in vrijwel alle toepassingsgebieden van de Psychologie speelt het gesprek als professioneel instrument een belangrijke rol. In de Opleiding Psychologie aan de Rijksuniversiteit Groningen wordt dan ook veel aandacht besteed aan professionele gespreksvoering. Zo leren studenten in een basiscursus een eerste hulpverleningsgesprek met een cliënt te voeren en wordt in vervolgcursussen aandacht besteed aan gevorderde gesprekken zoals selectiegesprekken en loopbaancounselingsgesprekken. Om te toetsen in hoe-
verre studenten aan het eind van een training Gespreksvoering het gewenste eindniveau bereikt, hebben worden momenteel in het onderwijs naast traditionele kennistoetsen vaardigheidstoetsen gebruikt in de vorm van videotoetsen en rollenspeltoetsen. Bij de videotoets reageert de student volgens een concrete instructie op een groot aantal korte gespreksscenes. Bij de rollenspeltoets wordt het feitelijk gedrag van de student in een gesimuleerde gesprekssituatie beoordeeld. In dit hoofdstuk wordt geprobeerd duidelijk te maken op welke manier de computer deze twee manieren van vaardigheidstoetsing kan ondersteunen. Daarbij geldt de Basistraining Gespreksvoering als uitgangspunt. In deze training is reeds de nodige ervaring opgedaan met het toetsen van vaardigheden en er zijn evaluatiegegevens beschikbaar. Allereerst worden in dit hoofdstuk de uitgangspunten van de training in gespreksvaardigheden besproken. Vervolgens zal, uitgaande van de doelen
Het toetsen van complexe vaardigheden
en didactische uitgangspunten van de training, beargumenteerd worden wat de meest valide vorm van toetsing van het eindniveau van studenten is. Daarbij zal uitgebreid worden ingegaan op de kenmerken van de videotoets en de rollenspeltoets en op de ervaringen die daarmee bij Psychologie zijn opgedaan. Voor beide toetsvormen zal besproken worden welke voordelen afname per computer kan hebben en welke beperkingen daaraan verbonden zijn. Op dit moment is een gecomputeriseerde videotoets in ontwikkeling, zodat bij de bespreking van de ICT-toepassingen deels kan worden uitgegaan van concrete ervaringen.
Basistraining in Gespreksvoering Voordat bepaald kan worden wat de meest adequate vorm van toetsing van een training gespreksvaardigheden is, is het van belang helder te krijgen wat het doel en de uitgangspunten van de training zijn. In de Basistraining Gespreksvoering zoals die door de Opleiding Psychologie aan de Rijksuniversiteit Groningen verzorgd wordt, leren studenten een eerste hulpverleningsgesprek te voeren met een cliënt, waarbij het accent ligt op verheldering van diens probleem. Het doel is studenten kennis, inzicht en beheersing van een aantal essentiële gespreksvaardigheden bij te brengen en hen te leren hoe zij deze gespreksvaardigheden geïntegreerd kunnen toepassen in de context van een hulpverleningsgesprek. Daarbij wordt gewerkt vanuit twee theoretische principes. In de eerste plaats dient de cumulatieve microtrainingsmethode als basis voor de training (Lang & Van der Molen, 1992). Deze methode is gebaseerd op de microtrainingsmethode van Ivey (1971). In Ivey’s methode wordt complex sociaal gedrag aangeleerd via afzonderlijke vaardigheden. Vaardigheden zijn te definiëren als zinvol onderscheidbare gedragseenheden, zoals vragen stellen, of samenvatten wat iemand gezegd heeft. Het nadeel van de methode van Ivey is dat vaardigheden geïsoleerd worden geoefend en studenten niet leren hoe zij de verschillende vaardighe-
148 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
den geïntegreerd kunnen toepassen in complexe counselingssituaties. Lang en Van der Molen ontwikkelden de cumulatieve microtrainingsmethode waarbij er sprake is van een geleidelijke toename van complexiteit in de oefeningen. Ook in hun methode worden steeds elementaire vaardigheden aangeleerd, maar in de rollenspelen krijgt de student de instructie naast de vaardigheid die centraal staat ook de eerder geleerde vaardigheden toe te passen. De tweede theoretische invalshoek betreft de sociaal leertheorie van Bandura (1986). In deze theorie staat modelling ofwel imitatieleren centraal. Bandura stelt dat veel menselijk gedrag geleerd wordt door gedragingen van anderen door gedragingen van anderen te observeren en te imiteren. In de training wordt dan ook gewerkt met video-opnamen van de aan te leren vaardigheden en wordt geoefend met gedrag in rollenspelen. Om het aangeleerde gedrag in stand te houden, is het vervolgens van belang dat dit gedrag bekrachtigd wordt. In de training betekent dit dat studenten feedback krijgen van de trainer of van medestudenten op hun gedrag tijdens de rollenspelen. Tenslotte stelt Bandura dat het voor imitatieleren van belang is een cognitief kader te creëren van waaruit de leerstof geïnterpreteerd kan worden. Iemand die auto leert rijden, zal beter onthouden wanneer hij of zij welk pedaal moet intrappen wanneer hij de verschillende pedalen weet te benoemen en wanneer hij of zij begrijpt wat de functie is van elke pedaal (zie Lang & Van der Molen, 1998). In de training wordt naast aan praktische oefening dan ook aandacht besteed aan het leren benoemen van gespreksvaardigheden en in bredere zin aan theorie op het gebied van gespreksvaardigheden. Kennis over vaardigheden maakt dat de student vervolgens gedrag in videovoorbeelden en in praktische oefensituaties kan herkennen, benoemen en beoordelen. Wanneer we de beide theoretische principes koppelen aan de doelstellingen van de training, vindt kennis- en inzichtvergroting primair plaats te vinden door studenten theorie
Het toetsen van complexe vaardigheden
aan te reiken en wordt middels voorbeeldfragmenten en oefening in rollenspelen gewerkt naar daadwerkelijke beheersing van vaardigheden. Conform het principe van microcounseling gaat het eerste doel, namelijk het aanleren van deelvaardigheden vooraf aan het tweede doel, de geïntegreerde toepassing van vaardigheden in een probleemverhelderend gesprek. Feedback speelt steeds een belangrijke rol ter bekrachtiging van het aangeleerde gedrag. De toetsing van vaardigheden betreft daarbij de eindfeedback en het is daarom belangrijk dat de wijze van toetsing nauwgezet afgestemd is op het gedrag dat aangeleerd is tijdens de training.
Het toetsen van vaardigheden Om op een valide wijze te kunnen beoordelen of studenten het gewenste eindniveau bereikt hebben, zijn vaardigheidstoetsen onontbeerlijk. Het is weinig zinvol om de beheersing van praktische vaardigheden te beoordelen door presentie of schriftelijke toetsen, iets wat in het onderwijs nog steeds vaak gebeurt. Schriftelijke toetsen meten kennis en inzicht ten opzichte van gespreksvaardigheden. Het aantrekkelijke van de schriftelijke toets is zijn efficiëntie en lage kostprijs. Het is echter zeer de vraag of gespreksvaardigheden met deze vorm realistisch te toetsen zijn. Zelfs wanneer gebruik gemaakt wordt van items die op toepassing van vaardigheden gericht zijn, door bijvoorbeeld vragen te koppelen aan korte gespreksfragmenten, kan niet worden getoetst in hoeverre een student in staat is nonverbale cues van een gesprekspartner op te merken en te interpreteren. Empirisch onderzoek heeft het belang van visuele stimuli bij het vaststellen van interpersoonlijke variabelen aangetoond (Guilford, 1967; Hendricks, Guilford & Hoepfner, 1969). Ook kan het nonverbale gedrag van de student zelf niet worden beoordeeld. Om te toetsen in hoeverre studenten aan het eind van een training gespreksvoering het gewenste eindniveau bereikt hebben, worden dan ook bij psychologie naast
traditionele kennistoetsen vaardigheidstoetsen gebruikt in de vorm van videotoetsen en rollenspeltoetsen. De videotoets bestaat uit een dertigtal korte vignetten. Dit zijn fragmenten waarin een persoon zijn of haar verhaal in de camera vertelt. De student krijgt de opdracht om in de rol van psycholoog of gespreksleider een bepaalde vaardigheid adequaat toe te passen. Voordeel van de videotoets is dat zij informatie overbrengt over gelaatsuitdrukkingen, houdingen en intonatie (Stricker, 1982), terwijl daar niet elke keer een acteur voor ingeschakeld hoeft te worden. Daarnaast heeft deze vorm het voordeel dat het relatief eenvoudig is om een grote verscheidenheid aan situaties aan de student voor te leggen (Smit, 1995). Bij de rollenspeltoets wordt het feitelijk gedrag van de student in een gesimuleerde gesprekssituatie beoordeeld. De student krijgt de opdracht om zo goed mogelijk een bepaald gesprek te voeren. In dat gesprek speelt een acteur de rol van cliënt volgens een van te voren opgesteld gedetailleerd draaiboek, waarin precies staat welke reactie moet worden vertoond naar aanleiding van vragen of handelingen van de student. Het gesprek wordt beoordeeld door (bij voorkeur) een aantal observatoren die de kwaliteit van het gesprek waarderen aan de hand van een lijst met beoordelingscriteria. Een belangrijk voordeel van deze methode boven de videotoets is dat feitelijk gedrag gemeten wordt en dat studenten de aangeleerde vaardigheden geïntegreerd moeten toepassen in een complexe situatie. Tevens is het mogelijk het nonverbale gedrag van de student mee te wegen in de beoordeling. Nadeel in vergelijking met de videotest is dat in het rollenspel slechts één gesprekssituatie met een beperkt aantal gespreksonderwerpen kan worden gepresenteerd en het de vraag blijft of van daar uit gegeneraliseerd kan worden naar andere gesprekssituaties en -onderwerpen. In de literatuur wordt dit probleem aangeduid als casusspecificiteit (Bögels, 1994; Vu & Barrows, 1994): de resultaten van een student in de ene versie hebben een lage voorspel-
Het toetsen van complexe vaardigheden
Figuur 1
lende waarde voor de behaalde resultaten in een andere versie. Smit (1995) onderzocht de generaliseerbaarheid van rollenspeltoetsen en toonde aan dat vijf rollenspelen nodig zijn om generaliseerbare uitspraken te kunnen doen over de beheersing van het probleemverhelderend gesprek. Een ander nadeel laat zich gemakkelijk raden: doordat voor elk rollenspel een acteur en een aantal beoordelaars vereist zijn, is de methode zeer tijdsrovend en daardoor duur.
150 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Samengevat lijkt de videotoets een efficiënte methode om op een gestandaardiseerde wijze het gebruik van vaardigheden in een breed scala van situaties te meten, terwijl de rollenspeltoets gebruik van vaardigheden in de context van een heel gesprek toetst. Empirisch onderzoek heeft de betrouwbaarheid en validiteit van beide toetsvormen aangetoond (Smit, 1995; Smit & van der Molen, 1996; Weekley & Jones, 1997). Smit (1995) vroeg trainers te beoordelen in welke mate rollenspel-
Het toetsen van complexe vaardigheden
en videotoetsen inzicht gaven in het vaardigheidsniveau van studenten en vond dat vaardigheden door beide toetsen in redelijke tot zeer sterke mate worden gedekt, waarbij de rollenspeltoets duidelijk het hoogst scoorde. Verder vond Smit een significante samenhang tussen de scores op beide toetsvormen en het trainersoordeel over de beheersing van vaardigheden. De resultaten van een schriftelijke toets vertoonden geen samenhang met het trainersoordeel en dit correspondeerde met het oordeel van de trainers dat deze toetsvorm geen inzicht gaf in vaardigheidsniveau. Congruent met de verschillen in accent tussen beide toetsvormen bleken ze onderling slechts matig samen te hangen. Het lijkt dus zinvol beide toetsvormen naast elkaar toe te passen.
Het toetsen van vaardigheden per computer Op dit moment wordt er gewerkt aan een gecomputeriseerde videotoets. Bij de traditionele toets kreeg de student klassikaal via een tv-scherm de toetsitems aangeboden. Bij de gecomputeriseerde videotoets reageert de student op een fragment op het beeldscherm door een reactie in te typen (zie Figuur 1). Op het moment dat de student aangeeft klaar te zijn met een fragment wordt het antwoord weggeschreven en gaat het programma door met het volgende item. De student kan het antwoord dan niet meer veranderen. Alle reacties worden automatisch opgeslagen in het computerprogramma en via het interne netwerk naar de docent gezonden. De student logt in op het programma onder zijn of haar eigen studentnummer en is ook op dat nummer identificeerbaar. Middels een speciaal aansturingsprogramma kan de docent aangeven gedurende welk tijdsinterval en door welke studenten de toets benaderbaar moet zijn. Er is een speciaal beoordelingsprogramma ontwikkeld waarin de docent en eventuele extra beoordelaars de antwoorden van de student kunnen opvragen om ze van punten en commentaar te voorzien (zie Figuur 2). Dit programma maakt het eveneens moge-
lijk zeer concrete terugkoppeling te geven aan studenten die vragen hebben over de beoordeling van de toets. Op den duur zou de beoordeling van de antwoorden van studenten geheel geautomatiseerd kunnen verlopen. De Faculteit Rechtsgeleerdheid van de Rijksuniversiteit Groningen heeft reeds ervaring opgedaan met het analyseren van antwoorden op open vragen door de computer. Wat zijn de voordelen van het aanbieden van de videotoets met de computer? In de eerste plaats is deze vorm flexibeler in vergelijking met de traditionele videotoets. Studenten kunnen de toets in eigen tempo doorlopen en hoeven niet te wachten tot medestudenten klaar zijn met de beantwoording van een vraag. Bovendien is het mogelijk op basis van de eerste items het vaardigheidsniveau van de student vast te stellen en daar het niveau van de toets op aan te passen. Dit is met name een voordeel wanneer de toets aan het begin van de training gebruikt wordt om het beginniveau vast te stellen of om tussentijdse vordering te evalueren. In de tweede plaats is gecomputeriseerde afname minder fraudegevoelig dan de traditionele videotoets, omdat de aandacht van de student op het eigen beeldscherm gericht is. Daarbij moet onmiddellijk worden opgemerkt dat het plaatsen van toetsmateriaal op netwerken ook allerlei risico’s op fraude met zich brengt waarvoor op dit moment nog niet afdoende oplossingen voorhanden zijn. Verder lijkt de gecomputeriseerde videotoets levensechter doordat de gesprekssituatie dichter benaderd wordt. De student heeft slechts eenmaal de kans om te reageren en kan zijn of haar antwoord niet herzien net als in een echt gesprek het geval is. Ook is de afstand tot het beeldscherm kleiner waardoor de student individueler en directer contact heeft met de cliënt. Tenslotte biedt de computer allerlei praktische voordelen. Naast de eerder genoemde voordelen van automatische opslag- en verwerking van de resultaten, maakt gecomputeriseerde afname het mogelijk automatisch toetsversies te genereren. Bij de traditionele videotoets kostte dit het nodige monteerwerk. Met
Het toetsen van complexe vaardigheden
Figuur 2
behulp van een databank met beschikbare items kan in principe voor elke toetsafname een nieuwe versie gegenereerd worden. De gecomputeriseerde toetsvorm zoals die op dit moment ontwikkeld wordt, heeft net als de traditionele videotoets een lineair karakter. Studenten reageren op een groot aantal geïsoleerde gespreksfragmenten. Eén van de belangrijkste voordelen van de computer is dat
152 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
zij het mogelijk maakt onderwijs in interactieve vorm aan te bieden (zie ook van der Zee, Lang & Adema, 1997). In de toekomst zou het daarom wenselijk zijn om, voortbouwend op de ervaringen met de rollenspeltoets, interactieve videotoetsen te ontwikkelen waarmee per computer de gespreksvaardigheden van studenten getoetst kunnen worden in de context van een complex gesprek. Daarbij zou de voortgang van het gesprek
Het toetsen van complexe vaardigheden
afhankelijk moeten zijn van de reacties van de student. Het idee is dat men een heel gesprek ziet dat opgeknipt is in delen en waarbij het verloop van het gesprek deels wordt bepaald door de acties van de student. De student wordt daarbij aangesproken door een acteur in een videofilm en moet zijn/haar gespreksvaardigheden tonen. De student bepaalt zelf welke vaardigheid hij/zij toepast na het zien van een fragment. Vooralsnog bestaan er geen interactieve videotoetsen of voorgeprogrammeerde rollenspelen per computer. Voorbeelden van beperkte interactiviteit is te vinden in gecomputeriseerde multimediale onderwijsprogramma’s waarbij de student op een breekpunt in het gesprek uit een aantal reacties kan kiezen en het gesprek doorloopt afhankelijk van het gekozen alternatief. Omdat de student hier echter niet zelf een antwoord genereert, is er in feite eerder sprake van toetsing van inzicht dan van vaardigheidsbeheersing. Ontwikkelingen op het gebied van geautomatiseerde tekstanalyse maken het mogelijk de reactie van de student te laten analyseren door het programma. In het programma is geanticipeerd op verschillende mogelijke acties van de student, en afhankelijk van de actie van de student genereert het programma een reactie. Alle reacties van de student in het programma worden geregistreerd en tegelijkertijd beoordeeld. Het voordeel van een interactieve videotoets is dat de vaardigheden worden getoetst in de context van een heel gesprek. De student kan bovendien zelf bepalen welke vaardigheid hij of zij toepast. De toets is relatief gestandaardiseerd en zal vrij makkelijk te scoren zijn. Daarmee wordt afname van de nieuwe videotoets minder tijdrovend dan afname van de rollenspeltoets en bovendien is de nieuwe toetsvorm goedkoper. Natuurlijk zijn er ook nadelen te noemen. Bij de gecomputeriseerde videotoets geeft de student een schriftelijke reactie.
Noot.
Weten wat je zou moeten zeggen, is niet hetzelfde als het ook daadwerkelijk zeggen. Daarbij komt dat nonverbale aspecten van de reactie van de student niet kunnen worden meebeoordeeld. Ook bij het analyseren van de schriftelijke uitingen van de student zijn de mogelijkheden van de computer niet onbeperkt. Voor de interactieve gecomputeriseerde toets geldt dat het erg arbeidsintensief is om de toets te vernieuwen. In feite moet voor elke nieuwe casus het hele ontwikkelingsproces opnieuw doorlopen worden. Bij de videotoets die uit een groot aantal individuele items is opgebouwd is het mogelijk een deel van de itemset te vervangen en de goede items te handhaven. Een overweging bij de interactieve versie kan zijn om in plaats van een heel gesprek relevante delen uit te lichten en studenten vijf complexe interactieve items aan te bieden. Op die manier zijn er eenvoudiger delen te vervangen en wordt ook tegemoet gekomen aan de eerdergenoemde generaliseerbaarheidseis.
Conclusie De computer lijkt een belangrijk hulpmiddel te kunnen zijn bij het toetsen van gespreksvaardigheden, maar zij heeft duidelijk haar beperkingen. Alleen in gesimuleerde gesprekssituaties is het mogelijk om alle aspecten van communicatie, inclusief sfeer, houding en nonverbaal gedrag, mee te nemen in de beoordeling. Echter, in combinatie met gesuperviseerde rollenspelen als onderdeel van de trainingsbijeenkomsten zelf waarin studenten in kleine groepen op een gestructureerde wijze feedback krijgen op hun gedrag, lijken de beide besproken toetsvormen niet alleen efficiënte en hanteerbare methoden voor eindtoetsing, maar lijken zij ook de toetsteen van validiteit en betrouwbaarheid te kunnen doorstaan. De computer draagt daar mijns inziens duidelijk aan bij.
De ontwikkeling van de gecomputeriseerde videotoets geschiedt in samenwerking met het Expertise Centrum Computer-Ondersteund Onderwijs. De auteur bedankt Bert Jan Bakker, programmeur van de gecomputeriseerde toets, voor het maken van de screenshots die in Figuur 1 en 2 zijn weergegeven.
Het toetsen van complexe vaardigheden
Literatuur Bandura, A. (1986) Social foundations of thought and action: A social cognitive theory. Englewood Cliffs, NJ.: Prentice Hall. Bögels, S.M. (1994). Teaching and assessing diagnostic interviewing skills. An application to the mental health field. Dissertatie, Rijksuniversiteit Limburg, Maastricht. Guilford, J.P. (1967). The nature of human intelligence. New York: McGraw-Hill. Hendricks, M., Guilford, J.P., & Hoepfner, R. (1969). Measuring creative social intelligence (Psychological Laboratory Report, no. 42). Los Angeles: University of Southern California. Ivey, A.E. (1971). Innovations in interviewing training. Springfield, Il: Charles C. Thomas. Lang, G. & Molen, H.T. van der (1992). Methodiek van gesprekstraining. Baarn: Nelissen. Lang, G. & Molen, H.T. van der (1998). Psychologische gespreksvoering: Een basis voor hulpverlening. Baarn: Nelissen.
154 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Smit, G.N. (1995). De beoordeling van professionele gespreksvaardigheden. Constructie en evaluatie van een rollenspel- en schriftelijke en videotoetsen. Baarn: Nelissen. Smit, G.N. & Molen, H.T. van der (1996). Toetsvormen voor de beoordeling van professionele gespreksvaardigheden. Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden, 51 (4), 154-167. Stricker, L.J. (1982). Interpersonal competence instrument: Development and primary findings. Applied Psychological Measurement, 6 (1), 69-91. Vu, N.V. & Barrows, H.S. (1994). Use of standardized patients in clinical assessments: Recent developments and measurement findings. Educational Researcher, 23 (3), 23-30. Weekley, J.A. & Jones, C. (1997). Videobased situational testing. Personnel Psychology, 50, 25-49. Zee, K.I. van der, Lang, G., & Adema, J. (1997) Het gebruik van multimediale computersystemen binnen trainingen in professionele gespreksvaardigheden. In: M. Mirande, J. Riemersma & W. Veen (Red.). Hoger onderwijsreeks: De digitale leeromgeving. Groningen: Wolters-Noordhoff. Pp. 273-281.
Het toetsen van complexe vaardigheden
Toetsing van probleemoplossend vermogen Computergestuurde Casusgerichte Toetsing dr. L.W.T. Schuwirth en prof.dr. C.P.M. van der Vleuten Universiteit Maastricht, capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch
Inleiding Vele studierichtingen in het HBO en het WO leiden studenten op tot zelfstandige beroepsbeoefenaren, waarvan verwacht wordt dat ze in staat zijn om praktijkproblemen zelfstandig op te lossen. Dit probleemoplossend vermogen wordt vaak als het belangrijkste bestanddeel van de opleidingsdoelen gezien. Toch ligt de nadruk bij de toetsing nog veelal op het examineren van reproductie van (feiten)kennis. Betrouwbare en valide toetsvormen voor het meten van probleemoplossend vermogen zijn veelal niet of nog onvoldoende ontwikkeld. Dit geldt ook voor de medische opleidingen. Naast het verwerven van feitenkennis is het vermogen om deze kennis daadwerkelijk toe te passen bij het oplossen van patiëntproblemen van eminent belang. Met name in de laatste twee curriculumjaren B de zogenaamde co-assistentschappen B is het van belang vast te stellen of een student daadwerkelijk in staat is patiëntproblemen op te lossen. Aan de Universiteit Maastricht heeft men dit op verschillende manieren geprobeerd te toetsen. De hierbij gebruikte examenvormen varieerden van schriftelijke (veel op feitenkennis gerichte) toetsen tot ongestructureerde mondelinge examens. Dit was geen ideale situatie: bij de validiteit en betrouwbaarheid van deze exa-
mens waren vraagtekens te plaatsen. Daarnaast lokten deze examens veelal een ongewenst studiegedrag bij de studenten uit. Hierbij moet gedacht worden aan: het richten op stokpaardjes van de examinator, het van buiten leren van oude examens en het richten op boekenkennis. Tevens ontstonden logistieke problemen. Het aantal studenten per jaargroep onderging een geleidelijke stijging waardoor het nodig werd om meerdere (en dus ook verder weg gelegen) affiliatieziekenhuizen in de opleiding te betrekken. Ook werd in het kader van de verhoging van de studeerbaarheid van het programma de organisatie van de co-assistentschappen drastisch veranderd. Hierdoor stromen nu iedere twee weken een aantal nieuwe co-assistenten op een afdeling in, en dientengevolge ook iedere twee weken een aantal coassistenten uit. Een gevolg hiervan is dat niet alleen vaker examens moeten worden afgenomen, maar dat er ook vaker nieuwe examens geconstrueerd moeten worden. Deze twee problemen hebben geleid tot de opzet van een project om de toetsing in de co-assistentschappen te verbeteren en tegelijkertijd logistiek eenvoudiger te maken. Het product van dit project is Computergestuurde Casusgerichte Toetsing (CCT). Dit artikel beschrijft
Het toetsen van complexe vaardigheden
kort de inhoud, opzet en logistiek van CCT. Daarnaast zal een korte beschrijving van het wetenschappelijk onderzoek en de praktische ervaringen ten aanzien van CCT gegeven worden.
gen. Veel meer overeenstemming bestond er over de uiteindelijke oplossing. Kennelijk is er niet één ideale weg, maar is de wijze waarop experts problemen oplossen erg individueel bepaald.
Historische achtergrond
Domeinspecificiteit Geheel tegenstrijdig aan de verwachtingen bleek eveneens dat de score die een kandidaat voor een casus haalde een slechte voorspeller was voor de score die hij op een willekeurige andere casus haalde, ook als deze andere casus over hetzelfde onderwerp ging. Dit was een onverwachte bevinding omdat er tot dan toe van was uitgegaan dat probleemoplossend vermogen een soort generieke vaardigheid was, die, wanneer ze eenmaal beheerst werd, op alle voorkomende problemen toegepast zou kunnen worden. Het bleek echter dat het vermogen om een probleem op te lossen sterk ingebed is in de specifieke inhoud van het probleem. Dus niet alleen lossen verschillende experts een zelfde casus op verschillende wijze op, maar één expert lost ook verschillende casus op verschillende wijzen op1. Deze zogenaamde domeinspecificiteit van probleemoplossend vermogen is later uitgebreid onderzocht in diverse cognitief psychologische onderzoeken op vele verschillende terreinen2. De gevolgen van deze domeinspecificiteit voor de simulaties zijn enorm. Om een betrouwbare uitspraak te kunnen doen over het probleemoplossend vermogen van een kandidaat zijn grote aantallen casus nodig. Bij het gebruik van lange patiëntsimulaties leidde dit tot onaanvaardbaar lange toetstijden3.
Een toetsvorm voor medisch probleemoplossen die erg voor de hand ligt, is een patiëntsimulatie. Een dergelijke aanpak is dan ook niet nieuw. Al sinds de jaren 60 is een examenvorm beschreven waarbij in papieren vorm, en later met behulp van computers, een patiëntenconsult zo natuurgetrouw mogelijk werd gesimuleerd. De student kreeg dan alleen de ingangsklacht voorgelegd en moest zelf zijn weg vinden door het stellen van vragen, door het ‘doen’ van lichamelijk onderzoek en door het aanvragen van zogenaamde aanvullende diagnostiek (bijvoorbeeld laboratoriumonderzoek of röntgenfoto’s). Indien een student koos om bepaalde vragen te stellen of om bepaald onderzoek te doen dan werd hem ook alleen de desbetreffende informatie gegeven. De andere, niet opgevraagde, informatie werd niet gegeven. Op die manier kon een student via verschillende ‘routes’ door een simulatie heen lopen om het probleem op te lossen. Voor de scoring hiervan werden expertpanels gebruikt. Van iedere mogelijke beslissing werd door deze experts aangegeven hoe ze gescoord moesten worden. Eind zeventiger jaren echter werd duidelijk dat deze aanpak forse gebreken vertoonde, waardoor dergelijke examens niet als summatieve (meetellende) toetsen gebruikt konden worden. Een viertal van deze problemen zullen hieronder besproken worden. Scoringsproblemen Het bleek telkens weer dat de experts in de panels het niet met elkaar eens waren over de optimale route die door een dergelijke simulatie genomen zou moeten worden. Experts waren geneigd van mening te verschillen over het belang en de juistheid van bepaalde beslissin-
156 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Validiteitsproblemen Als dan eenmaal toetsen geconstrueerd waren die voldoende lang waren om betrouwbare uitspraken te verkrijgen, bleek dat er ernstig getwijfeld moest worden aan hun validiteit. Op de eerste plaats bleek dat de correlaties met rechttoe rechtaan feitenkennistoetsen hoog was. Nu wil dat niet zeggen dat dus dezelfde eigenschap gemeten wordt, maar wel dat de hoeveelheid unieke
Het toetsen van complexe vaardigheden
informatie van beide toetsmethoden (ten opzichte van elkaar) relatief gering is. Een tweede bevinding betrof het zogenaamde ‘intermediate effect’. Wanneer dergelijke toetsen voorgelegd werden aan intermediates (laatstejaarsstudenten of net afgestudeerde artsen) deden dezen het beter dan experts, die reeds langer in het vak werkzaam zijn. Men zou echter verwachten dat iemand die reeds langer werkzaam is in de praktijk, een betere probleemoplosser (in het desbetreffende vak) is dan iemand die ‘vers van de schoolbanken’ komt. Men kan zich dus afvragen of de lange simulaties wel expertise of probleemoplossend vermogen meten4. Cueing effecten Niet zozeer een probleem als wel een moeilijk te doorgronden aspect in de hele discussie is het zogenaamde cueing effect. Dit effect veronderstelt dat een multiplechoice vraag niet geschikt zou zijn voor het meten van probleemoplossend vermogen, omdat bij een multiplechoice vraag het herkennen van het juiste antwoord voldoende zou zijn om de vraag goed te beantwoorden, terwijl bij een open vraag de spontane generatie van het juiste antwoord nodig is. Uit de studies op dit terrein blijkt dit echter niet eenduidig. Er zijn weliswaar verschillen in gemiddelde scores: de open vragen zijn meestal moeilijker dan hun, parallelle, multiple-choice vragen, maar de correlaties tussen beide vraagvormen zijn zeer hoog. Het wordt dus niet duidelijk of met verschillende vraagvormen verschillende eigenschappen gemeten worden of niet5. Computergestuurde Casusgerichte Toetsing Als oplossing voor de logistieke problemen en de problemen met de lange simulatietoetsen is Computergestuurde Casusgerichte Toetsing (CCT) gesuggereerd. CCT is een toets die bestaat uit een groot aantal korte casus die per computer (geautomatiseerd) wordt afgenomen. Hieronder zullen onze bevindingen en ervaringen met
zowel het gebruik van de korte casus als het gebruik van computers hierbij besproken worden. De bevindingen ten aanzien van de toetsvorm zijn voornamelijk gestoeld op wetenschappelijk onderzoek, die van het computergebruik voornamelijk op praktische ervaring6. Toetsing met korte casus De toetsvorm die gebruikt wordt is afgeleid van de zogenaamde ‘key-feature approach’7. Dit is een toetsvorm die met name in de nationale medische examens van Canada gebruikt wordt. Deze toetsvorm bestaat uit een casus waarin een korte beschrijving van de relevante klachten, symptomen en bevindingen gegeven wordt, en waaraan één of slechts enkele vragen verbonden zijn die alle gericht zijn op essentiële beslissingen. Een casus wordt zo authentiek mogelijk beschreven, waarbij niet alleen medisch inhoudelijke zaken gegeven worden, maar ook zogenaamde contextuele informatie (zoals woonsituatie, aantal eerdere bezoeken aan de arts en dergelijke). Hierbij wordt multimedia gebruikt, maar alleen als dit een meerwaarde heeft, bijvoorbeeld door beeldinformatie aan te bieden, waar in werkelijkheid de informatie ook visueel beoordeeld zou moeten worden. De vragen zijn alle gericht op beslissingen die expliciet betrekking hebben op de casus: een vraag is dus bijvoorbeeld nooit te beantwoorden als de casus niet gelezen is. De beslissingen die bevraagd worden, zijn essentiële beslissingen, dat wil zeggen dat ze cruciaal zijn in de bepaling of een casus succesvol afgehandeld wordt of niet. Hierbij wordt niet één bepaalde vraagvorm voorgeschreven, maar wordt zoveel mogelijk geprobeerd de vraagvorm aan te passen aan de inhoud van de vraag. Op deze wijze manier is het mogelijk om per toets een groot aantal verschillende casus aan de kandidaat voor te leggen, en een zo breed mogelijke dekking van het gehele domein te verkrijgen. Een voorbeeld van een CCT casus is gegeven in figuur 1.
Het toetsen van complexe vaardigheden
Figuur 1: Een voorbeeld van een CCT-casus.
Bevindingen ten aanzien van de toetsvorm Een groot aantal studies zijn verricht om te bepalen of deze methode beter probleemoplossend vermogen zou meten dan de lange simulaties. Een aantal hieruit zullen kort besproken worden. Een eerste studie heeft onderzocht of het gebruik van veel multiple-choice vragen de validiteit ten negatieve zou beïnvloeden. De conclusies hiervan zijn op de eerste plaats dat cueing een effect is dat twee richtingen uit
158 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
kan gaan. De alternatieven in een multiple-choice kunnen de student niet alleen in de richting van het juiste antwoord leiden als hij de open vraag fout zou hebben, maar ook in de richting van een verkeerd antwoord als hij de open vraag goed zou hebben. De mate waarin cueing optreedt, blijkt ook afhankelijk te zijn van de inhoud van de vraag. Dit heeft geleid tot de ontwikkeling van een systeem om ook korte antwoord open vragen per computer af te nemen en te scoren.8
Het toetsen van complexe vaardigheden
Een tweede studie heeft bestaan uit het verzamelen van de oordelen van studenten na hun co-assistentschap en experts. Hen is via een aantal vragen gevraagd aan te geven of zij bij het oplossen van CCT-casus van mening waren dat dit overeenkomt met het werken met echte patiënten in de praktijk. De studentoordelen waren voor bijna 90% positief. Ze gaven aan dat het werken met CCT sterk overeenkwam met het oplossen van problemen in de praktijk. De experts waren het hiermee in grote lijnen eens, hoewel zij ten aanzien van sommige casus hun twijfels uitten. Samenvattend kan gezegd worden dat CCT een goed face validiteit heeft. Omdat de waarde van face validiteit beperkt is, is een volgende studie opgezet. Hierbij zijn 20 huisartsen en 20 vijfdejaarsstudenten gevraagd om 4 casus en 16 inhoudelijk gerelateerde feitenkennisvragen op te lossen, en terwijl ze dit deden hardop te denken. Dit is opgenomen op cassette en uitgetypt voor verdere analyse. Voorafgaand aan de analyse zijn op basis van de literatuur over expertise zogenaamde indicatoren voor probleemoplossende denkstappen gedefinieerd om te gebruiken om de teksten te analyseren. Van deze indicatoren is onderzocht of ze vaker in casus voorkwamen dan in feitenkennisvragen, en of daardoor een beter onderscheid gemaakt kon worden tussen experts en niet-experts. Uit de resultaten bleek dat er sterke aanwijzingen zijn voor de aanname dat het oplossen van CCT-casus denkstappen vereist die meer bij expert probleem oplossen horen dan de feitenkennis vragen. Het opvallendste verschil was dat bij het oplossen van casus het tegen elkaar afwegen van verschillende aspecten belangrijk was (bijvoorbeeld de afweging: ‘Spreekt bij een 45-jarige man met mogelijk galstenen de leeftijd sterker voor de hypothese dan het geslacht ertegen spreekt’, terwijl bij de feitenkennisvragen voornamelijk ja-nee beslissingen genomen moesten worden (‘Is mazelen een virusziekte?’). Een interessante volgende vraag is dan of dit gegeven zich ook vertaalt in meetbare verschillen. Daarom is
onderzocht of studenten na hun co-assistentschap hoger scoorden op CCT dan ervoor, en of experts dan nog hoger scoren. De studenten is daartoe een begin- en een eindtoets voorgelegd met een gelijke moeilijkheidsgraad. De experts is dezelfde eindtoets voorgelegd. Het bleek dat er een forse stijging in gemiddelde scores optrad bij de studenten en dat experts gemiddeld significant hoger scoorden dan de studenten na hun co-assistentschap. Om het geheel op een nog hoger niveau te onderzoeken, is een interfacultaire vergelijking tussen een traditionele faculteit en een Probleemgestuurde onderwijs (PGO) faculteit gedaan. De reden hiervoor was met name dat er in vele studies geen verschillen gevonden werden, en dat deze toch te verwachten zouden zijn. Als met CCT wel een verschil gevonden zou worden zou dit bijdragen aan de aanname dat met CCT iets anders dan feitenkennis gemeten zou worden. De resultaten van deze vergelijking laten inderdaad een toenemend verschil zien ten voordele van de studenten die aan de PGO-faculteit studeren. Uit het geheel van studies (waarvan een deel hier niet beschreven zijn) mag geconcludeerd worden dat CCT een andere eigenschap dan ‘kale’ kennis meet, en dat deze eigenschap meer de toepassingsvaardigheid van kennis is of het vermogen om problemen op te lossen. In die zin kan CCT gezien worden als een waardevolle aansluiting aan de bestaande toetsvormen.
Computergebruik De architectuur die voor de afnames van CCT gebruikt wordt, bestaat uit een zogenaamde client-server configuratie. Alle cases die eventueel in een toets kunnen komen, zijn opgeslagen in een centrale multi-user database. In de verschillende affiliatieziekenhuizen zijn mininetwerken geïnstalleerd waarop getoetst kan worden. Op een moment dat een student een toets wil maken, logt de stage-coördinator in op de server, laat een volgens een blauwdruk een toets samenstellen en zet deze klaar op een van de client-computers uit het
Het toetsen van complexe vaardigheden
netwerk. De student maakt de toets, en als hij klaar is worden zijn antwoorden verzonden naar de server. De server scoort de antwoorden, berekent de score en stuurt deze terug naar de student. De afnamegegevens worden opgeslagen op de server. Bij de ontwikkeling van de client-interface is voornamelijk uitgegaan van een HTML-achtige opmaak om het geheel zo prettig mogelijk leesbaar te maken voor de student. Ervaringen met het computergebruik De ervaringen met het gebruik van een computers bij CCT zijn gemengd. Positief is het feit dat met CCT een flexibele tool ontwikkeld is, niet alleen in tijd maar ook in plaats. Het gebruik van multimedia is een aanwinst, het verhoogt, mits goed gebruikt, de authenticiteitswaarde van een casus. Doordat er met een centraal itembanksysteem gewerkt wordt, is beter in de hand te houden welke casus gebruikt zijn en wanneer. Dit maakt een gericht hergebruik van cases mogelijk waardoor de workload van de productie van toetsmateriaal enigszins verminderd kan worden. Een nog groter voordeel is echter dat door de automatisering van de afnames en van de scoring de dure experttijd niet meer nodig is om examens af te nemen, maar daarvoor in de plaats gebruikt kan worden voor de productie van hoogkwalitatief toetsmateriaal en van het onderhoud hiervan. Er zijn ook duidelijke aanwijzingen dat de random selectie van cases en het feit dat deze alle gericht zijn op het oplossen van problemen een positieve invloed op het student leergedrag heeft. Een laatste voordeel is de mogelijkheid van alternatieve toetsafnamemethoden. Hierbij kan bijvoorbeeld gedacht worden aan sequentiële toetsing. Bij sequentiële toetsing wordt aan ieder kandidaat een vaste kleinere set van cases gegeven en gescoord. Die studenten wier score ver genoeg van de zak-slaaggrens ligt (en dus met voldoende zekerheid geslaagd of gezakt zijn) kunnen stoppen, de anderen wordt een verlengde toets gepresenteerd om hun zak-slaagbeslissing met voldoende zekerheid te kunnen nemen.
160 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
Er zijn echter ook nadelen van het gebruik van computers gevonden. Ten eerste is ingeboet op de mogelijkheden om verschillende vraagvormen te gebruiken. Hoewel korte antwoord open vragen wel computermatig scoorbaar zijn, is dit bij lange antwoord open vragen (of essayvragen) vooralsnog niet mogelijk. Ook zijn de kosten van een dergelijke ontwikkeling erg hoog. Hierbij moet niet alleen gedacht worden aan de ontwikkelingskosten (programmeur e.d.) sec, maar ook aan de infrastructurele kosten (zoals computers). De snelle ontwikkelingen in de ICT-wereld, zoals Win3.x naar Win95 en ontwikkelingen in de hardware, hebben het nodig gemaakt om gedurende het project zaken bij te stellen of te improviseren, wat extra kosten en tijdsverlies met zich meebracht. Het ‘digibetisme’ is een weliswaar verdwijnende, maar toch nog steeds aanwezig factor. Een verder aspect van toetsing dat niet met computergebruik opgelost is, is dat sommige taken nog steeds inzet van personeel vereisen. Hierbij moet gedacht worden aan het inloggen en ophalen van toetsen en de supervisie tijdens de afname van het examen. Een laatste punt is het feit dat er een systeembeheerder nodig is om het systeem goed werkend in de lucht te houden en dat er daardoor structurele personele kosten zijn die er bij een papieren systeem niet zouden zijn.
Conclusies De vraag dient zich aan of we retrospectief tevreden zijn over datgene wat bereikt is met CCT. Enerzijds kan deze vraag met ‘ja’ beantwoord worden. Er is een valide en betrouwbare toetsmethode geïmplementeerd die op een flexibele wijze ingezet kan worden tijdens de studie. Voor de in de inleiding geschetste problematiek ten aanzien van de toetsing tijdens de co-assistentschappen is CCT inderdaad een adequate oplossing. Dat er echter geen volmondig ‘ja’ geantwoord kan worden op de bovenstaande vraag, heeft te maken met de beperkingen die het computergebruik met zich brengt en met de
Het toetsen van complexe vaardigheden
kosten van het geheel. Als er derhalve lessen voor de toekomst te trekken zijn uit het geheel dan liggen deze op het terrein van de zorgvuldigheid waarmee de afweging wel of geen computers in te zetten gemaakt moet worden. Voorop zal moeten staan dat er onderwijskundige problemen zijn waarmee met conventionele middelen geen of onmogelijk dure oplossingen bestaan. Dan zal afgewogen moeten worden of ICT dergelijke oplossingen wel biedt, en zo ja, of hierdoor niet nieuwe problemen ontstaan.
4. Schmidt HG, Boshuizen HPA, Hobus PPM. Transitory stages in the development of medical expertise: The ‘intermediate effect’ in clinical case representation studies. Proceedings of the 10th Annual Conference of the Cognitive Science Society. Montreal, Canada: Lawrence Erlbaum Associates, 1988:139-45. 5. Norman G, Swanson D, Case S. Conceptual and methodology issues in studies comparing assessment formats, issues in comparing item formats. Teaching and Learning in Medicine 1996;8(4):208-216.
Literatuur 1. Swanson DB, Norcini JJ, Grosso LJ. Assessment of clinical competence: written and computer-based simulations. Assessment and Evaluation in Higher Education 1987;12(3):220-46. 2. Chi MTH, Glaser R, Rees E. Expertise in problem solving. In: Sternberg RJ, editor. Advances in the psychology of human intelligence. Hillsdale NJ: Lawrence Erlbaum Associates, 1982:7-76. 3. Swanson DB. A measurement framework for performance-based tests. In: Hart I, Harden R, editors. Further developments in Assessing Clinical Competence. Montreal: Can-Heal publications, 1987:13-45.
6. Schuwirth LWT. An approach to the assessment of medical problem solving: Computerised Case-based Testing. Universiteit Maastricht, 1998. 7. Bordage G. An alternative approach to PMP's: the ‘key-features’ concept. In: Hart IR, Harden R, editors. Further developments in assessing clinical competence, Proceedings of the second Ottawa conference. Montreal.: Can-Heal Publications Inc, 1987:59-75. 8. Schuwirth LWT, Vleuten CPMvd, Stoffers HEJM, Peperkamp AGW. Computerized long-menu questions as an alternative to open-ended questions in computerized assessment. Medical Education 1996;30:50-55.
Het toetsen van complexe vaardigheden
Visueel leren en toetsen binnen het biologie onderwijs drs. K.A.F. van Gendt en drs. N.W. Meijer Rijksuniversiteit Groningen, vakgroep Dierfysiologie
1. Algemeen De universitaire biologiestudie kenmerkt zich doordat in het eerste jaar de studenten veel moeten observeren/zien. Dit is nog steeds zo, ondanks het feit dat de biologie van een natuurstudie voornamelijk geëvolueerd is naar een laboratoriumstudie. De vormenrijkdom van levende organismen is zo divers dat voor biologiestudenten enige kennis en inzicht hierin vereist is. Ook de bouw en structuur van planten en dieren is een belangrijk studieonderdeel. Vaak wordt hieraan de werkwijze of fysiologie gekoppeld. Tot nu toe was een normaal onderwijspatroon dat de studenten tijdens practica tekeningen maken waarin hun kennis van en inzicht in het biologisch object tot uiting komt. Ook het herkennen en benoemen van details hoort hierbij. Het onderwijsconcept bestaat uit het begeleid observeren en daarna het geobserveerde vastleggen. Het onderwerp dat wordt gebruikt in dit onderzoek is het practicum ‘Anatomie Rat’. De laboratoriumrat wordt veel gebruikt in het bio-medisch onderzoek en alle biologieen farmaciestudenten doen een verplicht tweedaags dissectiepracticum waarbij een dode rat wordt ontleed. In dit 16 uren durende dissectiepracticum bestaande uit 10 dissectiethema’s worden de volgende handelingen uitgevoerd:
162 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
• Voor elk thema verzamelt de assistent 10-15 studenten om zich heen. • Een student leest de practicumhandleiding hardop voor en de assistent voert de beschreven handelingen duidelijk zichtbaar uit. • De assistent wijst belangrijke details aan, benoemt hen en verduidelijkt de namen. • Na het voorsnijden gaat de student naar zijn eigen rat en voert de dissectie individueel uit volgens de handleiding zoals voorgedaan door de assistent. • Nadat de student datgene wat hij/zij heeft blootgelegd heeft bestudeerd, wordt er een contourtekening gemaakt waarin de details worden benoemd. • De 10 tekeningen, die aan tekenvoorschriften moeten voldoen, worden aan het eind van de tweede dag ingeleverd. Voor het practicum anatomie rat betekent dit het voorlopig einde van de contacttijd tussen docent en student, want de docent/assistent neemt de tekeningen mee en het proces van corrigeren en beoordelen vindt plaats in de niet-contacttijd. Deze practica worden gedaan in groepen van 50-75 studenten. De 150 biologie- en 100 farmaciestudenten worden in vier groepen verdeeld. Voor deze 250 studenten
Het toetsen van complexe vaardigheden
vindt het onderwijsleerproces plaats in 4x2 dagen, dit is in totaal 8x8 uren = 64 uren. Dit is onze totale contacttijd voor anatomie rat. Het corrigeren en beoordelen van 250 studentensets met elk 10 tekeningen (1 tekening per dissectieonderdeel) kost 1/2 uur per set. Deze niet-contacttijd kost 125 uren, dit is ongeveer het dubbele van de contacttijd. Aan dit geheel zit een erg negatief punt, want in een periode van 10 jaren is het aantal studentassistent-eenheden voor de gehele biologie-opleiding afgenomen van 220 eenheden tot 20 eenheden per jaar. Daarvoor in de plaats zijn 20 AIO’s gekomen die slechts beperkt inzetbaar zijn in het onderwijs. De tijd nodig voor het corrigeren en beoordelen van tekeningen, de nietcontacttijd dus, werd verdeeld over een kleiner aantal mensen waardoor hun werkdruk flink toenam. Het lukte niet meer om de gecorrigeerde en beoordeelde tekeningen tijdig terug te geven: soms duurde het maanden. Dit ging ten koste van het leereffect want het is bekend dat een snelle terugmelding het leereffect bevordert. Uit nood zijn we overgegaan op de verbetering van de efficiëntie. Er waren drie mogelijkheden: 1. Vermindering van de omvang en de kwaliteit van het dissectiepracticum. Dit is door de onderwijsgevers afgewezen.
2. Vermindering van het aantal tekeningen , met behoud van het leereffect. 3. Ontwikkeling van een elektronisch correctie- en beoordelingssysteem, het interactief correctiesysteem. Aan de laatste 2 punten wordt heel hard gewerkt in samenwerking met de Faculteit Toegepaste Onderwijskunde Universiteit Twente. In dit artikel wordt weergegeven hoe dit project zich verder heeft ontwikkeld. In eerste instantie is er een prototype ontwikkeld van een interactief correctie systeem, ‘Ratview’ genaamd. Na analyse bleek het echter noodzakelijk om eerst de rol van het tekenen te bestuderen.
2. Ratview Tijdens dit practicum wordt van de studenten verwacht dat zij kennis en inzicht opdoen over de anatomie van een zoogdier door middel van dit practicum. Zelf dissectie doen, wordt gezien als een essentiële ervaring om een goed beeld te krijgen van de anatomische structuren. De studenten krijgen, zoals eerder aangegeven, als taak de verschillende anatomische structuren te bestuderen en identificeren, en deze kennis te rapporteren in de vorm van anatomische tekeningen. Deze tekeningen worden gezien als bewijs van het leerproces en dienen zich te lenen voor correctie, feedback en beoordeling. Figuur 1 biedt een overzicht van zowel instructie- als testsituatie.
Test
Instructie biologisch object
tekening
student
Figuur 1: Overzicht van de leer- en testsituatie.
cijfer
docent
Het toetsen van complexe vaardigheden
Het probleem in de praktijksituatie is dat een gelimiteerd aantal docenten het werk van ca. 250 studenten jaarlijks dient te corrigeren. Deze correctie is zo’n tijdconsumerend proces (elke student levert 10 tekeningen in) dat studenten soms maanden wachten op feedback op hun prestaties. Verder zijn er meerdere mensen die het correctiewerk verrichten zonder een objectieve meetmethode waardoor de correctie momenteel op subjectieve wijze wordt verricht. Studenten krijgen een globaal oordeel over hun set tekeningen waarbij de beoordelaar zelf bepaalt wat zijn/haar beoordelingsmaatstaven zijn. Voorts zijn er, door de afwezigheid van één objectieve meetmethode, ook verschillen tussen de meetmethoden van beoordelaars onderling. Deze situatie is onderwijskundig gezien niet gewenst waardoor de afdeling behoefte heeft aan een objectieve meetmethode, snellere feedback en beoordeling naar de studenten toe en het verlichten van de correctiedruk voor de docenten. De eerste poging om deze situatie te verbeteren, resulteerde in een prototype van een interactief correctie programma, genaamd Ratview, ontwikkeld op de afdeling dierfysiologie in samenwerking met de faculteit Toegepaste Onderwijskunde aan de Universiteit Twente. Het doel was het efficiënter maken van het testproces door het ontwikkelen van een computerprogramma dat voldeed aan twee voorwaarden. Eerste voorwaarde was dat studenten zelf hun tekening gingen evalueren achter de computer. Dit bood als voordeel dat de correctiedruk voor de docenten werd afgenomen en een objectieve meetmethode werd toegepast, daarnaast kregen studenten in korte tijd feedback. Tweede voorwaarde was dat studenten voor een tweede keer door het leerproces gingen zonder de dissectie nogmaals te verrichten. Ratview is gemaakt in Window Craft. Window Craft is een multimediale ontwikkelomgeving voor programma’s met een muisgestuurde grafische gebruikersinterface. Ratview in de huidige vorm laat nog veel te wensen over en dient daarom verder te worden ontwikkeld.
164 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
2.1 Observeren en tekenen De bedoeling van dit project is het verder ontwikkelen van een interactief toetsprogramma, op basis van de bevindingen met Ratview, ter bevordering van de kwaliteit en studeerbaarheid van het biologie-onderwijs. Uit de evaluatie van Ratview en een literatuuronderzoek naar visueel testen bleek dat eerst gekeken moet worden naar de instructiemethode voordat een adequaat testprogramma ontwikkeld kan worden. Om dit nader uit te leggen dienen we terug te gaan naar Figuur 1. In eerste instantie lag de focus van het project op het testen van de tekenprestaties van studenten maar hoe zit het met het instructiedeel? Opvallend in het leerproces is dat de tekening die de student produceert enerzijds dient als instructiemethode en anderzijds als testinstrument. Dit werpt gelijk de volgende vragen op: 1. Brengt tekenen als instructiemethode die kennis en observatie vaardigheden bij zoals bedoeld door de afdeling? en 2. Zijn deze tekeningen tijdens de evaluatie een getrouwe weergave van datgene wat de student heeft geobserveerd en dus geleerd of zijn de tekeningen een weergave van de tekenvaardigheden van de student? Deze vragen zijn belangrijk om de volgende redenen. Ten eerste heeft men tot nu toe binnen de biologie altijd aangenomen dat er een associatie is tussen het tekenen en het observeren. Iemand die goed tekent, heeft goed geobserveerd alsook iemand die slecht tekent, heeft slecht geobserveerd (Jones, Reed & Weyers, 1998). Echter moeten wij ons volgens Delicio & Reardon (1995) afvragen welke criteria ten grondslag liggen aan een visuele ervaring. Geeft een tekening de vorm en oriëntatie weer die de tekenaar werkelijk ziet of is het pas na het afhebben van de tekening dat de tekenaar weet wat de werkelijke betekenis is van zijn visuele ervaring? Verder stellen zij dat twee studenten niet dezelfde tekening zullen produceren als zij de opdracht hebben gekregen een realistische tekening naar de werkelijkheid te maken, ongeacht hoe gestructureerd de opdracht is of hoe gedisciplineerd de klas is. Ten tweede werken de stu-
Het toetsen van complexe vaardigheden
denten onder een tijdsdruk als zij moeten tekenen zgn. Time-on-task, daar ze maar 16 uur hebben om het gehele practicum te doorlopen. Het practicum bestaat uit 10 thema’s waarbij de rat als het ware in 10 lagen wordt bestudeerd. Dit betekent dat studenten een set van 10 tekeningen moeten inleveren aan het eind van het practicum. Zij hebben 2 werkdagen de tijd om deze set te produceren hetgeen dus voor de nodige tijdsdruk zorgt. Er wordt door de student dan ook veel aandacht besteed aan het produceren van een adequate tekening omdat deze dient als testinstrument waardoor er weinig tijd overblijft voor het daadwerkelijk observeren. Het is de vraag in hoeverre hierdoor te kort wordt gedaan aan de te leren stof. Ten derde is tekenen een toegevoegde instructiemethode aan het dissectiepracticum waarbij de tekening als resultaat dient ter evaluatie van het geleerde tijdens het practicum. Deze argumenten hebben geleid tot de algemene vraagstelling: wat voegen anatomische tekeningen door student gemaakt toe aan het leerproces van de desbetreffende student? 2.2 Alternatieven? In dit project wordt getracht eerst het leerproces op adequate manier te onderzoeken en op basis van die bevindingen een geschikte toetsmethode te ontwikkelen. Men kan daarbij denken aan de juiste sleutel-slotcombinatie. Box en Orde (1998) gaan ervan uit dat men in het onderwijs vooral moet kijken naar de relatie tussen wat wordt geleerd en hoe dat wordt getest en dat de relatie tussen beiden moet worden versterkt. Om deze relatie daadwerkelijk te versterken, is het van belang om na te gaan wat moet worden onderwezen, welke leerdoelstellingen worden bedoeld en welke instructiemethoden en activiteiten daarbij van belang zijn. Wat moet worden onderwezen, is de anatomie van een zoogdier waarbij de rat als model wordt gebruikt. Door middel van observationeel leren is het de bedoeling dat studenten leren over anatomische objecten door het herkennen van visuele elementen zoals structuur, kleur, vorm. Ook
is het van belang dat studenten op de hoogte zijn van het Latijns naamregister. Van studenten wordt verwacht dat zij na het practicum niet enkel deze objecten herkennen maar daarnaast de relaties tussen de anatomische objecten binnen een bepaald systeem, bijvoorbeeld het spijsverteringssysteem of de relaties tussen systemen bijvoorbeeld tussen het ademhalingssysteem en het bloedcirculatiesysteem. Tot op heden is, zoals eerder vermeld, de traditionele instructiemethode gebruikt. Het eerste deel van de instructie bestaande uit het demonstreren en zelf verrichten van de dissectie blijft in het biologiecurriculum. Het tweede deel van de instructie waarin getekend wordt, is van belang omdat de assumptie is dat daar het effectieve leren in zit en de beoordeling ook daarop is gebaseerd. Onze algemene vraagstelling voor dit onderzoek is dan ook gebaseerd op het leereffect van het tekenen. Op basis van wat geleerd moet worden en de doelstellingen van het practicum is in nauwe samenwerking met de desbetreffende docent een alternatieve instructie bedacht. In de alternatieve instructie krijgt de student eerst een demonstratie van de dissectie die moet worden verricht, daarna verricht de student zelf de dissectie op zijn eigen rat allemaal aan de hand van de nomenclatuur zoals in het eerste onderdeel van de traditionele instructie. In plaats van het geobserveerde te tekenen krijgt de student een geuniformeerde tekening aangeboden waarbij enkel de anatomische onderdelen worden benoemd. Nadat de student de tekening heeft benoemd wordt in een groep van 10 à 13 personen besproken of de onderdelen in de tekening juist zijn benoemd en of de juiste relaties tussen de onderdelen zijn gelegd. De alternatieve instructie bestaat uit een combinatie van individueel en groepsleren. 2.3 Experiment In juni ’99 is een experiment uitgevoerd waarbij drie groepen met elkaar werden vergeleken, te weten: 1. de
Het toetsen van complexe vaardigheden
controle groep die de dissectiedemonstratie kreeg en deze daarna zelf uitvoerde zonder aanvullende instructie; 2. de eerste experimentele groep met traditionele instructie en 3. de tweede experimentele groep met alternatieve instructie. Tijdens het reguliere onderwijs is dit experiment uitgevoerd bij 140 eerstejaars biologiestudenten die deelnamen aan het practicum en ad random werden onderverdeeld in drie groepen. Na het practicum kregen zij een test met meerkeuze vragen in een papieren versie die zij moesten invullen. Deze vragen zijn tekstueel zonder of met visuele ondersteuning in de vorm van schema’s, gedetailleerde zwart/wit-tekeningen of kleurenfoto’s. Deze test is in samenwerking met de desbetreffende docent ontworpen en is gebaseerd op de vragen: wat zijn de leerdoelen van dit practicum en welke kennis behoort de student aan het eind van het practicum te hebben opgedaan? Het was de bedoeling dat deze test de verschillen/ overeenkomsten tussen de condities zou weergeven. Daarnaast zou er een vergelijking gemaakt kunnen worden tussen de resultaten van de studenten die hebben getekend op hun set tekeningen en de resultaten van diezelfde studenten op de test. Op deze wijze is het mogelijk om na te gaan hoe betrouwbaar en valide de nieuwe test is. Interessant is ook de vraag hoe lang de beklijving is van de kennis die de studenten tijdens de instructie opdoen. De test is daarom driemaal uitgevoerd, te weten direct na het practicum, een week na het practicum en drie weken na het practicum. Resumerend waren de volgende experimentele vragen van belang: 1. Zijn er verschillen in gemiddelde scores tussen de drie groepen op de test? en 2. Zijn er verschillen in gemiddelde scores tussen de drie groepen op de test in de tijd? (Voor specifieke informatie over experimenteel ontwerp en analyses kan contact worden opgenomen met de auteurs). 2.4 Zelfcorrectie wordt zelftoets Analyse van de data van de eerste test had tot resultaat
166 - Toetsen en ICT in het hoger onderwijs - SURF Educatie
dat er geen verschillen zijn gevonden tussen de traditionele instructie en de alternatieve instructie maar wel een significant verschil van beide groepen in vergelijking tot de controle groep zonder de toegevoegde instructie. Dit betekent voor onze situatie dat er wel een toegevoegde instructie nodig is en enkel dissectie verrichten niet voldoende bijdraagt tot een hoog leereffect. Dit gevonden verschil was echter binnen een week verdwenen want de twee daarop volgende testen (test 2 en 3) gaven geen verschillen weer tussen de testresultaten van de drie groepen. Wel nam de kennis van de drie groepen af in de tijd, zoals te verwachten was gegeven de literatuur. De resultaten uit dit experiment bieden meerdere mogelijkheden voor het ontwerpen van een adequaat testprogramma alsook een instructieprogramma. Doordat beide instructiemethoden gelijk hebben gescoord op de test weten wij dat het maken van een tekening niet de enige effectieve instructiemethode is. Dit biedt enerzijds als voordeel dat wij ons niet hoeven te richten op het ontwerpen van een programma dat een tekening evalueert maar meer op een programma dat zich richt op de leerdoelen en de daarvoor meest geschikte testmethode. Men kan daarbij denken aan een programma dat zich begeeft op het gebied van visueel testen waarbij aan de studenten vragen worden gesteld, met visuele ondersteuning, naar niet alleen de vorm van anatomische objecten maar ook de structuur, kleur, textuur of relaties tussen de fysiologie van een object en de functionaliteit daarvan. Anderzijds biedt het resultaat van het experiment de mogelijkheid om de tijdsdruk voor de student tijdens het practicum te verminderen. De student hoeft zich dan niet te richten op het afhebben van de juiste tekening ter beoordeling maar kan meer tijd besteden aan het observeren. Voor de verdere voortgang van het project zal onderzocht worden welke kennis de ontwikkelde test meet. Er is een test ontwikkeld die wel verschillen tussen beide instructie methoden weergeeft maar waarvan nog niet duidelijk is welke kennis getoetst wordt.
Het toetsen van complexe vaardigheden
De alternatieve instructiemethode biedt de mogelijkheid om onderzoek te doen naar de kwaliteit van de ontwikkelde test en te kijken naar innovatieve toetsmethoden met behulp van multimedia. In de toekomst hopen wij een toetsmethode te ontwerpen die toetst in hoeverre de leerdoelstellingen van het vak gehaald zijn, daarnaast voldoet aan de voorwaarden zoals eerder gesteld; te weten de correctiedruk voor de docenten verminderen, toepassen van een objectieve meetmethode, voorzien in snelle feedback en de student een tweede maal door het leerproces helpen. Samengevat, alvorens een toetsprogramma te ontwerpen, is ervoor gekozen om eerst het leerproces te evalueren. Het leerproces in dit geval houdt in dat is nagegaan wat de leerdoelen zijn van het practicum en hoe effectief de gebruikte leermethode is. In dit geval blijkt dat tekenen niet de enige effectieve methode is. Hierdoor hoeft een toekomstig toetsprogramma niet enkel gebaseerd te zijn op het evalueren van tekeningen maar op andere factoren zoals eerder beschreven in deze
paragraaf. Door de resultaten van dit experiment heeft er een verandering plaatsgevonden in de doelstelling van dit project, namelijk van zelfcorrectie van eigengemaakte tekeningen naar zelftoets van kennis opgedaan door observatie.
Literatuur Box, C.A. & Orde, B.J. (1998) Alternative assessment: visual thinking and performance. In Griffin, R.E., Schiffman, C.B. & Gibbs, W.J. (Eds): Connecting with the community: exploring resources for visual learning &expression. Pg. 167-174. IVLA. Delicio, G. & Reardon, L. (1995) The evolution of a drawing. In Beauchamp, D.G., Braden, R.A. & Griffin, R.E. (Eds): Imagery and visual literacy. Pg 64-70. IVLA. Jones, A.; Reed, R. & Weyers, J. (1998) Practical skills in biology. 2nd edition. Essex, England: Longman Scientific & Technical.