VAN ONTWIKKELING TOT ANALYSE
Voordelen en uitdagingen voor toetsing in computersimulaties Sebastiaan de Klerk, Pieter van Dijk en Liesbeth van den Berg
In toekomstige generaties van toetsen zal waarschijnlijk een steeds grotere rol weggelegd zijn voor het toetsen van kennis, vaardigheden en competenties in computersimulaties. Computersimulaties kunnen nieuwe en verbeterde meetmethoden bieden ten opzichte van schriftelijke toetsen en praktijktoetsen. In dit artikel worden de voordelen en uitdagingen voor toetsing in computersimulaties behandeld. Inleiding Toetsing van kandidaten in computersimulaties kan het toetsdomein uitbreiden en versterken. Uitbreiden doordat toetsing in computersimulaties kwaliteiten van kandidaten kan blootleggen die voorheen vrijwel onzichtbaar bleven en versterken doordat bepaalde kwaliteiten van kandidaten aan de hand van de technologie mogelijk op een meer valide en betrouwbare manier gemeten kunnen worden dan voorheen mogelijk was met schriftelijke toetsen en praktijktoetsen. Een goed voorbeeld van uitbreiden van het toetsdomein is dat het handelen van een kandidaat in een gevaarlijke situatie bijna niet te toetsen is met een praktijktoets, terwijl computersimulaties deze situaties steeds realistischer kunnen weergeven. Een goed voorbeeld van het versterken van het toetsdomein is dat de efficiëntie van een computersimulatie het mogelijk maakt om kandidaten meerdere gelijkwaardige casussen of opdrachten te laten doen, waardoor meer informatie over de kandidaat kan worden verzameld en er betrouwbaarder getoetst
www.e-xamens.nl
kan worden. In dit artikel wordt de term computersimulatie gebruikt als een overkoepelende term voor alle computerspelvormen waarin een fictieve wereld of een activiteit wordt nagebootst. Hieronder vallen traditionele computersimulaties, waarin activiteiten relatief lineair opgevolgd worden, evenals serious games waarin studenten vrij kunnen rondzwerven door een virtuele wereld. In het vervolg van dit artikel zullen we dieper ingaan op de mogelijkheden en uitdagingen van toetsing in computersimulaties.
Voordelen Computersimulaties worden al langer succesvol ingezet voor E-learning doeleinden (Clark & Mayer, 2011), maar het gebruik van computersimulatietechniek in toetsing kan ook veel voordelen met zich meebrengen. Hieronder wordt een aantal belangrijke voordelen genoemd van toetsing met computersimulaties ten opzichte van zowel schriftelijke toetsen als praktijktoetsen.
Plezier Het eerste voordeel ligt in het feit dat kandidaten meer plezier en uitdaging beleven aan het uitvoeren van een computersimulatie dan aan het voltooien van een schriftelijke toets. Als een toets is vormgegeven als computersimulatie zullen kandidaten mogelijk ook gemotiveerder en meer betrokken zijn om taken te volbrengen en doelen te behalen, zonder het gevoel van spanning dat zij vaak in een traditionele toetsomgeving hebben (Shute, 2011). In vergelijking met de praktijktoets voelen kandidaten wellicht minder druk doordat er geen fysieke beoordelaar aanwezig is die hen op de vingers kijkt, maar of dit effect daadwerkelijk bestaat moet onderzocht worden.
Representativiteit Computersimulaties kunnen ten opzichte van schriftelijke toetsen en praktijktoetsen op twee manieren een verhoogde representativiteit van het te toetsen construct behalen: door het aantal taken
EXAMENS - mei 2015 - NR 2 11
Het gebruik van computersimulatietechniek in toetsing kent veel voordelen
uit te breiden en door het ontwikkelen van opdrachten die moeilijk op papier of in de praktijk zijn uit te voeren, dan wel te scoren. De Navy Damage Control computersimulatie, ontwikkeld door CRESST, is een voorbeeld van de eerste manier om de representativiteit te verhogen. Deze simulatie toetst of marinepersoneel op adequate wijze kan reageren op noodsituaties die op een schip kunnen ontstaan (Iseli, Koenig, Lee, & Wainess, 2010). De kandidaat beweegt zich met een virtueel karakter in de computersimulatie over het schip en komt verschillende gevaarlijke situaties tegen (zie Figuur 1). Als een dergelijke situatie zich voordoet kan de kandidaat via een interactieve interface reageren. Bij een brand kan de kandidaat bijvoorbeeld aangeven welk blusmiddel nodig is en of er versterking moet worden opgeroepen. De representativiteit wordt in deze computersimulatie verhoogd door kandidaten met veel meer gevaarlijke situaties te confronteren dan mogelijk is in een praktijktoets. De SimScientists computersimulatie van WestEd is een voorbeeld van de tweede manier om de representativiteit te verhogen (Quellmalz, Timms, Silberglitt, & Buckley, 2012). Deze computersimulatie, voor leerlingen uit groep 8 van de basisschool, bevat interactieve opdrachten op het gebied van de natuurvakken. Leerlingen worden bijvoorbeeld getoetst op het intekenen van ecosystemen. Door het trekken van pijlen in de computersimulatie kunnen leerlingen een voedselketen inrichten (zie Figuur 2). Zodoende wordt niet alleen vastgesteld of de leerling over de
Figuur 1. Het bestrijden van een brand in de Navy Damage Control computersimulatie (bron: http://www.cse.ucla.edu/focusareas/military/damage.php)
12 EXAMENS mei 2015 - NR 2
kennis beschikt, maar ook of deze toegepast kan worden in de context. Deze taak kan natuurlijk ook schriftelijk door de leerlingen gedaan worden, maar het grote voordeel van het gebruik van een interactieve computertaak is dat de computer kan loggen hoe lang een leerling er bijvoorbeeld over heeft gedaan, hoe vaak een leerling de voedselketen opnieuw heeft ingericht, en op welke manier een leerling met pijlen heeft gesleept. Mogelijk levert dit interessante informatie op met betrekking tot het vaardigheidsniveau van een leerling.
Data Het derde belangrijke voordeel van toetsing in computersimulaties betreft de data-analysemogelijkheden van computersimulaties. Naast productdata kan ook gebruik gemaakt worden van procesdata voor de beoordeling van de kandidaat. Productdata zijn geobserveerde waarden die kandidaten produceren door een computersimulatie te voltooien en geven een indicatie van hun prestatie. Procesdata zijn logbestanden die gedetailleerd laten zien hoe kandidaten productdata hebben geproduceerd, hieronder vallen onder andere klik- en navigatiegedrag, reactietijden en het gebruik van hulpmiddelen (Rupp et al., 2012). De productdata in het voorbeeld van Figuur 2 hebben betrekking op de uiteindelijke voedselketen, terwijl de procesdata zouden kunnen bestaan uit het aantal pogingen dat een leerling heeft ondernomen of de strategie die een leerling heeft gevolgd. Heeft de leerling bijvoorbeeld de voedselketen van onder naar boven ingetekend of van boven naar onder? Het voordeel hiervan kan zijn dat bepaalde type (denk) fouten die leerlingen maken zichtbaar worden en daardoor beter te remediëren zijn. Procesdata kunnen dus zowel een summatief als een formatief doel dienen. Ten opzichte van de soms niet gestandaardiseerde data die voortvloeien uit een praktijktoets, waar beoordelaarseffecten vaak een grote rol spelen, heeft een computersimulatie als voordeel dat de proces- en productdata volledig gestandaardiseerd zijn. Dat wil zeggen dat een specifieke handeling in de computersimulatie voor alle kandidaten op dezelfde manier wordt gescoord, iets wat in praktijktoetsen niet altijd het geval is. Daarmee zou het zo kunnen zijn dat de vaardigheden van een kandidaat aan de hand van
www.e-xamens.nl
De beschikbaarheid van procesdata is een belangrijk voordeel van computersimulaties
Figuur 2. Interactieve taak in SimScientists computersimulatie (overgenomen uit: Quellmalz, Timms, & Buckley, 2010)
een computersimulatie uiteindelijk betrouwbaarder en meer valide beoordeeld kunnen worden dan met een praktijktoets of schriftelijke toets.
Efficiëntie Tot slot zijn computersimulaties op verschillende vlakken een stuk efficiënter dan schriftelijke toetsen of praktijktoetsen. De beoordeling kan bijvoorbeeld realtime plaatsvinden, waardoor resultaten of feedback onmiddellijk gecommuniceerd kunnen worden naar de kandidaat. Een computersimulatie is op de lange duur uiteindelijk goedkoper en logistiek efficiënter dan de praktijktoets en de gecontroleerde computeromgeving biedt de mogelijkheid om efficiënt met toezicht en veiligheid rondom de toetsafname om te gaan.
www.e-xamens.nl
Uitdagingen De technologie voor het ontwikkelen van computersimulaties is al lang geen obstakel meer. De tijdsduur en kosten die staan voor ontwikkeling zijn nog steeds behoorlijk, maar met de vooruitgang van technologie en kennis wordt het voor organisaties steeds betaalbaarder om computersimulaties te ontwikkelen die kunnen functioneren als meetinstrument. De grote uitdaging die overwonnen moet worden voordat een nieuwe generatie van toetsen zijn intrede kan doen, ligt in het onderzoeken van de validiteit van computersimulaties als toets- en exameninstrumenten. Een bruikbaar uitgangspunt voor dit onderzoek is het conceptual assessment framework (CAF) dat ingezet kan worden bij de ontwikkeling van het instrument en bij analyse van de toetsresultaten (Mislevy, Almond, & Lukas, 2004).
EXAMENS - mei 2015 - NR 2 13
De grote uitdaging is het onderzoeken van de validiteit van computersimulaties als toets- en exameninstrumenten
Conceptual Assessment Framework Het CAF bestaat uit drie belangrijke onderdelen die sterk samenhangen en veel invloed uitoefenen op de validiteit van de toets; het studentmodel, het taakmodel en het bewijsmodel (zie Figuur 3). Het centrale uitgangspunt binnen het model is evidentiary reasoning, waarover Mislevy et al. zeggen: ‘assessment isn’t really about numbers; it’s about the structure of reasoning’. Met andere woorden, hoe kunnen we bepaalde acties en gedragingen van kandidaten in een computersimulatie beargumenteerd relateren aan de kwaliteiten van kandidaten waarover we uiteindelijk een uitspraak willen doen? Een computersimulatie vraagt veel gecompliceerder gedrag van een kandidaat dan het invullen van een antwoordformulier. Daarom moet voorkomen worden dat pas na afloop van de ontwikkeling van de computersimulatie bepaald gaat worden hoe de prestaties van de kandidaat worden gescoord. Hieronder zullen we per onderdeel van het CAF de uitdagingen bespreken. Studentmodel Aan de linkerkant van Figuur 3 is het studentmodel te zien. In het studentmodel wordt beschreven welke kwaliteiten we willen meten en hoe verschillende kwaliteiten met elkaar verbonden zijn. De kwaliteiten die we willen meten worden studentmodelvariabelen (SMV’s) genoemd en kunnen meer algemeen aangeduid worden als latente variabelen. Dat wil zeggen dat ze alleen bij benadering af te leiden zijn uit
de data die voortvloeien uit voltooiing van de taken door kandidaten. Creativiteit is hier een voorbeeld van omdat we creativiteit niet direct kunnen meten, maar wel af kunnen leiden van bepaalde gedragingen van kandidaten in een computersimulatie, zoals is aangetoond door Shute, Bauer, Ventura en ZapataRivera (2009). De eerste uitdaging is dan ook om vast te stellen welk type SMV’s, naast creativiteit, wel en niet meetbaar zijn in een computersimulatie. Hoewel de eerste stappen zijn gezet is er nog veel meer onderzoek nodig om vast te stellen wat nu wel en wat nu niet te toetsen is in innovatieve omgevingen (zie ook Iseli, Koenig, Lee, & Wainess, 2010; Shute, 2011; Kerr & Chung, 2012; Mayrath, Clarke-Midura, Robinson, & Schraw, 2012; Rupp et al., 2012; De Klerk, Eggen, & Veldkamp, 2014). Taakmodel Aan de rechterkant van Figuur 3 is het taakmodel te zien. In het taakmodel wordt beschreven welke taken kandidaten in de computersimulatie voorgelegd krijgen. De taken die kandidaten proberen te voltooien moeten data opleveren, observeerbare variabelen (OV), die informatie verschaffen over de SMV’s. De taken in computersimulaties manifesteren zich over het algemeen niet in vragen, hoewel het natuurlijk niet is uitgesloten dat gedurende een computersimulatie een aantal momenten is waarop kandidaten vragen voorgelegd krijgen. De tweede uitdaging is dan ook om in virtuele omgevingen duidelijke, scoorbare
Figuur 3. De drie centrale onderdelen in het conceptual assessment framework (overgenomen uit Levy, 2013).
14 EXAMENS mei 2015 - NR 2
www.e-xamens.nl
Het handelen in een computersimulatie heeft voorspellende waarde voor het handelen in een situatie daarbuiten
taken te ontwikkelen die informatie verschaffen over de SMV’s. Bewijsmodel Het bewijsmodel is misschien wel het belangrijkste onderdeel binnen het CAF. Hier komen theorie en data samen door middel van twee samenhangende onderdelen binnen het bewijsmodel: bewijsidentificatie en bewijsaccumulatie. De theoretische relatie tussen SMV’s en OV’s worden in het bewijsmodel geformaliseerd op basis van de data. Bewijsidentificatie Zoals gezegd bieden computersimulaties de mogelijkheid om procesdata te registreren. Procesdata bestaan vaak uit alle handelingen die een kandidaat doet (klikken, navigeren, raadplegen van bronnen, etc.) tijdens het uitvoeren van de taken in de computersimulatie en vormen samen een logfile. De hoeveelheid data die geregistreerd wordt in een logfile kan veel mogelijkheden bieden, maar het stelt ontwikkelaars en onderzoekers ook voor grote uitdagingen. Een kandidaat die een poosje deelneemt aan een computersimulatie produceert bijvoorbeeld vaak al vele pagina’s aan procesdata. Welke procesdata zijn nu relevant voor de uitspra(a)k(en) die we willen doen over de SMV(’s)? In het bewijsidentificatie onderdeel van het bewijsmodel wordt stil gestaan bij deze vraag. De derde uitdaging is dan ook om vast te stellen welke handelingen van kandidaten in de computersimulatie als bewijs kunnen worden gezien van een SMV en daarmee de rol van geobserveerde variabele opgelegd krijgen en welke niet. Bewijsaccumulatie (psychometrisch model) Het tweede onderdeel binnen het bewijsmodel is de bewijsaccumulatie. Als de observeerbare variabelen in het assessment vastgesteld zijn zullen deze over het algemeen gecombineerd worden in een psychometrisch model. In het psychometrische model worden deze variabelen als kleine bewijselementen gewogen en gemiddeld om een transformatie te maken naar een totaalscore. Bij een meerkeuzetoets zijn dit over het algemeen nullen en enen, maar in een computersimulatie kunnen veel meer variabelen een rol spelen die ook nog eens verschillend van vorm kunnen zijn.
www.e-xamens.nl
Daarnaast zijn de OV’s vaak niet onafhankelijk van elkaar zoals in een meerkeuzetoets. De mogelijke gedragingen van een kandidaat hangen vaak af van eerdere gedragingen in de computersimulatie, welke zich ontwikkelt zich door te spelen. Ook is de relatie tussen SMV’s en OV’s vaak erg complex omdat meerdere variabelen afhankelijk kunnen zijn van meerdere kwaliteiten van leerlingen, die ook gecombineerd weer invloed kunnen hebben op observeerbare variabelen. De vierde uitdaging is dan ook om vast te stellen hoe al deze OV’s van verschillende aard en vorm toegepast kunnen worden in psychometrische modellen.
Onderzoek Buitenwacht Op dit moment is eX:plain, met steun van de Stichting Samenwerken Voor Veiligheid (SSVV) en het Research Center voor Examinering en Certificering, bezig met de ontwikkeling van en onderzoek naar een computersimulatie voor het examineren van de veiligheidsopleiding tot buitenwacht. Een buitenwacht is iemand die op een petrochemisch bedrijfsterrein toezicht houdt op werkzaamheden die in besloten ruimtes (bijvoorbeeld een tank of een silo) worden uitgevoerd. Dat betekent dat een buitenwacht zijn beroep uitoefent in een risicovolle omgeving waardoor de gevolgen van een ongeval erg groot kunnen zijn. De specifiek risicovolle taak van de buitenwacht is sterk procedurematig en de opleiding wordt op dit moment afgesloten met een praktijktoets. Juist het feit dat er opzettelijk veiligheidsrisico’s moeten worden genomen om te zien hoe de buitenwacht zou handelen in zo een situatie maakt het moeilijk deze taak te examineren in de praktijk. Een computersimulatie zou kandidaten virtueel in verschillende risicovolle situaties kunnen brengen om te beoordelen hoe ze handelen in deze situaties. Door middel van video, afbeeldingen, animatie en interactieve elementen, zoals een toolbox waarmee kandidaten kunnen interacteren met de computersimulatie, wordt geprobeerd de buitenwachttaak te simuleren in een computerexamen. In Figuur 4 is een screenshot te zien van het computerexamen. Op de afbeelding is te zien dat een werknemer probeert een elektrisch apparaat (in dit geval een slijptol) de beslo-
EXAMENS - mei 2015 - NR 2 15
In het psychometrische model worden de OV’s als kleine bewijselementen gewogen en gemiddeld om een transformatie te maken naar een totaalscore
ten ruimte in te brengen. Het gebruik van elektrische apparaten is niet toegestaan in verband met explosiegevaar, tenzij anders vermeld op de werkvergunning. Het gevaarlijke gedrag van de werknemer moet de buitenwacht nu corrigeren met de knoppen in de toolbox, die rechtsonder in het scherm is gepresenteerd. Verschillende elementen in het scherm (zoals de opdrachtgever of de werkvergunning) kunnen door middel van klikken geactiveerd of geopend worden. In het onderste gedeelte van het scherm is de opdracht voor de kandidaat gepresenteerd en het grote scherm toont uiteraard de multimedia (een afbeelding in dit geval). De kandidaat moet verschillende taken uitvoeren tijdens de computersimulatie die automatisch opgeslagen worden door de computer. Welke knoppen precies aanwezig zijn op het scherm is afhankelijk van de opdracht die de kandidaat uitvoert. Dat geldt ook voor de balk die onderin te zien is waarin bijvoorbeeld ook fotoseries kunnen worden vertoond als die bij de opdracht horen. De computersimulatie biedt de mogelijkheid om zowel productdata als verschillende vormen van
procesdata te loggen en te definiëren als OV. In het onderzoek wordt nagegaan in hoeverre het mogelijk is om valide uitspraken te doen over de kwaliteiten (SMV’s) van studenten om te werken als buitenwacht op basis van hun prestatie (OV’s) in de computersimulatie. Het uiteindelijke doel is om aan de hand van deze innovatieve computersimulatie de SMV’s van de buitenwachttaak te meten. Daarvoor zal een groep kandidaten in de tweede helft van 2014 naast de praktijktoets ook de computersimulatie gaan doen. Vanwege de grote hoeveelheid product- en procesdata die worden geproduceerd door deelname aan de computersimulatie, zal gebruik gemaakt worden van moderne psychometrische methodes om de data te analyseren.
Conclusie Het lijkt erop dat toetsing in computersimulaties in de toekomst steeds meer voet aan de grond zal krijgen in de toets- en examineringswereld. De voordelen ten opzichte van schriftelijke toetsen en praktijktoetsen die in dit artikel zijn beschreven ogen overtuigend.
Figuur 4. Screenshot van de buitenwacht computersimulatie
16 EXAMENS mei 2015 - NR 2
www.e-xamens.nl
In het onderzoek wordt nagegaan of het mogelijk is een beroep te examineren met een innovatieve computersimulatie
Desalniettemin is meer onderzoek naar de voordelen evenals de uitdagingen van het gebruik van computersimulaties als meetinstrument nodig. Met het hierboven besproken onderzoek naar de inzet van een computersimulatie als equivalent van een praktijktoets dragen we hier aan bij.
Literatuur Clark, R.C., & Mayer, R.E. (2011). E-learning and the science of instruction. San Francisco: Pfeiffer. De Klerk, S., Eggen, T.J.H.M., & Veldkamp, B.P. (2014). A blending of computer-based assessment and performance-based assessment: Multimedia-based performance assessment (MBPA). The introduction of a new method of assessment in Dutch vocational education and training (VET). Cadmo, 22(1), 39-56. Iseli, M. R., Koenig, A. D., Lee, J. J., & Wainess, R. (2010). Automated assessment of complex task performance in games and simulations (CRESST Research Rep. No. 775). Los Angeles: National Center for Research on Evaluation, Standards, Student Testing, Center for Studies in Education, UCLA. Retrieved from http://www.cse.ucla.edu/products/reports/R775. pdf Kerr, D., & Chung, G.K.W.K. (2012). Identifying key features of student performance in educational video games and simulations through cluster analysis. Journal of Educational Data Mining, 4(1). Levy, R. (2013). Psychometric and evidentiary advances, opportunities, and challenges for simulationbased assessment. Educational Assessment, 18(3), 182-207. Mayrath, M.C., Clarke-Midura, J., Robinson, D.H., & Schraw, G. (Eds.). (2012). Technology-based assessment of 21st century skills. Charlotte, NC: Information Age Publishing. Mislevy, R.J., Almond, R.G, & Lukas, J. (2004). A brief
www.e-xamens.nl
introduction to evidence-centered design. CSE Technical Report. Los Angeles: The National Center for Research on Evaluation, Standards, Student Testing (CRESST), Center for Studies in Education, UCLA. Retrieved from http://www.cse.ucla.edu/ products/reports/r632.pdf Quellmalz, E.S., Timms, M.J., & Buckley, B. (2010). The promise of simulation-based science assessment: the Calipers project. International Journal on Learning in Technology, 5(3), 243-263. Quellmalz, E.S., Timms, M.J., Silberglitt, M.D., & Buckley, B.C. (2012). Science assessments for all: Integrating science simulations into balanced state science assessment systems. Journal of Research in Science Teaching, 49(3), 363-393. Rupp, A.A., Levy, R., DiCerbo, K., Sweet, S.J., Crawford, A.V., Calico, T., Benson, M., Fay, D., Kunze, K.L., Mislevy, R.J., & Behrens, J.T. (2012). Putting ECD into practice: The interplay of theory and data in evidence models within a digital learning environment. Journal of Educational Data Mining, 4 (1), 49-110. Shute, V.J., Ventura, M., Bauer, M.I., & Zapata-Rivera, D. (2009). Melding the power of serious games and embedded assessment to monitor and foster learning: Flow and grow. In U. Ritterfeld, M.J. Cody, & P. Vorderer (Eds.), Serious games: Mechanisms and effects, (pp. 295-321). Mahwah, NJ: Routledge. Shute, V.J. (2011). Stealth assessment in computerbased games to support learning. In S. Tobias and J.D. Fletcher (Eds.), Computer Games and Instruction (pp. 503-523).Charlotte, NC: Information Age Publishing. De heer S. de Klerk MSc., is toetsdeskundige bij eX:plain en promovendus bij het Research Center voor Examinering en Certificering. De heer ir. P. van Dijk en mw. drs. L. van den Berg zijn projectmanager bij eX:plain. E-mail:
[email protected]
EXAMENS - mei 2015 - NR 2 17