Questionmark Perception: voortbouwen!
EINDverslag Volgens FORMAT EMP PROJECTEN
VUmc i.s.m. Onderwijscentrum VU
2007-2008
Projectgroep QMP/ VUmc (IOO) EMP-project 2007-2008 Instituut voor onderwijs en opleiden VUmc (IOO): Gerard van den Bos, Karin Brouwer, Cor Camps, Willem van der Laarse, René Musters, Theo de Nijs, Marianne Schade, Maybritt Stal, Tanja van Wier. Onderwijscentrum VU: Silvester Draaijer, Rob van Leeuwen, Christoffel Reumer. Begeleidingscommissie: prof. dr. Rob Beelen, prof. dr. Henk Groenewegen, drs. Albert de Voogd. Gedelegeerd opdrachtgever: prof.dr. Fedde Scheele, directeur ad interim opleiding geneeskunde VUmc (IOO) Opdrachtgever: prof.dr. Wim Stalman, decaan, lid van de Raad van Bestuur van VUmc Opstellers eindverslag: Gerard van den Bos, instituut voor onderwijs en opleiden VUmc (IOO) Silvester Draaijer, Onderwijscentrum VU Marianne Schade, instituut voor onderwijs en opleiden VUmc (IOO) Versie 0.2 SDR Datum: oktober 2008
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
1
1
Samenvatting .......................................................................................................... 3 1.1 1.2 1.3 1.4 1.5
2
Inleiding................................................................................................................3 Vragenbank ..........................................................................................................3 Alternatieve vraagvormen ....................................................................................3 Analyse .................................................................................................................3 Toekomst..............................................................................................................3
Uitvoering................................................................................................................. 4 2.1 2.2 2.3 2.4 2.5 2.6
3
Toets- en itemanalyse software en methoden.....................................................4 Alternatieve vraagvormen ....................................................................................6 Itembanking .........................................................................................................7 Opbrengst van het project .................................................................................10 Naar de toekomst...............................................................................................11 Lessons learned..................................................................................................11
Referenties............................................................................................................. 12
4 Bijlage 1 Evaluatie van RMS system en commentaar naar RMS ontwikkelaars ................................................................................................................ 13 5
Bijlage 2a Cookbook: Toetsanalyse ....................................................................
6
Bijlage 2b Cookbook: Score-cijfertransformatie ..............................................
7
Bijlage 3a Artikel Draaijer & van den Bos (2008)..............................................
8
Bijlage 3b Raadscore berekening van polytoom
9
Bijlage 4 Tentamineren met QMP: een ervaring (2008) ..................................
10
gescoorde vragen ....
Bijlage 5 Codeboek QMP-vragenbank.............................................................
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
2
1 Samenvatting 1.1 Inleiding In de ICTO projectenronde 2004/2005 heeft VUmc (in het bijzonder het Onderwijsinstituut) samen met het Onderwijscentrum VU een start gemaakt met beeldschermtoetsing. Dit zowel binnen zowel het oude (C’91) als het nieuwe curriculum (VUmc-compas) van VUmc. Daarbij is gekozen voor de inzet van de toetsomgeving Questionmark Perception. Momenteel wordt dit systeem ingezet voor de Parate Kennis toetsen (PAK) van het VUmc-compas en voor bloktentamina (C’91) bij het blok Psychisch Functioneren, het blok Hart- en Bloedsomloop en het blok Nieren, Milieu en Interieur.
1.2 Vragenbank Één van de ideeën van het gebruik van Questionmark Perception is daarbij geweest dat met het systeem een database van toetsvragen opgezet kon worden waarin alle kennistoetsen van het VUmc-compas opgeslagen kunnen worden voor dossiervorming en op termijn voor hergebruik. Voor de vragen van de PAK’s is dit gerealiseerd, mede door de combinatie van oefen- en toetsfunctie van al het materiaal (+/- 600 items). Het project heeft verder geleid tot een indeling van de vragenbank en het vullen van deze vragenbank met de toetsvragen van alle cursustoetsvragen (de CAT, cursusafhankelijke toets) van semester 1 van jaar 1 van het curriculum (totaal +/ - 1200 vragen).
1.3 Alternatieve vraagvormen Daarnaast is een experiment uitgevoerd om vierkeuzevragen te kunnen vergelijken met alternatieve vraagvormen wat betreft scoring en slagingspercentages. Daarover is een artikel geschreven, alsook een uitgebreid intern verslag van een zeer ervaren vragenmaker en docent.
1.4 Analyse Tot slot is gebleken dat de psychometrische analyse die door Questionmark Perception wordt uitgevoerd op zich waardevolle gegevens oplevert, maar dat deze in praktische zin – in communicatie met docenten en examencommissie; leesbare uitdraaien, compact papiergebruik – voor verbetering vatbaar is. Ook is gewerkt aan het verder automatiseren van de toets- en itemanalyse met behulp van Questionmark Perception. Helaas is deze mate van automatiseren onvoldoende om werkzaamheden door de huidige functionarissen belast met toetsanalyse te laten uitvoeren. Hiervoor is een handleiding ontwikkeld.
1.5 Toekomst In het voorgestelde project is nader onderzocht en vastgelegd hoe deze aspecten aangepast en verbeterd zouden kunnen worden en resulteert aanbevelingen voor de langere termijn.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
3
2 Uitvoering Het project heeft een drietal componenten gekend. Toets- en itemanalyse met QMP, Alternatieve vraagvormen en Itembanking.
2.1 Toets- en itemanalyse software en methoden
2.1.1 QM Results Management System In deelproject A is onderzocht hoe de Toetsanalysemodule van Questionmark Perception zo ingericht kan worden dat deze te gebruiken is door personen die weinig ingevoerd zijn in toets- en itemanalyse. In eerste aanleg is hiervoor de nieuwe analysemodule van Questionmark Perception onderzocht. Dit is het Results Management System (RMS).
Er is gebleken dat dit systeem voor het analyseren van de veelvoorkomende multiple choicevragen heel geschikt is voor analyse. Er zijn echter een aantal voorlopig onoverkomelijk problemen. • Het systeem vergt veel kennis van toets- en itemanalyse om het goed te kunnen gebruiken • Het systeem heeft geen uitvoermogelijkheid zodanig dat er leesbare geprinte documenten beschikbaar komen die voor besprekingen geschikt zijn. • Het systeem heeft geen score-cijfertransformatie mogelijkheid. Deze bewerking zou dan weer apart in bijv. MS-Excel moeten worden uitgevoerd. In de bijlage 1 is extra informatie opgenomen over deze evaluatie van het systeem (mail naar QMP-ontwikkelaars).
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
4
2.1.2 QM Reporter Functies Er is door Onderwijscentrum VU een zodanige set van rapportage opties in QMP klaargezet zodat toch een zo eenvoudig mogelijk methode kan worden bewandeld voor een toets- en itemanalyse. Op de Questionmark Supportsite van de VU is inmiddels deze methode gepubliceerd als het Toetsanalyse Cook Book. https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/CookbookToetsanalyse%20v1.1.zip Zie ook bijlage 1 voor een geprinte versie. De methode is gedemonstreerd en besproken met Wim Reijm (ICT-coördinator opleiding geneeskunde) en Marianne Schade (pro j.leider) op 22 mei 2008. De aanwezigen waren onder de indruk van de kwaliteit van de procedure. Echter, bij herberekening van scores naar cijfers en aanpassing van vragen moet veel werk worden verricht in MS-Excel. Zij gaven aan dat deze werkzaamheden een te hoog niveau zouden vragen van de medewerkers die dit zouden moeten uitvoeren, zodat zij deze methode niet kunnen introduceren bij VUmc.
2.1.3 SIMAC software Tijdens het project bleek dat de SIMAC software nog steeds niet operationeel was. Een experiment me t data-uitvoer uit QMP en analyse met de SIMAC software heeft tijdens het project niet kunnen plaatsvinden.
2.1.4 Conclusie Op dit moment is de toets- en itemanalyse functionaliteit van QMP zodanig dat deze niet op grote schaal ingezet kan worden bij de opleid ing geneeskunde. De ontwikkelingen rondom de nieuwe functionaliteiten van QMP en aanverwante software zullen de komende twee jaren goed in de gaten moeten worden gehouden. Vervolgadviezen en experimenten zijn hiervoor noodzakelijk.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
5
2.2 Alternatieve vraagvormen Het tweede deel van het project betrof het onderzoeken van de aard en eigenschappen van alternatieve vraagvormen. In eerste aanleg was in het project voorzien dat er cognitief psychologisch onderzoek verricht zou worden naar deze vraagtypen. Daarbij zouden deze vraagtypen aan proefpersonen worden aangeboden en zou op basis van ‘hardop denken’ protocollen, getracht worden om meer inzicht te verkrijgen in de denkprocessen die alternatieve vraagvormen zouden opleveren. Na nadere consultatie met experts (o.a. Prof. Lambert Schuwirth, toetsexpert medisch onderwijs, Universiteit Maastricht) is afgezien van dergelijke experimenten. In plaats daarvan heeft een beter uitvoerbaar experiment plaatsgevonden bij het hertentamen van het blok Voeding en Spijsvertering. In dat experiment is een vergelijking gemaakt van meerkeuzevragen en alternatieve vraagvormen op basis van de scores op deze vragen en de slagingspercentages. Hierover is een artikel geschreven door docent Gerard van den Bos en Silvester Draaijer (Onderwijscentrum VU) (Draaijer & Bos, 2008). Dit artikel is ingediend bij het Tijdschrift voor Medisch Onderwijs en de eerste versie daarvan is geaccepteerd. Op 3 oktober 2008 is dit weer geresubmit. Zie bijlage 2 (a en b) voor deze laatste versie. Deels aansluitend op dit artikel is bijgevoegd een meer persoonlijk verslag van Gerard van den Bos over zijn brede ervaringen met QMP. Dit verslag is voor de interne organisatie van belang en daarom hier opgenomen (zie bijlage 4).
2.2.1 Scoren van alternatieve vraagvormen Een belangrijke overweging bij het stellen van de cesuur van toetsen bij VUmc is het gebruikmaken van de raadscore op vragen. Op basis van verschillende gesprekken en werk van Onderwijscentrum VU zijn voor verschillende veelvoorkomende vraagvormen raadscoretabellen opgesteld. Het gaat om de Multiple Response vragen (MR) en een combinatie van Matching cq. Drag-and-Drop vragen. In het artikel van Draaijer en van den Bos wordt kort ingegaan op het berekenen van deze raadscores. Deze tabellen zijn online te vinden via: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Toetsanalyse In bijlage 3a staan ze ook opgenomen als print.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
6
2.3 Itembanking Op basis van de ervaringen met de PAK-toets1 (die momenteel 557 vragen bevat) is er gewerkt aan het verder indelen van een toekomstige vragenbank. Er is uitgegaan van het opslaan van alle toetsvragen en toetsen van de CAT’s 2. Uit verschillende discussies is gedestilleerd hoe deze vragenbank ingedeeld moet worden. Er is uiteindelijk besloten om een eenvoudige indeling te maken waarbij de toetsvorm, vervolgens de specifieke cursus, het jaar van toetsafname , toets, hertoets of oefentoets, en de verantwoordelijk inhoudelijke docent, de belangrijkste kenmerken of metadata vormen. De discussie hieraan voorafgaand is zeer leerzaam geweest: het bleek na de steeds herhaalde oefeningen met het invoeren van een indeling , dat een conciese indeling, c.q. codering van de vragen het meest toegankelijk en bruikbaar bleek. Met name de zoekfunctie naar woorden in de tekst van de vragen bleek, althans voorlopig, een indeling in allerlei concepten onnodig te maken. De deelne mers aan de discussie waren zowel medewerkers van afdeling toetsbeheer als docenten en verantwoordelijke coördinatoren van een cursus of semester. Er is besloten om alle CAT-vragen van het 1e semester van het eerste jaar , vanaf de start van het nieuwe curriculum in september 2005, in ieder geval in de vragenbank te plaatsen (nadat zij via het staande proces zijn ontwikkeld buiten QMP om) . Door het toewijzen van specifieke tijd en taken aan Karin Brouwer, managementassistent van de semestercoördinator van het betreffende semester, en een student-assistent, is het gelukt om deze CAT-vragen in QMP op te nemen. Daar moet bij w orden opgemerkt dat nog enige nazorg is vereist om vragen die uit het eerste gebruik gebleken niet voldeden te oormerken of alsnog te verwijderen. De vragenbank bevat nu ongeveer 1200 CATvragen, allen mc/4 afleiders en een aantal met grafisch materiaal erbij. Zie verder de figuren hierna die laten zien hoe de codering in QMP er uit ziet.
De ontsluiting voor docenten is zodanig dat zij via een paar eenvoudige hyperlinks alle vragen van een bepaalde cursus als geheel of alleen van zichzelf van meerdere cursussen, op kunnen vragen (zie figuur hieronder). Ze kunnen dan voor nieuw samen te stellen toetsen zich goed oriënteren op wat ze al eerder gevraagd hebben. Dit bleek steeds meer een noodzaak gezien de grote hoeveelheid Word-bestanden die inmiddels in het centrale toetsbeheerdossier staan en waarvan lang niet iedere docent een volledig beeld heeft. Ook kan de docent door middel van knippen en plakken vragen uit QMP 1
PAK (Parate Kennistoets) wordt door de organisatie 32 maal per jaar aangeboden. De student maakt de toets per Ba-studiejaar 9 - 12 keer. 2 CAT (Cursus Afhankelijke Toets); deze toetsen worden na afsluiting van de cursussen in de Bachelorfase afgenomen, na 3 tot 6 weken steeds, bevatten 50 mc/4 afleiders vragen, met een jaartotaal voor de organisatie van 56 toetsen.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
7
aanpassen en opnieuw insturen naar de afdeling toetsbeheer. Op termijn ligt het in de bedoeling om tot hergebruik van vragen uit QMP over te gaan. Hoewel de voorraad groeit is dit punt nog niet bereikt. Momenteel bevat de CAT-vragenbank precies 1179 vragen.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
8
Op dit moment wordt onderzocht hoe deze w erkwijze bevalt bij de betreffende docenten. De eerste resultaten zijn positief. Tot slot: de vragenbank in QMP bevat ook een set vragen van het C’91, dat afgebouwd wordt. Dit zijn vragen van diverse blokken, in totaal 958. Een deel daarvan bevat veel grafisch materiaal en alternatieve vraagvormen en een klein deel bevat vragen met daarbij korte filmfragmenten met geluid van o.a. gesprekken tussen patiënt en arts. Ergo: de totale digitale vragenbank van VUmc bevat 2694 vragen.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
9
2.4 Opbrengst van het project De opbrengst van het project is dat er een start is gemaakt met het systematisch opslaan en ontsluiten van de door VUmc ontwikkelde toetsvragen. Deze toetsvragen zijn nu eenvoudig doorzoekbaar voor docenten, coördinatoren en medewerkers van de afdeling toetsbeheer. Dit biedt een uitstekende basis voor toekomstige toetsontwikkeling en hergebruik. Daarnaast is meer zicht verkregen op de kansen en problemen met betrekking tot toetsen itemanalyse met Questionmark Perception en alternatieve vraagvormen. Helaas zijn er niet eenduidige conclusies te trekken op dit terrein, maar zijn ook geen onomkeerbare stappen genomen die later tot grote problemen zullen leiden. Voor de PAK-toetsen is de itemanalyse nog steeds zeer eenduidig in termen van juist/onjuist, dus een dichotome scoring. Een meer complexere scoring van alternatieve vraagvormen b.v. met weging, is in de directe toekomst op grote schaal nog niet haalbaar. Hoewel momenteel alle CAT-vragen worden ingevoerd in QMP, is de afname voorlopig nog via papier en blijft de klassieke analyse via leesformulieren de meest bruikbare methode voor snelle en overzichtelijke analyses. Maar veel meer is al duidelijk zodat gericht verder ontwikkeld kan worden. Een belangrijke spin-off van dit project (en van de tevens de al ruim drie jaren bestaande PAK-toets aanbie ding via beeldscherm, dus QMP) is de volgende: beeldschermtoetsing van de kennistoetsen wordt voortgezet in de nieuwe Masterfase die in september gestart is. Daartoe heeft die afdeling een projectplan opgesteld. De functioneel beheerder van QMP en de QMP specialist (Cor Camps) zijn inmiddels samen met deze afdeling aan de slag om QMP zo functioneel en organisatorisch in te richten dat tot systematische toetsing van de stagestudenten in Masterjaar 1 kan worden overgegaan. Op dit moment worden daarbij de specifieke wensen voor vraagvormen onderzocht op uitvoerbaarheid in QMP. er wordt gebruik gemaakt van reeds ontwikkelde toetstechniek en sinds lang bestaande toetsexpertise betreffende de comp lexe klinische vraagstukken. Op termijn is afname elders mogelijk daar QMP een internetapplicatie is.
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
10
2.5 Naar de toekomst Er is een start gemaakt met het systematisch opslaan van toetsvragen. In het kader van het EMP project is dit nu op pilot-basis uitge voerd. Op dit moment wordt vorm gegeven aan de continuïteit van dit initiatief. Daartoe is het van belang dat de rol en functie van toetsvragenbeheerder officieel wordt vormgegeven en dat daar voldoende capaciteit aan wordt toegekend. De verwachting is dat daar een ordegrootte van 0,3 FTE voor nodig is. Voor een deel kan deze rol mogelijk belegd worden in de huidige functioneel beheerder van Questionmark Perception voor VUmc (dhr. Theo de Nijs). Wij denken echter dat voor het systematisch invoeren en controleren van toetsvragen en toetsen aanvullende specialistische capaciteit nodig is. In de start fase wordt tevens gebruik gemaakt van getrainde studentassistenten om de grote reservevoorraad vragen in QMP te plaatsen. Doel is dit het komend studiejaar (2008/2009) de complete vragenbank gevuld te krijgen, alsook de nieuwe toetsen daarin standaard te laten opnemen. Er zijn verschillende mogelijkheden om de werkwijzen voor het ontwikkelen, samenstellen, printen en analyseren van toetsen op VUmc te verbeteren en uit te breiden. Concrete acties die nodig /mogelijk zijn op VUmc zijn de volgende: • Daadwerkelijke implementeren van SIMAC toetsanalyse software voor pen-enpapier toetsing • Pro-actief participeren en aandringen bij de VU en VUmc o m een grootschalige digitale toetsvoorziening te realiseren (toetszaal) ; zonodig partners zoeken bij de UVA en/of AMC. • Uitbreiden van beeldschermtoetsing naar alle kennistoetsen. • Verder experimenteren met alternatieve vraagvormen • Verder in elkaar schuiven van toetsvraagontwikkelingsproces met Questionmark Perception als opslagmedium, uitvoermedium en zo mogelijk toets- en itemanalyse tool. Daartoe heeft Onderwijscentrum VU inmiddels de Print-andScan functie van QMP gelicenseerd en kan VUmc pilots uitvoeren. Op basis van de door VUmc ontwikkelde beeldschermtoetsen zijn inmiddels een zeer rijke hoeveelheden alternatieve toetsvragen ontwikkeld. Deze vormen een prachtige bron van inspiratie. Om deze kennis bij de docenten van VUmc te laten leven, stromen en tot verdere ontwikkeling te komen is systematisch aandacht voor toetsen in het algemeen, en digitale toetsing in het bijzonder, nodig. Een actieve benadering van docenten, studiedagen en het ontsluiten van goed voorbeeldmateriaal kan helpen om het bewustzijn bij het docentencorps te doen toenemen.
2.6 Lessons learned Een belangrijke ‘lesson le arned’ in het project is dat er beter met minder meta -data gewerkt kan worden dan met meer. Daar zijn een aantal redenen voor te noemen. 1. Questionmark Perception is in staat om allerlei meta-data aan vragen te koppelen, maar is slecht in het kunnen benutten van deze meta-data. De interface en de zoekmogelijkheden zijn beperkt. Minder meta-data maakt dat het zoeken, vinden en ordenen van informatie minder goed mogelijk is (helaas). 2. Het toevoegen van meta-data aan toetsvragen is zeer complex. Per vraag moet er zeer zorgvuldig gekeken worden naar tal van aspecten van zo’n vraag. Dit kost veel tijd en energie. De kans is erg groot dat deze tijd niet beschikbaar is. Dat kan leiden tot een slecht uitgevoerd proces van meta-dateren. Dat resulteert weer in een slechte vragenbank die niet gebruikt gaat worden. Adagium:
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
11
‘garbage in–garbage out’. Minder meta-data, maar gegarandeerd van kwaliteit , is dan sterk te prefereren. Dan blijken de analyse-mogelijkheden en -onmogelijkheden met QMP complexer dan aanvankelijk verwacht. Hiervoor moet tijd en inspanning gereserveerd worden om tot bevredigende oplossingen te komen. Voorlopig is een eenvoudige dichotome scoring van meer complexe vragen, zoals in de PAK, aangewezen. Een ander belangrijk punt is dat het invoeren, beheren, redigeren en ontsluiten van toetsvragen om aparte capaciteit vraagt. Dit geldt zowel voor de benodigde expertise (Questionmark en ICT-kennis, organisatiekennis) als de benodigde hoeveelheid tij d. In het project is op projectbasis tijd gemaakt. Het is gebleken dat invoer en ontsluiting dan ook relatief snel gerealiseerd kan zijn. Indien deze expertise en tijd niet expliciet wordt aangewezen, dan zal het verder opbouwen en gebruiken van een vragenbank niet slagen.
3 Referenties Draaijer, S., & Bos, G. C. v. d. (2008). Tentamens met de computer: een vergelijking van meerkeuze en alternatieve vraagvormen. Tijdschrift voor Medisch Onderwijs.(resubmitted) Hols -Elders, W., Bloemendaal, P., Schade, M.I., Verdoes,S. (2008). The practice of computerbased assessment in medical education. Praag, International Association of Medical Education
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
12
4 Bijlage 1 Evaluatie van RMS system en commentaar naar RMS ontwikkelaars Van: Silvester Draaijer Verzonden: vr 21-12-2007 6:51 Aan: RMS
[email protected] CC:
[email protected]; Christoffel Reumer;
[email protected];
[email protected] Onderwerp: Questionmark Results Management System (RMS) - beta evaluation Dear QM developers, I'm pleased to be able to participate in de beta testing program of the new add-on to Questionmark Results Management System (RMS ). Due to limited time and our migration to a new hardware environment and migration from v4.3 to v4.4 we are not able to test the add-on in a live situation. So we do not provide you with technical feedback. However, on the basis of the documentation I could establish a fair view on the functionality of the product. Below you find suggestions and comments about them and the report function of QM in general. I think that in general the functionality that is developed is a worthwhile addition to QM (actually, I would say that it had to be there already from the start). It is not so much the function to move data to a separate database and storing of (still semi-dynamic) reports though. I'll explain below. In Higher Education in the Netherlands in general, Support Staff are looking for ways to be very effective in the process of Test- and Question Analysis, the discussion of and adjustment of the Test and Questions (quite specifically dropping questions from a test, changing scoring rules, changing cut-off scores, calculation grades on the basis of percentage scores etc), and the final storage of scores (in the form of documents) and Formal grading of students. A system that supports that process can be very valuable. In QM however, this is not very effectively supported. Support Staff have to work with several reports and a lot with MS-Excel to get the data and output that is required. This is a cause of possible faults and is very time consuming as well requiring quite a lot of knowledge. So, for the Question and Test Analysis, we are looking for ONE Report function that provides our Staff with the following information (based on Classical Test Analysis): Initial Analysis Descriptive statistics of the Test (number of questions, number of students, max score, min score, average score, Standards Deviation, Variance,Reliablilty etc.). Graphic and tabular representation of score distribution Question Statistics for each question. When MC-questions are used, the Rit and discrimination values of both correct and incorrect answers also given in one table (not the very badly manageable, manipulable Item Analysis Report - please provide in the system more simple tabular representation or for example graphical representations such as item option diagrams). The RMS options to color questions that have low correlation values is a very nice option* .
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
13
Based on a cut-off score and score-to -grade rules that must be able to be set by the staff: percentage and numbers of students below and above the cut-off score a histogram showing clearly numbers or percentage of students below the cut-off score a score-to -grade calculated table, listing students and grades achieved. The score-to grade calculation should be based on the following rules: • • • • •
Staff must be able to choose between a number of 10 grading schema (0, 1, 2, ..10) or another schema (A, B, C ...) Staff must be able to set the guess-score or minimum score: a grade of 0 or 1 must result in the table Staff must be able to set the top-score (max score or 100% score): a grade of 10 must result in the table Staff must be able to set the grade at the cut-off score: a grade of 5.5 or 6 The system must calculate the grades for all students based on these rules.
The system must output one file (PDF, Word, Excel) that contains all that information for easy printing or simple manipulation. If desired I can mail a document with an example output (but then MS -DOS text based yet, all information is there). Evaluation of Initial Analysis After the production of this report, Staff and SMEs discuss the quality of the test and individual questions and decide on which questions to drop, what is to be a better cutoff score. They perform some new calculations by dropping some questions or re-assign scores to individual questions. They use the same report functionality (described above) to see what happens with the Reliability of the Test and ESPECIALLY change in percentage of students below or above the cut-off score line. Final Analysis and Formal grading After these calculations have been carried out, the final report is drawn up and archived. The final grades (not scores) or to be passed on the other staff in the institution that deal with the formal entering of grades in central grading systems of the Institution. In short: • I think you will agree that a lot of function in QM's report functions perform parts of the tasks that I describe (Test Analysis Report, Assessment Overview Report, Question Statistics Report, Item Analysis Report, Excel Report) but are poorly integrated causing in a time consuming and unreliable process for repeated Test and Question analysis purposes (we need to work in a highly productive way analysis more than 500 test each year). • The score-to -grade functionality is totally missing in QM • The options to drop questions or reassign score per question and recalculate the Test are very good functions to add to QM - however not particularly in a separate add-on function So, actually we are not very keen to license the RMS system because it only perfo rms a small bit of the functions we actually want to have (maybe we have to because besides
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
14
working in Excel there is no alternative). We are much more interested in ONE new report functionality as I have described. I sincerely hope that QM is willing to think about the suggestions I make in this email. We sure want to contribute to the improvement of QM. Very kind regards, and best wishes for the new year, Silvester Draaijer * And if SME's start to use other than MC questions (which they do), a whole new world of techniques to determine acceptable levels of difficulty or measures for discrimination and correlation are necessary. I want to point you towards information in Haladyna, T. M. (2004). Developing and Validating Multiple -Choice Test Items (Third Edition ed.). London: Lawrence Erlbaum Associates. And if we really want to move forward to using IRT techniques to deliver computer adaptive test, QM has a long way to go. --------------------------------ir. Silvester Draaijer Onderwijscentrum VU Amsterdam Centre for Educational Training, Assessment and Research (CETAR) Vrije Universiteit Amsterdam De Boelelaan 1105 1081 HV Amsterdam +31-(0)20-5985479 HYPERLINK "mailto:
[email protected]"
[email protected]
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
15
5 Bijlage 2a
Cookbook: Toetsanalyse
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
16
Procedure QMP4 Cookbook Toetsanalyse Versie 1.1 tbv Questionmark Perception v4.4 SP1 (concept)
Cookbook Toetsanalyse gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “Template Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”
Onderwijscentrum VU © mei 2008
Cookbook Toetsanalyse QMP VU v1.1 INHOUDSOPGAVE
1
Inloggen in Questionmark Perception en opstart van documenten________3
2
Algemene toetsgegevens: histogrammen en betrouwbaarheid ___________3
3
Scorelijst maken ________________________________________________10
4
Kwaliteitsanalyse van de vragen___________________________________18
5
Aanpassen van scores en verwijderen van vragen uit de scorelijst ______24
6
Bijlage 1: oplossen van downloadproblemen Excel Rapport ____________29
7
Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier __29
© Onderwijscentrum VU 2008
2
Cookbook Toetsanalyse QMP VU v1.1
1 Inloggen in Questionmark Perception en opstart van documenten Ga naar http://e-toets.vu.nl/em4/login.asp Log in met het verstrekte wachtwoord en inlognaam.
1.1
Open het word-template document “Template Tentamenanalyse v1.0.doc” en geef het een naam zoals: Toets- en itemanalyse tentamen ……
1.2
Open het Excel-template document “Template Tentamenanalyse v1.0.xls” en geef het een naam zoals Toets- en itemanalyse tentamen ……
1.3
Ga naar de Enterprise Reporter
2 Algemene toetsgegevens: histogrammen en betrouwbaarheid 2.1
Ga naar Assessment Overview Report
© Onderwijscentrum VU 2008
3
Cookbook Toetsanalyse QMP VU v1.1
2.2
Gebruik het getoonde report template: VU_Quick_View_tbv_tent_analyse en gebruik het filter VU_tbv_tent_filter (dit filter zorgt ervoor dat scores onder de 20% niet meegenomen worden)
2.3
Selecteer het juiste tentamen door via de knop zoeken.
2.4
Zoek via Search, Display All of via het tabblad Advanced het juiste tentamen.
2.5
Gebruik de knoppen en om het bedoelde tentamen te verplaatsen naar het rechterdeel van het selectiescherm.
2.6
Klik op als het juiste tentamen is geselecteerd in het rechterdeel. In het overzichtsscherm staat nu het juiste tentamen (in onderstaand voorbeeld: VUmc_PF_jan2008).
© Onderwijscentrum VU 2008
naar het juiste tentamen te
4
Cookbook Toetsanalyse QMP VU v1.1
2.7
Klik op of selecteer de tabbladen om evt. de juiste groep of juiste afname data en tijden te bepalen. Bij een regulier tentamen hoeft hier echter in het algemeen niets ingesteld te worden.
2.8
Klik op
2.9
Maak een schermafdruk van deze webpagina en plak deze in het Word document.
© Onderwijscentrum VU 2008
5
Cookbook Toetsanalyse QMP VU v1.1 2.10 Bereken van de betrouwbaarheid gaat als volgt 2.11 Ga naar Test Analysis Report
2.12 Klik op ‘create new’
2.13 Klik op Find Assessments
2.14 Klik op de gewenste toets
© Onderwijscentrum VU 2008
6
Cookbook Toetsanalyse QMP VU v1.1
2.15 Selecteer de optie Browser (HTML)
Ga met de Next knop naar de volgende filters of klik op de tabbladen. Kies in ieder geval bij het tabblad More Options de volgende setting.
© Onderwijscentrum VU 2008
7
Cookbook Toetsanalyse QMP VU v1.1
2.16 Klik op 2.16.1 Geef het rapport een naam.
2.16.2 De browser vraagt nu evt. om het document te bekijken of op te slaan. Als het document geopend wordt met MS-Word kies dan voor de volgende indeling: Gecombineerd webpaginabestand.
2.17 Kopieer de gegevens over de Test reliability (Cronbach’s Alph) in het word document.
© Onderwijscentrum VU 2008
8
Cookbook Toetsanalyse QMP VU v1.1
2.18 Geef een advies over de betrouwbaarheid als volgt Cronbach alpha: < 0,6: Toets is onbetrouwbaar Cronbach alpha: 0,6 – 0,7: De toets is matig betrouwbaar Cronbach alpha: 0,7 – 0,8: De toets voldoende betrouwbaar Cronbach alpha: > 0,8: De toets heeft een goede betrouwbaarheid
© Onderwijscentrum VU 2008
9
Cookbook Toetsanalyse QMP VU v1.1
3 Scorelijst maken 3.1
Ga naar de optie Export for Excel in het Reporter hoofdmenu
3.2
Selecteer opnieuw de juiste toets met de Select assessment -knop zoals in stap 2.3. en gebruik als report template: VU_scorelijst_tbv_tent, maar zet het filter alleen op “Do not use filter” (zodat geen enkele student wordt overgeslagen).
OPMERKING 1 In het scherm worden maar een beperkt aantal toetsen getoond. Gebruik alle toetsen te kunnen zien.
3.3
Klik op
3.4
Het rapport kan nu geopend worden of opgeslagen.
om
.
© Onderwijscentrum VU 2008 10
Cookbook Toetsanalyse QMP VU v1.1
OPMERKING 2 Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Zie dan bij Hoofdstuk 6 Bijlage 1: oplossen van downloadproblemen Excel Rapport om te bekijken hoe dat opgelost kan worden. 3.5
Open het Excel document.
© Onderwijscentrum VU 2008 11
Cookbook Toetsanalyse QMP VU v1.1
3.6
Verwijder eventueel de rijen waarin onzin uitslagen staan (bijvoorbeeld de antwoorden van de toetsontwikkelaar tijdens het testen van de toets).
© Onderwijscentrum VU 2008 12
Cookbook Toetsanalyse QMP VU v1.1
3.7
Indien nodig: Converteer de scores van tekst naar getal opdat er met de cijfers gerekend kan worden.
3.8
Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in Excel.
3.8.1 • •
Vraag aan de docent welke score in punten welk cijfer moet opleveren Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten) Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).
Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten. © Onderwijscentrum VU 2008 13
Cookbook Toetsanalyse QMP VU v1.1
Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten: • het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten) • het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder 51 pt).
In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078). 3.8.2
Reken voor elke student met de gegeven formule het cijfer uit
•
Voeg daarvoor eerst een lege kolom in in de scorelijst
• •
Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ Voeg de berekeningsformule toe en klik enter.
© Onderwijscentrum VU 2008 14
Cookbook Toetsanalyse QMP VU v1.1
•
Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.
•
Klik en sleep de gemaakte formule nu over de gehele kolom.
© Onderwijscentrum VU 2008 15
Cookbook Toetsanalyse QMP VU v1.1
3.9 3.9.1
Bepaal het aantal studenten dat geslaagd is Voer via het Excel template de volgende gegevens in onder de scores van de studenten.
Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: <32 of >= dan 32). De cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden.
© Onderwijscentrum VU 2008 16
Cookbook Toetsanalyse QMP VU v1.1 cesuur aantal studenten < cesuur aantal studenten >= cesuur Totaal aantal studenten
32 punten 15 22 37
3.10 Selecteer tot slot de kolommen met de uitslag en het aantal gezakten/geslaagden en kopieer deze naar het Word document.
© Onderwijscentrum VU 2008 17
Cookbook Toetsanalyse QMP VU v1.1
4 Kwaliteitsanalyse van de vragen 4.1
Ga in het Reporter hoofdmenu en kies daar voor Question Statistics Report.
4.2
Kies weer de juiste toets en gebruik report template “VU_Quick_tbv_tent_analyse”
4.3
Klik op
.
© Onderwijscentrum VU 2008 18
Cookbook Toetsanalyse QMP VU v1.1
4.4 4.4.1
Selecteer de tabel en kopieer deze. Plak deze in het Word document. Verwijder de rare opmaak door te kiezen voor Tabel à Tabeleigenschappen …
© Onderwijscentrum VU 2008 19
Cookbook Toetsanalyse QMP VU v1.1
4.4.2
Selecteer vervolgens voor Randen en Arcering …
© Onderwijscentrum VU 2008 20
Cookbook Toetsanalyse QMP VU v1.1
4.4.3
Verwijder alle arceringsopmaak van de cellen
4.4.4
Voeg eventueel weer toe dat alle celgrenzen zichtbaar worden via het knoppenbalk menu.
© Onderwijscentrum VU 2008 21
Cookbook Toetsanalyse QMP VU v1.1
4.4.5 o o o o o
Voeg onder de vraaganalyse de volgende tekst bij
vragen met lage/hoge Difficulty (<0,1, >0,85) en uitgesproken negatieve Correlation-waarden (<0,05) (Ander alternatief juist? Strikvraag?) vragen met gemiddelde Difficulty (>0,2,<0,4) en negatieve Correlation-waarden (<0,1) (ander alternatief juist? Strikvraag?) vragen met gemiddelde Difficulty (>0,2,<0,4) en Correlation-waarden rond de 0 (Ander alternatief juist? Behandeld?) vragen met lage Difficulty (<0,1) en Correlation-waarden rond de 0 (Behandeld?) vragen met hoge Correlation-waarden (>0,3) zijn goede vragen.
OPMERKING 3 Mocht op basis van deze snel uit te voeren analyse blijken dat beter inzicht gewenst is in de verdeling van de moeilijkheidsgraad van de vragen of de detailscores en de verdeling daarvan op de alternatieven binnen multiple-choice vragen (bij andere vraagvormen werkt deze analyse niet zinvol), doe dan het volgende. Ga naar het rapport Item Analysis Report.
Figuur 1 Histogram van de verdeling van de moeilijkheidsgraad van de vragen. In dit voorbeeld heeft het grootste deel van de vragen een gemiddelde moeilijkheidsgraad. Er zijn wat te weinig moeilijke vragen (P-waarde kleiner dan 0,4) en ietwat te veel gemakkelijke vragen (P-waarde groter dan 0,8). Er kan per vraag bekeken worden welk alternatief uit een vraag is gekozen en welke frequentie etc. Daarmee kunnen de zogenaamde a-waarden worden afgelezen: de proportie studenten die een bepaalde afleider hebben gekozen.
© Onderwijscentrum VU 2008 22
Cookbook Toetsanalyse QMP VU v1.1
Figuur 2 Kengetallen van één specifieke vraag. Het correcte antwoord is aangegeven door de outcome waarij een asterisk staat (*). Duidelijk is te zien dat veel studenten voor het verkeerde alternatief gekozen hebben (81%). Dat verklaart de negatieve Rit waarde bij deze vraag. Het was waarschijnlijk ook te verwachten dat deze vraag niet goed zou zijn gezien het laatste alternatief van de vraag waarin staat dat ‘bovenstaande alternatieven zijn allemaal correct’. Deze vraag moet gereviseerd worden. 4.4.5.1
Het rapport is nu klaar en kan verzonden worden
© Onderwijscentrum VU 2008 23
Cookbook Toetsanalyse QMP VU v1.1
5 Aanpassen van scores en verwijderen van vragen uit de scorelijst Nadat het rapport is geanalyseerd en besproken door de docenten en anderen, kunnen er een aantal vervolgacties nodig zijn: • Een aantal vragen dienen te vervallen • Bij een aantal vragen moeten meerdere alternatieven goed gerekend worden of een ander alternatief In beide gevallen moeten de totaalscores op basis daarvan aangepast worden en moet opnieuw een cijfer worden toegekend op basis daarvan. 5.1
Laten vervallen van vragen
Open het Excel bestand dat gemaakt is in stap 3
© Onderwijscentrum VU 2008 24
Cookbook Toetsanalyse QMP VU v1.1 Scorelijst maken. We gaan het volgende doen: 1. 2.
We voegen een extra kolom in waarin de score berekend wordt op basis van de score van elke vraag We verwijderen de kolom waarin de vraag staat die we willen verwijderen.
5.1.1
Extra kolom invoegen om score te laten berekenen
5.1.2
Geef de kolom een titel
5.1.3
Voeg een berekeningsformule in de alle scores sommeert: =SOM(L4;
4). (bij een Engelstalige versie van MS-Excel is deze formule SUM)
5.1.4
Klik en sleep de formule over de gehele kolom
© Onderwijscentrum VU 2008 25
Cookbook Toetsanalyse QMP VU v1.1
5.1.5
Verwijder de kolom die de score op de vraag bevat die verwijderd moet worden. In dit voorbeeld gaat het om vraag ‘Question 2’ met description ‘VUmc_PF_jan2008_001’. De score wordt nu automatisch voor iedereen herberekend.
© Onderwijscentrum VU 2008 26
Cookbook Toetsanalyse QMP VU v1.1
Pas nu het cijfer aan door de kolom die het cijfer berekend aan te passen. Let op: er moet mogelijk op basis van een nieuwe cesuur een berekening worden gepleegd. Zie daarvoor stap 3.8 Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in Excel. 5.2
Aanpassen van de score van vragen
Het kan zo zijn dat er bij vragen meerdere alternatieven correct worden gerekend of dat er andere alternatieven correct zijn. We gaan als volgt te werk. 1. 2. 3. 5.2.1
We downloaden een nieuwe Excel bestand met scores maar daarin staan de scores en de gegeven antwoorden van de studenten. We passen de scores op specifieke vragen aan We herberekenen de scores zoals gedaan in stap 5.1 Extra kolom invoegen om score te laten berekenen. Voer stap 3 Scorelijst maken opnieuw uit, maar kies nu voor template VU_score_and_answer_tbv_tent
© Onderwijscentrum VU 2008 27
Cookbook Toetsanalyse QMP VU v1.1
Elke kolom bevat nu zowel het gegeven antwoord als de score. U kunt een functie toevoegen in de kolom met ‘Actual Score’. Een voorbeeld daarvan is onderstaande
De ingevoegde formule is: =ALS(OF(J7="probleemgedrag";J7="een syndroom");1;0) (Engelse MS-Excel: =IF(OR J7="probleemgedrag";J7="een syndroom");1;0) Dit betekent zoveel als: als de waarde in de cel J7 de waarde heeft “probleemgedrag” OF de waarde in de cel J7 heeft de waarde “een syndroom”, dan wordt de score gezet op “1”. In alle andere gevallen wordt de score “0”. Met de functie ‘automatisch aanvullen’ kan een dergelijke formule (nadat deze goed is geformuleerd) op de waarden van een gehele kolom worden toegepast. 5.2.2
Overnemen van scores naar de oorspronkelijke scorelijst
Nadat de scores op deze wijze zijn herberekend kunnen ze via knippen en plakken naar de oorspronkelijke scorelijst worden gekopieerd (let wel op evt. verwijderde rijen uit eerdere handelingen in de scorelijst). 5.2.3
Herbereken de scores zoals gedaan in stap 5.1.1 Extra kolom invoegen om score te laten berekenen
© Onderwijscentrum VU 2008 28
Cookbook Toetsanalyse QMP VU v1.1
6 Bijlage 1: oplossen van downloadproblemen Excel Rapport Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Belangrijk is dat de volgende settings in de browser goed staan: • Pop-up blokkering van Internet Explorer staat uit (in ieder geval voor vu -acc.qmark.nl en vu.qmark.nl • Pop-up blokkering van bijvoorbeeld de Google toolbar staat ook uit (in ieder geval voor vu-acc.qmark.nl en vuem.qmark.nl • Vu-acc.qmark.nl en vuem.qmark.nl moeten door Internet Explorer aangemerkt worden als trusted site 1. Kies in IE voor Extraà Internet Opties…à 2. Kiest tabblad Security en kies daarin Trusted Sited. Klik dan op de knop Sites.
•
3.
Voeg dan http://vuem.qmark.nl toe en http://vu.qmark.nl.
4.
Bevestig alles.
Internet Explorer moet toestaan dat downloads via een site mogen worden gedaan. 1. Ga in IE naar >> Tools >> Internet Options >> Security. 2. Klik op 'Trusted Sites' en vervolgens op 'Custom level...' 3. Zoek naar het kopje 'Downloads' en zet 'Automatic prompting for file downloads' op 'Enable'
Mochten er dan nog problemen optreden, mail dan even naar [email protected].
7 Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier
© Onderwijscentrum VU 2008 29
Cookbook Toetsanalyse QMP VU v1.1 7.1
Voer de gevraagde gegevens in zoals weergegeven in de figuur hieronder in het template Excel document.
Kopieer de cellen met de berekening en plak deze in het Word document.
© Onderwijscentrum VU 2008 30
6 Bijlage 2b
Cookbook: Score-cijfertransformatie
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
17
Procedure QMP4 Cookbook Score-cijfertransformatie Versie 1.1 tbv Questionmark Perception v4.4 SP1 (concept)
Cookbook score-cijfertransformatie gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “T emplate Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”
Onderwijscentrum VU © mei 2008
Quickstart Tentamenanalyse VU v1.0 INHOUDSOPGAVE 1.1
Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in Excel.
Grafisch gezien wordt er gebruik gemaakt van het verband zoals in onderstaande figuur is weergegeven. De totale raadkans van het tentamen bestond uit de raadscore van de meerkeuzevragen (0,25 punt per vraag) Het geven van cijfers aan studenten vindt plaats op basis van de behaalde score, verdisconteert met de raadscore. Zo wordt het cijfer 1,0 toegekend aan studenten die de raadscore behalen, en het cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuurscore (bijv. 5,5) ligt halverwege de raadscore en de maximale score. Deze methode van score-cijfertransformatie wordt veel toegepast in het Hoger Onderwijs (Dousma, Horsten, & Brants, 1997 blz. 164). 10
5,5
cijfer 1
raadscore
cesuursc ore
maximale score
Figuur 1 Het verband tussen de score op een toets en het bijbehorende cijfer. 1.1.1 • •
Vraag aan de docent welke score in punten welk cijfer moet opleveren Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten) Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).
Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten.
Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten: • het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten)
© Onderwijscentrum VU
2
Quickstart Tentamenanalyse VU v1.0 •
het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder 51 pt).
In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078).
1.1.2
Reken voor elke student met de gegeven formule het cijfer uit
•
Voeg daarvoor eerst een lege kolom in in de scorelijst
• •
Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ Voeg de berekeningsformule toe en klik enter.
•
Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.
© Onderwijscentrum VU
3
Quickstart Tentamenanalyse VU v1.0
•
Klik en sleep de gemaakte formule nu over de gehele kolom.
© Onderwijscentrum VU
4
Quickstart Tentamenanalyse VU v1.0
1.2 1.2.1
Bepaal het aantal studenten dat geslaagd is Voer via het Excel template de volgende gegevens in onder de scores van de studenten.
Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: <32 of >= dan 32). De
© Onderwijscentrum VU
5
Quickstart Tentamenanalyse VU v1.0 cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden. cesuur aantal studenten < cesuur aantal studenten >= cesuur Totaal aantal studenten
32 punten 15 22 37
Dousma, T., Horsten, A., & Brants, J. (1997). Tentamineren (derde druk ed. Vol. 3): Wolters Noordhoff.
© Onderwijscentrum VU
6
7 Bijlage 3a
Artikel Draaijer & van den Bos (2008)
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
18
-1-
Titel: Tentamens met de computer: een vergelijking van meerkeuze en alternatieve vraagvormen S. Draaijer (Onderwijscentrum VU, Vrije Universiteit Amsterdam, [email protected]) en G.C. van den Bos (VU medisch centrum Amsterdam, [email protected]) Samenvatting In het medisch onderwijs wordt meer en meer gebruik gemaakt van beeldschermtoetsing en alternatieve vraagvormen. In een speciaal geprepareerd beeldschermtentamen werden traditionele meerkeuzevragen en alternatieve vraagvormen aan studenten voorgelegd om deze voor wat betreft scores en slaagpercentages met elkaar te kunnen vergelijken. De meerkeuzevragen dienden tevens als referentie. Voor het tentamen werden drie alternatieve vraagvormen toegepast: Drag-and-dropvragen, Multiple Response vragen en Matchingvragen. De slaaggrens werd bepaald volgens het model waarbij de studenten de helft van het aantal punten moeten scoren nadat correctie voor scoring op basis van de raadkans heeft plaatsgevonden. Deze methode wordt op grote schaal gebruikt in het Hoger Onderwijs. De resultaten laten zien dat de alternatieve vraagvormen vele mogelijkheden bieden en scores opleveren die dezelfde ordegrootte hebben als meerkeuzevragen. De alternatieve vraagvormen resulteren echter wel in verschillende slaagpercentages.
Summary In medical education, the use of on-screen examination and new question types is increasing. In an experiment, traditional multiple choice questions and new question types were presented to students, in order to compare these question types with respect to scores and pass rates. The multiple choice questions served as base-line. In the exam, three new question types were used: drag-and-drop questions, multiple response questions and matching questions. The cut-scores were set according to the linear model for score-to-grade transformation adapted on the basis of the guess score. This method is common practice in Higher Education in the Netherlands. The results of the experiment show that the new question types reliably assess medical knowledge and that their scores can vary but are comparable to multiple choice questions. The new question types lead to considerable different pass rates however.
-2-
Inleiding In het geneeskunde onderwijs worden, ondanks een enorme toename van het gebruik van digitale leeromgevingen, weinig tentamens afgenomen via het beeldscherm. Dat heeft ten eerste een logistieke oorzaak: de meeste instellingen beschikken niet over zalen met voldoende computers voor alle examinandi. Een tweede reden is waarschijnlijk onbekendheid met de mogelijkheden van moderne toetsprogramma’s om andere dan de klassieke meerkeuze vragen te genereren, zoals vragen waarbij de student begrippen of tekens moet verslepen naar locaties in een gepresenteerde figuur. Uit de literatuur is betrekkelijk weinig bekend over het gebruik van dergelijke alternatieve vraagvormen 1, 2 . Aanwijzingen voor het ontwikkelen van dergelijke vragen, in dit artikel “alternatieve vraagvormen” genoemd, worden beschreven door bijvoorbeeld Draaijer en Hartog 4
3,
. Met betrekking tot alle vraagvormen geldt echter dat het bij de student opgeroepen denkproces
meer wordt bepaald door de stimulus van de vraag (wat er gevraagd wordt) dan door de responsvorm zoals meerkeuze, juist/onjuist of essay 5 . Wel kan de motivatie van de lerende verhoogd worden door attractieve vormgeving en interactie
6, 7
. Verder is bekend dat polytoom
gescoorde vragen (waarbij de student 0, 1, 2 etc. punten per vraag kan scoren) ten opzichte van dichotoom gescoorde vragen (waarbij de student slechts 0 of 1 punt kan scoren), betere vraagtoetscorrelaties hebben, maar meer tijd kosten om te beantwoorden 8 . Verder blijkt dat het bepalen van goede scoringsvoorschriften voor alternatieve vraagvormen niet eenvoudig is 9, 10. Ter voorbereiding op de invoering van beeldschermtoetsing worden in het VUmc, sinds twee jaar, de herkansingen van de cursussen Bioregulatie, Hart en bloedsomloop, en Nier en milieu interieur, alle uit het tweede studiejaar van het aflopende Curriculum ’91, afgenomen met behulp van het programma Questionmark Perception (QMP). Dat programma ondersteunt een groot aantal vraagvormen via het beeldscherm. In dit onderzoek gingen wij na of door alternatieve vraagvormen het slagingspercentage verandert, en zo ja, hoe. Methoden Wij voerden ons experiment uit met de tweede herkansing van het derdejaarstentamen Voeding en Spijsvertering, waarin de vakgebieden Celbiologie (3), Medische Chemie (10), Fysiologie (12), Pathologie (10), Kindergeneeskunde (10), Heelkunde (10) en Maag/darm/leverziekten (23) betrokken zijn (getallen tussen haakjes: aantal vragen). Het tentamen bestond uit 56 vierkeuze- en
-3-
22 alternatieve vragen. De vierkeuze- en alternatieve vragen waren evenredig per onderwerp verdeeld. Aan het tentamen namen 70 studenten deel. Op grond van eerdere ervaringen met beeldschermtoetsing en de mogelijkheid om desnoods alleen van de 56 vierkeuze vragen gebruik te maken voor becijfering, werd dit experiment verantwoord geacht. Het voorgaande reguliere tentamen, en de daaropvolgende eerste herkansing, werden afgenomen met 75 vierkeuze vragen. In het huidige tentamen (de tweede herkansing) werden de uitkomsten van de 56 vierkeuze vragen gebruikt als referentie: op basis van die vragen kon bepaald worden of de alternatieve vraagvormen leiden tot hogere scores en hoe dit invloed heeft op het slaagpercentage. Naast de meerkeuzevragen kozen wij als alternatieve vragen: 1
Drag-and-dropvragen (DrandDr) waarbij studenten een aantal begrippen of symbolen moeten verslepen naar rechthoeken in een gegeven figuur, of naar een flowdiagram (aantal te verslepen termen 1 of meer groter dan het aantal rechthoeken of het aantal open plaatsen in het diagram om de onderlinge afhankelijkheid van de antwoordopties te verkleinen).
2
Matchingvragen (Match) waarbij een aantal begrippen uit één kolom op de juiste wijze moet worden gecombineerd met de begrippen in een tweede kolom (aantal begrippen in de tweede kolom 1 of meer groter dan dat in de eerste om de onderlinge afhankelijkheid van de antwoordopties te verkleinen).
3
Multiple Response vragen (MR) waarin meer dan één keuze juist is. Deze vragen worden ook vaak meer-uit-meervragen genoemd. Het gekozen scoringsmodel is zo dat: •
er per correct gekozen alternatief 1 punt wordt gegeven;
•
er per gekozen afleider 0 punten worden gegeven;
•
er vooraf bekend wordt gemaakt aan de student hoeveel juiste keuzes er zijn. Dit laatste wordt gedaan om de onzekerheid omtrent de wijze van beantwoorden te verkleinen.
De figuren 1, 2, 3 en 4 zijn voorbeelden van respectievelijk DrandDr (Fig. 1, 2) , een Match (Fig. 3) en een MR vraag (Fig. 4). Figuur 1
-4-
Completeer onderstaande figuur van het zuur secreterende mechanisme van de pariëtale (= wand-) cel door 6 van de bijgevoegde termen te verschuiven naar de juist rechthoek in de figuur
NB. ca: carbo-anhydrase; bedenk dat van de rechthoeken naast de H+, de bovenste een ion betreft en de onderste een proces in de pomp.
Correcte antwoord
Een DrandDr vraag waarbij 6 begrippen naar een basisfiguur moeten worden versleept (en er 1 afleider is: cAMP)
Figuur 2 U ziet hieronder een diagram over de gevolgen van maldigestie (gestoorde vertering). Completeer het diagram door het verslepen van een aantal bijgevoegde begrippen naar de juiste posities.
-5-
Correcte antwoord
Een DrandDr vraag waarbij een redenering met 4 begrippen moet worden gecompleteerd (er zijn dus ook 4 afleiders).
Figuur 3
-6-
Correcte antwoord
Een Match vraag waarbij 8 begrippen in de rechterkolom ieder met een bijbehorend begrip uit de linkerkolom gecombineerd moeten worden (en er is 1 afleider: verhoogde ratio HDL/LDL)
-7-
Figuur 4
Correcte antwoord
Een MR vraag waarbij de 3 juiste alternatieven aangevinkt moeten worden (op beeldscherm is de volgorde van alternatieven gerandomiseerd).
Vier weken voor de tentamendatum stond de studenten een oefententamen (inclusief oefenvoorbeelden van de alternatieve vragen) ter beschikking met beredeneerde en naar de studiestof verwijzende antwoorden. De vierkeuzevragen werden gemaakt door de vakdocenten; voor de alternatieve vragen gaven deze docenten ook aan wat zij wilden vragen, waarna hun voorstellen door een QMP -deskundige werden omgezet in het bedoelde QMP-format. De eindredactie van alle, ook de alternatieve vragen, lag bij de blokvoorzitter. De alternatieve vraagtypen werden polytoom gescoord: elke goede keuze in een vraag (bijvoorbeeld het selecteren van een goed alternatief uit een MR vraag), leverde de student 1 punt op. Voor dit scoringsmodel is gekozen omdat daarbij elke goede keuze beloond wordt, wat door de studenten als meest redelijk wordt ervaren. De gebruikte methode van score-cijfertransformatie is die op basis van een lineair verband met verdiscontering van de raadscore. De raadscore wordt daarbij gedefinieerd als de verwachte score bij het volledig random beantwoorden van vragen.
-8-
In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten (p(qi )), maal het betreffende aantal punten (qi ). In formule vorm: qraad = S(p(qi )*qi ). De raadscore van een vierkeuze multiple choice vraag is daarmee gelijk aan qraad_4mc =p(0)*0+p(1)*1=0,75*0+0,25*1=0,25=25%. Bij toetsvragen die polytoom gescoord worden is het iets moeilijker om een dergelijke raadscore te bereken. Voor bijvoorbeeld een MR vraag met 5 opties waarbij drie opties correct zijn volgens het scoringsmodel zoals gegeven op blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3= 0*0+4/10*1+5/10*2+1/10*3=1,70 punten. Voor Match vragen (waarbij elke te kiezen optie éénmaal gekozen mag worden) geldt een relatief eenvoudige berekening waarbij geldt dat de kansscore gelijk is aan de kans per optie om at random gekozen te worden maal het aantal vragen: qr=aantal_ vragen*(1/aantal opties). Voor bijvoorbeeld een Match vraag met 5 vragen en 6 opties is de kans qraad 5 -6_Match=5*1/6=5/6. Het geven van cijfers aan studenten vond plaats op basis van de behaalde score, verdisconteerd met de raadscore. De methode is grafisch weergegeven in Figuur 5. De methode wordt veel toegepast in het Hoger Onderwijs en is efficiënt 11 blz. 164. In het kort komt de methode er op neer dat de score waarbij studenten slagen, halverwege de raadscore en de maximale score wordt gekozen (vaak wordt ook de grens op 55% of 60% gesteld). Het is belangrijk om daarbij aan te geven dat een kleine aanpassing van de cesuurscore een grote invloed heeft op het percentage geslaagde studenten. Dit wordt veroorzaakt doordat in veel toetsen, de grootste groep studenten een score heeft die zich rondom die cesuurscore bevindt. Zo kan bijvoorbeeld een verhoging van de cesuurscore met 1% leiden tot mogelijk 6% minder geslaagden op een toets. In de figuur wordt dit aangegeven door de verticale lijn bij de cesuurscore die het gebied afsluit van de proportie van de studenten die slaagt. Figuur 5
-9-
10
5,5
Proportie van studenten die slaagt.
cijfer 1
raadscore
cesuurscore
maximale score
Het verband tussen de score op een toets en het bijbehorende cijfer, de cesuurscore en het slaagpercentage. De figuur toont dat het laagste cijfer (bijv. een 1,0) wordt toegekend aan studenten die de raadscore behalen, en het cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuur (bijv. het cijfer 5,5) ligt halverwege de raadscore en de maximale score. De normaalcurve geeft de gebruikelijke spreiding van de scores aan over de populatie van de studenten. Afhankelijk van deze) is er een bepaald percentage studenten dat zakt cq. slaagt.
Resultaten Er bleken na een vraaganalyse 4 vierkeuzevragen ongeschikt, vanwege de combinatie van een zeer lage score met een lage of negatieve vraag-toetscorrelatie (Rit) wat meestal duidt op een vraag die niet duidelijk is geformuleerd. Ook werden twee MR vragen uit de analyse verwijderd omdat in de stam van die twee vragen niet het aantal correcte alternatieven bleek te zijn aangegeven terwijl dat bij alle andere MR vragen wel het geval was. Het opnemen van deze twee MR vragen in de analyse zou kunnen leiden tot uitspraken over twee ongelijke vraagvormen. De scoreverdeling op de toets is weergegeven in de histogrammen van Figuur 6. De scoreverdeling toont een normaalverdeling met verschoven top. Deze is gebruikelijk voor tentamens.
-10-
Figuur 6 All_Q_types 25
Frequentie
20 15 10 5
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
percentagescore
NO_MC
25
25
20
20 Frequentie
15 10
15 10 5
5
percentagescore
Histogrammen van de scoreverdeling op de toets voor alle vragen gezamenlijk (All_Q_types), alleen de vierkeuze vragen (MC) en alle alternatieve vragen (NO_MC).
De betrouwbaarheid (Cronbach Alpha) van het tentamen als geheel was 0,79. Dat is hoger dan die van de reguliere (papieren) herkansingen (0,72), en voor summatieve toetsen een acceptabele waarde. De betrouwbaarheid van de toets op basis van alleen de meerkeuzevragen was 0,70 en op basis van alleen de alternatieve vragen 0.65. Alle drie waarden bevestigen dat de toets goed discrimineert tussen de studenten. De studenten gaven aan (wij vroegen hen individueel naar hun ervaringen als zij hun antwoorden hadden “ingeleverd”) dat zij het tentamen “leuk en uitdagend” hadden gevonden, onder meer omdat zij vonden dat ze gedwongen werden om beter na te denken, vooral bij de DrandDr- en de Matchvragen. Dit commentaar is in overeenstemming met de verwachtingen.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0 1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
percentagescore
0,2
0
0
0,1
Frequentie
MC
-11-
De gemiddelde score van de 70 studenten op het tentamen uitgedrukt in een percentagescore was 66%. Als deze score wordt vertaald naar een situatie waarbij bijvoorbeeld alleen het gebruik van dichotoom gescoorde meerkeuzevragen zou zijn toegepast, betekent dit dat de studenten gemiddeld 66% van de vragen goed hebben beantwoord. Indien deze score vertaald wordt naar polytome vragen, wil dit zeggen dat studenten gemiddeld 66% van het totaal aantal te behalen punten hebben gescoord. Op basis van de score-cijfertransformatie als aangegeven in Figuur 5, zou 67% van de studenten slagen (dat het cijfer van de gemiddelde score en het slaagpercentage bijna gelijk zijn is in dit geval toevallig – zie de toelichting bij Figuur 5). In navolgende tabellen zijn de aantallen vragen en hun karakteristieken weergegeven.
uitsluitend meerkeuzevragena
uitsluitend alternatieve vraagvormen b
MR
Match
DrandDr
alle vragen
Tabel 1
aantal vragen (n)
52
20
6
6
8
72
Maximum score (punten)
52
92
18
41
33
144
65%
69%
71%
64%
72%
66%
0,70
0,65
0,21
0,34
0,29
0,44
0,30
0,25
13 / 25%
22,8 / 25%
8,8 / 49%
5,2 / 13%
8,8 / 27%
38,8 / 26%
32,5
57,4
13,4
22,6
20,9
89,9
Gemiddelde procentuele score op de vragen Cronbach Alpha
0,79
Gemiddelde van vraagtoets correlatie a Raadscore (punten) en bijbehorend raadpercentage Cesuurscore (punten) b
-12-
Slaagpercentage van de 61%
77%
34%
79%
81%
67%
studenten
Overzicht van het tentamen en het aantal verschillende vragen met hun diverse bijbehorende karakteristieken. a
Gemiddelde item-testcorrelatie (correlatie tussen de score op een vraag en de toetsuitslag) op een schaal van -1 tot +1; hoe hoger de waarde des te meer de score op de betreffende vraag correleert met de eindscore op de toets. In het algemeen dient deze waarde hoger dan 0,2 te zijn.
b
De cesuurscore op basis van het lineaire scoringsmodel uitgaande van de raadscore en cesuurop 50%..
-13-
Uit Tabel 1 blijkt dat de gemiddelde score op de vragen uiteenloopt. Het gemiddelde tussen de score op de MC vragen en de alternatieve vraagvormen verschilt 4% en dit verschil is significant (t (69) = 3,89; p = ,000.). De Match vragen scoren bijna net zo hoog als de meerkeuzevragen; de MR en de DrandDr vragen scoren gemiddeld hoger. De gemiddelde vraag-toetscorrelatiewaarden van de alternatieve vragen zijn, zoals verwacht, ook hoger, maar de waarden van de MR vraag wijkt nauwelijks af van de MC vragen. Dat laatste is een indicator dat het meetvermogen van de MR vragen niet optimaal is. In Tabel 1 is op basis van de scores en de score-cijfertransformatie aangegeven welk deel van de studenten zou slagen. Volgens deze gegevens zou op basis van alleen de vierkeuzevragen, 61% van de studenten slagen.. Op basis van de alternatieve vraagvormen zou 77% van de studenten slagen. Dit is significant: Chi2 (1) = 0,02; p = ,006.). Op basis van alleen de MR vragen zou 34% slagen, terwijl dat voor de Match vragen 79% en de DrandDr vragen 81% zou zijn. Gezien het relatief grote aantal punten dat behaald kon worden bij de Match en de DrandDr vragen, is het uiteindelijke slaagpercentage ten opzichte van alleen de MC vragen hoger. De invloed van het lage slagingspercentage op basis van alleen de MR vragen is, vanwege het relatief lage aantal te behalen punten voor de MR vragen, klein. Discussie We hebben een experiment uitgevoerd in een reële tentamensituatie. Studenten hebben een computertoets gedaan waarin ze antwoorden moesten geven op een mix van meerkeuzevragen en alternatieve vraagvormen. Doordat we aan kunnen nemen dat de beheersingsgraad van de stof door de studenten gelijk is , kunnen we uitspraken doen over de verschillen in scores en slaagpercentages voor de verschillende vraagvormen. Methodische beperkingen Uit logistieke overwegingen (gelimiteerd aantal beeldschermen en ruimtes) hebben wij voor een herkansingstentamen gekozen. Het gebruik van groepen herkansers voor onderwijskundige experimenten is aanvechtbaar: de groepen zijn voorgeselecteerd vanwege het fale n bij een eerste tentamenpoging en het aantal studenten is meestal klein. In ons geval moet ook nog in de overwegingen betrokken worden dat deze herkansers onder de druk van een ten einde lopend curriculum werkten. De scores van de studenten zijn echter volgens een normaalverdeling gespreid. De combinatie van daadwerkelijke kennisspreiding en normaalverdeling geeft aan dat
-14-
de toets voldeed aan voorwaarden voor klassieke toetsanalyse. Aan de voorwaarden om uitspraken te doen over het tentamen als geheel is dus voldaan. Helaas is het niet mogelijk voor wat betreft de scores en de percentages geslaagden algemene conclusies te trekken voor de verschillende alternatieve vraagvormen. In het experiment zijn van elk type daarvoor te weinig vragen aanwezig (n=6, 8); conclusies in dit artikel zijn dan ook vooral illustratief bedoeld. Ze vormen vooral aanzet tot discussie en verder onderzoek. Overwegingen met betrekking tot de percentagescore en cesuurbepaling Voordat wij tot het gebruik van alternatieve vragen overgingen, verwachtten wij dat dit zou leiden tot een lager slagingspercentage. Wellicht omdat zij meer naar inzicht dan naar feiten zouden vragen. Het slagingspercentage daalde echter niet. Als gekeken wordt naar de gemiddelde score op de vragen, blijken MR vragen en DrandDr vragen hoger te scoren dan vierkeuzevragen. Op deze twee vraagtypen kiezen studenten blijkbaar snel de juiste opties en scoren snel punten. De gemiddelde score op de Match vragen is bijna gelijk aan die van de vierkeuzevragen. Wordt er gekeken naar het slagingspercentage, dan zien wij een ander beeld. Toepassing van de score-cijfertransformatie op basis van de raadscore leidt bij MR vragen tot een laag, en bij Matching en DrandDr vragen tot een hoog slagingspercentage. Bij de MR vragen wordt dit veroorzaakt doordat hun raadscore in de buurt van 50% ligt zodat de cesuurscore bij MR vragen hoog is. Hierdoor slagen weinig studenten bij een gemiddelde score die vergelijkbaar (of slechts weinig hoger is) dan die van vierkeuzevragen. Bij de Match vragen slagen relatief veel studenten omdat de raadscore en de bijbehorende cesuurscore juist vrij laag zijn. Bij de DrandDr vragen is het beeld opnieuw anders: hier slagen meer studenten terwijl de raadscore vergelijkbaar of zelfs kleiner is dan die van meerkeuzevragen. Voor de DrandDr vragen scoren de studenten blijkbaar daadwerkelijk gemakkelijker punten. Voor de MR vragen uit het experiment kunnen we zeggen dat de keuze voor het scoringsmodel voor deze vragen (1 punt per goed gekozen alternatief en geen aftrek van punten voor een gekozen afleider) niet leidt tot een betrouwbare meting. Door de hoge raadkans wordt het meetgebied van deze vragen klein en discrimineren de vragen niet heel goed (gemiddelde Rit
-15-
waarde is niet hoger dan vierkeuzevragen). Een beter scoringsmodel voor deze vragen kan zijn om te werken met aftrek van punten per gekozen afleider en bijvoorbeeld een minimale score van 0 punten. Hierdoor daalt de raadscore sterk. Voor zowel de Match als de DrandDr vraagvormen in het experiment zouden we kunnen zeggen dat de studenten hun partiële kennis goed kunnen laten zien en daar ook voor beloond worden. Ze scoren waarschijnlijk relatief gemakkelijk punten door het goed kiezen van de ‘gemakkelijke’ onderdelen van deze vragen. De ‘moeilijker’ onderdelen zorgen er echter voor dat de vragen toch goed discrimineren. Door de interne afhankelijkheid van de afleiders in dergelijke vragen (ondanks het invoegen van afleiders bij deze vragen) leidt de statistische raadscore tot een hoger slaagpercentage dan bij toepassing van alleen vierkeuzevragen. Bij de cesuurbepaling zou daar rekening mee kunnen worden gehouden. Overwegingen voor ontwikkeling van alternatieve ofwel beeldschermvragen De validiteit van een toets wordt bepaald door de mate waarin de toets meet wat gemeten dient te worden. Het doel van het maken van alternatieve vragen voor tentamens is niet dat op basis daarvan evenveel studenten slagen als bij alleen toepassing van MC vragen. Het doel moet zijn om studenten te bevragen op een aantrekkelijke manier en op een manier die recht doet aan de stof. Een zeer groot deel van de geneeskundige diagnostiek berust op beeldvormende technieken. Studenten moeten daartoe omgaan met foto’s en afbeeldingen, waarop zij afwijkingen moeten leren herkennen en aanwijzen: DrandDr-technieken zijn ideaal om dergelijke vaardigheden te onderwijzen en te toetsen. Veel inzicht in de geneeskunde berust bovendien op concepten waarvan kennis inzichtelijk kan worden gemaakt en getoetst door het verslepen van begrippen naar “lacunes in een diagram of flowchart”. Ook hier dus een vorm van de DrandDr-technieken. Een bijkomend argument voor het toepassen van dergelijke vragen is dat beelden vaak eenduidiger zijn dan tekst, waardoor de invloed van de taalbeheersing van studenten op de meting wordt verminderd. Onze bevindingen laten zien dat alternatieve vraagvormen niet onder doen voor klassieke vragen bij het maken van toetsen. Zij maken het mogelijk om leerstof interessanter te bevragen. De vragen maken goed onderscheid in de mate waarin de studenten de stof beheersen. Voordat het geneeskunde onderwijs echter op grote schaal van dergelijke alternatieve vragen gebruik zal kunnen maken, is meer inzicht nodig in de specifieke eigenschappen van deze vragen en moeten
-16-
docenten een gevoel ontwikkelen voor de ‘moeilijkheid’ van dergelijke vragen. Proeven met gelijke aantallen meerkeuze en alternatieve vraagvormen en grotere aantallen studenten zijn daar in het bijzonder voor nodig. Online voorbeelden van digitale vragen zijn te bekijken via: https://www.surfgroepen.nl/sites/flextoets/NVMOartikel/Home.aspx Gebruik hiervoor Internet Explorer aangezien andere browsers de toetsvragen niet goed weergeven.
Dankbetuiging Wij danken drs. C.J.L.H. Camps, Dr. AJ. Greven, Dr. W. van de Laarse, Dr. R.J.P. Musters, Drs. C. Reumer en Drs. M.I. Schade voor hun adviezen en het kritisch lezen van het manuscript. 1.
Haladyna TM. Developing and Validating Multiple -Choice Test Items. Third Edition ed. London: Lawrence Erlbaum Associates; 2004.
2.
Parshall CG, Spray JA, Kalohn JC, Davey T. Practical considerations in computer-based testing. New York: Springer-Verlag; 2002.
3.
Draaijer S, Hartog R. Design Patterns for digital item types in Higher Education. eJournal of Instructional Science and Technology. 2007;10(1).
4.
Draaijer S, Hartog R. Guidelines for the Design of Digital Closed Questions for Assessment and Learning in Higher Education. e-Journal of Instructional Science and Technology. 2007:Submitted for publication, forthcoming december 2007.
5.
Schuwirth LWT, van der Vleuten CPM. ABC of learning and teaching in medicine: Written assessment. BMJ. 2003 March 22, 2003;326(7390):643-5.
6.
Keller JM. Development and Use of the ARCS Model of Motivational Design. Enschede: Twente University of Technology; 1983. Report No.: IR 014 039.
7.
Ricketts C, Wilks, S., Crocker, C. What factors affect student opinions of ComputerAssisted Assessment? 5th CAA Conference; 2001; Loughborough; 2001.
8.
Jodoin MG. Measurement Efficiency of Innovative Item Formats in Computer-Based Testing. Journal of Educational Measurement. 2003;40(1):1-15.
9.
Lampe T, Eggen T. Innovative Item Types in Computer Based Testing: Scoring of Multiple Response Items. Arnhem, The Netherlands: Citogroep; 2003.
-17-
10.
Bull J, McKenna C. Blueprint for Computer-assisted Assessment: RoutledgeFalmer; 2001.
11.
Dousma T, Horsten A, Brants J. Tentamineren. derde druk ed: Wolters-Noordhoff; 1997.
8 Bijlage 3b
Raadscore berekening van polytoom gescoorde vragen
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
19
Raadscore berekening van polytoom gescoorde vragen. De bijbehorende Excel files zijn te vinden via URL: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Forms/AllItems.aspx?RootFolder=%2f sites%2fqmpvu%2fDocumentenbibliotheek%2fToetsanalyse&FolderCTID=&View=%7b06D963FC%2d 8981%2d471D%2dB339%2dB25789F93B33%7d De raadscore wordt gedefinieerd als de verwachte score bij het volledig random beantwoorden van vragen. In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten (p(qi)), maal het betreffende aantal punten (qi ). In formulevorm: qraad = S(p(qi)*qi).
1 Matching vragen
Aantal Aantal extra Totaal aantal Dichotoom alternatieven match match (0 of 1) alternatieven alternatieven
Polytoom (elk goed alternatief correct 1 punt
n
m
2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 7 7 7 7 8 8 8 8 9 9 9 9
0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 1 2 3 0 1 2 3 0 1 2 3
raadkans max (=raadscore) score
2 3 4 3 4 5 6 4 5 6 7 8 5 6 7 8 9 6 7 8 9 10 7 8 9 10 8 9 10 11 9 10 11 12
50,00% 16,67% 4,17% 16,67% 4,17% 0,83% 0,14% 4,17% 0,83% 0,14% 0,02% 0,00% 0,83% 0,14% 0,02% 0,00% 0,00% 0,14% 0,02% 0,00% 0,00% 0,00% 0,02% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 7 7 7 7 8 8 8 8 9 9 9 9
verwachte perc score raadscore (=raadscore)
1,00 0,67 0,50 1,00 0,75 0,60 0,50 1,00 0,80 0,67 0,57 0,50 1,00 0,83 0,71 0,63 0,56 1,00 0,86 0,75 0,67 0,60 1,00 0,88 0,78 0,70 1,00 0,89 0,80 0,73 1,00 0,90 0,82 0,75
50% 33% 25% 33% 25% 20% 17% 25% 20% 17% 14% 13% 20% 17% 14% 13% 11% 17% 14% 13% 11% 10% 14% 13% 11% 10% 13% 11% 10% 9% 11% 10% 9% 8%
2 Raadscoreberekening Multiple Response vragen Voor bijvoorbeeld een MR vraag met 5 opties waarbij drie opties correct zijn. Scoringsmodel • 1 punt per goed antwoord • geen aftrek van punten bij selecteren van een afleider • er wordt gegeven hoeveel antwoorden correct zijn à Er zijn 10 permutaties van keuzen te maken. volgens het scoringsmodel zoals gegeven op blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3= 0*0+4/10*1+5/10*2+1/10*3=1,70 punten.
Tabel met raadscores en kansen (let op: Tabel is nog niet volledig) Aantal alternatieve n
Aantal correct
Dichotoom (0 of 1)
n
j
permuaties met bekende hoeveelheid antwoord correct
permutaties met onbekende hoeveelheid antwoorden correct
raadkans (=raadscore) met onbekende hoeveelheid antwoorden correct op volledig juist antwoord
raadkans (=raadscore) met bekende hoeveelheid antwoord correct
3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 7 7
1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 6 7
3 3 1 4 6 4 1 5 10 10 5 1 6 15 20 15 6 1 7 21 35 35 21 7 1
8 8 8 16 16 16 16 32 32 32 32 32 64 64 64 64 64 64 128 128 128 128 128 128 128
13% 13% 13% 6% 6% 6% 6% 3% 3% 3% 3% 3% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1%
33% 33% 100% 25% 17% 25% 100% 20% 10% 10% 20% 100% 17% 7% 5% 7% 17% 100% 14% 5% 3% 3% 5% 14% 100%
Polytoom (elk goed alternatief correct 1 punt en elke fout alternatief niet aangevinkt ook 1 punt)
max score verwachte perc verwachte score raadscore score (=raadscor (=raadscore) e) bij bij bekende onbekende hoeveelheid hoeveelhei antwoord d correct antwoorde n correct
3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 7 7
1,5 1,5 1,5 2,0 2,0 2,0 2,0 2,5 2,5 2,5 2,5 2,5 3,0 3,0 3,0 3,0 3,0 3,0 3,5 3,5 3,5 3,5 3,5 3,5 3,5
50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50%
1,00 1,67 3,00 1,00 2,00 2,50 4,00 1,00 2,60 2,60 3,40 5,00 1,00 3,33 3,00 3,33 4,33 6,00
Polytoom (elk goed correct alternatief gekozen 1 punt)
perc max score raadscore
33% 56% 100% 25% 50% 63% 100% 20% 52% 52% 68% 100% 17% 56% 50% 56% 72% 100%
1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 6 7
verwachte perc verwachte perc score raadscore score raadscore (=raadscore) (=raadscor bij onbekende e) bij hoeveelheid bekende antwoorden hoeveelhei correct d antwoord correct
0,5 1,0 1,5 0,5 1,0 1,5 2,0 0,5 1,0 1,5 2,0 2,5 0,5 1,0 1,5 2,0 2,5 3,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50% 50%
0,33 1,33 3,00 0,25 1,00 2,25 4,00 0,20 0,80 1,80 3,20 5,00 0,17 0,67 1,50 2,67 4,17 6,00 0,14 0,57 1,29 2,29 3,57 5,14 7,00
33% 67% 100% 25% 50% 75% 100% 20% 40% 60% 80% 100% 17% 33% 50% 67% 83% 100% 14% 29% 43% 57% 71% 86% 100%
Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatief aftrek van 1 punt)
max score
3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 7 7
verwacht perc verwacht perc e score raadscore e score raadscore (=raadsco (=raadsco re) bij re) bij onbekend bekende e hoeveelh hoeveelh eid eid antwoord antwoord correct en correct 0,0 0% 0,0 0% 0,0 0% 0,0 0% 1,00 0,0 0% 0,00 0,0 0% 1,00 0,0 0% 4,00 0,0 0% 0,0 0% 0,0 0% 1,00 0,0 0% 0,0 0% 5,00 0,0 0% 0,0 0% 0,0 0% 0,0 0% 0,0 0% 0,0 0% 6,00 0,0 0% 0,0 0% 0,0 0% 0,0 0% 0,0 0% 0,0 0% 0,0 0% 7,00
Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatiefaftrek van 1 punt)
max score
1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 6 7
verwacht perc verwacht perc e score raadscore e score raadscore (=raadsco (=raadsco re) bij re) bij onbekend bekende e hoeveelh hoeveelh eid eid antwoord antwoord correct en correct
0,20 1,00
9 Bijlage 4
Tentamineren met QMP: een ervaring (2008)
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
20
Tentamineren met Questionmark Perception (QMP) een ervaring
Dr. GC van den Bos Augustus 2008
Samenvatting Dit is een persoonlijk verslag van ervaringen met QMP voor herkansingen van de blokken Bioregulatie, Hart en bloedsomloop, Nier en milieu interieur, en Voeding en spijsvertering van C’91 in de periode Januari 2007 tot Augustus 2008, van de opleiding geneeskunde. Veel hulp kreeg ik van ir. S Draaijer, dr R Musters, drs C Camps, en dr A Greven, maar de inhoud van dit verslag is geheel mijn verantwoordelijkheid . Het is bedoeld om te laten zien wat met QMP gedaan kan worden in de zin van interactieve vragen, naast de klassieke vragen als meerkeuze en juist/onjuist. Het legt echter ook nadruk op de voorwaarden waaraan voldaan, en het werk dat nog verzet moet worden, voordat QMP in het VUmc bruikbaar is als routine methode om tentamens af te nemen. Als u niet de tijd, of de puf heeft om dit verslag te lezen, bekijkt u dan in ieder geval even de figuren om een idee te krijgen van wat deze interactieve vragen zijn. Vanzelfsprekend ben ik bereid om dit verslag toe te lichten, en een ieder die meer over het gebruik van QMP in de geneeskunde wil weten te helpen.
Inleiding. “Wijs” geworden door ervaringen met juist/onjuist- en meerkeuze-vragententamens, begonnen René Musters en ik in 2002 met het ontwikkelen van alternatieve vragen (met alternatief wordt bedoeld anders dan juist/onjuist en meerkeuze). Wij gebruikten hiervoor de vragenmodule van Blackboard. De proeftuin was de ingangstoets van de practica Humane Fysiologie (Medische Biologie ). In 2004, met de komst van QMP, zetten wij dit experiment voort, nu in de practica Fysiologie van het blok Hart en bloedsomloop. De studenten waren enthousiast, de praktische uitvoering bleek minder geslaagd: hun gretige inspanningen met de toets bedreigden de tijd voor de practica zelf. In Januari 2007, maakte ik met QMP een eerste tentamen. Het gros van de herkansende studenten was tevreden. Dit resulteerde in 10 (inmiddels 11) volgende tentamens (tabel 1 in bijlage 1; tnt 11 niet opgenomen) met een totaal van 652 vragen. Ieder blok vereiste een representatief oefententamen van 60 vragen (totaal 4x60 = 240) met antwoorden en stofverwijzingen. Oefententamens zijn alleen zinvol als alle vragen door de docenten van “beredeneerde” antwoorden, literatuurverwijzingen en “prikkelende” extra vraagjes zijn voorzien (Dat vele studenten vooral met behulp van oefententamens studeren is een voldongen feit; echte oefententamens kunnen gebruikt worden om dat studeren te sturen). Aanvankelijk werkte ik veel met groepjes juist/onjuist vragen over één onderwerp, hoewel studenten zich met dit vraagtype meer op taalvaardigheid dan op vaktechnische inhoud getoetst voelen. Nu gebruik ik bij voorkeur alternatieve vragen van de volgende typen (nb: de tentamens Voeding en spijsvertering – Spijs -, bestaan voor een deel uit 4- keuze vragen omdat wij daarmee wilden nagaan of er een verschil was in de resultaten bij gebruik van klassieke of alternatieve vragen). Ik maakte alle vragen in overleg met de betreffende blokvoorzitter (prof P Lips, prof P ter Wee, dr M Craanen). Vraagtypen. ü meer-uit-meer vraag (MuM): een serie uitspraken waarvan een beperkt aantal juist is (fig 1). Fig 1.Voorbeeld Meer-uit-meer vraag over babyvoeding.
Aangekruiste goede en niet aangekruiste foute antwoorden kregen beide één punt, met als gevolg dat niets-wetende studenten die alle alternatieven aanklikten daar ten onrechte baat bij hadden. Nu krijgen goede antwoorden één punt en foute antwoorden een minpunt, met de beperking dat de vraag niet tot een lagere totaalscore kan leiden (advies: Cor Camps).
2
ü sleepvraag (D+D) , ook wel “drag-and-drop” vraag genoemd, waarbij begrippen of onderdelen van een figuur naar de juiste plaats in een achtergrond versleept moeten worden. Fig 2a. Geef in onderstaande figuur van de maag door het verslepen van een aantal van de bijgevoegde rode begrippen naar de open rechthoeken aan wat er bedoeld wordt
gb
tonus verhoogd
gb
secretie
pacem aker
tonus verlaagd tonus verlaagd segmentatie contr actie secretie pacemaker secretie CCK adaptieve relaxatie tonus verhoogd
segm entatie
contractie
adaptieve re laxatie se cretie C CK
(antwoord rechts). Hiervan bestaan drie typen: bij het eerste moet een achtergrond figuur waarin een aantal onderdelen ontbreekt, gecompleteerd worden (nb. de vakken waarheen de termen versleept moeten worden hebben de breedte van de langste term; fig 2a). Om de gokkans te verkleinen worden naast de juiste onderdelen of termen ook een of meer afleiders (onderdelen of termen die niet in de figuur thuis horen) gepresenteerd. Eigenlijk moet voor ieder onderdeel een eigen foute afleider gegeven worden, maar dat blijkt vaak lastig. Bij een tweede versie van deze vraagvorm is de gokkans nul en zijn dus geen afleiders nodig (fig 2b, onder; links de opdracht, rechts het antwoord). Fig 2b. Geef in bijgaande figuur door het verslepen van de beide rechthoeken aan (rechts antwoord): * het gebied met de belangrijkste effectoren van de enterogastrische reflex (blauw) * het gebied met de belangrijkste receptoren van de enterogastrische reflex (rood)
pacemaker
pacemaker
Bij het derde type moet een “redeneringdiagram” worden aangevuld met een aantal schakels in die redenering (fig 3). Afleiders zijn welk om: bij voorkeur moet ieder in te vullen begrip een (onjuist) schaduwbegrip hebben. Het is niet eenvoudig daaraan te
3
voldoen. De te verslepen begrippen mogen niet in volgorde van hun plaats in het diagram worden aangeboden, want QMP zet de begrippen in de volgorde van invoeren. Fig 3. Completeer het onderstaande diagram door het verslepen van enige van de bijgevoegde rode begrippen naar de juiste open plaatsen (rechts antwoord).
gb
lactase deficiëntie
gb
lactase deficiëntie lactose afbraak verminderd
osmolaliteit darminhoud verhoogd
o smolaliteit darminhoud verhoogd aantrekken water en zout uit het bloed
inhoud d unnedarm g roter
inhoud dunnedarm groter rek van gladspierweef sel darmwand
verst erkte segmentatie en peristaltiek
verste rkte segmentatie en peristaltiek
vergroot aan bod dikkedarm
vergroot aanbod dikkedarm
versnelde darmp assage onvoldoende bacteriële fermen tatie osmotische diarree
osmotische diarree
prikkeling dunnedarmmucosa lactose afbraak vermind erd aantrekken water en zout uit het bloed sympatische activatie onvoldoend e bacteriële fermentatie rek van gladspierweefsel darmwand versterkte darmsapsecretie versnelde darmpassage
ü combineervraag (Match) waarbij een begrip in een linker kolom op de juiste wijze gecombineerd moet worden met een begrip uit een rechter (fig 4). Fig 3. Combineervraag over babyvoeding: voor “deficiënties in moedermelk” zijn de alternatieven uitgeklapt waaruit gekozen moet worden. Het antwoord (niet gegeven) levert zo voor ieder begrip links de combinatie met een juist begrip rechts.
Sporadisch gebruik ik een van de onderstaande andere QMP vraagtypen. ü invulvraag waarbij een in te vullen begrip of getal uit een reeks alternatieven gekozen moet worden, een wat aantrekkelijker vorm om een meerkeuze vraag te presenteren.
4
ü numerieke vraag (NUM), waarbij het antwoord van een berekening moet worden ingevuld. ü rangorde vraag (Rank) waarbij een aantal factoren of begrippen van een proces in de juiste volgorde geplaatst moet worden; bij dit type vraag resulteert één volgorde fout echter meteen in twee fouten Discussie . Er zijn een aantal redenen waarom faculteiten, “beeldscherm” toetsen zouden willen gebruiken. ü Om bij de tijd te zijn. In het onderwijs gebeurt vrijwel alles met behulp van computers, waarom tentamineren dan niet? De faculteit heeft op dit terrein een grote voorsprong: de PAK-toetsen (parate kennistoetsen nieuw curriculum) en het tentamen Psychisch functioneren in C’91worden al met QMP afgenomen, en uit bovenstaande erva ringen blijkt dat dit voor de meeste CAT-tentamens (cursustoetsen van het nieuwe curriculum) ook mogelijk moet zijn. ü Bij beëindigen van het tentamen krijgen studenten onmiddellijk hun resultaat. Dit is geen sterk argument: bij papieren tentamens kan dat ook. ü De computer voert de analyse van het tentamen en de resultaten uit. Bij andere dan meerkeuze en juist/onjuist vragen moet de raadkans van de vragen te voren met de hand worden berekend. QMP bepaalt wel de betrouwbaarheid van een toets en geeft de vraagkwaliteit , maar er is zeer veel handwerk nodig om deze gegevens met de juiste interpretatie en in een overzichtelijke vorm te presenteren. De snelle uitslag die de studenten krijgen is dus slechts een voorlopige. Verwijderen van slechte vragen moet met de hand worden gedaan, waarna de resultaten opnieuw moeten worden berekend. Vanzelfsprekend kan dit werk uiteindelijk met een computerprogramma als Excel of SPSS worden uitgevoerd maar dan nog is het zeer tijdrovend. ü Omdat vragen eenvoudig uit een databank kunnen worden getrokken. De computer kan dat alleen als de vragen gecodeerd zijn naar inhoud, onderwerp enz. Het coderen van vragen is veel werk, vooral omdat het ontwikkelen van de codes zo moeilijk is; het beste wordt dat geïllustreerd door ons denken over vragen: het ene moment gaat een vraag vooral over de bloeddruk, het andere gaat dezelfde vraag over het vóórkomen van een CVA op basis van hypertensie. ü Omdat alternatieve vraagtypen kunnen worden gebruikt. Gezien onze ervaringen (zie ook onder “conclusie”), is dat waar (papieren tentamens kunnen overigens veel van dit soort alternatieve vragen ook aanbieden: dit vereist alleen een ander type antwoordformulier dan het huidige). ü Omdat beeldschermtentamens beter passen in de belevingswereld van studenten. Dit is een krachtig argument, hoewel er bij studenten ook steekhoudende bezwaren tegen beeldschermtoetsen bestaan (zie “wat vinden studenten?”).
Discussie : over de meest gebruikte vraagtypen. ü Meer uit meer vragen. Dit is, zeker voor de geneeskunde, een relevant vraagtype: dokters dienen niet alleen te weten wat zij wel, maar ook wat zij niet moeten doen. Er kan met recht meer in een vraag gevraagd worden en op een natuurlijker wijze dan in een meerkeuze vraag, terwijl beide ongeveer even snel gemaakt zijn. Het scoren van de vragen is echter minder eenvoudig (zie voren). De literatuur geeft bovendien aan dat er toetstechnische problemen zijn met dit type. De gokkans is ongeveer 50% per alternatief, wat niet beter is dan bij juist/onjuistvragen.
5
Toch denk ik dat dit vraagtype veel aandacht verdient vanwege het met de werkelijkheid overeenkomende karakter ervan. ü Sleepvraag (D+D) Dit vraagtype heeft mijn voorkeur omdat het principe ervan ook zo goed past in de geneeskundige diagnostiek: studenten moeten immers afwijkingen op bijv X-foto’s of afwijkingen in PA-coupes kunnen aanwijzen. Verder is het voor begrip in de pathofysiologie belangrijk dat studenten weten/begrijpen waar in cellen ion-kanalen, pompen en organellen zetelen. Tenslotte is veel begrip op redenaties gebaseerd, die er goed mee te toetsen zijn. Verder is de gokkans zeer klein of zelfs verwaarloosbaar. Het maken van de vragen is alleen mogelijk als men kan omgaan met een hoogwaardig, bij voorkeur “vector”, tekenprogramma. Ik werk al jaren met Canvas, waarmee ik alle figuren voor handleidingen en colleges maakte zodat ik een deel daarvan, eventueel na aanpassing, ook voor de vragen kon gebruiken. Het Canvas-formaat moet in JPEG of GIF worden omgezet om het in QMP te kunnen invoeren. Het maken van de vragen is zeer tijdrovend mede door het voorbereidende werk. Als bijvoorbeeld X-foto’s worden gebruikt valt dat grotendeels weg. ü Combineer (match) vragen Omdat de vragen vrij snel gemaakt zijn, gebruik ik match-vragen veel, maar ik betrap mij er vaak op dat de combinaties te gezocht zijn en daarom mogelijk onvoldoende betekenis hebben. Bij deze vragen worden ook afleiders gebruikt: de rechter kolom bevat meer (dus een aantal onjuiste begrippen: het vinden van “logische” afleiders is moeilijk) dan de linker. Wat vinden studenten van beeldschermtoetsen en alternatieve vragen? Hoewel wij nooit statistisch verantwoorde enquêtes gehouden hebben bij de herkansende studenten, vroeg ik de meesten van hen na afloop naar hun mening. Zij gaven aan: ü het principe van één vraag per scherm op prijs te stellen. ü computertentamens te prefereren boven papieren meerkeuze tentamens. ü langer en meer te moeten nadenken om alternatieve vragen te beantwoorden. ü meer dan bij meerkeuze tentamens op inzicht te worden getoetst. Naast een aantal irrelevante bezwaren wordt genoemd de onmogelijkheid om per vraag aantekeningen in het tentamen te kunnen maken. Nogal wat studenten hebben bij papieren tentamens de gewoonte om de vragen eerst door te nemen, er opmerkingen bij te zetten en daarna pas over te gaan tot beantwoording. Deze werkwijze is begrijpelijk en goed; dit punt verdient daarom aandacht.
6
Conclusies. 1. Mijn ervaringen zouden mede aanleiding kunnen zijn om QMP te gaan gebruiken voor reguliere tentamens. De studenten zullen zich er zeer waarschijnlijk niet tegen verzetten. 2. Voordat QMP-gebruik op grote schaal mogelijk is , zal het probleem van de tentamen- en vraaganalyse opgelost moeten zijn door verbetering in de software. Bovendien moet de faculteit dan kunnen beschikken over deskundige begeleiding op teken- en op QMPgebied, met voldoende tijd. 3. Wat de alternatieve vragen betreft, heb ik geen idee wat deze vragen meten. Dat geldt overigens ook voor veel van de klassieke vragen, behalve als het gaat om feitjes waarvan iedereen vindt dat de student die moet weten (daarom ben ik ook weinig gelukkig met tentamenbeoordelingscommissies, die behalve uit een enkele actieve docent, bestaan uit niet inhoudsdeskundigen; ook die ene docent begrijpt vaak onvoldoende waar de vragen buiten zijn vakgebied echt over gaan). Uit onderzoek dat wij deden (met Silvester Draaijer van het OC-VU) blijkt dat de alternatieve vragen in ieder geval niet slechter zijn of slechter beantwoord worden dan de klassieke vragen (ter beoordeling Tijdschrift voor Medisch Onderwijs, zie bijlage). Aanvankelijk hoopte en dacht ik dat de alternatieve vragen vooral inzicht zouden meten. Nu heb ik daar twijfels over. Studenten zeggen bijvoorbeeld dat zij sinds het gebruik van sleepvragen beter naar plaatjes in de stof kijken, wat zou kunnen betekenen dat zij, “plaatjes in de stof uit het hoofd gaan leren”. De literatuur biedt weinig aanknopingspunten, enerzijds omdat er betrekkelijk weinig ervaring met alternatieve vragen is, anderzijds omdat er weinig onderzoek naar wordt gedaan. Onderwijskundigen gaan alternatieve vragen het liefst uit de weg, omdat hun door de jaren ontwikkelde, analyse technieken er niet op toepasbaar zijn. Wij (S Draaijer en ik) hebben wel ideeën voor experimenten die mogelijk enig inzicht kunnen geven over de denkwijzen van studenten bij het werken met alternatieve vragen. 4. Mij is meer dan ooit te voren gaan bezighouden wat een vraag en een vraagtype nu eigenlijk meten. Voor vele meerkeuze vragen weet ik dat niet, en voor de alternatieve vragen weet ik dat, zoals gezegd, helemaal niet.
7
Bijlage 1. TABEL 1.
HERKANSINGEN IN QMP IN DE PERIODE VAN 01-01-07 TOT 01-08-08
Tentamen
HB1
NMI1
Bior1
HB2
NMI2
Bior2
Spijs1
NMI3
HB3
Spijs2
Studenten Cesuur
41 70%
55 70%
55 65%
18 65%
34 63%
16 64%
70 62%
10 63%
7 61%
20 60%
326 -
Cijfer min
5.0
4.8
3.5
4.0
4.0
5.0
4.0
4.5
4.0
3.0
-
Cijfer max
7.0
7.5
8.0
8.0
8.0
7.5
8.0
8.0
7.0
6.5
-
Geslaagd
78%
62%
86%
67%
82%
88%
70%
60%
71%
35%*
-
KR21**
-
-
0.87
0.83
0.97
-
-
-
-
-
-
# vragen
72
68
70
66
67
59
78
54
53
65
652
Max score
225
217
217
182
290
219
153
187
184
122
Juist/onjuist
31/62
26/52
20/40
-
-
11/22
-
-
-
-
77
Mult. Ch.
3/10
2/10
16/80
23/104
12/52
12/48
58/224
1/7
7/32
74/85
208
M.u.m.
9/39
8/44
15/70
18/87
24/126
15/83
6/38
26/138
17/93
1/5
139
Match.
15/74
14/88
10/62
15/65
15/88
14/85
7/46
15/85
19/99
9/41
133
Dr/dr.
10/31
16/47
6/17
10/27
16/52
7/19
7/27
12/46
10/39
8/38
102
Num.
1/4
-
2/4
-
-
-
-
-
-
-
-
-
-
3/4 2/8 3/16 Rank. * score laag vanwege “studenten onvoldoende voorbereid”; veel Mult.Ch. vanwege experiment.
Totaal
** niet duidelijk hoe “betrouwbaarheid” moet worden opgegeven, bij kleine n onjuist; zo mogelijk aanvullen. *** voor de schuine streep aantal vragen, erna aantal alternatieven.
8
10 Bijlage 5
Codeboek QMP-vragenbank
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen!
21
Codeboek Topic-pad VUmc
VUmc-compas project QMP . subtopic VUmc_CAT
Metatags
VUmc_2V12 metatag VUmc_ANALYSE VUmc_sleutel_mc
VUmc_CAT
VUmc_CAT_eerste_gebruik
VUmc_CAT_tweede_gebruik
VUmc_CAT_derde_gebruik
VUmc_DOCENT VUmc_ROLLEN
sub-subtopic VUmc_CAT_B111 VUmc_CAT_B112 VUmc_CAT_B113 VUmc_2V12_B11 value/waarde vraag geschrapt sleutelverdubbeling A B C D O T H 2005 2006 2007 2008 2009 2006 2007 2008 2009 2007 2008 2009 pvjmhoogland rhjbeelen Medisch Expert Academicus Gezondheidsbevorderaar Communicator Samenwerker Organisator Reflector Beroepsbeoefenaar
10-10-2008 vraag VUmc_CAT_B111_0001
versie 04 resources VUmc_CAT_B111_0001_01.gif
VUmc_2V12_B11_0001
VUmc_2V12_B11_0001_01.gif