Lectorale Rede
Gerard J.J.M. Straetmans
BEKWAAM BEOORDELEN EN BESLISSEN beoordelen in competentiegerichte beroepsopleidingen
Postbus 70.000 7500 KB Enschede Internet www.saxion.nl E-mail
[email protected] 56
57
Lectorale Rede Gerard J.J.M. Straetmans BEKWAAM BEOORDELEN EN BESLISSEN beoordelen in competentiegerichte beroepsopleidingen
© G.J.J.M. Straetmans, 2006
2
3
Inhoud
INLEIDING
Inleiding
5
Beoordelen van competenties 1 Introductie
9 9
2 De kernbegrippen van het nieuwe beoordelen 2.1 Competentie 2.2 Assessment
10 10 17
3 3.1 3.2 3.3 3.4
Knelpunten bij het gebruik van performance assessments Hogere validiteit blijkt vaak schijn te zijn Het dilemma van de representativiteit Beoordelen is zelden objectief Kunnen is iets anders dan doen
21 21 22 24 26
4 4.1 4.2 4.3 4.4 4.5 4.6 4.7
Systematisch ontwerpen van een procedure voor het beoordelen van competenties Wat moet er beoordeeld worden? Waarop moet gelet worden bij de beoordeling? Wie kan er beoordelen? Wanneer is een prestatie voldoende? Hoeveel bewijs is er nodig? Welke assessmentvorm? Hoe krijg je te zien wat je wil zien?
29 30 31 35 36 38 41 43
5
Tot slot
44
De leeropdracht 1 Aanleiding 2 3
45 45
Blauwdruk van een nascholingscursus ‘Onderwijskundig meten’
46
De kenniskring
48
Dankwoord
51
Literatuur
53
4
De Europese Raad van Ministers heeft in 2000 te Lissabon de ambitie uitgesproken om van Europa de meest dynamische en competitieve regio van de wereld te maken. Sinds dat Lissabon-akkoord is er vooral veel gesproken over de kenniseconomie die Europa zou moeten worden. In de geest van Lissabon heeft de regering uitgesproken dat Nederland binnen de Europese kenniseconomie tot de top moet gaan behoren. Daarvoor heeft Nederland meer, hoger en anders opgeleide beroepsbeoefenaren nodig. Omdat nagenoeg alle deelnemers met een havo- of vwo-diploma al kiezen voor een vervolgopleiding, valt daar maar weinig winst te behalen met het oog op de doelstelling om meer hoger opgeleiden te krijgen. Kwalificatiewinst zal moeten komen uit een verbeterde doorstroming binnen de beroepsonderwijskolom. Dit vraagt om een betere motivatie van deelnemers en om een betere aansluiting van de programma’s onderling. Met de anders opgeleide beroepsbeoefenaar wordt op middelbaar niveau de ‘responsieve vakman’ bedoeld en op hoger niveau de ‘reflective practitioner’. De responsieve vakman is een beroepsbeoefenaar die kritisch is op zijn eigen werk, die creatief oplossingen kan bedenken voor onverwachte problemen, die weet wat er op zijn vakgebied speelt en een actieve, zelfverantwoordelijke houding heeft ten aanzien van zijn loopbaan (Colo, 2002). Met reflective practitioner heeft men een professional voor ogen die meer doet dan het slaafs navolgen van theoretische modellen of ingeoefende procedures; iemand die in staat en bereid is de dialoog met specifieke probleemsituaties aan te gaan en door creatief om te gaan met zijn intellectuele gereedschapskist tot bruikbare oplossingen komt (Procee, 2001). Om meer hoger en anders opgeleide beroepsbeoefenaren te krijgen, heeft het ministerie van OCW de belangrijkste aanbeveling van de Doorstroomagenda Beroepsonderwijs (Ministerie van Onderwijs Cultuur en Wetenschappen, 2002) overgenomen, te weten dat de deelnemer en zijn ambitie centraal moeten staan. Het onderwijs moet zich aanpassen aan de deelnemer in plaats van andersom. Dat vraagt om geïndividualiseerde leerwegen, om verregaande integratie van theorie en praktijk, om een andere, minder voorschrijvende didactische benadering en een andere pedagogische sfeer waarin de deelnemer wordt beschouwd als een beginnend beroepsbeoefenaar in plaats van als een naïeve leerling.
5
Een centrale rol in deze plannen is weggelegd voor het competentie-denken. Een belangrijke reden daarvoor is dat men verwacht dat de afstemming van programma’s tussen VMBO-MBO en MBO-HBO eenvoudiger zal zijn als de curricula gebaseerd zijn op competenties in plaats van op, grotendeels door traditionele overwegingen ingegeven, vakgebieden. De onderlinge afstemming van de opleidingsprogramma’s is niet de enige reden voor de invoering van competentiegericht onderwijs. Andere argumenten die regelmatig gehoord worden in kringen van beroepsopleiders zijn: • Verbeterde aansluiting op de arbeidsmarkt; • Geringere gevoeligheid voor veroudering van de onderwijsprogramma’s; • Verbeterde motivatie van deelnemers; • Voorkomen van overbodige scholing.
steuning veranderd worden. De omvang van de operatie en de veelal gevolgde top-down benadering waarbij de docenten steevast de lastigste rol moeten spelen, maakt dat laatstgenoemden niet altijd het gevoel hebben dat het ook hun onderwijsinnovatie is. Welke uitwerking dat heeft op het vernieuwingsproces laat zich raden. • In de laatste maar zeker niet de minste plaats omdat de vernieuwing van de beoordelingspraktijk geen gelijke tred lijkt te houden met de vernieuwingen op het gebied van leren en onderwijzen. Zo signaleert Korthagen (2004) bijvoorbeeld dat studenten van de lerarenopleiding hun competenties kunnen aantonen door in één taaksituatie bepaald gedrag te vertonen. Terecht merkt hij op dat hiermee voorbij wordt gegaan aan dé reden om competenties in te voeren in de lerarenopleiding, namelijk ‘...om vermogens te laten verwerven die een specifieke praktijksituatie overstijgen en die breed inzetbaar zijn’.
De argumenten zijn overtuigend en de verwachtingen over de opbrengsten van de onderwijsvernieuwing hooggespannen. Echter, enige zorg ten aanzien van de effectiviteit van competentiegericht opleiden is wel op zijn plaats. • Ten eerste omdat competentie zo’n onduidelijk begrip is, zoals nog zal blijken uit het volgende hoofdstuk. Zo hebben niet alle onderwijsinstellingen dezelfde opvattingen over wat competenties zijn. Dat is op zijn minst voor één van de beoogde doelen nadelig, namelijk de bevordering van de doorstroming in de beroepsonderwijskolom. • In de tweede plaats omdat het op dit moment nog niet duidelijk is wat de beste manier is om deelnemers competenties te laten verwerven. Competentiegericht opleiden wordt vaak in één adem genoemd met didactische opvattingen die ontleend zijn aan de constructivistische leertheorie. De belangrijkste kenmerken van onderwijs waarin het competentie-denken gecombineerd wordt met de constructivistische leertheorie zijn: de praktijk staat centraal; leertaken in plaats van studievakken; leren op je eigen wijze maar tegelijk ook veel samenwerken en een docent die coacht in plaats van zegt wat je moet doen. (Dochy, 2004; Ritzen & Kösters, 2002; Lowyck, 2005). Het ontwerpen en (vooral) organiseren van onderwijs waarin met al deze aspecten wordt rekening gehouden, is verre van eenvoudig. Er zijn wel enkele instructie-ontwerpmodellen of beschrijvingen van ‘good-practice’ voorhanden maar de ondersteuning die dergelijke modellen of voorbeeldbeschrijvingen kunnen bieden is tamelijk beperkt; de concrete opleidingssituatie blijkt vaak gecompliceerder dan die welke in de voorbeelden beschreven is. • Een derde probleem dat speelt, heeft te maken met de grootschaligheid van de vernieuwing. Er moet teveel tegelijk en met te weinig professionele onder-
Met dit laatste punt van zorg zijn we aangekomen bij het centrale onderwerp van deze lectorale rede, namelijk het beoordelen van competenties. Traditioneel vormen beoordelingsvraagstukken het sluitstuk van onderwijsvernieuwingen. Een riskante zaak aangezien tijd, geld en menselijk uithoudingsvermogen vaak zijn uitgeput bij het naderen van de deadlines, wat de kwaliteit van het beoordelingsinstrumentarium niet ten goede komt. Een merkwaardige zaak ook omdat het zo langzamerhand toch algemeen bekend zou moeten zijn dat toetsen en examens ‘sturend’ zijn voor het studeergedrag van de studenten en het onderwijsgedrag van de docenten en daarmee dus in hoge mate het succes van een onderwijsvernieuwing bepalen (o.a. Birenbaum & Dochy, 1996). Waar dit zogeheten sturende karakter vroeger aanleiding was om de betreffende toetsen met argwaan te bekijken, wordt het nu als een gewenste eigenschap beschouwd. Cras (1992) merkte daarover bijvoorbeeld op dat toetsen moeten sturen omdat ze anders niet deugen. Messick (1994) was de eerste om deze eigenschap formeel als een indicator te beschouwen voor zijn nieuwe benadering van het begrip validiteit. Hij verwees ernaar met de term ‘consequential aspect’. Dit validiteitsaspect evalueert de gevolgen van de toets of het assessment voor het leren van de studenten en het onderwijzen van de docenten. Anders gezegd, of de toets of het assessment kan bewerkstelligen dat docenten de juiste zaken aan de orde stellen, studenten de juiste dingen leren en het geleerde ook werkelijk kunnen toepassen in authentieke taaksituaties. Dat vraagt niet alleen om andere toetsopdrachten maar ook om andere toetsprocedures. En ook om een andere prioriteitstelling bij het ontwikkelen van nieuw onderwijs: dat moet volgens een gezaghebbende assessmentspecialist als Popham (1998, p.245) niet eindigen met de ontwikkeling van toetsen en assessments maar ermee beginnen.
6
7
BEOORDELEN VAN COMPETENTIES 1 Introductie ‘Nederland is onderweg naar morgen en wil binnen tien jaar tot de kenniseconomische kopgroep van Europa behoren. Om dat voor elkaar te krijgen zet de overheid zwaar in op de versterking van het beroepsonderwijs.’ Zo opent de Onderwijsraad (2003) haar advies aan de Minister over de vernieuwing van het onderwijs in de beroepsonderwijskolom. Samengevat komt het advies erop neer, dat het voor de kenniseconomie die Nederland wil zijn onontbeerlijk is dat er meer en beter opgeleide beroepsbeoefenaren komen. Deze kwalificatiewinst acht men vooral haalbaar als het beroepsonderwijs beter wordt afgestemd op de mogelijkheden en voorkeuren van de deelnemers. De vormgeving van het onderwijs zou moeten verschuiven van gestandaardiseerd en aanbodgericht naar persoonlijk en vraaggericht. Het centraal stellen van de leerloopbaan van de deelnemers alsmede een betere samenwerking tussen de sectoren in de beroepskolom en tussen onderwijsinstellingen en het bedrijfsleven zouden moeten leiden tot minder uitval, meer hoger opgeleiden en beter op de dynamiek van de kenniseconomie voorbereide beroepsbeoefenaren. Modern beroepsonderwijs vraagt om meer integratie van theorie en praktijk en om een curriculumplanning die uitgaat van competenties in plaats van afzonderlijke studievakken. Op zijn beurt vraag dit om toetsen waarmee beoordeeld kan worden in hoeverre deelnemers geleerde kennis en vaardigheden kunnen toepassen in een realistische context. In dat verband hoort men steeds vaker praten over assessment van competenties. De tweede paragraaf van dit hoofdstuk zullen we gebruiken om beide, nogal vage begrippen te verhelderen. In de daarop volgende paragraaf komen knelpunten rondom het gebruik van assessments aan de orde. De vierde paragraaf bespreekt de belangrijkste stappen bij het ontwerpen van een beoordelingsprocedure voor competenties.
8
9
2 De kernbegrippen van het nieuwe beoordelen Een toets heet tegenwoordig een assessment en competenties zijn in de plaats gekomen van kennis en vaardigheden. Deze modieuze termen klinken heel vertrouwd omdat ze inmiddels tot het dagelijks taalgebruik van onderwijsmensen behoren. Toch betekent dit niet dat iedereen er dezelfde beelden bij heeft; het omgekeerde is eerder waar. Om mijn visie op het beoordelen van competenties op waarde te kunnen schatten, is het echter nodig kennis te nemen van de interpretatie die ik geef aan beide ‘fuzzy concepts’.
2.1 Competentie Na jarenlange discussies over de beste definitie voor het begrip competentie bracht de Onderwijsraad in 2002 een publicatie uit waarvan de boodschap luidde dat het ongewenst was om één generieke definitie van het begrip competentie te geven (Onderwijsraad, 2002). Volgens de auteurs van deze publicatie zou de ware definitie namelijk niet bestaan; elke situatie kan in principe vragen om een andere interpretatie van het begrip. De vraag wat competentie is, kan daarom beter vervangen worden door de vraag: ‘Welke definitie van competentie voldoet in onze situatie het best?’. Onlangs beschreef Stoof (2005) vijf dimensies waarlangs een definitie voor eigen gebruik kan worden aangepast. We lopen ze langs en geven heel beknopt aan waarover het gaat. • Persoons- of taakkenmerken. Definities die de persoonskenmerken benadrukken, zijn gericht op onderliggende gedragsdimensies die uitmonden in goede prestaties. Waar taakkenmerken benadrukt worden, gaat het om de essentiële kwaliteitsaspecten van de taakuitvoering. • Eigenschap van een persoon of van een organisatie. Is de competentie een eigenschap van een individu of van een team? In een kenniseconomie werken mensen steeds vaker samen in teams. Daar waar nodig moeten hun competenties dan ook in samenhang met elkaar bezien worden. • Specifieke of generieke bekwaamheid. Wat is de reikwijdte van de competentie? Blijft die beperkt tot taaksituaties die naar vorm en inhoud sterk lijken op elkaar of gaat het om bekwaamheden die zo universeel zijn dat ze zelfs over beroepen heen het functioneren beïnvloeden? • Meervoudige of enkelvoudige standaard. Meervoudige standaard verwijst naar een opvatting waarin competentie een aanduiding is van een zekere bekwaamheid op een bepaald gebied. Die kan variëren van de minimale
10
bekwaamheid die volgens vakinhoudelijk deskundigen nodig is tot de bekwaamheid van een ‘oude rot in het vak’. Je kunt met andere woorden meer of minder competent zijn. In de tweede opvatting is competentie een bepaald punt op een of andere schaal voor bekwaamheid. Wie op of voorbij dat punt scoort wordt geacht de relevante taaksituaties adequaat en met goed gevolg uit te kunnen voeren. Die personen zijn (op dat specifieke domein) competent. In deze opvatting kun je niet meer of minder competent zijn; je bent competent of je bent het niet. • Ontwikkelbare vaardigheden of stabiele eigenschappen. Voor onderwijsdoeleinden zijn ontwikkelbare vaardigheden natuurlijk interessanter dan de meer stabiele eigenschappen maar dat wil nog niet zeggen dat laatstgenoemde geen rol van betekenis spelen in een opleidingscontext. Met name bij ‘intake beslissingen’ komen dergelijke invullingen van het competentiebegrip nadrukkelijker op de voorgrond. Figuur 1 geeft schematisch weer dat competentie een begrip is met dynamische grenzen. De reikwijdte van het begrip is afhankelijk van de invulling die je geeft aan de vijf genoemde dimensies. Sommige keuzes laten het begrip uitdijen, andere beperken juist de omvang van het begrip.
persoon versus taak kenmerken
ontwikkelbaar versus stabiel
eigenschap van persoon of van organisatie
COMPETENTIE
Specifieke versus generieke bekwaamheid
Meervoudig of enkelvoudig standaard Figuur 1: Het rekkelijke begrip competentie.
11
Hoe kijk ík tegen competenties aan? Competentie heeft in de eerste plaats te maken met wat iemand doet, niet met wat iemand is (eigenschap). Belangrijk is verder dat het niet gaat om wat iemand doet in één enkele taaksituatie maar juist om het vermogen of de bekwaamheid van een persoon om in een groot aantal verschillende maar gerelateerde taaksituaties dingen te doen. Zo heeft de conducteur op de trein onder andere als taak om deze op tijd te laten vertrekken (een van de kerntaken van een conducteur). Dat betekent in ieder geval dat hij de procedure voor het laten vertrekken van een trein kan uitvoeren. Die procedure varieert echter met de veranderende omstandigheden. Bijvoorbeeld als er voetbalsupporters aan boord zijn, als er invalide mensen mee moeten, als het slecht weer is of als er technische problemen zijn met de trein. Competentie is dus iets anders dan het klakkeloos uitvoeren van een geleerde vaardigheid. Je zou kunnen zeggen dat een competentie een meer algemene bekwaamheid is dan een vaardigheid. Hoe verhoudt het zich bijvoorbeeld tot dat andere begrip dat in het onderwijs veel gebruikt wordt als het om algemene bekwaamheid gaat: de intelligentie? Wellicht dat het helpt om de genoemde begrippen een plekje te geven op een continuüm (zie figuur 2) waarop bekwaamheid overgaat van heel generiek naar heel specifiek, of in de terminologie van intelligentie-onderzoeker John Horn: van fluid naar crystallized abilities (Horn, 1989).
--- --fluid abilities
Leerbaarheid i
++
c Transfer
++ crystallized abilities
v --- ---
i = intelligentie c = competentie v = vaardigheid
Figuur 2: Competenties tussen vloeibare en gekristalliseerde bekwaamheden (Straetmans, 2004)
12
Intelligentie: fluid ability Psychologen breken zich al jarenlang het hoofd over wat intelligentie precies is. Net als bij het begrip competentie zijn er veel verschillende lezingen maar de meeste deskundigen kunnen berusten in het instrumentalistische standpunt dat zegt dat ‘ ... intelligentie is wat deze test meet’. Met ‘deze test’ wordt dan verwezen naar (een afgeleide van) de oertest voor intelligentie die door de Franse arts Binet in het begin van de 20e eeuw werd ontwikkeld. Binet was er bij die ontwikkeling van uitgegaan dat intelligentie een betrekkelijk algemene eigenschap is, die tot uiting komt in allerlei verschillende domeinen van cognitief functioneren. Intelligentie dus als de bekwaamheid om je in allerlei situaties te kunnen redden. Met het op grote schaal toepassen van gestandaardiseerde intelligentietests en de daarmee beschikbaar gekomen normen, werd intelligentie steeds meer gezien als een capaciteit; een plafond voor het (cognitief) functioneren van een persoon. Intelligentie is in die opvatting een gegeven, dat niet of nauwelijks te beïnvloeden valt. Vandaar de zeer beperkte leerbaarheid in figuur 2 tegenover de ruime transfer naar nieuwe situaties. De bekwaamheden aan deze kant van het continuüm zijn heel flexibel, fluid, zou Horn zeggen. Vaardigheid: crystallized ability Aan de andere kant van het bekwaamheidscontinuüm liggen de vaardigheden. Vaardigheid wordt hier opgevat als een proces dat zich volledig automatisch voltrekt zodra de uitvoerig ervan eenmaal is uitgelokt door een prikkel van buiten. Het geven van een injectie, bijvoorbeeld, is een vaardigheid die in het gezondheidszorgonderwijs net zo lang wordt geoefend totdat de uitvoering automatisch en foutloos verloopt. Vaardigheden kunnen heel goed aangeleerd worden maar hebben een beperkte toepasbaarheid. De bekwaamheden aan deze kant van het continuüm zijn weinig flexibel, crystallized in de terminologie van Horn. Geautomatiseerde vaardigheden zijn een noodzakelijke maar onvoldoende basis voor het uitvoeren van taken in een realistische werksituatie. Werkprocessen zouden veel minder efficiënt zijn als een groot deel van de vaardigheden niet automatisch zou verlopen. Maar er is eigenlijk niet één functie waarbij het werk volledig op de ‘automatische piloot’ gedaan kan worden. In elke functie komt de beroepsbeoefenaar voor situaties te staan waarin geautomatiseerde procedures niet toegepast kunnen worden. Het herkennen van dergelijke situaties en een passende oplossing bedenken die ertoe leidt dat zo snel mogelijk kan worden teruggekeerd naar de geauto-
13
matiseerde procedure, is de bekwaamheid die we op het oog hebben als we praten over competentie. Anders dan intelligentie en vaardigheden hebben competenties iets van beide in figuur 2 afgebeelde kwaliteiten: ze zijn zowel leerbaar als transfereerbaar. Competentie: problem-solving ability In bovenstaand verhaal zijn de kenmerken te herkennen van wat in de leerpsychologie wordt aangeduid als probleemoplosvaardigheid. Een begrip dat een jaar of vijftien geleden erg populair was in kringen van opleiders maar dat we inmiddels al weer bijna vergeten zijn. In feite is dit het waar het bij competenties om gaat. In de jaren dat probleemoplosvaardigheid in onderwijscontexten veel aandacht kreeg, is het vooral op een schoolse manier ingevuld. Deelnemers kregen daarbij zogeheten ‘papieren’ problemen voorgelegd om te zien of ze in staat waren de nieuw verworven kennis toe te passen op vraagstukken die niet eerder in het voorafgaande onderwijs aan de orde waren gesteld. Jonassen (2000) noemde dit goedgestructureerde problemen: de uitgangs- en doelsituatie zijn helder en volledig beschreven en de wegen waarlangs de doelsituatie bereikt moet worden, zijn beperkt in aantal. Maar in het leven van alledag en in de meeste beroepen krijgen mensen te maken met taken die vooral te typeren zijn als slechtgestructureerde problemen. De oplossing van dergelijke problemen valt of staat met het herkennen van de verschillende probleemtoestanden. Als het type probleem eenmaal herkend is, dan is daarmee vaak ook de weg naar de oplossing gevonden. Doordat beginners nog maar weinig verschillende problemen gezien hebben, beschikken ze over weinig aanknopingspunten om tot de juiste oplossing te komen. De enige manier om voldoende vaardigheid te krijgen in het oplossen van slechtgestructureerde problemen is door veel te oefenen met zeer uiteenlopende problemen in zeer uiteenlopende situaties. Zo wint, bijvoorbeeld, de ervaren schaker zijn partijen niet omdat hij zoveel verder vooruit denkt dan de beginner. Was dat het geval dan had de computer al veel eerder korte metten gemaakt met de wereldkampioen, aangezien de brute rekenkracht de computer in staat stelt veel meer posities door te rekenen dan de menselijke schaker. Nee, de ervaren schaker is, beter dan zijn minder ervaren collega, in staat om selectief te zoeken tussen mogelijke posities en deze te evalueren. Hij kan dit op grond van zijn grote ervaring; hij heeft gewoon heel veel verschillende schaakposities en hun uitwerking op het spelverloop gezien.
14
Volgens een stroming binnen de cognitieve psychologie, die bekend staat onder de naam schematheorie, bestaat er geen generieke probleemoplosvaardigheid. Of iemand probleemoplosvaardig is, is in hoge mate afhankelijk van de vraag of die persoon een schema verworven heeft voor het type probleem dat aan de orde is. Een schema is een stimulus-reponse keten ofwel een programma om een (deel van een) taak uit te voeren. Wanneer die programmaatjes volledig automatisch verlopen, wordt van scripts gesproken. In overeenstemming met dit gedachtegoed beschreven Van der Maesen de Sombreff en Schakel (1999) een competentie als de bekwaamheid om schema’s of scripts zodanig te schakelen dat een bepaalde taak effectief en efficiënt ter hand wordt genomen. Door veel te oefenen en feedback te krijgen over de resultaten komen de competenties tot ontwikkeling. Als het doel van competentiegericht onderwijs is om mensen op te leiden die vaardig zijn in het aanpakken van slechtgestructureerdetaken, dan moeten we ervoor zorgen dat ze de beschikking krijgen over grote aantallen schema’s en scripts voor de taken waarmee ze naar alle waarschijnlijkheid geconfronteerd zullen worden. Die verwerf je niet door kennis te stapelen en geïsoleerde vaardigheden te trainen maar door heel veel te oefenen met het uitvoeren van slechtgestructureerde taken in zo realistisch mogelijke contexten. Mijn interpretatie van het begrip competentie Vanuit de probleemoplosvaardigheids-interpretatie kom ik dan tot de volgende omschrijving: Competentie behelst de bekwaamheid om op creatieve, bewuste en verantwoorde wijze geleerde kennis en vaardigheden in te zetten in slechtgestructureerde taaksituaties uit een bepaald domein, leidend tot een resultaat (proces en product) dat voldoet aan de geldende kwaliteitsnormen gelet op de te vervullen functie of rol van de beginnend beroepsbeoefenaar. Uit deze omschrijving blijkt in ieder geval dat competentie geen generieke bekwaamheid is; de geldigheid beperkt zich tot een bepaalde klasse (groep) van taken. Uit de woorden ‘creatief’ en ‘bewust’ kan worden opgemaakt dat het niet gaat om rechttoe-rechtaan taken die ‘op de automatische piloot’ uitvoerbaar zijn. Er is vaak geen pasklare oplossing voorhanden en er zijn meerdere manieren waarop de taak kan worden uitgevoerd. Allereerst moet de beroepsbeoefenaar de taaksituatie taxeren. Daarbij weegt hij een aantal alternatieve handelwijzen of oplossingen tegen elkaar af, waarbij ook
15
wordt bekeken wat de mogelijke resultaten van de oplossing zijn. Als de taaksituatie herkend wordt als een die op een standaardmanier kan worden aangepakt met één of meer van de in het geheugen opgeslagen scripts, dan zal het proces van afwegen en handelen razendsnel verlopen. Een ervaren beroepschauffeur zal snel een alternatieve route kunnen kiezen als de verkeerssituatie daarom vraagt. Is een taaksituatie tamelijk nieuw, dan moet de beroepsbeoefenaar ter plekke een aanpak bedenken, waarvan het resultaat in de situatie zal moeten blijken. Hoeveel handelingsalternatieven voorhanden zijn, is vooral een kwestie van de ervaring (in termen van schema’s en scripts) die iemand al heeft en van de creativiteit en kennis van de betreffende persoon om zo nodig wijzigingen in die schema’s en scripts aan te brengen. De taakuitvoerder moet te allen tijde zijn keuze kunnen verantwoorden. Niet alleen omdat hij zijn gedrag naar anderen toe moet kunnen verklaren maar ook omdat de daarvoor benodigde reflectie een kenmerk is van de professional of de zogeheten responsieve vakman. Het maakt met andere woorden deel uit van zijn beroepshouding. Eveneens belangrijk om op te merken is dat in de definitie wordt aangegeven dat het gaat om de bekwaamheid van de beginnende beroepsbeoefenaar. Dit betekent dat competentie, zoals hier gedefinieerd, niet kan worden opgevat als een synoniem voor bekwaamheid op het niveau van een ervaren professional of zelfs expert. In de Angelsaksische, medische literatuur worden ‘competence’ en ‘judgement’ gebruikt om te verwijzen naar de bekwaamheden waarover beginnend respectievelijk ervaren artsen moeten beschikken (Eraut & du Boulay, 2000). Met ‘judgement’ wordt het hoogste bekwaamheidsniveau bedoeld, kenmerkend voor experts die op holistische wijze beslissingen nemen in onzekere en gecompliceerde taaksituaties. In ons taalgebied wordt wel van de ‘klinische blik’ gesproken: de arts die op onnavolgbare wijze de juiste diagnose weet te stellen. Een dergelijk bekwaamheidsniveau is het ultieme doel waarnaar elke vakman en professional zou moeten streven tijdens de loopbaan, maar kan uiteraard nooit het doel zijn van beroepsopleidingen.
16
2.2 Assessment In de introductie is geconstateerd dat anders opleiden vraagt om anders toetsen. Daarmee bedoelen we dat de aandacht bij het beoordelen in de eerste plaats dient uit te gaan naar de prestaties op taken of opdrachten waarmee de kandidaat in de vervolgsituatie ook geconfronteerd zou kunnen worden. Terwijl prestatiebeoordeling een prima Nederlands woord is en volgens mij ook goed weergeeft waar het om gaat, wordt in de praktijk veel vaker gesproken en geschreven over ‘assessment’. Wie te rade gaat in een woordenboek Engels-Nederlands treft in de eerste plaats vertalingen aan in de financiële sfeer en pas in de laatste plaats een vertaling als ‘beoordeling’. Het stamt oorspronkelijk af van de Latijnse woorden ‘assessare’ en ‘assidere’. ‘Assessare’ betekent zoveel als het opleggen van een belasting of het vaststellen van een tarief. ‘Assidere’ betekent ‘naast iemand zitten’. Via de selectiepsychologie, waar assessment en assessment center kernbegrippen zijn, is het woord doorgedrongen in het onderwijs. Daar verstaat men er het proces onder van het doelbewust verzamelen en bewerken van informatie over de prestaties van personen in een bepaald domein, met het oog op het nemen van beslissingen over die personen (Athanasou, 1997, p.22). In Angelsaksische boeken en tijdschriften wordt de term assessment vaak voorafgegaan door een bijvoeglijk naamwoord. De volgende ‘verbindingen’ worden regelmatig gebruikt: alternative assessment, authentic assessment en performance assessment. Alternative assessment Alternative assessment is een term die wil aangeven dat het gaat om een reactie op een heersende praktijk inzake het beoordelen van leerlingprestaties. Het is een term die vooral in de Verenigde Staten gemeengoed is en begrijpelijk wordt als men beseft hoezeer het Amerikaanse onderwijs in de tweede helft van de vorige eeuw in de greep was van de gestandaardiseerde meerkeuzetoetsen. Deze toetspraktijk paste uitstekend bij de (behaviouristische) opvatting die leerlingen beschouwde als passieve subjecten wier voornaamste taak het is om de inhouden die de leerkracht aanreikt, te verwerven. Omdat het onderwijsleerproces voor elke leerling op ongeveer dezelfde wijze verliep, konden de resultaten daarvan met gestandaardiseerde toetsen worden gemeten. Echter, belangrijke onderwijsdoelstellingen, met name die welke van leerlingen verlangden dat ze geleerde kennis en vaardigheden konden toepassen in andere contexten, konden met dergelijke toetsen niet
17
geëvalueerd worden. Op het moment dat vermoed werd dat het massale gebruik van deze toetsen leidde tot een daling van het onderwijsniveau, als gevolg van een verschijnsel aangeduid als ‘teaching-to-the test’, werd naarstig omgezien naar alternatieve vormen van assessment. En daaronder verstond men alle beoordelingsmethoden die verschillen van de conventionele pen-en-papier toets, met name van de toetsen met gesloten vragen (McMillan, 2001, p.196). Authentic assessment Hieronder worden vaak heel verschillende dingen begrepen. Dat wordt mede veroorzaakt door de verschillen in onderwijscultuur. In de Verenigde Staten werd de term aanvankelijk gebruikt om te verwijzen naar assessments waarbij taken werden uitgevoerd als normaal onderdeel van het werk in de klas (Gipps, 1994). Die praktijk paste goed bij het streven om de strikte grenzen tussen instructie en assessment op te heffen (curriculum-embedded assessment). In Nederland, waar nooit een echte testindustrie van de grond is gekomen, wordt die strikte scheiding niet gemaakt. Op het eindexamen na worden bijna alle belangrijke beslissingen over leerlingen in het voortgezet onderwijs genomen op grond van toetsen die door leerkrachten worden gemaakt en mede daardoor goed (kunnen) zijn afgestemd op de doelstellingen van het onderwijs. Een andere, wijder verbreide interpretatie is die van de ‘true test’; een term die bedacht is door Grant Wiggins, pleitbezorger voor een andere toetspraktijk in het Amerikaanse onderwijs. Onderstaande passage is letterlijk overgenomen uit een van zijn pleidooien: ‘...we have lost sight of the fact that a true test of intellectual ability requires the performance of exemplary tasks. First, authentic assessments replicate the challenges and standards of performance that typically face writers, business people, scientists, community leaders, designers or historians. These include writing essays and reports, conducting individual and group research, designing proposals and mock-ups, assembling portfolios, and so on. Second, legitimate assessments are responsive to individual students and to school contexts. Evaluation is most accurate and equitable when it entails human judgement and dialogue, so that the person tested can ask for clarification of questions and explain his or her answers. A genuine test of intellectual achievement doesn’t merely check ‘’standardized’’ work in a mechanical way. It reveals achievement on the essentials, even if they are not easily quantified’ (Wiggins, 1989, p.703).
Het is deze interpretatie die onderwijsvernieuwers in Nederland ook op het oog hebben als zij het hebben over ‘anders beoordelen’ en ‘nieuwe examenvormen’ (Onderwijsraad, 2002). Performance assessment Volgens McMillan (2001) zijn authentic assessments altijd ‘performancebased’. Hij wil daarmee aangeven dat de beoordeling zich niet alleen richt op het (al dan niet tastbare) product maar ook op de uitvoering van werkzaamheden die daartoe leiden. Omgekeerd geldt niet dat performance assessments altijd authentiek zijn, althans niet volledig authentiek. Zoals we straks nog zullen zien is de authenticiteit van een assessment altijd een kwestie van gradatie. Van een performance assessment is sprake als de kandidaat onder zo natuurgetrouw mogelijke omstandigheden een zo realistisch mogelijke opdracht (al dan niet expliciet verstrekt) uitvoert, waarbij hij/zij geobserveerd wordt door minimaal één assessor die de uitvoering en het resultaat daarvan beoordeelt met behulp van vooraf gespecificeerde kwaliteitscriteria. Beter dan bovenstaande definitie geeft tabel 1 weer wat performance assessment behelst, door de kenmerken ervan te vergelijken met die van een traditionele gestandaardiseerde toets. Tabel 1: Kenmerken van performance assessments en gestandaardiseerde toetsen vergeleken.
Gestandaardiseerde toets
Performance assessment
Exclusief gericht op product Geïsoleerde vaardigheden Reproductie van kennis Mentale taken Abstracte taken Veel korte opgaven per toets Eén correct antwoord per opgave Geheime opgaven Vindt plaats na afloop cursus Groepsafname Weinig en vertraagde feedback Machinale scoring (bij gesloten toets)
Gericht op product en proces Geïntegreerde vaardigheden Toepassen van kennis Handelingstaken Taken in context Eén of enkele taken Meerdere oplossingen mogelijk Taken zijn niet per se geheim Vindt plaats gedurende hele cursus Individuele afname Veel en onmiddellijke feedback Waardering van prestaties door assessor Weinig standaardisatie
Ver doorgevoerde standaardisatie
In gewijzigde vorm overgenomen uit McMillan (2001)
18
19
De vergelijking in tabel 1 is een zwart-wit schets; er zullen maar weinig beoordelingsinstrumenten te vinden zijn waarvan de eigenschappen precies overeenkomen met één van de twee hierboven genoemde representanten van de traditionele en alternatieve beoordelingsbeweging. Performance assessments zijn er in soorten en maten. Op grond van hun authenticiteit onderscheiden we de volgende categorieën: • Hands-on. Dit zijn assessmentvormen waarbij kandidaten in een (nagenoeg) reële werksituatie en met gebruik van echte apparatuur, gereedschappen of instrumenten taken uitvoeren die kenmerkend zijn voor de te beoordelen competentie. • Simulatie. Dit zijn assessmentvormen waarbij de kandidaat zijn bekwaamheid demonstreert onder nagebootste werkomstandigheden met gebruikmaking van al dan niet realistische apparatuur, gereedschappen of instrumenten. Rollenspel, gedragsproef (Schoonman, 2004) simulator, virtual reality zijn termen die in dit verband gehoord worden. • Hands-off. Hierbij worden taken voorgelegd waaruit moet blijken of de kandidaat de cognitieve component van een competentie beheerst. Dit kan op papier maar tegenwoordig wordt steeds vaker gebruik gemaakt van de mogelijkheden die ICT te bieden heeft. Dynamische (de probleemsituatie wijzigt zich als gevolg van de keuzes die de kandidaat maakt) of statische computersimulaties zijn in bepaalde opleidingen erg populair. Resumerend kunnen we het volgende overzicht schetsen van het brede gebied van het onderwijskundig meten (educational assessment):
Educational assessment Alternative assessment Toetsen met gesloten vragen
Performance assessment
Gedragsproef
Figuur 3: De positionering van toetsing en assessment binnen het domein van het onderwijskundig meten.
20
3 Knelpunten bij het gebruik van performance assessments In onderwijskringen valt een groeiende belangstelling te bespeuren voor het thema performance assessment. Voorstanders wijzen erop dat performance assessments op een meer directe en daardoor meer valide wijze kunnen meten of de onderwijsdoelen bereikt zijn, met name als die geformuleerd zijn in termen van competenties. Maar er zijn ook knelpunten verbonden aan het gebruik van performance assessments in het onderwijs. In de rest van deze paragraaf zullen we die kort aan de orde stellen.
3.1 Hogere validiteit blijkt vaak schijn te zijn Bij performance assessments wordt er vaak gedrag beoordeeld. De overeenkomst tussen wat beoordeeld wordt en dat waarover een uitspraak gedaan moet worden, is meestal groter dan bij traditionele tests of toetsen. Dit maakt dat mensen intuïtief meer vertrouwen hebben in performance assessments dan in traditionele tests of toetsen. ‘Gedrag voorspelt gedrag’ heet het in lekentaal. Een uitspraak die al jaren gebruikt wordt als verkoopargument van Assessment Centers in het bedrijfsleven. Het grotere vertrouwen in performance assessments is echter niet altijd terecht, zoals moge blijken uit het volgende. Data afkomstig van gedragsobservaties kunnen grofweg op twee manieren gebruikt worden (Suen, 1990): • In de eerste plaats kunnen ze gezien worden als een afspiegeling (‘sample’) van exact dát gedrag waarnaar de interesse uitgaat. In deze toepassing worden geen conclusies getrokken die verder reiken dan het vertoonde gedrag zelf. Het zal duidelijk zijn dat de bruikbaarheid van de gegenereerde scores dan gering is. Veel meer dan een uitspraak over het prestatieniveau behaald op een concrete taak is niet mogelijk. Toepassingen vinden we vooral bij sportwedstrijden en bij simpele (geautomatiseerde) vaardigheden. Bij deze toepassing hoeven we ons geen zorgen te maken over de validiteit van de scores; alleen de betrouwbaarheid moet onderzocht worden. • In het onderwijs reikt het doel van een beoordeling altijd verder dan de prestatie op de aangeboden taak. Op basis van het geobserveerde gedrag, uitgelokt door een performance assessment, wordt een conclusie getrokken over de verwachte prestatie in het criteriumdomein. Laatstgenoemde
21
term staat voor de verzameling taaksituaties waarin iemand adequaat moet kunnen functioneren als de betreffende competentie verworven is. Hier worden de gedragsobservaties gezien als een indicatie (‘sign’) voor een of ander niet waarneembaar construct. Het geobserveerde gedrag wordt opgevat als één van de vele mogelijke manifestaties van het construct. Naast de betrouwbaarheid van de scores moet daarom expliciet aandacht besteed worden aan de validiteit van de scores. Kortom, het validiteits-argument dat velen gebruiken om performance assessments te propageren, is zelf vaak niet valide. Het lijkt erop dat er veelal sprake is van face-validity; er wordt validiteit toegeschreven aan performance assessments omdat ze valide lijken.
3.2 Het dilemma van de representativiteit Representativiteit is volgens Fitzpatrick en Morrison (1971) het belangrijkste kwaliteitsaspect van een performance assessment. Aan dit kwaliteitsaspect kunnen twee dimensies onderscheiden worden: volledigheid (comprehensiveness) en natuurgetrouwheid (fidelity). Het volgende voorbeeld helpt om te begrijpen waarom beide kwaliteiten nodig zijn om valide uitspraken te doen over de bekwaamheden die in een performance assessment beoordeeld worden. Een van de belangrijkste competenties die studenten in de studie tandheelkunde moeten verwerven, is prepareren en restaureren van elementen. In lekentaal gaat het om het boren en vullen van tanden en kiezen. Studenten leren dat in de prekliniek door te oefenen met kunststof tanden en kiezen die in een kunststof kaak geplaatst zijn, welke op zijn beurt weer in een fantoomkop zit gemonteerd. Stel dat de competentie op het gebied van prepareren en restaureren zou worden beoordeeld aan de hand van één in de prekliniek vervaardigd werkstuk in een kunststof element. Daar zou men ernstige bedenkingen tegen kunnen hebben. In de eerste plaats omdat één werkstuk wel erg mager is. Niet alleen omdat je een keer pech of juist geluk kunt hebben maar vooral omdat één werkstuk een slechte afspiegeling is van het assessmentdomein. Met het assessmentdomein bedoelen we alle verschillende taken die in het assessment aangeboden hadden kunnen worden. Het maakt nogal wat uit of je een gat moet boren in een tand, kleine kies of grote kies. En ook of dat gat in het kauwvlak zit, tussen de tanden, aan
22
de tong- of aan de wangkant. Ten slotte is de positie in de kaak van invloed want als het element in de bovenkaak zit, moet er gewerkt worden vanuit de spiegel en dat is aanzienlijk moeilijker. Kortom, de assessmentprestatie op één werkstuk kan nooit representatief zijn voor de assessmentprestatie op alle werkstukken die in principe aangeboden hadden kunnen worden in een assessment. Dit betekent dat het prestatieniveau afhankelijk kan zijn van de taak of taken die de kandidaat in het assessment moet uitvoeren. Dit is geen exclusief probleem voor het tandheelkunde onderwijs. Uit de literatuur blijkt dat het probleem van de taakspecifieke prestaties in alle domeinen speelt (Linn & Burton, 1994). Taakspecifieke prestaties zijn een gevolg van het feit dat kennis en vaardigheden niet zonder meer overdraagbaar zijn van de ene toepassingscontext naar de andere. Eraut en du Boulay (2000) verwoordden dit zogeheten transferprobleem als volgt: ‘Knowledge is acquired in a particular context and remains situated in that context until it can be transformed and resituated in another context’ (p.43). Maar het is nog gecompliceerder want eigenlijk zijn we ook niet geïnteresseerd in de prestatie op het assessmentdomein. Wat we echt willen weten is hoe het zit met het prestatieniveau op het criteriumdomein: dat is in dit specifieke geval de verzameling van verschillende preparerende en restaurerende handelingen, uit te voeren bij echte patiënten, met elk hun eigen (on)hebbelijkheden, onder realistische omstandigheden. In dat licht bezien is het een ernstig manco van het hierboven besproken performance assessment dat de competentie beoordeeld wordt op basis van een taak die tamelijk ver af staat van de werkelijkheid. Een kleine kies of een grote kies van kunststof is altijd hetzelfde, maar de kleine kies bij patiënt A kan heel anders van vorm zijn dan bij patiënt B. Bovendien voelt boren in kunststof totaal anders aan dan boren in echt tandmateriaal. En ten slotte is het een wereld van verschil of je boort in een stuk plastic of in een echte tand in de mond van een patiënt van vlees en bloed, die niet voor zijn plezier in de stoel zit. Figuur 4 geeft het probleem van het trekken van conclusies over competentie op basis van assessmentprestaties schematisch weer. Te zien is dat de uitgevoerde assessment-taken hier geen goede afspiegeling zijn van het assessmentdomein (tekortschietende ‘comprehensiveness’). Bovendien blijken de taken in het assessmentdomein naar inhoud en context aanzienlijk te verschillen van de taken in het criteriumdomein (tekortschietende ‘fidelity’). Daarmee wordt het erg riskant om op grond van de resultaten op de specifieke assessment-taken een conclusie te trekken over de competentie ‘prepareren en restaureren van tanden en kiezen’.
23
performance assessment
assessmentdomein
generaliseren taak
criteriumdomein
extrapoleren
context
Figuur 4: Tekortschietende representativiteit van een perfomance assessment (Straetmans & Van Diggele, 2001).
‘Basically, you can’t win’ concludeerde Kane (1992) nadat hij geconstateerd had dat het, uitgaande van een beperkte hoeveelheid tijd en geld die aan een performance assessment besteed mag worden, doorgaans niet mogelijk is om zowel de omvattendheid als de natuurgetrouwheid van een performance assessment te bevorderen. Neem bijvoorbeeld het praktisch deel van het huidige rijexamen. De ontwerpers van dat examen hebben er destijds voor gekozen om de natuurgetrouwheid zo hoog mogelijk te doen zijn. Het gevolg van die keuze is dat daarmee de regie over het assessment grotendeels uit handen is gegeven en dat het van de toevallige omstandigheden afhangt hoeveel en welke taaksituaties aan bod kunnen komen. Men had ook een andere keuze kunnen maken. Bijvoorbeeld: examen doen op een speciaal ingericht en voor regulier verkeer afgesloten circuit, waar gedrag wordt uitgelokt door gecreëerde verkeerssituaties. Rijden op een speciaal circuit betekent echter een aantasting van de natuurgetrouwheid van het assessment. Denk niet te snel dat rijexamen doen op een circuit nooit een reële optie is. In Afghanistan, bijvoorbeeld, wordt het rijbewijs uitgereikt aan degene die een speciaal voor dat doel uitgezet traject vóór- en achteruitrijdend foutloos kan afleggen. Het hierboven genoemde probleem wordt in kringen van opleiders vaak niet onderkend. Illustratief daarvoor is de gretigheid waarmee in het (hoger)
24
beroepsonderwijs de proeve van bekwaamheid omarmd wordt als dé manier om competenties te beoordelen. Tot nu toe is gebleken dat het daarbij meestal gaat om een aan het eind van de opleiding of cursus georganiseerd performance assessment, waarin de deelnemer onder zo realistisch mogelijke werkomstandigheden enkele authentieke beroepstaken moet uitvoeren. De vraag is of de in de proeve van bekwaamheid uitgevoerde taken het assessmentdomein in voldoende mate kunnen dekken om accurate beslissingen te kunnen nemen over het al dan niet verworven zijn van de beoordeelde competentie.
3.3 Beoordelen is zelden objectief Het grote voordeel van een performance assessment is dat er vaak een duidelijke relatie is tussen de prestatie op de assessment-taak en het functioneren van de kandidaat in de realiteit, met name als de authenticiteit van de taak en de context hoog zijn. Het gedrag en het (tastbare) resultaat daarvan etaleren de mate van verwerving van de betreffende competentie. Dat mag zo zijn maar dat wil nog niet zeggen dat het beoordelen van de taakuitvoering en het daaruit voortvloeiende resultaat een gemakkelijke opgave is. De vele, verontwaardigde discussies over de uitslagen van het praktisch deel van het rijexamen spreken wat dat betreft boekdelen. Handboeken voor toetsconstructie hebben ons steeds voorgehouden dat de betrouwbaarheid van beoordelingen gebaat is bij beoordelingsvoorschriften die in detail voorschrijven wat er beoordeeld moet worden. In de praktijk betekent dit meestal dat complexe producten en processen ontleed worden in kleinere onderdelen of fasen waarvan de kwaliteit gemakkelijker objectief beschreven en vastgesteld kan worden. Regelmatig leidt dit tot problemen omdat kwaliteit geen eenvoudige optelling blijkt te zijn van objectieve meetresultaten. De vraag bijvoorbeeld of een tekening van een object een natuurgetrouwe weergave is van de werkelijkheid, laat zich lastig beantwoorden door een optelling van de scores op een aantal objectief vast te stellen eigenschappen die elk op zich een relatie met natuurgetrouwheid hebben, zoals: Is de tekening op schaal? Kloppen alle lijnen tot het verdwijnpunt? Kloppen de schaduwen? Klopt de kleur?. Zonder uitzondering is er een positief verband tussen elke eigenschap en de natuurgetrouwheid van een tekening, maar dat wil nog niet zeggen dat positieve resultaten op al deze eigenschappen
25
automatisch een natuurgetrouwe tekening opleveren. De onderlinge afstemming van deze eigenschappen is erg belangrijk en dat is iets wat niet door objectieve beoordelingen kan worden vastgesteld. Dat moet je ervaren via je zintuigen door de tekening op je in te laten werken. Het gaat te ver om hieruit te concluderen dat competentiebeoordeling een kwestie van zintuiglijke ervaring is waarvoor geen objectieve maatstaven zijn te geven. Objectiveren moet. Maar er moet voor gewaakt worden dat, omwille van de objectiviteit, de beoordeling zich toespitst op de gemakkelijk te objectiveren zaken die noch elk op zich noch gezamenlijk representatief zijn voor de betreffende competentie. De verschuiving van een analytische naar een meer holistische beoordeling betekent dat er meer ruimte komt voor de subjectieve interpretaties van assessoren. Belangrijk in dit verband is dat er speciale maatregelen worden genomen die ervoor kunnen zorgen dat de interpretaties van individuele assessoren zoveel mogelijk in dezelfde richting gaan.
3.4 Kunnen is iets anders dan doen Bij een performance assessment gaat het erom dat de te beoordelen persoon zijn kennis en vaardigheden inzet om een bepaalde prestatie te leveren. Regelmatig zal een assessmentprestatie uitmonden in een (tastbaar) product, maar er zijn meer resultaten denkbaar dan een concreet product. Zo zullen de meeste mensen het prettig vinden als de tandarts hun door cariës aangetaste kies netjes repareert maar prettiger nog als de daarvoor gekozen ingreep kortstondig en pijnloos is. Kortom, de kandidaat tandarts zal meerdere resultaten in ogenschouw moeten nemen bij het uitvoeren van een behandeling, wat de kern vormt van competent handelen. Niet louter de te leggen vulling maar ook het welbevinden van de patiënt maakt deel uit van de kwaliteits- of prestatiecriteria op grond waarvan beoordeeld wordt in hoeverre de competentie ‘restaureren’ verworven is. Dit vraagt om handelingen en maatregelen die tijdens het boren en vullen ertoe bijdragen dat pijn wordt voorkomen. Voor performance assessments houdt dit in dat naast het product ook de gevolgde handelwijze en het welbevinden van de patiënt beoordeeld moeten worden. In verreweg de meeste gevallen zal dit neerkomen op het waarnemen en beoordelen van het gedrag van de te beoordelen persoon.
26
Een gevoelig probleem daarbij is dat de aanwezigheid van een assessor het te beoordelen gedrag beïnvloedt. Het is in het voordeel van de beoordeelde persoon als die zijn gedrag probeert af te stemmen op wat de assessor graag wil zien. Maar daarmee wordt gedeeltelijk het zicht ontnomen op hoe de kandidaat zou handelen in een natuurlijke situatie, als er niemand op zijn vingers kijkt. De vraag is dan hoe serieus de kandidaat de aspecten van competent handelen neemt. Hoe bereid is hij alles wat in de assessmentsituatie wordt gevraagd ook in de dagelijkse praktijk toe te passen. Deze bereidheid voert terug op opvattingen en attitudes, een belangrijke basiscomponent van competenties. Dat dit problematisch kan zijn, blijkt bijvoorbeeld uit het agressieve rijgedrag van een groeiende groep weggebruikers. Ongetwijfeld hebben alle agressieve rijders tijdens hun rijexamen laten zien dat ze in staat zijn om defensief te rijden, maar kennelijk is ‘kunnen’ iets anders dan ‘doen’. In de literatuur over prestatiebeoordeling wordt dit verschijnsel beschreven met de begrippenparen ‘obtrusive vs unobtrusive observation’ en ‘maximum vs typical performance’. Bij obtrusive observation is de te beoordelen persoon ervan op de hoogte dat hij geobserveerd en beoordeeld wordt. In zijn pogingen om een zo goed mogelijke prestatie te leveren, is het niet ondenkbaar dat hij zich bewust positiever gedraagt dan in een reële werksituatie. Maar het kan ook dat er juist een slechtere prestatie geleverd wordt. Bijvoorbeeld omdat de persoon, door zenuwen geplaagd, apathisch of juist hyperactief reageert op de assessment-taak. Bij unobtrusive observation is de te beoordelen persoon zich er niet van bewust dat hij beoordeeld wordt. We zien het authentieke gedrag van een persoon als reactie op prikkels vanuit een reële werksituatie. Uit dat gedrag valt ook iets af te leiden over de (beroeps)houding en motivatie. Bij obtrusive observation kan waargenomen worden waartoe iemand in staat is (maximum performance), bij unobtrusive observation wat iemand werkelijk doet in een bepaalde taaksituatie (typical performance). Voor het beoordelen van competenties zijn beide observatievormen van belang. Unobtrusive observation geniet in arbeidsorganisaties meer bekendheid dan in het onderwijs. De methode wordt daar vaak aangeduid met benamingen als ‘mystery guest’, ‘mystery patient’ of ‘mystery shopping’ en vooral ingezet om de kwaliteit van de dienstverlening te beoordelen. Onder werknemers is de methode niet altijd populair zoals blijkt uit het krantenbericht in figuur 5. De tegenstanders hanteren daarbij vaak als argument dat het onethisch
27
is om nietsvermoedende mensen te observeren met als doel hun gedrag te beoordelen. CONTROLE OP CONDUCTEURS UTRECHT – Kantoorbedienden en andere medewerkers van de NS kijken in de trein de conducteur op de vingers. Het NS-personeel houdt bij hoe vaak een conducteur kaartjes controleert en of er voldoende informatie bij vertragingen wordt gegeven. Dat heeft een woordvoerder van de NS gisteren bevestigd. De Vakbond voor Machinisten en Conducteurs (VVMC) vindt dat het bedrijf op een ‘onvolwassen’ manier met zijn rijdend personeel omgaat. De Spoorwegen willen met de personeelscontrole meer zicht krijgen op de eigen dienstverlening. De controles door de NS-ers vinden door het hele land plaats. Figuur 5: Verzet tegen de ‘mystery-methode’.
Als daaruit naar voren komt dat niet aan de eisen wordt voldaan, neemt het spoorbedrijf eventueel maatregelen. De VVMC vindt het vreemd dat de NS eigen personeel gebruikt om de kwaliteit van de dienstverlening in kaart te brengen. De vakbond krijgt negatieve, maar ook positieve reacties. ‘Sommigen vinden het achterbaks van de NS, anderen vinden het prima omdat ze hun werk goed doen’, zei een woordvoerder.
4 Systematisch ontwerpen van een procedure voor het beoordelen van competenties De toepassingen van performance assessments kunnen zeer divers zijn. Er blijken talloze manieren te zijn om mensen taken in een bepaalde context te laten uitvoeren met als doel daaraan conclusies te verbinden over een achterliggende bekwaamheid. De rechtvaardiging van die conclusies hangt af van de kwaliteit van de scores die een performance assessment oplevert. Deze scores moeten zuiver en relevant zijn of, in psychometrisch jargon, betrouwbaar en valide. De beste garantie daarvoor is een systematisch en weloverwogen ontwerpproces. De variabelen en activiteiten die in dat proces een belangrijke rol spelen zijn schematisch weergegeven in figuur 6.
uitlokken
taken in contexten
Volgens de NS vinden de personeelscontroles al een jaar plaats. De VVMC heeft er pas twee tot drie weken geleden van gehoord. (ANP) Spits, 22 september 2004
gedrag en resultaat daarvan
blijkt uit assessor(en)
De te verwerven competentie assessmentvormen randvoorwaarden
registreren
operationalisatie
scoren prestaties
prestatie criteria conclusie prestatiestandaard
opslag scores
vergelijken dossier
Figuur 6: Cruciale variabelen en activiteiten bij het ontwerpen van een procedure voor het vaststellen van competentie.
28
29
In het hart van figuur 6 zien we de competentie die verworven en beoordeeld moet worden. Of iemand een competentie verworven heeft, moet blijken uit zijn gedrag en de resultaten daarvan in respons op al dan niet expliciet verstrekte taken. Bij een assessment wordt dergelijk gedrag uitgelokt door het aanbieden van assessment-taken. De randvoorwaarden (waaronder tijd en geld) bepalen hoe authentiek die taken en de contexten waarbinnen ze uitgevoerd worden, kunnen zijn en dus welke assessmentvormen daarvoor in aanmerking komen. Om gedrag betrouwbaar te kunnen beoordelen, is het aan te bevelen om de activiteiten ‘observeren’ en ‘beoordelen’ te scheiden. Observeren dient als activiteit niet meer in te houden dan registreren van wat er gebeurt, zo ongeveer als dat met een camera ook zou kunnen. Op basis van de registraties spreken één of meerdere assessoren een oordeel uit over het prestatieniveau van de kandidaat. Daartoe maakt men gebruik van een speciaal voor de betreffende competentie ontwikkelde set van prestatiecriteria. De toegekende scores worden overzichtelijk opgeslagen in een dossier en vergeleken met een prestatiestandaard waarna een conclusie getrokken wordt over de verwerving van de competentie. Alle in figuur 6 genoemde variabelen en activiteiten komen hieronder nog aan de orde bij een bespreking van de zeven vragen die het ontwerpproces sturen.
4.1 Wat moet er beoordeeld worden? Een valkuil van de eerste orde bij het ontwikkelen van een assessmentprocedure voor competenties is dat een competentie wordt opgevat als een vaardigheid. Het maken van onderscheid tussen deze begrippen is van wezenlijk belang. Bij het beoordelen van een vaardigheid wordt er vooral op gelet of de deelnemer alle onderdelen of stappen van de vaardigheid correct kan uitvoeren. Met één of twee uitgevoerde opdrachten zullen de meeste assessoren een aardig beeld hebben van de mate waarin de betreffende vaardigheid beheerst wordt. Heel anders wordt het bij competenties. De aandacht gaat dan veel meer uit naar het vermogen van de deelnemer om de verworven kennis en vaardigheden, al dan niet in gewijzigde vorm, in allerlei nieuwe situaties toe te passen. Daarbij kan niet als vanzelfsprekend worden aangenomen dat succesvolle toepassing in de ene situatie garanties geeft voor succesvolle toepassing in andere situaties. Voor de beoordeling betekent dit dat de opdrachten een representatieve afspiegeling (zie paragraaf 3.2) moeten zijn van de verschillende taaksituaties waarmee men in een vervolgsituatie geconfronteerd zou kunnen worden.
30
4.2 Waarop moet gelet worden bij de beoordeling? Competentie moet blijken. Als je wilt weten of iemand pannenkoeken kan bakken, proef dan de pannenkoeken die hij/zij gebakken heeft. ‘The proof of the pudding is in the eating’ zeggen de Engelsen dan. Die volkswijsheid heeft echter een beperkte geldigheid bij toepassingen op het gebied van onderwijskundig meten. Als een pannenkoekenbakker voortreffelijk smakende pannenkoeken bakt maar daar onevenredig veel tijd voor nodig heeft, onhygiënisch werkt, oneconomisch omgaat met ingrediënten en dergelijke, dan zouden we toch niet willen beweren dat hij een bekwame pannenkoekenbakker is? Bekwaam ergens in zijn betekent meer dan in staat zijn om een in één opzicht goed eindproduct te bereiken, hoewel dat op het eerste gezicht misschien het bewijs van bekwaamheid biedt. Zoals uit het eerder aangehaalde voorbeeld van de tandarts al duidelijk werd, is de manier waarop iemand te werk gaat minstens zo belangrijk. Hoe moet de kwaliteit van producten en processen beoordeeld worden? Wie de wat oudere literatuur over onderwijskundig meten raadpleegt, zal het opvallen dat bij het beoordelen van werkstukken en daaraan voorafgaande werkprocessen vaak sprake is van lange lijsten met zeer gedetailleerd omschreven kwaliteitscriteria. Deze kwaliteitscriteria zijn er in de eerste plaats op gericht om de aan- of afwezigheid van gewenste kenmerken in product en/of proces vast te stellen (zie figuur 7). Vaak kunnen ze kwaliteitsverschillen in de uitvoering of het product niet (volledig) verklaren. De deelhandelingen in figuur 7 zijn zonder meer belangrijke kenmerken van de procedure ‘inhalen op de snelweg’, maar iemand die alle deelhandelingen correct uitvoert kan desalniettemin een slechte inhaalmanoeuvre laten zien. Waar het werkelijk om gaat (de vloeiende, snelle en zelfverzekerde actie waarbij met alle eventualiteiten wordt rekening gehouden) is maar moeilijk in objectieve kwaliteitscriteria te vangen. De nieuwere opvattingen houden het erop dat competenties niet objectief meetbaar zijn en zien de beoordeling daarom het liefst als een totaaloordeel over proces en/of product. In de literatuur wordt dit vaak aangeduid met de term ‘holistisch beoordelen’. Een product of proces heeft voldoende kwaliteit als een (vakinhoudelijk deskundige) assessor op grond van een gedegen observatie tot die slotsom komt.
31
Check list: Inhalen van voertuigen op de snelweg. √ Maakt voldoende vaart op rechter rijstrook √ Kijkt in binnenspiegel en linker buitenspiegel Kijkt over linkerschouder door achterste zijruit √ Zet linker richtingaanwijzer aan √ Gaat in vloeiende maar snelle beweging naar linker rijstrook √ Zet richtingaanwijzer uit √ Haalt zo snel mogelijk in gelet op de snelheid van het verkeer op linker rijstrook √ Kijkt in binnenspiegel en rechter buitenspiegel Kijkt over rechterschouder door achterste zijruit Zet rechter richtingaanwijzer aan √ Gaat in vloeiende maar snelle beweging naar rechter rijstrook Zet richtingaanwijzer uit Figuur 7: Check list met uitputtende opsomming van deelhandelingen.
Dat vind ik geen goed idee. Aan holistische oordelen van vakinhoudelijke deskundigen kleven teveel nadelen. In de eerste plaats lopen dergelijke oordelen het gevaar teveel mening en te weinig feitelijk te zijn. Dat de deskundigheid van vakmensen of professionals borg staat voor hun vermogen om accurate beoordelingen te geven, is regelmatig een illusie gebleken. De accuraatheid van holistische beoordelingen is in de afgelopen decennia vaak onderwerp van onderzoek geweest en bijna altijd werd geconcludeerd dat de kwaliteit daarvan ernstig tekort schoot, zoals bijvoorbeeld heel lang geleden al bleek in de studie van Natkin en Guild (1967). Deze onderzoekers lieten zes stafleden van de faculteit onafhankelijk van elkaar 65 door studenten tandheelkunde vervaardigde preklinische werkstukken beoordelen en constateerden dat bij 45 procent van de werkstukken het toegekende cijfer varieerde over vier of meer punten op een tienpuntsschaal. Slechts in vijf procent van alle gevallen varieerde het cijfer met hooguit één punt. Erger nog was het gesteld met de motivering voor het toegekende cijfer. Daarover liepen de meningen zelfs uiteen in (de schaarse) gevallen waarbij er sprake was van identieke of nagenoeg identieke beoordelingen. Het is dus een illusie om de grote deskundigheid van mensen te beschouwen als een waarborg voor accurate beoordelingen. In de tweede plaats zijn holistische beoordelingen voor kandidaten te globaal om er iets aan te hebben. De wetenschap dat een prestatie goed, voldoende of onvoldoende is, is op zichzelf onvoldoende informatief voor een
32
lerende om daar profijt van te hebben bij de sturing van zijn leerprocessen. Waar een lerende behoefte aan heeft, is informatie over dié aspecten van het proces en/of product die werkelijk van invloed zijn op de kwaliteit. In het geval van een onvoldoende prestatie is bijsturing van het onderwijsleerproces op deze aspecten het overwegen waard. In een eerder verschenen publicatie (Straetmans, 2004) heb ik daarom voorgesteld om bij de beoordeling van competenties te rapporteren over deze centrale kwaliteiten, beoordelingsaspecten genoemd, maar omwille van de nauwkeurigheid de scores op die beoordelingsaspecten te laten bepalen door scores op meer gedetailleerde kenmerken van gedrag of producten, indicatoren geheten. Die laatste worden zo genoemd omdat ze aanwijzingen vormen voor de mate waarin een bepaalde essentiële kwaliteit aanwezig is. Dat de nauwkeurigheid daarmee gediend zou zijn, wordt ingegeven door de verwachting dat de score op een beoordelingsaspect vaak op meer dan één indicatorscore gebaseerd zal zijn. Wanneer een assessor direct op een beoordelingsaspect zou kunnen scoren, is de kans groot dat hij dit doet op grond van zijn herinnering aan het meest opvallende kenmerk van het gedrag of het product dat met de betreffende kwaliteit in verband kan worden gebracht. Bij de voorgestelde procedure echter, krijgt de assessor een lijst voorgelegd van indicatoren die van toepassing kunnen zijn op een bepaald beoordelingsaspect. Dat daarbij meer dan één indicator wordt gescoord, is erg waarschijnlijk. Figuur 8 geeft als voorbeeld enkele indicatoren die tezamen de operationalisatie vormen van het beoordelingsaspect ‘Rijdt onder alle omstandigheden defensief’, wat op zijn beurt weer een essentieel kwaliteitskenmerk is van de competentie ‘rijvaardigheid’. Het hangt van de concrete assessmentopdracht af met welke indicatoren het gedemonstreerde gedrag beoordeeld kan worden. De toegekende indicatorscores worden volgens van tevoren vastgelegde regels samengevat in een score op het ‘hogere’ beoordelingsaspect. Een van de lastigste beslissingen bij het ontwikkelen van beoordelingsaspecten en daarvan afgeleide indicatoren heeft te maken met de lengte van de scoreschaal. Bij het bepalen hiervan is het goed om zich te laten leiden door de vraag hoeveel prestatieniveaus op betrouwbare wijze onderscheiden kunnen worden. Drie is het minimum, tien zal voor de meeste toepassingen al te veel zijn. Een andere vraag die steun biedt, gaat over de wenselijkheid van een middenpositie. Als we assessoren willen dwingen om zich uit te spreken over het al dan niet voldoende zijn van een gedrags- of productkenmerk dan moet in principe voor een even aantal schaalpunten gekozen worden.
33
4.3 Wie kan er beoordelen?
Indicatoren voor defensief rijden Houdt zoveel afstand tot voorgangers dat hij in noodsituaties tijdig tot stilstand kan komen. (bijna) nooit
1
2
3
4
(bijna) altijd
Pakt verkeerstaken steeds zo aan dat de eigen veiligheid én die van anderen een hogere prioriteit krijgen dan het ‘recht op voorrang. (bijna) nooit
1
2
3
4
(bijna) altijd
Onderkent potentieel gevaarlijke situatie tijdig. (bijna) nooit
1
2
3
4
(bijna) altijd
Kijkt zodanig actief en gericht, dat er voldoende tijd en ruimte is om te handelen. (bijna) nooit
1
2
3
4
(bijna) altijd
Kijkt regelmatig in de spiegels zodat wijzigingen in de verkeerssituatie tijdig worden opgemerkt. (bijna) nooit
1
2
3
4
(bijna) altijd
Corrigeert fouten van andere weggebruikers zodanig dat het overige verkeer zonder hinder en gevaar verder kan (bijna) nooit
1
2
3
4
(bijna) altijd
Figuur 8: Enkele indicatoren voor een centraal kwaliteitskenmerk van de competentie ‘rijvaardigheid’.
Hofstee (1999) noemt dit ‘het aannemen van een harde lijn jegens de beoordelaar door die geen vluchtgedrag (in de middenpositie) toe te staan’. Toch kiest Hofstee er uiteindelijk zelf voor om met een oneven aantal schaalpunten (het liefst een vijfpuntsschaal) te werken met als argument dat het ‘niet chic en ook niet verstandig is om de assessor tegen zich in het harnas te jagen’ (p. 118).
34
Eerder betoogden we dat het beoordelen van competenties niet zodanig te objectiveren is dat een willekeurig persoon die taak zou kunnen uitvoeren. Beoordelingssystemen waarmee leken uit de voeten kunnen, zijn hoogstwaarschijnlijk irrelevant voor de te beoordelen bekwaamheid of tonen slechts aan dat de bekwaamheid zelf triviaal is. Omdat het beoordelen van bekwaamheden onvermijdelijk gepaard gaat met subjectieve inschattingen, is het noodzakelijk om maatregelen te treffen die de accuraatheid van scores zoveel mogelijk kunnen waarborgen. Een assessorentraining zou in ieder geval deel uit moeten maken van die maatregelen. In een dergelijke training leren de assessoren hoe het beoordelingssysteem in elkaar zit en waarom. Maar belangrijker is dat ze leren dat registreren en beoordelen twee gescheiden activiteiten horen te zijn. Wie registreren en beoordelen niet loskoppelt, loopt het gevaar om voortdurend selectief waar te nemen, zeker onder druk van de vluchtige processen die beoordeeld moeten worden. Ook nadat een assessorentraining gevolgd is, blijft het beoordelen van gedrag en de daaruit voortkomende resultaten een moeilijke taak. Een assessor is ook maar een mens, behept met specifieke voorkeuren en zwakheden. De meest effectieve bescherming daartegen is door meerdere assessoren bij de beoordeling te betrekken. Het gemiddelde oordeel van een groep assessoren ligt dichter bij de ware beoordeling dan het individuele oordeel van één assessor. Iets wat niet per se met de accuraatheid van de beoordeling te maken heeft maar meer met de acceptatie daarvan, is de autoriteit van de assessor. Beoordeelden hebben niet veel vertrouwen in hun beoordeling als die gegeven is door een assessor waarvan ze de deskundigheid niet hoog achten. Assessoren die inhoudelijk onvoldoende deskundig zijn, hebben geen adequaat beeld van wat competent handelen inhoudt en evenmin van de omstandigheden en contexten waarin gehandeld moet worden, zoals onderzoek naar het beoordelen van docentcompetenties heeft aangetoond (Dwyer, 1994) De tekortschietende deskundigheid is een reden waarom men bij zwaarwegende beslissingen terughoudend moet zijn met zelf- en peer-assessment. Waarmee verder niets ten nadele gezegd wil zijn over de invloed van derge-
35
lijke beoordelingspraktijken op de verwerving van vaardigheden en metavaardigheden als reflectie en zelfsturing. Sluijsmans (2002) deed een literatuurstudie naar dit onderwerp en vond dat self-, peer- en co-assessment ertoe kan leiden dat: • de kwaliteit van het leerproces verbetert; • deelnemers meer vertrouwen krijgen in het eigen handelen; • deelnemers een beter inzicht krijgen in de kwaliteit van hun werk; • deelnemers meer reflecteren op hun studiegedrag; • deelnemers tot betere leerprestaties komen; • deelnemers een hoger onafhankelijkheids- en verantwoordelijkheidsgevoel krijgen.
4.4 Wanneer is een prestatie voldoende? Competentie, zo hebben we hiervoor kunnen lezen, is de bekwaamheid van een beginnend beroepsbeoefenaar om adequaat te functioneren in slechtgestructureerde taaksituaties. Vakinhoudelijk deskundigen kunnen meestal wel omschrijven wat dat adequate functioneren inhoudt. Maar daarnaar gevraagd, zullen ze het toch moeilijk vinden om deze in kwalitatieve termen omschreven prestatiestandaard te vertalen naar een cesuurscore op de gebruikte scoreschaal. En dat laatste is wat we nodig hebben om van een assessmentscore te kunnen zeggen of die ‘onder of boven de maat’ is. Een mooie maar bewerkelijke methode om te komen tot een cesuurscore wordt wel aangeduid als de koninklijke weg naar het definiëren van prestatiestandaarden en houdt het volgende in: Trek een representatieve steekproef van personen uit de doelgroep, laat deze personen de assessment-taken uitvoeren en beoordeel hun prestaties. Observeer daarna de prestaties van dezelfde groep personen in het criteriumdomein (het geheel aan taken waarvoor men kan komen te staan in een reële vervolgsituatie) en laat assessoren op grond van hun observaties een verdeling aanbrengen tussen personen die voldoende en onvoldoende gepresteerd hebben. Zet de resultaten overzichtelijk bij elkaar zoals afgebeeld in tabel 2 en ga na bij welke assessmentscores (bijvoorbeeld alle scores tussen 50% en 80% van de maximum score) het aantal correcte beslissingen (in tabel 2 aangegeven met ‘cb’) het grootst is; die score komt het meest in aanmerking als cesuurscore. Van een correcte beslissing is sprake als:
36
• de score van de kandidaat op of boven de cesuurscore ligt en als zijn prestatie in de vervolgsituatie als voldoende wordt beoordeeld; • de score van de kandidaat onder de cesuurscore ligt en als zijn prestatie in de vervolgsituatie als onvoldoende wordt beoordeeld. kandidaat
behaalde assessmentscore
prestatie in criteriumdomein
Aantal correcte beslissingen bij een cesuurscore van: 13
14
15
A
15
vold.
cb
cb
cb
…
16
17
B
8
onvold.
cb
cb
cb
cb
cb
C
9
onvold
cb
cb
cb
cb
cb
D
13
vold.
cb
E
17
onvold
F
10
vold.
G
16
onvold.
H
11
onvold.
cb
cb
cb
cb
cb
I
12
vold.
J
18
vold.
cb
cb
cb
cb
cb
6
5
5
4
5
aantal correcte beslissingen
cb
Tabel 2: Vaststellen van de cesuurscore volgens de ‘koninklijke weg’.
Dergelijk onderzoek om te komen tot een cesuurscore is tevens te gebruiken als bron van bewijs voor de validering van assessment-instrumenten. Immers, de resultaten geven informatie over de voorspellende waarde van een instrument. Het bewijs is echter veel moeilijker te vergaren dan de eenvoudige beschrijving hierboven suggereert. In de eerste plaats komt dat omdat normaal gesproken alleen geslaagde kandidaten tot een criteriumdomein worden toegelaten. Zo kan van iemand de rijvaardigheid in het dagelijkse verkeer pas worden vastgesteld als hij of zij geslaagd is voor het rijexamen. Dat wil zeggen dat dergelijke onderzoeken noodgedwongen met een selecte groep kandidaten werken. In de tweede plaats omdat het erg moeilijk is om een standaard te bepalen waarmee de prestaties in het criteriumdomein vergeleken kunnen worden. Doorgaans is er niet zoiets als een ‘gouden standaard’ die kan gelden als een ultiem criterium waartegen prestaties in een criteriumdomein afgezet kunnen worden. Ook voor rijvaardigheid, bijvoorbeeld, bestaat zo’n criterium niet.
37
Een gemakkelijker toepasbare (en helaas ook minder valide) methode om tot een prestatiestandaard te komen, houdt in dat assessoren onafhankelijk van elkaar kritische scores bepalen op de schalen voor de beoordelingsaspecten. Veronderstel bijvoorbeeld dat een bepaalde competentie beoordeeld wordt aan de hand van zeven beoordelingsaspecten, die allemaal gescoord worden op een zespuntsschaal (waarvan de scorepunten zijn omschreven). In een speciale sessie geven zoveel mogelijk assessoren voor elk beoordelingsaspect aan welke score minimaal behaald moet worden door een persoon die de betreffende competentie verworven heeft. Zie tabel 3 voor een fictief voorbeeld. Beoordelingsaspecten Assessor
1
2
3
4
5
6
7
A
3
5
4
3
4
3
5
B
4
5
4
3
4
5
5
C
5
4
4
4
4
4
5
D
4
5
4
3
4
5
5
E
3
5
4
3
4
3
5
F
4
4
4
3
4
4
5
grenswaarde
3,8
4,7
4
3,2
4
4
5
Tabel 3: Cesuurbepaling door het aangeven van kritische scores op de centrale kwaliteitskenmerken (beoordelingsaspecten) van een competentie.
De door de assessoren aan hetzelfde beoordelingsaspect toegekende kritische scores worden gemiddeld en heten dan grenswaarden. Deze grenswaarden spelen niet alleen een rol bij het beantwoorden van de vraag of een assessmentprestatie voldoende of onvoldoende is maar ook bij het bepalen van hoeveel bewijs er nodig is.
4.5 Hoeveel bewijs is er nodig? In paragraaf 3.2 werd het representativiteitsprobleem genoemd en toegelicht aan de hand van een voorbeeld uit het tandheelkunde onderwijs. Dat voorbeeld maakte heel duidelijk dat het onverstandig is om zwaarwegende beslissingen over personen te nemen naar aanleiding van slechts één assessmentprestatie. Maar hoeveel bewijs er precies nodig is, is een lastig te beantwoorden vraag. In de door Cito ontwikkelde systematiek ‘PPS’
38
(Straetmans, 2004) is getracht hiervoor een objectief criterium aan te leggen. Het uitgangspunt daarbij is dat er voor elke competentie die een persoon moet zien te verwerven een bewijsdossier (beoordelingsportfolio geheten in PPS-termen) wordt aangelegd. Allerlei bewijs kan er in worden opgenomen mits de prestatie met zekerheid toe te schrijven is aan de eigenaar van het beoordelingsportfolio en de prestatie in verband gebracht kan worden met de te verwerven bekwaamheid of competentie. De eerste voorwaarde spreekt voor zich. Pronken met de veren van een ander is niet toegestaan. De tweede voorwaarde houdt in dat het geobserveerde gedrag, of het resultaat daarvan, beoordeeld moet kunnen worden met de beoordelingsaspecten die de te verwerven bekwaamheid of competentie operationaliseren. Als dat niet kan, heeft de assessmentprestatie kennelijk niets te maken met de bekwaamheid of competentie en kan die dus ook niet als bewijs daarvoor worden geaccepteerd. Figuur 9 laat een prototype van zo’n (elektronisch) beoordelingsportfolio zien. Elke keer als er een bewijsstuk is opgenomen, wordt het beoordelingsportfolio automatisch geëvalueerd. Dat wil zeggen dat de toegekende scores worden vergeleken met prestatiestandaarden. Er wordt steeds in twee richtingen geëvalueerd. In horizontale richting wordt geëvalueerd of de laatst toegevoegde assessmentprestatie voldoet aan de horizontale prestatiestandaard. Daartoe wordt de totaalscore van dit bewijsstuk vergeleken met het totaal van de grenswaarden van de beoordelingsaspecten die bij de beoordeling van de betreffende assessmentprestatie gebruikt werden. Het eerste bewijsstuk gaat in dit geval bijvoorbeeld over de prestatie van een kandidaat op een reeks verkeersproblemen, aangeboden in een computersimulatie. Deze prestatie is kwantitatief uitgedrukt in een score op twee beoordelingsaspecten. Omdat het totaal van deze twee scores (7) kleiner is dan de horizontale prestatiestandaard (8,6) is het resultaat van deze evaluatie negatief. Als het laatst toegevoegde bewijs een negatief resultaat heeft opgeleverd, kan er uiteraard niet gestopt worden met het verzamelen van bewijs. Maar ook na een positief resultaat van een horizontale evaluatie is het niet zeker dat er gestopt kan worden met het verzamelen van bewijs. Zo kon er na toevoeging van bewijsstuk 5 (zie figuur 9) nog niet gestopt worden omdat de verticale evaluatie niet in elke kolom een positief resultaat had opgeleverd. Verticale evaluatie behelst dat de gemiddelde score van elk beoordelingsaspect wordt vergeleken met de grenswaarde van het betreffende beoordelingsaspect. Ook na toevoeging van bewijsstuk 6 is nog steeds niet voldaan aan de gestelde norm (de gemiddelde prestatie op beoordelingsaspect 2 schiet nog tekort). Men zou nu kunnen opmerken dat het niet eerlijk is dat een lerende belast blijft met de lage scores die in het verleden
39
behaald zijn. Mits het beoordelingsportfolio qua vulling blijft voldoen aan de door de opleiding vastgestelde randvoorwaarden (bijvoorbeeld ten aanzien van het minimum aantal bewijsstukken), moet het daarom mogelijk zijn om bepaalde bewijzen buiten de evaluaties te houden. In het prototype dat in figuur 9 is afgebeeld, is een voorziening aanwezig waarmee de gebruiker kan aangeven vanaf welk bewijsstuk de scores geëvalueerd moeten worden.
Figuur 9: Prototype van een elektronisch beoordelingsportfolio volgens PPS.
4.6 Welke assessmentvorm?
40
Een assessmentvorm is het concrete pakket van regels en procedures dat voorschrijft hoe gedrag wordt uitgelokt, gescoord en geëvalueerd. Assessmentvormen verschillen het meest opvallend van elkaar op het aspect natuurgetrouwheid. Daarbij gaat het erom hoe echt de taakuitvoering en de context zijn. Is de taakuitvoering gericht op het bedienen van authentieke machines of gereedschappen en/of op echte mensen of dieren? Het maakt nogal wat uit of de handelingen die worden uitgevoerd echt van invloed zijn op materialen of levende wezens of dat er slechts wordt aangegeven hoe er gehandeld zou moeten worden. Met name in taaksituaties waar de emoties hoog oplopen, is kunnen soms heel iets anders dan doen! Een ander punt dat de natuurgetrouwheid beïnvloedt, heeft te maken met de vraag in hoeverre de taakuitvoering een natuurlijk verloop mag hebben. De natuurgetrouwheid heeft eronder te leiden als er wordt ingegrepen met het oogmerk om de taakuitvoering in een bepaalde richting te leiden. Het punt is dat dergelijk ingrijpen de kandidaat vaak aanzet tot activiteiten die hij uit zichzelf misschien niet ontplooid zou hebben. Naarmate een performance assessment een hogere natuurgetrouwheid heeft, is het beter mogelijk om voorspellingen te doen over het functioneren van de beoordeelde persoon in het criteriumdomein. Primair moet daarom de keuze vallen op een assessmentvorm die gedrag uitlokt dat zoveel mogelijk lijkt op het gedrag in het criteriumdomein. Dergelijke natuurgetrouwe assessmentvormen worden vaak aangeduid met de term ‘hands-on’. Een principekeuze voor hands-on betekent echter niet dat andere, minder natuurgetrouwe assessmentvormen niet bruikbaar zouden zijn. Een voorbeeld kan dit helpen toelichten. Een van de kerntaken van een conducteur is dat hij in de trein een klimaat kan scheppen en handhaven waarin passagiers zich op hun gemak voelen. Daarvoor moet de conducteur onder meer goed om kunnen gaan met passagiers die zich niet aan de regels houden. Een beeldschermtoets die videofragmenten presenteert van agressieve passagiers met als
41
opdracht uit een lijst van mogelijke reacties steeds de beste te kiezen, kan inzicht geven in de afwegingen die de conducteur maakt op grond van kennis van en ervaring met soorten agressie en de beste bestrijdingsmethodes daarvan, maar niet in wat iemand werkelijk zou doen in zo’n situatie. Dat kan alleen door de te beoordelen persoon in een treincoupé te confronteren met agressieve personen. Dit betekent echter niet dat een hands-off assessmentvorm, zoals genoemde beeldschermtoets, helemaal niet bruikbaar zou zijn. Naar alle waarschijnlijkheid heeft één van de beoordelingsaspecten die gebruikt gaat worden om de betreffende competentie te beoordelen, te maken met ‘het signaleren van eerste tekenen van agressie’. En dat is iets wat heel goed met videofragmenten te beoordelen valt. Sterker nog, de beeldschermtoets kan een onmisbare aanvulling betekenen voor het geval dat bij gebruik van een natuurgetrouwe assessmentvorm te weinig verschillende taaksituaties kunnen worden aangeboden. In het algemeen zijn er drie redenen om af te wijken van de principekeuze voor een zo natuurgetrouw mogelijke assessmentvorm. In figuur 6 zijn die opgenomen als ‘randvoorwaarden’ waaraan de organisatie heeft te voldoen bij het opzetten van een assessmentplan. De eerste randvoorwaarde heeft te maken met de beschikbaarheid van tijd en geld. Hoe realistischer taakuitvoering en context moeten zijn des te meer tijd er gemoeid is met de beoordeling. Immers, als er niet ingegrepen kan worden in de taakuitvoering, duurt het doorgaans lang voordat alle gedrag waarin men geïnteresseerd is, zich heeft voorgedaan. Soms ook gaat een realistische taakuitvoering teveel geld kosten. Bepaalde processen in de chemische industrie bijvoorbeeld, zijn te duur om er in het kader van een beoordeling risico mee te willen lopen. Dure producten die maar eenmalig gebruikt kunnen worden, komen evenmin in aanmerking voor gebruik in een performance assessment. Zo maakt de luchtmacht gebruik van een simulator om te kunnen beoordelen of een militair team voldoende bekwaamheid heeft om een Patriot raket te lanceren. Een tweede randvoorwaarde die beperkingen oplegt aan de keuze voor assessmentvormen is veiligheid. Als de beoordeelde en/of diens omgeving door foute handelingen gevaar lopen of hinder ondervinden, is het zaak om terughoudend te zijn met natuurgetrouwe assessmentvormen. Noodlandingsprocedures worden om die reden geoefend en beoordeeld in een vluchtsimulator. ‘Dichter bij de grond’ zijn er ook toepassingen. Of specialisten in opleiding bekwaam zijn om endoscopisch onderzoek uit te voeren, kan (ten dele) blijken uit hun verrichtingen op een speciale pop (zie figuur 10).
42
Figuur 10: Een endoscopie simulator.
Een laatste hier te bespreken randvoorwaarde heeft te maken met de beschikbaarheid van geschikte taken. Bepaalde casussen, zoals ziektegevallen, storingen in installaties, rampen, en dergelijke, zijn niet op afroep beschikbaar en lenen zich derhalve niet voor beoordeling door middel van een assessmentvorm met hoge natuurgetrouwheid. Of een arts een triage kan uitvoeren (een triage is een classificatie van gewonden die na een ramp wordt uitgevoerd met het oog op het zo effectief mogelijk benutten van de schaarse medische voorzieningen) is iets wat niet met een hands-on assessmentvorm beoordeeld kan worden. Competenties op dit vlak moeten noodgedwongen beoordeeld worden in een rampenoefening met grote aantallen Lotuspatiënten (mensen die getraind zijn in het voorwenden van een bepaalde ziekte of verwonding). Uiteraard komt daarbij de vraag op of bewezen bekwaamheden tijdens de rampenoefening ook gedemonstreerd zullen worden als er een echte rampsituatie is.
4.7 Hoe krijg je te zien wat je wil zien? Tenzij ervoor gekozen wordt om personen te beoordelen zonder dat die ervan op de hoogte zijn (unobtrusive observation), moet binnen de moge-
43
lijkheden van de gekozen assessmentvorm het gewenste gedrag worden uitgelokt door een impliciete of expliciete opdracht. Naarmate de assessmentvorm een geringere natuurgetrouwheid heeft, zal er vaker expliciet een opdracht gegeven moeten worden aan de kandidaat. Daarmee blijft minstens één belangrijk aspect van een competentie buiten beschouwing, te weten: het vermogen om in een bepaalde taaksituatie de signalen te detecteren die het noodzakelijk maken om tot actie over te gaan. Als, bijvoorbeeld, een leraar-in-opleiding een reeks videofragmenten krijgt voorgelegd met de vraag om de fragmenten te selecteren waar zonder ingrijpen van de kant van de leerkracht ordeproblemen dreigen te ontstaan, dan geven de responsen minder rijke informatie dan wanneer het detecteren van potentiële ordeverstorende factoren zou worden beoordeeld in de context van een ruimere opdracht in een authentieke schoolsituatie. De expliciete opdracht zet de kandidaat als het ware ‘op scherp’. Diverse auteurs geven advies over wat goede assessment-taken zijn (McMillan, 2001, pp. 210-215; Tombari & Borich, 1999, pp. 152-154; Popham, 1998, pp. 147). De meeste adviezen hebben echter een hoog open-deur gehalte (‘de taak moet duidelijk zijn voor de kandidaat’) of laten de lezer achter met de vraag hoe eraan te voldoen (‘de taak moet de kandidaat laten worstelen met een complex probleem dat op verschillende manieren kan worden opgelost’). Een advies dat in genoemde bronnen vaak werd gemist maar heel voor de hand liggend is, luidt: Zorg ervoor dat de taak gedrag uitlokt dat beoordeeld kan worden met de eerder geformuleerde beoordelingsaspecten. Immers, de beoordelingsaspecten vormen de operationalisatie van de competentie die beoordeeld moet worden. Als geen van de beoordelingsaspecten gescoord kan worden, dan moet de conclusie luiden dat men niet het goede gedrag te zien heeft gekregen.
5 Tot slot In dit hoofdstuk heb ik geprobeerd de lezer te laten ervaren welke problemen er spelen als beoordeeld moet worden in hoeverre studenten de vereiste competenties verworven hebben en wat de belangrijkste stappen zijn bij het ontwerpen van een beoordelingsprocedure voor competenties. Uit de onderzoeksliteratuur en uit gesprekken met docenten is mij gebleken dat dit in veel opleidingen een nog onontgonnen terrein is. Hier ligt een mooie leeropdracht voor een lector assessment!
44
DE LEEROPDRACHT 1 Aanleiding Succesvolle curriculumvernieuwing vergt een gelijktijdige vernieuwing van het proces van toetsing en examinering. Bij Saxion Hogescholen staat de curriculumherziening in het teken van vraaggestuurd en competentiegericht opleiden, concreet vormgegeven volgens de filosofie van de Persoonlijke Leerweg (PLW). Terwijl voor toetsing bij traditionele opleidingsconcepten vaak niet meer dan een marginale rol is weggelegd, geldt voor de PLW dat toetsing en assessment centraal staan. Dit betekent onder andere een verschuiving van het toetsen van voorwaardelijke kennis en vaardigheden naar het beoordelen van processen en producten waaruit competentie kan blijken. In een vrij recente publicatie concludeert de Onderwijsinspectie dat het gebrek aan deskundigheid op het gebied van toetsing een belemmerende factor is voor de onderwijsvernieuwing (Inspectie van het Onderwijs, 2003). Hoewel de genoemde publicatie geen onderscheid maakt tussen de traditionele en de meer moderne, op competenties gerichte toetsvormen is het vrijwel zeker dat de deskundigheid van docenten ten aanzien van de eerstgenoemde toetsvormen groter is. Voor de Raad van Bestuur van Saxion Hogescholen was dit een reden om binnen het bestaande lectoraat Assessment een tweede lector aan te stellen, die bij de uitvoering van de leeropdracht expliciet aandacht zou besteden aan de deskundigheidsbevordering op het gebied van instrumenten en procedures voor het beoordelen van competenties. Hiermee zou tegemoet gekomen moeten worden aan vragen waarvoor docenten zich momenteel gesteld zien, zoals: • Hoe kan het portfolio als methode worden ingezet om op betrouwbare en valide wijze conclusies te trekken over de verwerving van beroepscompetenties en generieke hbo-competenties? • Welke assessmentvorm verdient de voorkeur? • Hoe kunnen conclusies over competentie(s) gebaseerd worden op de verzameling van bewijsstukken? • Hoeveel bewijs is er nodig om een gedegen conclusie over competentie(s) te trekken? • Hoe valt leerwegonafhankelijk toetsen te combineren met de gedachte van een assessmentsysteem dat volledig geïntegreerd is met het instructiesysteem? • Zijn formatieve en summatieve beoordelingsystemen noodzakelijk gescheiden of is het mogelijk om beoordelingen voor beide functies te gebruiken?
45
Nogal wat voorstanders van competentiegericht opleiden vinden dat traditionele, op kennis gerichte toetsen overbodig zijn geworden. Immers, als een kandidaat laat zien dat hij/zij de beroepstaken op adequate wijze kan uitvoeren, zou dat automatisch inhouden dat de daarvoor vereiste kennis ook beheerst wordt. Theoretisch klopt dit wel, maar in de praktijk is het maar de vraag of met de voorgelegde taken in een performance assessment al die kenniselementen aan de orde komen die de noodzakelijke kennisbasis vormen van een beginnend professional. Vanuit dat gezichtspunt blijven expliciete kennistoetsen noodzakelijk. Misschien niet in summatieve zin, om te beslissen of een competentie al dan niet verworven is, maar wél om bijvoorbeeld te bepalen of een student de kennis beheerst die nodig is om zinvol en efficiënt te kunnen leren van het uitvoeren van authentieke beroepstaken. De implicatie van deze opvatting voor het opzetten van een nascholingscursus Onderwijskundig meten is dat de traditionele toetsvormen daarbij niet vergeten mogen worden.
2 Blauwdruk van een nascholingscursus ‘Onderwijskundig meten’ Het uiteindelijke doel van de cursus is om HBO-docenten zodanig bij te scholen op het gebied van assessment dat de interne kwaliteitszorg ten aanzien van het onderdeel toetsing en examinering gewaarborgd is en de externe kwaliteitszorg in de vorm van visitaties, met vertrouwen tegemoet gezien kan worden. Bij het opzetten, uitvoeren en evalueren van assessmentbeleid zijn alle docenten betrokken, zij het niet allemaal vanuit dezelfde rol. De volgende rollen worden hier onderscheiden: • Assessor. Dit is een docent die een deel van zijn tijd besteedt aan het beoordelen van prestaties van studenten met het oog op het nemen van beslissingen over intake/plaatsing, voortgang en certificering. Het behoort tot de taak van de assessor om beslissingen over studenten te kunnen verantwoorden onder verwijzing naar de kwaliteitseisen die daarover zijn opgesteld door de instelling of opleiding. • Constructeur. Dit is een docent die alleen of samen met anderen (onderdelen van) assessment-instrumenten construeert. De constructeur is ervoor verantwoordelijk dat de ontwikkelde instrumenten of procedures eenvoudig bruikbaar en nuttig zijn en de juiste informatie opleveren.
46
• Kwaliteitsborger/innovator. Hierbij gaat het om een docent die lid is van een examencommissie of die (mede-) verantwoordelijkheid draagt voor de opzet, uitvoering en evaluatie van het assessmentbeleid van de opleiding. Het betreft ook docenten die voor zichzelf een rol zien weggelegd als katalysator van vernieuwingen op het gebied van assessment. De hierboven genoemde rollen doen in toenemende mate een beroep op kennis en vaardigheden op het gebied van de onderwijskundige toepassing van assessment-instrumenten en –procedures. De cursus Onderwijskundig meten dient daarom een modulaire opzet te krijgen zodat de inhoud van de nascholing afgestemd kan worden op de behoeften vanuit de te spelen rol. Module 1 wil cursisten die kennis en vaardigheden laten verwerven die nodig zijn om op verantwoorde wijze gebruik te kunnen maken van instrumenten en hulpmiddelen voor het vaststellen van leerresultaten (achievement) en meer stabiele persoonlijke eigenschappen (aptitude, attitude) of om dergelijke instrumenten te ontwikkelen voor eigen gebruik. Module 2 geeft achtergronden bij en handzame procedures voor het construeren van kennistoetsen en performance assessments voor herhaald gebruik hetzij door de ontwikkelaar zelf hetzij door anderen. Module 3 geeft cursisten kennis en richtlijnen voor het opzetten van een assessmentbeleid alsmede een introductie in die onderwerpen die zowel zorgen voor een dieper begrip van het psychometrisch proces als voor een brede kijk op innovatieve assessment-toepassingen. Tabel 4 laat zien welke modules gevolgd zouden kunnen worden als voorbereiding op of voorwaarde voor het vervullen van een bepaalde rol in het assessmentbeleid van de opleiding of instelling.
Assessor Constructeur Kwaliteitsborger/innovator
Module 1 X X X
Module 2
Module 3
X X
X
Tabel 4: Suggestie voor een koppeling van rollen en cursusmodules.
Wie alle drie modules gevolgd (en gehaald) heeft, mag zich ‘assessmentspecialist’ noemen. Zo’n persoon kan alle hierboven genoemde rollen vervullen.
47
De verwachting is dat de cursus Onderwijskundig meten kan voorzien in de specifieke behoefte aan expertise die uitvoering van het nieuwe assessmentbeleid (Saxion Hogescholen, 2003) ten dienste van de Persoonlijke Leerweg met zich meebrengt. Uiteraard geldt dat alleen als de cursusdoelen werkelijk bereikt zijn door de cursisten. Dat vraagt om een afsluitende toets voor elke cursusmodule, liefst door een onafhankelijke, geaccrediteerde instantie zodat ‘assessor’, ‘constructeur’ en ‘kwaliteitsborger/innovator’ en daarmee ‘assessmentspecialist’ erkende kwalificaties worden. De aantrekkelijkheid om alle drie modules en daarmee de erkende titel te halen, wordt nog vergroot als de specialisatie officieel deel zou uitmaken van de hogere onderwijsfuncties. Op dit terrein komen de leeropdrachten van de twee Saxion Assessment-lectoraten (assessment van docentcompetenties en assessment van studentcompetenties) bij elkaar.
3 De kenniskring De uitvoering van de leeropdracht is het werk van de leden van de kenniskring. Zij doen toegepast onderzoek en (vooral) ontwikkelingswerk en zorgen ervoor dat de resultaten hun weg vinden naar de academies en opleidingen. Die resultaten zullen de vorm aannemen van cursussen, presentaties, artikelen, adviezen en een handboek. De leden van de kenniskring hebben allen reeds hun sporen verdiend op het gebied van toetsings- en assessmentvraagstukken. In figuur 11 stel ik ze voor. De leden Theo Geudeke Onderwijskundige bij Saxion Hogescholen, Dienst Onderwijs & Student Specialisatie: Adviseren over onderwijsinnovatie, zowel vanuit een macroals micro-perspectief.
artikelen
Gerard Straetmans
Theo Geudeke
nascholing
adviezen
LEEROPDRACHT
Geke Walpot
Piet Hendriks
handboek
presentaties
Jeanine Treep
Figuur 11: De kenniskring: leden en opbrengsten.
Piet Hendriks Onderwijskundige bij Saxion Hogescholen, Dienst Onderwijs & Student Specialisatie: Ontwikkelen van opleidingstrajecten-op-maat.
Geke Walpot Toetsdeskundige bij Cito, unit BBE/HO Specialisatie: Computergestuurde performance assessments.
Jeanine Treep Productmanager bij Cito, unit BBE/HO Specialisatie: Ontwikkelen van praktijktoetsen.
Gerard Straetmans Lector Assessment Specialisatie: Moderne vormen van toetsing en assessment.
48
49
De opbrengsten De leden van de kenniskring brengen hun specifieke deskundigheid in om de leeropdracht uit te voeren en dragen die kennis vervolgens over op anderen, die zich zowel binnen als buiten de Saxion organisatie kunnen bevinden. Dat gebeurt in de vorm van: • Artikelen over praktische zaken. Bijvoorbeeld: Hoe kom je tot een beoordelinginstrumentarium voor een beroepscompetentie? • Adviezen op afroep. Bijvoorbeeld om het personeel van een bepaalde academie te ondersteunen bij het opzetten of verbeteren van hun toets- en assessmentbeleid of bij de uitvoering daarvan. • Presentaties op studiedagen of conferenties. • Nascholing. Dit vormt de belangrijkste opbrengst van de leeropdracht. De kenniskring draagt zorg voor de inhoudelijke ontwikkeling en logistiek van een nascholingscursus op het gebied van onderwijskundig meten. • Handboek. Een praktisch naslagwerk voor de docent die voor de taak staat de (beroeps)competenties van zijn studenten te beoordelen.
DANKWOORD Het is merkwaardig te moeten constateren dat naarmate functies in hoger aanzien staan er minder vaak formele sollicitatierondes (assessments dus) worden gehouden om de kwaliteiten van de beoogde functionaris kritisch tegen het licht te houden. Zo ben ik niet, zoals dat heet, ‘op gesprek’ geweest. Natuurlijk heeft een Saxion-functionaris navraag gedaan bij mijn andere werkgever en daar waarschijnlijk te horen gekregen dat ‘hij een goeie is’. En waarschijnlijk werd deze kwalificatie gestaafd met de behaalde successen van de potentiële lector. Nou wil ik niemand verontrusten maar voor nieuwe werknemers geldt hetzelfde als voor aandelen: prestaties uit het verleden bieden geen garantie op toekomstige successen. Geen garanties dus maar gelukkig wel vertrouwen. Vertrouwen dat we deze unieke onderneming, want zo mag je het eerste bijzondere lectoraat van Nederland toch wel noemen, tot een goed einde zullen weten te brengen. Dat vertrouwen wordt gedeeld door de stuurgroep die de leeropdracht heeft goedgekeurd en de uitvoering ervan zal begeleiden en waarin de volgende personen zitting hebben: • Joop Cuppen, directeur Academie Mens en Arbeid; • Caroline van de Molen, directeur Dienst Onderwijs & Student; • Marten Roorda, algemeen directeur Cito; • Piet Sanders, hoofd Psychometrisch Onderzoek- en Kenniscentrum, Cito; • Wim Slingerland, directeur Academie Mens en Maatschappij; • Cor Sluijter, directeur unit BBE/HO, Cito; • Bert Velt, directeur Academie Financiën, Economie en Management. Ik wil hen bedanken voor het uitgesproken vertrouwen in mijn invulling van de leeropdracht en voor de vele adviezen waarmee ze mij de komende jaren vast en zeker gaan ondersteunen. Ik dank de directie van het Cito voor het feit dat zij ons vakgebied in het hoger onderwijs onder de aandacht heeft willen brengen door de instelling en financiering van een bijzonder lectoraat. Ik ben vereerd dat ik die plaats mag bezetten. De Raad van Bestuur van Saxion Hogescholen ben ik dank verschuldigd voor mijn benoeming en voor het in mij gestelde vertrouwen.
50
51
Caroline van de Molen bedank ik voor het bieden van onderdak aan mijn lectoraat in haar dienst en vanwege het feit dat ze mij steeds, ondanks haar overvolle agenda, van advies wil dienen. Dankbaar ben ik ook voor de diensten van het secretariaat van de Dienst Onderwijs & Student, dat meedenken tot kunst heeft verheven. In de korte tijd dat ik bij Saxion rondloop, is mij gebleken dat zaken vaak al geregeld zijn voordat ik erom hoef te vragen. Hulde! Mijn bijzondere dank gaat uit naar Cor Sluijter. Met zijn talent om snel knopen door te hakken wist hij een wild idee om te zetten in een gepolijst plan met nieuwe zakelijke mogelijkheden. Daarnaast moet het me van het hart dat het erg prettig samenwerken is met een baas die ook inhoudelijk van wanten weet. Speciale dank verdient ook collega lector Assessment Wouter Schoonman, die mij met raad en daad terzijde stond (en nog staat) en zo wist te voorkomen dat ik in de eerste weken na mijn aanstelling ‘kopje onder ging’ in de Saxion-organisatie.
LITERATUUR Athanasou, J.A. (1997). Introduction to educational testing. Wentworth Falls: Social Science Press. Birenbaum, M. & Dochy, F.J.R.C. (1996). Introduction. In: M. Birenbaum & F.J.R.C. Dochy (Eds.), Alternatives in assessment of achievements, learning processes and prior knowledge. Boston: Kluwer Academic Publishers. Colo (2002). Samen werken aan leren. Naar een competentiegerichte kwalificatiestructuur voor het middelbaar beroepsonderwijs. Zoetermeer: Colo. Cras, P.P. (1992). Het toetsen van beroepskwalificaties: noodzaak en uitdaging voor opleiders. In: J.W.M. Kessels & C.A. Smit (Red.), Opleiders in Organisaties Capita Selecta, afl. 10: Het Toetsen van Beroepskwalificaties. Deventer: Kluwer Bedrijfswetenschappen. Dochy, F., & Nickmans, G. (2005). Competentiegericht opleiden en toetsen. Theorie en praktijk van flexibel leren. Utrecht: Uitgeverij LEMMA BV.
Ik beschouw het als een eer dat ik een groep van (voorlopig) vier talentvolle medewerkers uit Cito en Saxion Hogescholen mag beschouwen als míjn kenniskring. Dank aan Theo Geudeke, Piet Hendriks, Jeanine Treep en Geke Walpot voor hun bereidheid om samen met mij te willen werken aan de deskundigheidsbevordering op het gebied van onderwijskundig meten van hbodocenten in het algemeen en Saxion-docenten in het bijzonder.
Dwyer, C A. (1994). Criteria for performance-based teacher assessments: validity, standards, and issues. Journal of Personnel Evaluation in Education, 8(2), 135-150.
Tot slot richt ik enkele woorden tot mijn dierbaren: Kitty, Frank, Paul en Milou. Door er ‘gewoon’ te zijn en ‘gewoon’ te doen, kreeg ik alle ruimte die ik nodig had, leidend tot de aanvaarding van deze ‘ongewone’ positie. Heel veel dank daarvoor!
Fitzpatrick, R., & Morrison, E.J. (1971). Performance and Product Evaluation. In E.L. Thorndike (Ed.), Educational Measurement (2nd edition), pgs. 237-270. Washington, DC: American Council on Education. Gipps, C.V. (1994). Beyond testing: Towards a theory of educational assessment. London: The Falmer Press.
Eraut, M., & du Boulay, B. (2000). Developing the Attributes of Medical Professional Judgement and Competence. www.cogs.susx.ac.uk/users/bend/doh
Horn, J.L. (1989). Cognitive diversity: A framework for learning. In P.L. Ackerman, R.J. Sternberg, and R. Glaser (Eds.), Learning and individual differences: Advances in theory and research, (pgs. 61-116). New York, NY: W.H. Freeman and Co.
52
53
Inspectie van het Onderwijs (2003). Zicht op toetsen. Toetsing en examinering in het Hoger Onderwijs: de stand van zaken. Utrecht: Inspectie van het Onderwijs. Jonassen, D.H. (2000) Toward a design theory of problem solving. Educational Technology: Research and Development, 48, 4, 63-. Kane, M.T. (1992). The validity of assessments of professional competence. (ERIC Document Reproduction Service No. ED 343 958). Korthagen, F. (2004). Zin en onzin van competentiegericht opleiden. VELON Tijdschrift voor Lerarenopleiders, 25, 1, 13-23. Linn, R.L., & Burton, E. (1994). Performance-based assessment: Implications of task specificity. Educational Measurement: Issues and Practice, 13, 1, 5-15. McMillan, J.H. (2001). Classroom Assessment. Principles and practice for effective instruction. Second edition. Needham Heights (MA): Allyn & Bacon. Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessment. Educational Researcher, 23, 2, 13-22.
Popham, W.J. (1998). Classroom assessment: What teachers need to know (2nd ed.) Needham Heights (Ma): Allyn & Bacon. Procee, H. (2001). Competenties en onderwijs – een conceptuele analyse. Tijdschrift voor Hoger Onderwijs, 19, 4, 242-252. Ritzen, M., & Kösters, J. (2002). Mogelijke functies van een portfolio binnen een competentiegericht curriculum. Onderzoek van Onderwijs, 31, 1, 3-8. Schoonman, W. (2004). Assessment voor en door iedereen. Lectorale rede. Enschede: Saxion Hogescholen. Sluijsmans, D. (2002). Student involvement in assessment. The training of peer assessment skills. Academisch proefschrift. Heerlen: Open Universiteit. Stoof, A. (2005). Tools for the identification and description of competencies. Academisch proefschrift. Heerlen: Open Universiteit. Straetmans, G.J.J.M. (2004). Protocol Portfolio Scoring. Een methode voor het systematisch scoren en vaststellen van competenties. BVE en HO Brochurereeks Perspectief op Assessment, nr. 4. Arnhem: Cito.
Ministerie van Onderwijs Cultuur en Wetenschappen (2002). De doorstroomagenda in de praktijk. Uitwerking Doorstroomagenda Beroepsonderwijs van de Commissie Boekhoud. ’s-Gravenhage: OCenW.
Suen. H.K. (1990). Principles of Test Theories. Hillsdale (NJ): Lawrence Erlbaum Associates.
www.minocw.nl/beroepskolom/3359/3359.pdf
Tombari, M., & Borich, G. (1999). Authentic Assessment in the classroom. Applications and practice. Upper Saddle River (NJ): Prentice-Hall, Inc.
Natkin, E., & Guild, R.E. (1967). Evaluation of preclinical laboratory performance: a systematic study. Journal of Dental Education, 31, 152-161.
Van der Maesen de Sombreff, P., & Schakel, L. (1999). Wat zijn competenties niet? Opleiding & Ontwikkeling, 12, 11-16.
Onderwijsraad (2002). Competenties: van complicaties tot compromis. Over schuifjes en begrenzers. Den Haag: Onderwijsraad. Onderwijsraad (2002). Examinering in ontwikkeling. Een ontwikkelingsperspectief voor examens in het voortgezet onderwijs, middelbaar beroepsonderwijs en hoger onderwijs. ’s-Gravenhage: Onderwijsraad. Onderwijsraad (2003). Onderweg in het beroepsonderwijs. Ondersteuning van de leerloopbanen van leerlingen. Advies. ’s-Gravenhage: Onderwijsraad.
54
55