Onderwijstechnologisch Expertisecentrum Open Universiteit Nederland in samenwerking met ROC A12 te Ede Onderzoeksvoorstel d.d. 10 februari 2006 aangepast d.d. 24 mei 2006.
Vormgeving van ontwikkelingsportfolio’s: Het gebruik van beoordelingscriteria door leerlingen, docenten en het werkveld ten behoeve van onderwijsflexibilisering in een domein Samenvatting van het project Flexibel en vraaggestuurd onderwijs vraagt om een nieuwe visie op onderwijs- en toetsontwerp. Conform deze nieuwe visie stellen studenten hun eigen curriculum samen door—al dan niet met advies van de school—taken te kiezen uit een gevarieerde verzameling van leertaken. Hun keuze is gebaseerd op (zelf)beoordelingen op een vaste set van criteria (wat kan ik? Wat kan ik nog niet? Wat zijn mijn verbeterpunten?) in relatie tot expliciet geformuleerde einddoelen. Het voorgestelde onderzoek beantwoordt de vraag hoe een digitaal ontwikkelingsportfolio zo kan worden vormgegeven dat vraaggestuurd onderwijs optimaal wordt ondersteund. Het onderzoek zal aanvankelijk worden uitgevoerd binnen het domein Zorg en Maatschappelijke Dienstverlening van ROC A12 te Ede en in een later stadium worden verbreed naar een nog nader te kiezen domein. Het project bestaat uit vier fasen. In de eerste fase worden beschikbare leertaken geordend naar hun complexiteit en de hoeveelheid ondersteuning die aan studenten geboden wordt. Tevens zal een standaardset van beoordelingscriteria worden vastgesteld die voor een deel opleidingsoverstijgend (d.w.z., toepasbaar voor het hele domein) en voor een deel opleidingspecifiek zijn. De eerste fase resulteert in een digitaal ontwikkelingsportfolio waarin beoordelingen door leerlingen, medeleerlingen, docenten, coaches en betrokkenen uit het werkveld kunnen worden opgeslagen en bewerkt. In de tweede fase van het project wordt een eerste empirische studie uitgevoerd. Deze studie onderzoekt de verschillen die tussen beoordelaars bestaan en brengt deze verschillen in verband met de domein- en beoordelingsexpertise van beoordelaars alsmede de specificiteit van de gebruikte criteria. In de derde fase van het onderzoek zal in een tweede studie het effect van reflectiestimulerende popups (RSP’s) op het gebruik van het portfolio door leerlingen, medeleerlingen, docenten en praktijkbegeleiders worden onderzocht. In fase vier, tenslotte, zal het portfolio worden ingevoerd en geëvalueerd in een of twee nieuwe domeinen binnen één of meer van de betrokken ROC’s. Onderzoeksgroep
Projectleider AIO
Promotor Begeleider ROC A12
Naam en titels Dr. Dominique Sluijsmans vacature
Prof. dr. Jeroen van Merriënboer Ellen Leenaerts
Expertise/functie Universitair docent
Organisatie OUNL/OTEC
Onderwijskundige/onderwijspsychologische achtergrond Hoofd onderzoek
OUNL/OTEC
? / Zorg en Maatschappelijke dienstverlening
ROC A12
1
Reflexiegroep Naast een onderzoeksgroep zal een reflexiegroep worden samengesteld vanuit de Open Universiteit en de ROC’s die betrokken zijn bij dit project. Deze groep zal regelmatig overleggen over de voortgang en de richting van het project. Vooralsnog zal deze reflexiegroep als volgt worden samengesteld: Open Universiteit Nederland ROC A12 ROC ASA ID College Graafschap College
Jeroen van Merriënboer, Dominique Sluijsmans Dhr. Roodink, dhr. A. De Geus, mevr. I. van der Dussen Dhr. L. J. Molenkamp en vacature. Dhr. O.Jelsma Mevrouw S.Shkolnik-Oostwouder
Duur van het project 1 September 2006 - 1 September 2010 Totale lengte: 4 jaar bij een volledig dienstverband
Opbrengst onderzoek Het onderzoek zal resulteren in een ontwikkelingsportfolio gebaseerd op realistische beroepstaken, dat dienst kan doen als voorbeeld voor andere domeinen. Tevens zullen richtlijnen worden ontwikkeld met betrekking tot het flexibel en vraaggestuurd inzetten van dit portfolio.
Beoogde publicaties Elke fase van onderzoek levert een wetenschappelijke publicatie op in een SSCI-tijdschrift. Op jaarlijkse binnen- en buitenlandse conferenties (ORD, EARLI, AECT, AERA) zullen onderzoeksresultaten worden gepresenteerd.
Uitwerking van het project Probleemdefinitie Recente leertheorieën benadrukken het belang van authentieke taken gebaseerd op echte beroepssituaties als de stuwende kracht voor complex leren. Deze taken zijn erop gericht leerlingen de benodigde kennis, vaardigheden en attitudes te helpen integreren, waardoor zij beter in staat zijn effectief te handelen in toekomstige beroepssituaties. Theorie en praktijk worden verregaand geïntegreerd en volgens het principe van de ‘hele-taak-benadering’ aangeboden. Resultaten op taakuitvoering kunnen worden opgeslagen in een portfolio waardoor een meer adequate selectie van volgende leertaken mogelijk wordt. Vooral in het beroepsonderwijs is een sterke behoefte om vanuit deze leertaken-benadering het onderwijs te flexibiliseren. Het komen tot generieke en specifieke leertaken met bijbehorende beoordelingscriteria voldoet tevens aan de behoefte om de samenhang tussen onderwijsprogramma’s te waarborgen. Redundantie in onderwijsaanbod wordt sterk gereduceerd, waardoor sprake is van doelmatiger onderwijs. Dit onderzoeksproject richt zich op het bewerkstelligen van vraaggestuurd en flexibel onderwijs op basis van een ontwikkelingsportfolio met leertaken als basis. Het “Four-Component Instructional Design” model, kortweg 4C/ID-model (Van Merriënboer, Jelsma, & Paas, 1992; van Merrienboer, 1997), dat hele taken als ruggengraat van leren beschouwt, wordt daarbij als uitgangspunt genomen. De volgende doelen staan in het project centraal:
2
• • • •
Het ontwikkelen van domeinoverstijgende en domeinspecifieke beoordelingscriteria op basis van (authentieke) leertaken. Deze criteria vormen de basis voor beoordelingen die worden uitgevoerd en opgeslagen in het ontwikkelingsportfolio. Het bestuderen van patronen in het gebruik van beoordelingscriteria door verschillende beoordelaars, in relatie tot het niveau van domeinexpertise en specificiteit van criteria. Het bestuderen van het effect van reflectiestimulerende pop-ups in het ontwikkelingsportfolio op de beoordelingsvaardigheid van betrokkenen met specifieke aandacht voor de ontwikkeling van de beoordelingsvaardigheid van leerlingen; Het ontwikkelen van modellen voor de begeleiding van leerlingen in het gebruik van een ontwikkelingsportfolio ten behoeve van onderwijsflexibilisering.
Uitwerking van de probleemdefinitie: Leertaken en beoordelingscriteria als basis voor de vormgeving van een ontwikkelingsportfolio Een opeenvolging van leertaken of opdrachten vormt de kern van ieder 4C/ID-onderwijsprogramma (zie Figuur 1, waarin leertaken als cirkels worden gerepresenteerd). Kenmerkend is dat leerlingen leertaken uitvoeren in een echte of een gesimuleerde taakomgeving en dat leertaken ‘hele’ taken zijn: in het ideale geval confronteren zij leerlingen met alle samenstellende vaardigheden waaruit de te leren complexe vaardigheid of competentie bestaat. Goed vormgegeven leertaken stimuleren leerlingen cognitieve schema’s te construeren door bewust algemene informatie te abstraheren uit de concrete ervaringen die de leertaken verschaffen. Vervolgens zorgen leerprocessen zoals generalisatie en discriminatie ervoor dat de schema’s worden aangepast en steeds opnieuw in overeenstemming gebracht met hun nieuwe ervaringen. Het is uiteraard onmogelijk om een leerling meteen aan het begin van een onderwijsprogramma hele moeilijke leertaken aan te bieden. Dit zou een cognitieve overbelasting tot gevolg hebben die het leren nadelig beïnvloedt (Sweller, van Merriënboer, & Paas, 1998; van Merriënboer & Sweller, 2005.) Leerlingen beginnen daarom met het uitvoeren van relatief eenvoudige leertaken die, naarmate hun expertise zich verder ontwikkelt, steeds moeilijker worden. Taakklassen worden gebruikt om een in moeilijkheid toenemende opeenvolging van leertaken te definiëren en om het proces van ontwikkeling en/of selectie van geschikte leertaken te sturen (zie de gestippelde lijnen rond de cirkels in Figuur 1).
Figuur 1. Van veel naar geen ondersteuning: Leer- en assessmenttaken als basis voor een flexibel curriculum. Taakklassen en niet de afzonderlijke leertaken bepalen dus de basisstructuur van een 4C/IDonderwijsprogramma. Leertaken in een bepaalde taakklasse zijn equivalent in die zin dat zij kunnen worden uitgevoerd op basis van dezelfde—algemene—kennis. Een moeilijker taakklasse vereist méér kennis of verdere verdieping van kennis om de leertaken in die taakklasse te kunnen uitvoeren. Het basisidee van het 4C/ID-model is dus een hele-taak benadering voor het totale onderwijsprogramma, waarbij in de eerste taakklasse de meest eenvoudige versie van de hele taak die een ‘beroepsbeoefenaar’ in de praktijk kan uitvoeren aan de orde wordt gesteld. In moeilijker taakklassen worden de aannames die de taakuitvoering vereenvoudigen steeds verder versoepeld. De laatste taakklasse representeert alle taken, inclusief de moeilijkste taken, waarmee de leerling na het onderwijsprogramma in de beroepspraktijk of in het dagelijks leven geconfronteerd kan worden. Hoewel binnen een taakklasse de complexiteit van de opeenvolgende leertaken niet toeneemt, verschillen de leertaken wel in de mate waarin ondersteuning en begeleiding aan de leerlingen wordt geboden. Bij de eerste leertaken van een taakklasse krijgen de leerlingen veel ondersteuning. Vervolgens wordt de ondersteuning bij iedere volgende leertaak verminderd, totdat de leerling uiteindelijk de laatste leertaken van de taakklasse zonder enige ondersteuning uitvoert. Dit proces
3
waarbij de ondersteuning afneemt naarmate de leerling meer expertise opbouwt wordt ook wel ‘scaffolding’ genoemd. Dit wordt herhaald voor iedere taakklasse, waardoor een zaagtandpatroon van leertaakondersteuning ontstaat voor het hele opleidingsprogramma (zie de vulling van de cirkels in Figuur 1). Met name de resultaten op taken zonder ondersteuning aan het einde van een taakklasse bepalen of de leerling klaar is voor taken van een hogere complexiteit of grotere moeilijkheid. Wanneer binnen een bepaalde taakklasse de ondersteuning bij het uitvoeren van een leertaak wordt weggehaald en de leerling het dus ‘op eigen kracht’ moet doen, kan zo’n leertaak worden opgevat als een assessmenttaak (de lege bolletjes in Figuur 1). Een scala van mogelijke assessmenttaken is voorhanden om het niveau van competentieontwikkeling te demonstreren (bijvoorbeeld een Situational Judgment Test, een Work Sample Test, een Performance On the Job, een verslag, skillslab, stationsmodel, reflectiegesprek, criteriumgebaseerd interview, enzovoort). Omdat onderwijsontwerp volgens het 4C/ID-model resulteert in een verzameling taken, is het mogelijk vraaggestuurd onderwijs te realiseren. Vraaggestuurd leren betekent in optima forma dat elke leerling steeds opnieuw zijn of haar volgende leertaak mag kiezen. Van Merriënboer, Schuurman, de Croock, en Paas (2002) toonden aan dat het geven van controle aan leerlingen over een specifiek type leertaak (completeertaak) positieve resultaten oplevert in termen van taakbetrokkenheid. De keuze in leertaken kan echter worden uitgebreid tot een keuze in ondersteuning en begeleiding die bij de volgende leertaak geboden wordt, de complexiteit en moeilijkheid van deze taak (d.w.z, de taakklasse waar de taak deel van uitmaakt), alsmede andere kenmerken waarop taken van elkaar kunnen verschillen. Kicken, Brand-Gruwel en van Merriënboer (2005) hebben een model ontwikkeld dat weergeeft hoe het taakselectieproces van een leerling ondersteund en verbeterd kan worden teneinde autonoom leren te stimuleren (zie Figuur 2).
PORTFOLIO
ADVIES
TAKENBAK
Taakkenmerken Prestatie op taak Mentale inspanning Tijd
taakselectie door student
Zelfstandigheid
BEOORDELING
taakuitvoering
Figuur 2. Model voor het selecteren van leertaken (Kicken et al, 2005). Kern van het model vormen de drie informatiebronnen, weergegeven als de drie elementen binnen de grote pijl: het portfolio, de takenbak waaruit leertaken gekozen worden, en het advies bij het selecteren van de volgende leerta(a)k(en). Op basis van deze bronnen maakt de leerling een selectie uit de taken die in de takenbak beschikbaar zijn. Vervolgens voert de leerling de taak uit en volgt een beoordeling. Deze beoordeling vindt plaats op een set van beoordelingscriteria. De scores worden vervolgens in het portfolio opgenomen, waarna het selectieproces opnieuw kan beginnen.
4
Dit onderzoeksproject richt zich met name op de constructie van de criteria en de scoring op deze criteria. Het vaststellen van criteria is het moeilijkste onderdeel in het ontwerp van assessments (Sluijsmans, Dochy, & Moerkerke, 1999; Straetmans, Sluijsmans, Bolhuis, & van Merriënboer, 2003). Criteria zijn de basis om studievoortgang vast te stellen en weerspiegelen de kritische aspecten van een leertaak. Het is van belang dat beoordelingscriteria informatie bevatten over wat er beoordeeld wordt met welk doel en welke standaarden moeten worden behaald. Maar de beoordelingscriteria moten vooral goed begrepen worden door de beoordelaars. Beoordelingscriteria hebben betrekking op taakkenmerken, maar kunnen ook gericht zijn op de tijd die besteed is aan de taak, of de moeite die de taakuitvoering heeft gekost (mentale inspanning). Als criteria niet op een goede wijze worden gescoord, is het mogelijk dat de keuzes die genomen worden op basis van deze scores niet betrouwbaar zijn. Onderzoekers uit verschillende disciplines zijn tot de eenduidige conclusie gekomen dat de beoordelingsovereenstemming tussen assessoren met betrekking tot de kwaliteit van leren te wensen overlaat (Engelhard, 1996; Hofstee, 1983; Straetmans, 1985; Linn, Baker, & Dunbar, 1991; Lunz, Wright & Linacre, 1990). Goed beoordelen is moeilijk, zeker als het gaat om het beoordelen van hele leertaken waar een set van kwalitatief verschillende beoordelingscriteria aan ten grondslag ligt. De kwaliteit van beoordelingen wordt vooral bepaald door de accuraatheid van de gegeven scores op criteria. Roossink (2006) onderscheidt zes typen beoordelaarsfouten die leiden tot scores die niet accuraat zijn. Het signifisch effect betekent dat er beoordelingsfouten ontstaan als gevolg van verschillen van opvatting over de taak. De criteria laten ruimte voor de beoordelaar waardoor subjectief wordt beoordeeld. Volgens Voss and Post (1990) is dit probleem niet zozeer gerelateerd aan de divergente blik van een individu, maar meer aan verschillende invalshoeken van een groep van individuen. Het tweede type beoordelaarssfout staat bekend als het halo-effect. Hierbij wordt de beoordeling beïnvloed door in het oog springende kenmerken die een te zwaar gewicht krijgen in de beoordeling (Borman, 1975). Contaminatie is het derde type beoordelaarsfout, waarbij oneigenlijke doeleinden bij de beoordeling een rol spelen. Er wordt bijvoorbeeld soepeler beoordeeld om een hoger slagingspercentage te krijgen. Het volgorde-effect als vierde type beoordelaarsfout ontstaat wanneer voorafgaande beoordelingen invloed hebben op de beoordeling waarom het gaat. Dit is het geval wanneer na een aantal onvoldoendes toch maar een voldoende wordt gescoord. Een vijfde type fout heeft te maken met persoonlijke beoordelingstendenties. Beoordelaars verschillen in de wijze waarop ze criteria interpreteren (Sadler, 1983). Fouten kunnen ontstaan door manieren van beoordelen die aan de beoordelaar kleven en niet zijn ingegeven door de beoordelingstaak. De ene beoordelaar zal als uitgangspunt nemen dat op een aantal criteria een minimum standaard behaald moet worden, terwijl een andere beoordelaar een slechte score op het ene criterium compenseert met een goede score op een ander criterium. Tenslotte is er sprake van scoringstendenties. Er zijn veel verschillen tussen de stijlen en standaarden van beoordelaars (Coffman, 1971; De Groot, 1975). Sommige beoordelaars zijn geneigd om consequent hoge scores te geven (‘lenient raters’), terwijl anderen juist strenger zijn in hun beoordelingen (‘severe raters’; zie ook Lunz, Wright, & Linacre, 1990). Ook kunnen ze verschillen in de mate waarop ze scores verdelen over een scoreschaal. De ene beoordelaar scoort gespreid, de andere vooral om het gemiddelde. In een eerste studie zal worden verkend wat de verschillen tussen beoordelaars zijn en welke beoordelaarsfouten hierbij aan de orde zijn. Naast de kans op beoordelaarsfouten die scores minder betrouwbaar maken, blijkt ook dat kenmerken van beoordelaars van invloed zijn op de kwaliteit van beoordelingen (Lee, 1988; Obach, 2003). Eén kenmerk is het niveau van domeinexpertise. Uit onderzoek blijkt bijvoorbeeld dat zwakke leerlingen zichzelf vaker positiever beoordelen ten opzicht van peer- en docentscores, terwijl goede leerlingen juist een neiging vertonen tot onderschatting (Boud & Falchikov, 1989; Miller, 2003; Topping, 2003). Verder blijken leerlingen in hogere leerjaren beter in staat te zijn hun gedrag te beoordelen dan eerstejaars (Boud & Falchikov, 1989). Verschillen in scores tussen beoordelaars kunnen ook worden toegewezen aan verschillen in referentiekader (Miller, 2003), die de interpretatie van de beordelingscriteria beïnvloeden. Leerlingen zetten hun prestatie sneller af tegen de prestatie op een vorige leertaak, terwijl docenten en praktijk- of stagebegeleiders juist sneller uitgaan van een ‘gouden standaard’. Wanneer beoordelaars deficiënties hebben in hun domeinexpertise, zijn zij minder in staat sterktes en zwaktes te herkennen en adequate verbeterpunten aan te dragen. Beoordelaars met weinig domeinexpertise zijn minder goed in staat om moeilijke leertaken te beoordelen dan beoordelaars met veel domeinexpertise, die voorkennis bezitten die bestaat uit meer geïntegreerde cognitieve schema’s
5
die van belang zijn voor de te beoordelen leertaak. Lin, Liu en Yuan (2001) toonden aan dat het beoordelen van medeleerlingen vooral belastend was voor leerlingen met weinig domeinkennis en adviseren om het beoordelingsinstrument aan te passen voor beoordelaars met veel domeinkennis (gevorderde leerlingen, docenten en werkveld, ervaren beoordelaars) en beoordelaars met weinig domeinkennis (beginnende leerlingen, onervaren beoordelaars). Vanuit de 4C/ID-filosofie kan dit betekenen dat bij beginnende leerlingen veel ondersteuning wordt geboden in het beoordelingsinstrument. Concreet betekent dit dat criteria zo specifiek mogelijk worden geoperationaliseerd, mogelijk met voorbeelden en dat tevens de scoremogelijkheden worden toegelicht (Wat is voldoende? Wat is goed?). Naarmate een leerling vordert in het leerproces en vaardigheden beklijven, kunnen meer globale criteria en louter de scoremogelijkheden voldoende zijn. In een eerste studie wordt onderzocht wat de effecten van scoringsspecificiteit en domeinexpertise zijn op de betrouwbaarheid van beoordelingen. Een interactie-effect tussen de beoordelaar en mate van specificiteit in criteria kan worden verwacht, waarbij een set van specifieke criteria vooral nuttig is voor beoordelaars met weinig domeinexpertise, terwijl globale criteria voldoende kunnen zijn voor beoordelaars met veel domeinexpertise. Op basis van de resultaten van de eerste studie zal het ontwikkelingsportfolio worden aangevuld met zogenaamde reflectiestimulerende pop-ups (RSP’s). Pop-ups zijn vensters die automatisch verschijnen zonder expliciete opdracht van de gebruiker. Een kleinschalig onderzoek heeft aangetoond dat reflectieprompts een positief effect hebben op zelfregulatievaardigheden van leerlingen (Van den Boom, Paas, Van Merriënboer, & Van Gog, 2004). RSP’s kunnen de beoordelaar stimuleren na te denken over de gegeven scores op criteria, wat vervolgens kan leiden tot een groeiende overeenstemming tussen beoordelaars en een afname in beoordelaarsfouten (Sluijsmans, BrandGruwel, Van Merriënboer, & Martens, 2004). De kwaliteit van beoordelingen in portfolio’s zonder RSP’s zal worden vergeleken met de kwaliteit van beoordelingen in portfolio’s met RSP’s, waarbij de verwachting is dat de laatste het meest effectief is en leidt tot hogere interbeoordelaarsbetrouwbaarheid, maar vooral tot een toename in de beoordelingsvaardigheid van leerlingen. Naarmate beoordelaars meer overeenstemming bereiken over de kwaliteit van prestaties, kunnen adviezen vanuit de opleiding steeds minder sturend en concreet worden. Bovendien kan het aantal beschikbare taken waaruit leerlingen zelf kunnen kiezen langzaamaan toenemen, omdat zij steeds beter in staat zullen zijn om hieruit zelfstandig een selectie te maken van relevante taken.
Onderzoeksopzet Het project zal worden uitgevoerd binnen het domein Zorg en Maatschappelijke Diensverlening van ROC A12. Dit domein bestaat uit de domeinclusters Verpleging en Verzorging, Onderwijs en Welzijn, en Sport en Beweging. Het onderzoek zal bestaan uit een viertal fasen. In de eerste fase zal door het onderzoeksteam en een ontwikkelteam (een multidisciplinair team van docenten uit het domein) worden gewerkt aan de ordening van beschikbare leertaken in taakklassen, de eventuele verfijning van de leertaken, en het specificeren van beoordelingscriteria voor deze taken. De dimensies die bepalend zijn voor de authenticiteit van leertaken (Gulikers, Bastiaens, & Kirschner, 2004) en de kwaliteitscriteria voor assessments (Baartman, Bastiaens, & Kirschner, 2004) zijn hierbij leidend om variatie in taken te waarborgen. Voor de analyse van leertaken om te komen tot meetbare beoordelingscriteria wordt gebruik gemaakt van de basisprincipes van het Protocol Portfolio Scoring (Straetmans, Sluijsmans, Bolhuis, & van Merriënboer, 2003). In deze fase zal nauwkeurig het analyseproces worden gevolgd, waarbij specifieke aandacht is voor de ontwikkeling van beoordelingscriteria die domeinoverstijgend zijn en beoordelingscriteria die domeinspecifiek zijn. Parallel aan Fase 1 zal worden gewerkt aan de vormgeving van het ontwikkelingsportfolio, waarvoor de leertaken en de beoordelingscriteria input zijn. In de tweede fase van het project zal een eerste empirische studie worden uitgevoerd op basis van een gevuld portfolio. De effecten van de mate van scoringsspecificiteit en domeinexpertise op de kwaliteit van beoordelingen zal worden onderzocht. Tevens wordt onderzocht wat de verschillen zijn tussen de beoordelingen van meerdere beoordelaars (leerlingen, medeleerlingen, docenten, werkveld) en wat mogelijke verklaringen zijn voor deze verschillen. In de derde fase wordt op basis van de resultaten van de eerste studie een tweede studie uitgevoerd met een focus op het effect van RSP’s op de beoordelingsvaardigheid van betrokkenen. In
6
de vierde fase zullen de resultaten van de twee empirische studies richtinggevend zijn voor de implementatie van het ontwikkelingsportfolio ten behoeve van vraaggestuurd en flexibel leren in andere ROC-domeinen. De bruikbaarheid van het portfolio zal worden geëvalueerd met instrumenten die ook in de eerdere onderzoeksfasen worden toegepast. Fase 1 Ontwikkelen van leertaken en beoordelingscriteria In de eerste fase zal door het onderzoeksteam en een ontwikkelteam (N = 6-10) worden gewerkt aan materialen die nodig zijn voor de studies. Het ontwikkelteam zal eerst een training volgen waarbij de principes van vraagsturing in competentiegericht onderwijs worden uiteengezet. Gedurende het hele ontwikkelproces zal het ontwerpproces worden gedocumenteerd door (1) gestructureerde interviews met de teamleden, (2) dagboeken die door enkele teamleden worden bijgehouden, en (3) twee focusbijeenkomsten, halverwege en aan het eind van het ontwikkelproces. Na het voltooien van het ontwikkelproces zullen experts het ontwikkelde materiaal beoordelen. Dit materiaal bestaat uit: Een bak met leertaken. Deze bak bevat een aantal taakklassen, oftewel categorieën van leertaken, die in complexiteit verschillen. De beschikbare leertaken worden geordend in taakklassen en zo nodig nader uitgewerkt met verschillende niveaus van leerlingondersteuning. Een hoog niveau van ondersteuning wordt gegeven door middel van een uitgewerkt voorbeeld of casestudie. In een casestudie wordt de leerling geconfronteerd met de gegeven toestand, de gewenste doeltoestand èn de oplossing - inclusief eventuele deeloplossingen - van een probleem. Een middelmatig niveau van ondersteuning wordt geboden door bijv. completeertaken. Kenmerkend voor deze taken is dat de leerling al een gedeelte van de oplossing voor het probleem gegeven krijgt. Bij taken zonder ondersteuning wordt alleen een gegeven toestand en criteria voor een acceptabele doeltoestand gegeven. Dit is het type leertaken waarbij leerlingen geheel zelfstandig de taak moeten uitvoeren. Het is van belang om een hoge mate van variatie in leertaken te waarborgen, om transfer in leren te bewerkstelligen (Paas & van Merriënboer, 1994). Beoordelingscriteria. Om te komen tot valide taken met bijbehorende beoordelingscriteria wordt gebruik gemaakt van het Protocol Portfolio Scoring (PPS; Straetmans et al, 2003). PPS maakt het mogelijk om de studievoortgang van een leerling ten aanzien van een aantal beoordelingscriteria te volgen door resultaten van taken op te slaan in een portfolio. Een dergelijk portfolio heeft vier kenmerken. Het eerste kenmerk is dat in het portfolio bewijzen worden vergaard uit een grote variatie aan taken. Net als objectieve studietoetsen moeten de resultaten op taken voldoen aan de gebruikelijke kwaliteitskenmerken voor betrouwbaarheid en validiteit, maar ook aan kenmerken als de nauwkeurigheid van de resultaten, de cognitieve complexiteit van de taak, de authenticiteit van de taakuitvoering, de transparantie van de assessment en de eerlijke kans die leerlingen via de taak gekregen hebben om te laten zien dat ze de relevante vaardigheden hebben verworven (Baartman et al., 2004). Omdat geen enkele taak kan voldoen aan alle kwaliteitskenmerken, moet niet alleen veel bewijs worden verzameld, maar dit bewijs moet ook worden verzameld met verschillende vormen van taken (Straetmans & Sanders, 2002). Het tweede kenmerk van PPS is dat het gedrag van de leerling, ongeacht de gebruikte taak, steeds beoordeeld wordt aan de hand van dezelfde set van beoordelingscriteria. Alleen dan is het zinvol om de resultaten van verschillende bewijsstukken “bij elkaar te tellen”. Deze beoordelingscriteria vormen tezamen een operationalisatie van de betreffende leertaak. Welke beoordelingscriteria in een bepaalde beoordelingssituatie gebruikt worden, hangt af van de taak die wordt beoordeeld en de beoordelaar. Het bepalen van een standaard voor elk criterium is het derde kenmerk van PPS. Het vierde kenmerk tenslotte is het komen tot een beslissing waarbij een verticale en horizontale evaluatie nodig is. De verticale evaluatie is nodig om vast te stellen aan welke specifieke criteria nog niet wordt voldaan. Elk criterium wordt middels een aantal taken beoordeeld. Bij de horizontale evaluatie worden alle beoordelingscriteria met betrekking tot een specifieke taak beoordeeld. De leerling gaat alleen maar verder met taken van een hogere complexiteit wanneer zowel de verticale als de horizontale evaluatie positief is. Ontwikkelingsportfolio. Op basis van de takenbak en de beoordelingscriteria zal een ontwikkelingsportfolio worden ontworpen waarin leerlingen, medeleerlingen, docenten en betrokkenen uit het werkveld beoordelingen kunnen geven op uitgevoerde taken.
7
Fase 2 Verschillen tussen beoordelaars In deze fase wordt in een eerste studie onderzocht welke invloed specificiteit van criteria en type beoordelaar heeft op de kwaliteit van beoordelingen. Voorafgaand aan de studie zal bij de leerlingen een test worden afgenomen om een score op domeinexpertise te bepalen. Bij de andere beoordelaars (docenten, werkveld) wordt een bepaalde mate van domeinexpertise verondersteld. Vervolgens werken studenten gedurende een half jaar aan een reeks leertaken en worden de beoordelingen op deze taken, gegeven door verschillende beoordelaars, opgeslagen in het ontwikkelingsportfolio. ANOVA’s en geplande contrasten zullen worden uitgevoerd om verschillen tussen beoordelaars te onderzoeken. De effecten van scoringsspecificiteit en type beoordelaar op de kwaliteit van de beoordeling, de percepties van de beoordelaars en de moeite die het beoordelaars kost om te beoordelen zullen worden onderzocht. Verwacht wordt dat elk type beoordelaar (leerlingen, docenten, werkveld) een andere beoordelingsstijl vertoont. Het is bijvoorbeeld mogelijk dat beoordelaars uit het werkveld niet elk criterium kunnen scoren of dat studenten zichzelf systematisch overschatten in vergelijking met medebeoordelaars. Een interactie-effect tussen type beoordelaar en mate van specificiteit in criteria kan worden verwacht, waarbij een set van specifieke criteria vooral leidt tot een reductie van beoordelaarsfouten bij beoordelaars met weinig domeinexpertise (leerlingen), terwijl globale criteria voldoende kunnen zijn voor beoordelaars met veel domeinexpertise (docenten, werkveld). Fase 3 Reflectiestimulerende pop-ups (RSP’s) Fase 2 levert een analyse op van beoordelingsstijlen die gevoelig zijn voor bepaalde beoordelaarsfouten. Op basis hiervan kunnen RSP’s worden ontworpen. Deze RSP’s verschijnen op het moment dat de beoordelaar een beoordelingsstrategie hanteert die kan leiden tot minder betrouwbare beoordelingen. Voorbeelden van pop-ups kunnen zijn: Je beoordeelt jezelf lager dan de vorige keer, klopt dit? Criteria 4 en 5 zijn niet beoordeeld, klopt dit? Je beoordeelt jezelf op dit criterium consequent hoger dan je docent, hoe zou dat kunnen komen? In een tweede studie zal een groep beoordelaars die met een ontwikkelingsportfolio werkt waarin RSP’s worden geïntegreerd worden vergeleken met een groep beoordelaars die geen RSP’s ontvangen. Verwacht wordt dat het ontwikkelingsportfolio met geïntegreerde RSP’s tot meer betrouwbaar beoordelingsgedrag zal leiden en ook positieve effecten heeft op het leerproces. Fase 4 Implementatie van het ontwikkelingsportfolio in andere ROC-domeinen De resultaten van Fase 1, 2 en 3 leveren praktische richtlijnen op voor de vormgeving van een ontwikkelingsportfolio waarbij rekening wordt gehouden met verschillen tussen beoordelaars, domeinexpertise, specificiteit van criteria en RSP’s. In de slotfase van het project zal de waarde van deze richtlijnen worden onderzocht. Een ontwikkelteam uit het domain Hospitality en Recreatie en zo mogelijk een derde ROC-domein zal het ontwikkelingsportfolio met criteria op eenzelfde wijze ontwikkelen en implementeren als in fase 1. Om het ontwikkel- en implementatieproces te volgen zullen dezelfde meetinstrumenten worden gebruikt als in Fase 1 (interviews, dagboeken en expertbeoordelingen). De bevindingen worden gepresenteerd op een ROC-conferentie.
Referenties Baartman, L., Bastiaens, Th., & Kirschner, P. (2004, May). Requirements for Competency Assessment Programmes. Paper presented at the Onderwijs Research Dagen, Utrecht, The Netherlands. Borman, W. C. (1975). Effects of instruction to avoid halo error on reliability and validity of performance evaluation ratings. Journal of Applied Psychology, 60, 556-560. Boud, D., & Falchikov, N. (1989). Quantitative studies of self assessment in higher education: A critical analysis of findings. Higher Education, 18, 529–549. Coffman, W. E. (1971). Essay examinations. In R. L. Thorndike (Ed.), Educational Measurement (pp. 271-302). Washington, DC: American Council on Education. De Groot, A. D. (1975). Methodology (9th Ed.). The Hague, The Netherlands: Mouton.
8
Engelhard, G. (1996). Evaluating rater accuracy in performance assessments. Journal of Educational Measurement, 33, 56-70. Gulikers, J., Bastiaens, Th., & Kirschner, P. (2004). A five-dimensional framework for authentic assessment. Educational Technology Research & Development, 52, 67-85. Hofstee, W. K. B. (1983). Beoordeling van subsidie-aanvragen voor onderwijsresearch: Een psychometrische evaluatie. Tijdschrift voor Onderwijsresearch, 8, 273-284. Kicken, W., Brand-Gruwel, S., & van Merriënboer, J. J. G. (2005, May). Advisering bij het kiezen van leertaken in het vraaggestuurd onderwijs. Poster presented at the Onderwijs Research Dagen (ORD), Gent, Belgium. Lee, J. A. (1988). The effects of cognitive style on rating accuracy with an overall rating scale. Human Performance, 1, 261-271. Lin, S. S. J., Liu, E. Z. F., & Yuan, S. M. (2001). Web-based peer assessment: Feedback for students with various thinking-styles. Journal of Computer Assisted Learning, 17, 420-432. Linn, R. L., Baker, E. L., & Dunbar, S. B. (1991). Complex, performance-based assessment: Expectations and validation criteria. Educational Researcher, 20, 8, 15-21. Lunz, M.E., Wright, B., & Linacre, M. (1990). Measuring the impact of judge severity on examination scores. Applied Measurement in Education, 3, 331-345. Miller, P. J. (2003). The effect of scoring criteria specificity on peer and self-assessment. Assessment and Evaluation in Higher Education, 28, 383-394. Obach, M. S. (2003). A longitudinal sequential study of perceived academic competence and motivational beliefs for learning among children in middle school. Educational Psychology, 23, 323-338. Roossink, H. (2006). Valkuilen voor beoordelaars. Enschede: Universiteit Twente. Sadler, D. R. (1983). Evaluation and the improvement of academic learning. Journal of Higher Education, 54, 60-79. Sluijsmans, D. M. A., Brand-Gruwel, S., Van Merriënboer, J., & Martens, R. (2004). Training teachers in peer-assessment skills: Effects on performance and perceptions. Innovations in Education and Training International, 41, 59-78. Sluijsmans, D. M. A., Dochy, F., & Moerkerke, G. (1999). Creating a learning environment by using self- peer- and co-assessment. Learning Environments Research, 1, 293-319. Straetmans, G. (1985). Evaluatie in het tandheelkundig onderwijs: Beoordelen van practicumwerkstukken en meten van probleemoplosvaardigheid. Academisch proefschrift. Nijmegen: Katholieke Universiteit. Straetmans, G., & Sanders, P. F. (2002). Beoordelen van competenties van docenten. Den Haag: Programmamanagement EPS/HBO-raad. Straetmans, G., Sluijsmans, D., Bolhuis, B. & Van Merriënboer, J. (2003). Integratie van instructie en assessment in competentiegericht onderwijs. Tijdschrift voorHoger Onderwijs, 3, 171-197. Sweller, J., van Merriënboer, J. J. G. & Paas, F. (1998). Cognitive architecture and instructional design. Educational Psychology Review, 10, 251-296. Topping, K. (2003). Self and peer assessment in school and university: Reliability, validity, and utility. In Segers, M., Dochy, F., and Cascallar, E. (Eds.), Optimising new modes of assessment: In search of qualities and standards (pp. 55-87). Dordrecht, the Netherlands: Kluwer Academic Publishers. Van den Boom, G., Paas, F., Van Merriënboer, J. J. G., & Van Gog, T. (2004). Reflection prompts and tutor feedback in a web-based learning environment: effects on students’ self-regulated learning competence. Computers in Human Behavior, 20, 551-567. Van Merriënboer, J. J. G., Jelsma, O., & Paas, F. (1992). Training for reflective expertise: A fourcomponent instructional design model for training complex cognitive skills. Educational Technology, Research and Development, 40, 23-43. Van Merriënboer, J. J. G.(1997). Training complex cognitive skills. Englewood Cliffs, NJ: Educational technology publications. Van Merriënboer, J. J. G., Schuurman, J., de Croock, M., & Paas, F. (2002). Redirecting learners' attention during training: Effects on cognitive load, transfer test performance and training. Learning and Instruction, 38, 11-39. Van Merriënboer, J. J. G., & Sweller, J. (2005). Cognitive load theory and complex learning: Recent developments and future directions. Educational Psychology Review, 17, 147-177.
9
Voss, J. F., & Post, T. A. (1990). On the solving of ill-structured problems. In N. Frederiksen, R. Glaser, A. Lesgold, & M. G. Shafto (Eds.), Diagnostic monitoring of skill and knowledge acquisition (pp. 261-285). Hillsdale, NJ: Erlbaum.
Planning September – November 2006
November 2006 – Maart 2007
Maart – April 2007 Mei - Augustus 2007
September – November 2007 November 2007 – Maart 2008 Maart – Juni 2008 Juli – November 2008 December 2008 – April 2009 April – Juli 2009 Augustus 2009 - Januari 2010 Februari – Augustus 2010
Literatuurstudie; verdiepen in het onderzoeksdomein; leggen van contacten met betrokkenen vanuit het ROC A12 FASE 1 Samenwerking met ontwikkelteam om de takenbak te vullen en de beoordelingscriteria vast te stellen, komen tot een eerste versie van het ontwikkelingsportfolio Expertbeoordeling van de ontwikkelde materialen, revisie van de materialen Rapportage met betrekking tot de expertbeoordeling in een eerste artikel FASE 2 Voorbereiding Studie 1, in het bijzonder de verfijning van beoordelingscriteria Uitvoeren Studie 1 Data-analyse en rapportage Studie 1 FASE 3 Voorbereiden Studie 2, in het bijzonder de reflectiestimulerende pop-ups Uitvoeren Studie 2 Data-analyse en rapportage Studie 2 FASE 4 Implementatie van het ontwikkelingsportfolio in een ander domein Afronding proefschrift
10