COTAN: kwaliteit van tests en testgebruik dr. Iris J.L. Egberink Eindredacteur Testbeoordelingen, COTAN Universitair Docent, Psychometrie & Statistiek, Rijksuniversiteit Groningen
VOCAP 35 jaar – Academische zitting, 1 oktober 2013
Inleiding • Universitair Docent, Rijksuniversiteit Groningen - Afdeling Psychometrie & Statistiek - Onderzoek: toepassing van item respons theorie - voor het in kaart brengen van de kwaliteit van tests/vragenlijsten - voor het in kaart brengen van antwoordgedrag
• Eindredacteur Testbeoordelingen, COTAN - Commissie Testaangelegenheden Nederland - opvolger van Arne Evers per juni 2012
2
Overzicht • Inleiding over de COTAN • COTAN Beoordelingssysteem • Beoordelingsprocedure • Trends en ontwikkelingen - Computer-gebaseerd testen en testen via het Internet - Korte schalen - Fairness
3
Intro COTAN (1) Commissie Testaangelegenheden Nederland • Eén van de verschillende bestuurscommissies van het Nederlands Instituut van Psychologen (NIP) • ‘Missie’: Bevorderen van de kwaliteit van tests en testgebruik door testontwikkelaars, testgebruikers en testuitgevers te informeren over de beschikbaarheid, de inhoud en de kwaliteit van tests - beoordelen van kwaliteit van psychodiagnostiche instrumenten - standaarden opstellen over gebruik van psychologische tests 4
Intro COTAN (2) Commissie Testaangelegenheden Nederland • Beoordelen van kwaliteit van psychodiagnostiche instrumenten - Instrumenten die worden toegepast in settings zoals human resource management, scholen, (geestelijke) gezondheidszorg
- COTAN Beoordelingssysteem voor de kwaliteit van tests (Evers, Lucassen, Meijer, & Sijtsma, 2010)
- COTAN Documentatie digitale database met een beschrijving van alle in Nederland beschikbare tests en een korte samenvatting van het onderzoek dat met deze tests is uitgevoerd www.cotandocumentatie.nl 5
Intro COTAN (3) Commissie Testaangelegenheden Nederland • Standaarden opstellen over gebruik van psychologische tests - Algemene Standaard Testgebruik bevat richtlijnen voor professioneel handelen bij testgebruik en het psychodiagnostische proces
6
Samenstelling van de COTAN • Leden: - 1 vertegenwoordiger van elke universiteit - NIP commissie leden - van de sectoren Arbeid & Organisatie, Gezondheidszorg en Jeugd
- Experts uit verschillende werkgebieden/grote bedrijven - zoals KLM en CITO
• Op dit moment 19 COTAN leden • Er is ook een pool van externe beoordelaars - Verschillende professionals; zowel onderzoekers als praktijkmensen
• Het zijn allemaal vrijwilligers! 7
COTAN Beoordelingssysteem (1) Met het beoordelingssysteem worden de volgende zeven criteria beoordeeld (onvoldoende/voldoende/goed): 1. 2. 3. 4. 5. 6. 7.
Uitgangspunten van de testconstructie Kwaliteit van het testmateriaal Kwaliteit van de handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
8
COTAN Beoordelingssysteem (2) 1. Uitgangspunten van de testconstructie beschrijving van het gebruiksdoel, de theoretische achtergrond en operationalisatie daarvan in de testinhoud - definitie en operationalisatie van het construct; beschrijving van de doelgroep; functie van de test; theoretische onderbouwing van het ontwikkelingsproces
2. Kwaliteit van het testmateriaal voor zowel P&P versie als computer-gebaseerde versie - gestandaardiseerde testopgaven; objectiviteit van het scoringssystem; aan/afwezigheid van racistische, seksistische en/of voor bepaalde groepen kwetsende item-inhoud; instructies voor de geteste
9
COTAN Beoordelingssysteem (3) 3. Kwaliteit van de handleiding begrijpelijkheid van de informatie in de handleiding om weloverwogen en verantwoord testgebruik door de testgebruiker mogelijk te maken - volledigheid van de instructies voor succesvolle testafname, voorbeeldbeschrijvingen, beschikbaarheid van indicaties voor testscore interpretatie, vermelden van mate van deskundigheid voor afname en interpretatie van de test
4. Normen normgerichte-, domeingerichte-, en criterium-gerichte interpretatie - beschikbaarheid van normen, steekproefgrootte, representativiteit van de steekproef, jaar of periode van dataverzameling
10
COTAN Beoordelingssysteem (4) 5. Betrouwbaarheid verschillende eisen voor tests voor belangrijke beslissingen op individueel niveau, tests voor minder belangrijke beslissingen op individueel niveau en tests voor onderzoek op groepsniveau - kwaliteit van onderzoeksdesign en volledigheid van de verstrekte informatie - gebruik van andere methoden dan coefficient alpha wordt toegestaan en aangemoedigd, zoals Guttman’s lambda2 en greatest lower bound
6. Begripsvaliditeit Verschillende typen onderzoek als ondersteuning: onderzoek naar de dimensionaliteit van de scores, psychometrische kwaliteit van de items, invariantie van de factorstructuur en mogelijke itembias, convergente en discriminante validiteit, verschillen tussen relevante groepen - kwaliteit van onderzoeksdesign en volledigheid van de verstrekte informatie 11
COTAN Beoordelingssysteem (5) 7. Criteriumvaliditeit Bewijs moet aantonen dat een testscore een goede voorspeller van niettestgedrag of uitkomstmaten is. De voorspelling kan gericht zijn op het verleden (retrospectieve validiteit), op hetzelfde moment (‘concurrent validity’), of op de toekomst (predictieve validiteit) - kwaliteit van onderzoeksdesign en volledigheid van de verstrekte informatie
12
Beoordelingsprocedure • Gratis voor testauteur en/of testuitgever • Twee anonieme beoordelaars - vergelijkbaar met peer reviews bij onderzoek - COTAN lid met externe beoordelaar, psychometricus met inhoudsexpert, onderzoeker met professional uit de praktijk
• Verschillen in beoordelingen worden besproken • Eindredacteur combineert de beoordelingen tot één beschrijving en vat de oordelen voor de zeven criteria samen • Test auteur/uitgever kan hiertegen eenmalig bezwaar maken • Vanwege de beschikbaarheid van de beoordelaars, herbeoordeling van een instrument minimaal één jaar later
13
Doel van de beoordelingen 1. Testgebruikers informeren over de kwaliteit van de instrumenten. Deze informatie kan hen helpen bij de keuze van instrumenten. 2. Testauteurs feedback geven over de kwaliteit van het door hen ontwikkelde instrument. Het beoordelingssysteem kan voor hen een leidraad zijn bij de ontwikkeling van een test en het schrijven van een handleiding. • COTAN geeft geen kwaliteitskeurmerk af en/of advies over welke tests wel en niet te gebruiken zijn - verantwoordelijkheid van de psycholoog/testgebruiker!
14
Trends en ontwikkelingen (1) Computer-gebaseerd testen en testen via het Internet • In 2009 is het COTAN Beoordelingssysteem herzien, deze trend was één van de redenen voor de revisie - de teksten van de meeste criteria werden aangepast om zowel van toepassing te zijn voor P&P tests als computer-gebaseerde tests - specifieke vragen m.b.t. computer-gebaseerd testen werden toegevoegd - binnen bestaande vragen werden specifiekere beschrijvingen van de vereiste details toegevoegd
- vooral criterium 2 Kwaliteit van het testmateriaal moest herzien worden
15
Trends en ontwikkelingen (2) 2. Kwaliteit van het testmateriaal • specifieke vragen werden toegevoegd (verschillende vragen voor P&P tests en CB tests) - standaardisatie van de test: - Voor adaptieve tests: specificeren van de beslisregels voor het starten van de test, het selecteren van het volgende item en het beëindigen van de test
- scoren; geautomatiseerd of objectief scoringssystem?: - informatie aanleveren om correctheid van de scoring te kunnen controleren - met CBT is deze informatie vaak niet beschreven in de handleiding
- software ontwerp: - fouten door onjuist gebruik voorkomen? - maatregelen zoals uitschakelen van sneltoetsen, geen toegang tot harde schijf - Internet tests: beschrijving van maatregelen die de testgebruiker moet nemen 16
Trends en ontwikkelingen (3) 2. Kwaliteit van het testmateriaal • specifieke vragen werden toegevoegd (verschillende vragen voor P&P tests en CB tests) - Instructies voor de geteste: - ‘fouten’ voorkomen doordat de geteste niet weet hoe de software werkt - bijv., tijd per item of per test, uitleg van adaptief testen
- kwaliteit van de gebruikersinterface: - bijv., consistente en overzichtelijke lay-out, leesbaarheid van de informatie op het scherm en het gebruik van kleuren
- test beveiliging: - testontwikkelaars moeten al het mogelijke doen om toegang tot de test, de testinhoud en de testresultaten te beveiligen
17
Trends en ontwikkelingen (4) Computer-gebaseerd testen en testen via het Internet • Lopend project: Translation and adaptation of the ITC Guidelines on Computer-based and Internet-delivered Testing - Mogelijk: Algemene Standaard voor Computer-gebaseerd Testen - Doel: verhogen van de leesbaarheid voor testgebruikers - bijv., door het toevoegen van uitleg en voorbeelden Voorbeeld: 1.a.1.2: “conduct adequate usability testing of the system requirements using the appropriate delivery platforms to ensure consistency of appearance and delivery.”
-Toevoeging: Denk ook aan andere platformen dan een pc of laptop, bijvoorbeeld een tablet. 18
Trends en ontwikkelingen (5) Computer-gebaseerd testen en testen via het Internet • Dataverzameling is een grote uitdaging voor de praktijk - en tijd- en geldrovend!
• Dataverzameling via het internet is wellicht een oplossing • >> Unproctored vs proctored dataverzameling
Vraag van testuitgevers: Is het akkoord wanneer we unproctored data verzamelen?
19
Trends en ontwikkelingen (6) Computer-gebaseerd testen en testen via het Internet Vraag van testuitgevers: Is het akkoord wanneer we unproctored data verzamelen? • Persoonlijkheid/attitude vs intelligentie • Testafname: unproctored of proctored? • Hoe zit het met de representativiteit van de (unproctored) steekproef? • Voor onderzoek, meer nadruk op equivalentie van P&P tests en CB tests, en unproctored en proctored testafname. 20
Trends en ontwikkelingen (7) Korte(re) tests en vragenlijsten • aantal items vs breedte (‘bandwidth’) van het construct - Voorbeeld1: breed construct, 5 items, alpha = .90 (items zijn nagenoeg gelijk) - Is it ok?! - Voorbeeld2: smal construct (bijv. ‘intention to leave’), 3 items, alpha = .83 - Hoe vaak kun je dezelfde vraag opnieuw en opnieuw en opnieuw stellen?
21
Trends en ontwikkelingen (8) Fairness (onpartijdigheid) • Vanuit een maatschappelijk perspectief meer nadruk op fairness - Vooral bij testen
• Huidige beoordelingssysteem kent al fairness gerelateerde items • Doel project: een duidelijk overzicht geven m.b.t. het uitgevoerde fairness onderzoek met het instrument dat beoordeeld wordt/is • Voor onderzoek meer nadruk op DIF analyses en technieken - meer nadruk op effect grootte maten
22
Hartelijk dank!