Drieëndertig jaar na de eerste COTAN-enquête is in 2000 opnieuw het testgebruik van Nederlandse psychologen geïnventariseerd. De top-twintig voor 2000 wordt vergeleken met de ranglijsten in 1967, 1971 en 1976. Wetenschap
We zien forse ver-
Ontwikkelingen in het testgebruik van Nederlandse ps yc h o l o g e n
Arne Evers, Jac N. Zaal en Anouk K. Evers
schuivingen waarbij tevens blijkt dat de kwaliteit door
van
de
psychologen
satiepsychologie en beroepsIn 1967, 1971 en 1976 werden meest gebruikte tests aanzienlijk is toegenomen. keuze oververtegenwoordigd. op initiatief van de Commissie De mening van de gebruikers zelf over de testMet betrekking tot testgebruik Testaangelegenheden Nederbij Riagg’s concluderen De Ridland (COTAN) enquêtes gehoukwaliteit blijkt echter aanzienlijk positiever dan der-Meijer en Gazendam daarden naar testgebruik (NIP, 1969; die van experts. entegen dat de lijst van meest Roe, 1974; Evers & Zaal, 1979; gebruikte tests in 1989 nauweZaal & Evers, 1979). De enquêtes leverden informatie op over onder andere aard en omvang van lijks afwijkt van die uit de COTAN-enquête in 1976. het testgebruik in Nederland, opinies van testgebruikers over De bescheiden verbetering in de kwaliteit van gebruikte testkwaliteit, en hun behoeften op het gebied van opleiding tests tussen 1967 en 1976 lijkt een afspiegeling te zijn van de en instrumentarium. Het belang van dergelijke informatie geringe verbetering in de kwaliteit van beschikbare tests in de werd indertijd als volgt verwoord: ‘[...] trends die zich in de Documentatie van Tests en Testresearch in Nederland van 1974 populariteit van tests aftekenen zijn interessant voor gebrui- ten opzichte van 1969. De kwaliteitsverschillen in zowel gedokers en constructeurs, voor uitgevers en opinieleiders, voor cumenteerde als gebruikte tests zijn echter nog steeds aandocumentalisten en voor degenen die onderwijs geven.’ zienlijk. Kennelijk is een flink aantal tests waar het nodige aan (Evers & Zaal, 1979, p. 509). De trends die zowel Roe (1974) mankeert toch aantrekkelijker voor de gebruiker dan hun als Evers en Zaal (1979) in de gegevens ontdekten, waren ech- betere soortgenoten. Dat verklaart wellicht waarom de verter enigszins teleurstellend. Er traden slechts kleine ver- betering bij de gebruikte tests beperkt is gebleven, ondanks schuivingen op in de aard van de gebruikte tests. Belangrijker de kwaliteit die beschikbaar is. Zou dit ook betekenen dat de was echter de constatering dat de verbetering in de gemid- gestage stijging van de kwaliteit van de gedocumenteerde delde kwaliteit van de meest gebruikte tests bescheiden was tests over de afgelopen jaren, zoals het overzicht in de Docuen dat die kwaliteit sterk uiteenliep. Ook tijdens de enquête mentatie van 2000 laat zien, zich niet heeft vertaald in een verin 1976 kwam bij de meest gebruikte tests nog een flink aan- gelijkbare trendmatige verbetering van de kwaliteit van tal ondeugdelijke instrumenten voor. gebruikte tests? Dat zou dan een karige beloning zijn voor de De vraag is of deze situatie 25 jaar later is verbeterd. Moge- niet geringe inspanningen van het NIP en de COTAN in het bijlijk volgden de enquêtes tussen 1967 en 1976 te kort op elkaar zonder, en van testconstructeurs, onderwijsgevenden en tal om spectaculaire wijzigingen in testgebruik zichtbaar te van anderen die zich inzetten voor een verbetering van de maken. Over de ontwikkelingen in testgebruik in de periode kwaliteit van de psychodiagnostiek. na 1976 is wel enige informatie beschikbaar (Altink, Greuter Er is sinds de jaren tachtig het nodige veranderd in de & Roe, 1989; Candel, 1993; Krielen, Olivier & Peeters, 1988; opleiding psychologie en de opstelling van testuitgevers. De Ridder-Meijer & Gazendam, 1993), maar deze informatie Essentiële onderdelen van de psychodiagnostiek en testpsybetreft deelgebieden van de psychologie en/of is niet speci- chologie zijn niet langer verplicht, en afgestudeerde psychofiek genoeg. Mogelijk is dit ook de oorzaak van de tegenstrij- logen zonder noemenswaardige kennis van dit vakgebied zijn dige bevindingen in deze onderzoeken. Op het gebied van de geen uitzondering meer. Steeds meer testuitgevers houden personeelspsychologie wordt een toename in het gebruik van hun klanten voor dat een training van enkele dagen in deze arbeidsproeven en assessment centers geconstateerd (Candel, leemte kan voorzien. Is het kwaliteitsbesef van de psycholoog1993), hetgeen zou wijzen op verschuivingen in type tests dat testgebruiker onder deze onderwijskundige en commerciële wordt gebruikt. Krielen et al. signaleren op grond van een in invloeden geërodeerd of is het in stand gebleven en wellicht 1987 gehouden enquête flinke veranderingen bij psycholo- zelfs verbeterd? Uit een kortgeleden gepubliceerd internatiogen ten opzichte van 1976, maar in dit onderzoek waren psy- naal onderzoek naar de opvattingen over testgebruik blijken chologen werkzaam op het gebied van de arbeids- en organi- psychologen – ook degenen die zelf nauwelijks tests gebrui-
54
Wetenschap februari 2002
ken – uitgesproken opvattingen te hebben over de eisen die gesteld moeten worden aan de kwaliteit van tests en hun gebruikers (Evers, Evers & Zaal, 2001). Komt dit positieve beeld ook naar voren in de kwaliteit van de meest gebruikte tests?
Verklaring van testafkortingen ABV(-K)
(R)AKIT
Enquête 2000 BIT
De enquête naar testgebruik in 2000 heeft een grote hoeveelheid aan interessante gegevens opgeleverd, te veel om in één artikel te bespreken. Deze bijdrage is gewijd aan de analyse en bespreking van de gegevens over de frequentie van gebruik en de kwaliteit van de meest populaire tests. Het kwaliteitsaspect wordt zowel volgens de formele COTAN-beoordelingen als via het oordeel van de gebruiker zelf benaderd. Andere interessante aspecten, zoals verschillen in testgebruik naar vakgebied, functie en testdoel, zullen elders aan de orde komen. De vragenlijst over testgebruik bestaat uit 23 gedeeltelijk meerledige vragen. Enkele daarvan betreffen de achtergrond van de respondent (onder andere functie, type bedrijf of instelling, afdeling, psychodiagnostische scholing) en de aard, de omvang en het doel van het testgebruik. In de kernvraag voor dit artikel werd de testgebruiker verzocht alle door hem/haar in 1999 gebruikte tests te noemen, daarbij de omvang van het gebruik en het gebruiksdoel te vermelden en zijn/haar mening te geven over de kwaliteit van de betreffende tests. Het merendeel van de vragen is van het gedwongen-keuzetype met een wisselend aantal alternatieven. Ter wille van de vergelijkbaarheid zijn de meeste vragen gebaseerd op de enquête uit 1976 (Evers & Zaal, 1979; Zaal & Evers, 1979).
BWT CAT DAT(’83)
(G)EPPS GIT(/V) HAWIK HTP
Kuder MMPI(-2) NEO NPV(-J)
NVM PMT(-K)
Raven PM SB Revised SCL-90 SIW SON TAT THN TMT UCL
Respondenten
VPT
De hierboven beschreven enquête naar testgebruik werd tezamen met een enquête naar testattitude ingesloten in De Psycholoog en in mei 2000 naar alle leden van het NIP verstuurd. Een gefrankeerde antwoordenveloppe werd bijgesloten. De enquête naar testattitude was onderdeel van een Europees onderzoek (Evers et al., 2001). De enquête naar testgebruik werd alleen in Nederland afgenomen. In de begeleidende brief werden alle psychologen verzocht om de lijst over testattitude in te vullen; alleen regelmatige testgebruikers werd gevraagd om ook de lijst over testgebruik in te vullen. Van deze groep (dat wil zeggen 64% van de respondenten op de vragenlijst naar testattitude) heeft 75.9% de testgebruiklijsten teruggestuurd. Leeftijd, sekse en vakgebied van de repondenten verschillen niet van die van de doorsnee NIPleden. Zo is ruim de helft, namelijk circa 58%, werkzaam op het klinisch vakgebied. Bij de enquêtes van 1967 en 1971 werden de respondenten ook benaderd via De Psycholoog. Ook die onderzoeken gaan dus uitsluitend over NIP-leden. In 1976 daarentegen werd de enquête ook verstuurd naar andere personen waarvan bekend was dat ze tests gebruikten (niet-psychologen en nietNIP-leden). Ter wille van de vergelijkbaarheid beperken we ons
Wetenschap februari 2002
WAIS WISC(-R)
ZAT
15 WT
Amsterdamse Biografische Vragenlijst (K = voor kinderen) Amsterdamse Kinder Intelligentie Test (R = revisie 1984) Beroepen-Interesse Test Bourdon-Wiersma Test Children’s Apperception Test Differentiële Aanleg Testserie (’83 = versie 1983) Edwards Personal Preference Schedule (G = gekuiste versie) Groninger Intelligentie Test (V = verkorte versie) Hamburg Wechsler Intelligenz Test für Kinder House Tree Person Kuder Beroepsvoorkeur Onderzoek Minnesota Multiphasic Personality Inventory (2 = versie 2TM) NEO Persoonlijkheidsvragenlijst Nederlandse Persoonlijkheids Vragenlijst (J = junior versie) Nederlandse Verkorte MMPI Prestatie Motivatie Test (K = voor kinderen) Raven’s Progressieve Matrijzen Revised Stanford-Binet Klachtenlijst SCL Schaal voor Interpersoonlijke Waarden Snijders-Oomen Niet-Verbale Intelligentieschaal Thematic Apperception Test Testserie Hoger Niveau (TNVA, VAT en NAT) Ketentest of Trail Making Test Utrechtse Coping Lijst Vier Platen Test Wechsler Adult Intelligence Scale Wechsler Intelligence Scale for Children (R = revised versie) Zin Aanvul Test Nieuwe Vijftien Woorden Test
hier uitsluitend tot de gegevens van de psychologen, waaronder zich in 1976 dus ook een onbekend aantal niet-NIPleden bevond. De aantallen respondenten (en de bijhorende responspercentages) in de vier enquêtes zijn: 1967 N=80 (8.2%); 1971 N=168 (11.3%); 1976 N=131 (57.2%); 2000 N=1062 (16.0%).
Testkwaliteit De kwaliteitsbeoordeling van tests in de successieve enquêtes is gebaseerd op verschillende beoordelingssystemen. De kleine verbeteringen in kwaliteit die tussen 1967 en 1976 werden geconstateerd (Evers & Zaal, 1979) waren gebaseerd op beoordelingen met het oude COTAN-systeem, waarbij de kwa-
55
TEST
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Aantal gebruikers
WAIS NVM NPV WISC-R SCL-90 UCL MMPI(-2) ZAT GIT(/V)
Stroop 15 WT NPV-J PMT
(G)EPPS TMT BWT RAKIT
Raven PM DAT’83 NEO
406 391 388 344 343 323 322 310 240 192 190 169 150 136 134 133 133 131 129 126
Percentage gebruikers 38% 37% 37% 33% 32% 30% 30% 29% 23% 18% 18% 16% 14% 13% 13% 13% 13% 12% 12% 12%
TEST
1 NPV 2 SCL-90 3 NVM 4 UCL 5 MMPI(-2) 6 WISC-R 7 WAIS 8 DAT’83 9 THN 10 ZAT 11 GIT(/V) 12 NEO 13 SIW 14 15 WT 15 (G)EPPS 16 PMT 17 Stroop 18 TMT 19 NPV-J 20 BWT
Frequentie van gebruik
Gemiddeld per gebruiker
20500 19200 16800 12100 12000 11100 10700 10700 10700 8700 7900 7500 6600 6600 6400 6300 6200 5000 4900 4100
53 56 43 37 37 32 26 83 115 28 33 59 79 35 47 42 32 38 29 31
Tabel 1. Rangorde van tests naar percentage gebruikers en frequentie van gebruik
liteit van een test werd uitgedrukt in één letter, lopend van A tot F (NIP, 1974). In de Documentatie van Tests en Testresearch van 1982 (Visser, Van Vliet-Mulder, Evers & Ter Laak, 1982), is overgestapt op een beoordeling op vijf afzonderlijke criteria. In het huidige systeem werd dit uitgebreid tot zeven criteria (Evers, Van Vliet-Mulder & Groot, 2000). Om de kwaliteit van de tests over de verschillende jaren met elkaar te kunnen vergelijken zijn alle tests op basis van de toenmalige gegevens beoordeeld met het thans vigerende systeem van zeven criteria. Het merendeel van de tests uit de ranglijsten van 1967, 1971 en 1976 is opgenomen in de Documentatie van Tests en Testresearch uit 1982 (Visser et al., 1982). Van die tests was derhalve de beoordeling op de vijf criteria bekend. Deze konden eenvoudig worden omgezet naar beoordelingen op de zeven criteria van het huidige systeem. Vervolgens werd voor al deze tests nagegaan of tussen het jaar van de betreffende enquête en het jaar van beoordeling (1981/1982) publicaties of nieuwe versies waren verschenen. Indien dit het geval was, werd nagegaan hoe de beoordeling zou zijn uitgevallen zonder deze gegevens en zo nodig werd de beoordeling aangepast. Van drie tests uit de ranglijsten van 1967 tot en met 1976 die niet in de Documentatie van 1982 waren opgenomen, werd een complete beoordeling uitgevoerd op grond van het materiaal dat in het jaar van de betreffende enquête beschikbaar was.
Resultaten Om te beginnen worden de resultaten van de enquête in 2000 gepresenteerd. Vervolgens zullen deze resultaten worden vergeleken met die van voorgaande jaren. Daarbij zal met name worden gelet op het kwaliteitsaspect. Ten slotte zal voor de gegevens uit 2000 het kwaliteitsoordeel van de experts (de
56
COTAN-beoordeling) worden vergeleken met dat van de gebruikers.
Testparade 2000 Een eerste opvallend gegeven in de enquête-2000 is dat maar liefst ruim 800 verschillende tests worden genoemd.1 De 20 meest genoemde tests, de zogenaamde gebruikers-top-twintig, staan in de linkerhelft van Tabel 1. Wat in deze ranglijst opvalt is de snelle daling in het percentage gebruikers: de eerste acht tests worden door ongeveer eenderde van de psychologen gebruikt, waarna het percentage gebruikers snel afneemt tot 12% voor nummer 20. De nummer 50 in de ranglijst van meest genoemde tests wordt nog maar door 5% van de respondenten gebruikt, de nummer 130 door 1% en bijna 400 tests worden door slechts één gebruiker genoemd (0.1%). Een relatief klein aantal tests neemt aldus het overgrote deel van het testgebruik voor zijn rekening. Voor drie tests geldt dat uit de antwoorden van de respondenten niet altijd kon worden opgemaakt om welke versie het ging. Het betreft de Minnesota Multiphasic Personality Inventory en de MMPI-2, de Groninger Intelligentie Test en de Verkorte GIT, en de Edwards Personal Preference Schedule en de Gekuiste EPPS. De antwoorden voor deze versies zijn daarom samengenomen. Persoonlijkheidsvragenlijsten vormen met zeven vermeldingen de grootste categorie binnen de top-twintig. Daarna volgen de individueel af te nemen intelligentietests met vier vermeldingen. Binnen de top-twintig komt nog één projectieve techniek voor, namelijk de Zin Aanvul Test. In de rechterhelft van Tabel 1 treft men de zogenaamde frequentie-top-twintig aan. De getallen in deze ranglijst geven aan hoe vaak de tests worden afgenomen. De getallen zijn de som van de afnamefrequenties die door de gebruikers van een
Wetenschap februari 2002
bepaalde test zijn opgegeven. De frequentie-top-twintig bevat grotendeels dezelfde tests als de gebruikers-top-twintig, maar de positie van de meeste tests is verschoven. Vier persoonlijkheidsvragenlijsten en een klachtenlijst staan op de eerste vijf plaatsen. Begrijpelijkerwijs ziet men dat groepstests bij deze rangordening in het algemeen een hogere positie innemen dan individueel af te nemen tests. Dat geldt ook voor de twee groepstests die wél voorkomen in de frequentie-top-twintig, maar niet in de gebruikers-top-twintig. Het betreft de Testserie Hoger Niveau en de Schaal voor Interpersoonlijke Waarden. De individueel af te nemen Revisie Amsterdamse Kinder Intelligentie Test en Raven’s Progressieve Matrijzen komen niet voor in de frequentie-top-twintig, maar daarentegen wel in de gebruikers-top-twintig. In de eerste alinea van deze paragraaf werd gesteld dat een relatief klein aantal tests verantwoordelijk is voor het overgrote deel van het feitelijk testgebruik. Zo neemt de top-twintig, gerekend naar aantal gebruikers, 43.5% van het totale gebruik voor zijn rekening en de top-50 67.1%. De 381 tests die door één gebruiker worden genoemd zijn verantwoordelijk voor slechts 3.5% van het testgebruik. Niettemin leek het, vanwege dit grote aantal, interessant een inventarisatie van deze groep tests te maken. Deze inventarisatie laat zien dat een klein gedeelte, namelijk 8% (30 tests), in een van de edities van de Documentatie van Tests en Testresearch is beschreven. Circa 40% van de 381 tests wordt door de gebruikers alleen aangeduid met een – voor de onderzoekers onbekende – afkorting, zoals ‘CERX’, ‘ABO’, of ‘RATC’. Bij eveneens circa 40% wordt een volledige Nederlandse titel van de test vermeld, hetgeen vaak iets verheldert over de bedoelingen van de test. Voorbeelden zijn ‘Goktest van Damasio’, ‘Paniekvragenlijst’ en ‘Test situationeel leiderschap’. Van een kleine 10%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
wordt alleen de buitenlandse titel vermeld, zodat niet duidelijk is of het om een vertaalde of oorspronkelijke versie van de betreffende test gaat. Enkele voorbeelden: ‘Cancer Worry Scale’, ‘Eoric oil’ en ‘Strong-Campbell Interest Inventory’. Ten slotte worden nog enkele testachtige methoden vermeld, zoals ‘Gestructureerd interview Type A gedrag’, ‘Ontwikkelingsanamnese’, ‘EQ-map’, een dergelijke. Concluderend kan men stellen dat het gaat om een grote verscheidenheid aan tests van grotendeels onbekende kwaliteit. Het feit dat zo weinig over deze tests bekend is, doet echter vermoeden dat er weinig onderzoek is verricht naar de psychometrische kwaliteiten van deze instrumenten. De ranglijsten van 1967 tot 2000 In Tabel 2 zijn de top-twintig-tests van de vier enquêtes opgenomen. Het betreft uitsluitend de gebruikers-top-twintig, omdat frequentiegegevens voor 1967 en 1971 niet beschikbaar zijn. Zeven tests, waarvan vijf individuele intelligentie tests, hebben de tand des tijds doorstaan en komen in alle enquêtes in de top-twintig terecht. Van dit zevental neemt de WAIS zelfs driemaal de eerste positie in. De andere zes tests zijn WISC-R, ZAT, GIT(/V), BWT, Raven PM en DAT’83. Enkele van deze tests hebben in de loop der tijd een grondige revisie ondergaan, maar de verschillende edities zijn om voor de hand liggende redenen wel tot een en dezelfde test gerekend (WISC-R en WISC of HAWIK, DAT’83 en DAT). Afgezien van de constante factor gevormd door de zeven bovengenoemde tests, kan als belangrijke trend worden gesignaleerd dat het gebruik van projectieve tests over deze periode van 33 jaar sterk is teruggelopen. De TAT, Rorschach, VPT, CAT, Wartegg, HTP, Columbus en ZAT namen in de periode 1967-1976 nog een vooraanstaande positie in, maar dat is in
2000
%
1976
%
1971
%
1967
%
WAIS
38 37 37 33 32 30 30 29 23 18 18 16 14 13 13 13 13 12 12 12
WAIS
41 38 37 37 37 37 37 35 34 34 30 26 25 24 23 22 22 21 21 20
WAIS
36 35 32 32 29 28 28 28 28 24 23 20 18 18 17 16 16 14 14 14
TAT
40 40 32 32 29 28 26 26 25 24 21 21 20 20 16 14 12 12 12 12
NVM NPV WISC-R SCL-90 UCL MMPI(-2) ZAT GIT(/V)
Stroop 15 WT NPV-J PMT
(G)EPPS TMT BWT RAKIT
Raven PM DAT’83 NEO
GIT ABV TAT
Bender Raven PM ZAT WISC BIT BWT DAT
Revised PMT-K ABV-K Benton Rorschach SB
SON
Columbus Kuder CAT
ABV BWT GIT TAT
Rorschach BIT SB
Revised
WISC ZAT SON
Bender CAT DAT
Raven PM ABV-K Benton AKIT MMPI HAWIK
Rorschach SB Revised WAIS BWT BIT
ABV VPT CAT GIT DAT WISC
Wartegg ZAT
Wiggly Stutsman Grassi HAWIK HTP
Raven PM
* De namen van tests die in de top-twintig van alle enquêtes voorkomen zijn vet gedrukt.
Tabel 2. Rangorde van tests naar percentage gebruikers van 1967 tot 2000*
Wetenschap februari 2002
57
het testinstrumentarium anno 2000 voorbij. Alleen de ZAT is als representant overgebleven. Hun posities zijn ingenomen door persoonlijkheidsvragenlijsten, zoals de NVM, NPV, UCL, (G)EPPS en NEO, en door de klachtenlijst SCL-90. De verschuivingen op het gebied van persoonlijkheidsonderzoek zijn daardoor veel groter dan die bij het intelligentieonderzoek, tenminste voor zover het algemene cognitieve tests betreft. Overigens moeten we ons wel realiseren dat tests die uit de top-twintig zijn verdwenen, natuurlijk nog wel worden gebruikt. Zo is de TAT op plaats 21 terug te vinden (door 12% van de gebruikers genoemd) en de Rorschach op nummer 59 (4%). Bij de meting van specifieke cognitieve factoren is er ook het een en ander veranderd, getuige het verdwijnen van de Bender en Benton, die zijn overvleugeld door de Stroop, 15 WT en TMT. De achterliggende redenen voor deze verschuiving is waarschijnlijk dat de Bender en Benton meer ‘ouderwetse’ hersenorganiciteitstests zijn die gebruikt worden voor het medisch-diagnostisch onderscheid wel/geen-hersenletsel. Stroop, 15 WT en TMT zijn daarentegen beter bruikbaar binnen de tegenwoordig gangbaarder neuropsychologische benadering die meer op specifieke cognitieve functies is gericht. Een laatste opvallend gegeven is dat met het verdwijnen van de BIT en de Kuder, bij de twintig meest genoemde tests geen interessenvragenlijst meer voorkomt. Samenvattend kunnen we constateren dat in de loop van de jaren de (individuele) intelligentietests hun positie in de top twintig hebben weten te behouden (waarschijnlijk mede dankzij het uitbrengen van nieuwe revisies), dat persoonlijkheidsvragenlijsten de positie hebben ingenomen van projectieve technieken, en dat interessenvragenlijsten een stapje terug hebben gezet. De kwaliteit van de top-twintig-tests In de inleiding werd al aangegeven dat naast het gebruik juist ook de ontwikkeling van de kwaliteit van het testgebruik een centrale plaats inneemt in dit onderzoek. Om een vergelijking te kunnen maken werd voor de top-twintig-tests van de vier enquêtes per beoordelingscriterium het percentage berekend dat het oordeel ‘goed’ heeft gekregen. Er is voor het percentage ‘goed’ gekozen en niet voor een gemiddelde beoordeling, omdat met name voor de top-twintig tests, waaraan de hoogste eisen gesteld mogen worden, dat percentage de betere maatstaf is. Een en ander zou overigens voor de conclusies geen verschil hebben gemaakt. Voor zes van de zeven criteria kan in Tabel 3 worden vastgesteld dat er sprake is van een grote verbetering in kwaliteit van de twintig meest gebruikte tests over de jaren heen. Het betreft de theoretische achtergrond, de kwaliteit van testmateriaal en handleiding, de normen, de begripsvaliditeit en de criteriumvaliditeit. Dit geldt in ieder geval voor de kwaliteit in 2000 ten opzichte van de periode 1967-1976. Ook binnen de laatstgenoemde periode is er echter sprake van ten minste gelijkblijvende kwaliteit tussen twee opeenvolgende enquêtejaren, in geen enkel geval van achteruitgang. Het criterium betrouwbaarheid neemt een uitzonderingspositie in. Na 1971
58
Theoretische achtergrond Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
2000*
1976
1971
1967
59 82 50 27 23 32 14
40 60 35 10 25 5 5
40 60 30 10 25 0 0
30 40 15 5 15 0 0
*Omdat van respectievelijk MMPI en MMPI-2 en GIT en GIT-V de beoordelingen verschillen, werden van deze tests beide beoordelingen in de berekeningen meegenomen.
Tabel 3. Kwaliteit van de 20 meest gebruikte tests (percentage tests met beoordeling ‘goed’) van 1967 tot 2000
blijft het percentage tests in de top-twintig met een ‘goede’ betrouwbaarheid min of meer gelijk. Nadere bestudering van de gegevens laat echter zien dat het percentage met een ‘voldoende’ betrouwbaarheid wél toeneemt: van 10% in 1967, via 15% en 20% in 1971 en 1976, naar 55% in 2000! Naast het gegeven dat de kwaliteit van de twintig meest gebruikte tests in 33 jaar dus aanzienlijk blijkt te zijn toegenomen, blijft het een interessante vraag of deze tests wat betreft kwaliteit een afspiegeling vormen van het hele Nederlandse testarsenaal of dat zij hiervan een negatieve dan wel positieve selectie uitmaken. Indien dit laatste het geval is, zou men de conclusie kunnen trekken dat de kwaliteit een rol speelt bij de testkeuze. In Tabel 4 wordt de kwaliteit van de twintig meest gebruikte tests in 2000 vergeleken met die van alle tests die zijn opgenomen in de Documentatie van 2000 (uitgezonderd researchinstrumenten en van oorsprong Belgische tests; totaal 372 tests). Hiertoe is in deze tabel naast het
Theoretische achtergrond Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
Kwaliteitsoordeel
Documentatie2000: alle tests
2000*
goed voldoende goed voldoende goed voldoende goed voldoende goed voldoende goed voldoende goed voldoende
66 21 70 20 44 28 13 26 27 41 18 47 8 25
59 14 82 9 50 36 27 27 23 55 32 36 14 32
* Omdat van respectievelijk MMPI en MMPI-2 en GIT en GIT-V de beoordelingen verschillen, werden van deze tests beide beoordelingen in de berekeningen meegenomen.
Tabel 4. Kwaliteit van de twintig meest gebruikte tests in 2000 (percentages tests met de beoordeling ‘goed’ of ‘voldoende’) en van alle gedocumenteerde tests in 2000
Wetenschap februari 2002
percentage tests dat als ‘goed’ wordt beoordeeld, ook het percentage met de beoordeling ‘voldoende’ vermeld, omdat dit zoals hiervoor is gebleken een vollediger beeld van de kwaliteit van tests kan geven. Het blijkt dat de kwaliteit van de top-twintig-tests in 2000 beter is dan die van alle tests uit de Documentatie-2000, met uitzondering van het criterium theoretische uitgangspunten. Soms is de hogere kwaliteit te danken aan een groter percentage ‘goed’, soms aan een hoger percentage ‘voldoende’ en soms aan beide. Experts en respondenten over testkwaliteit In de enquête-2000 werd aan de respondenten gevraagd een oordeel te geven over de technische kwaliteiten van alle tests die men gebruikte. Men werd verzocht voor elke test apart een indicatie te geven van de kwaliteit van de normen, de betrouwbaarheid en de validiteit gelet op het doel waarvoor de test werd ingezet. De mening van de gebruikers werd vergeleken met de expertbeoordelingen van de COTAN-beoordelaars. Het resultaat van deze vergelijking is voor elk van de drie criteria ongeveer hetzelfde: er is weliswaar een correlatie tussen de COTAN-beoordeling en de mening van de testgebruiker, maar het verband is sterk afhankelijk van de kwaliteit van de test. Er bestaat een redelijke overeenstemming voor die tests waarvoor de COTAN de beoordeling ‘goed’ heeft gegeven: voor de kwaliteit van de Normen is 65% van de gebruikers het hiermee eens, voor Betrouwbaarheid is dit 61% en voor Validiteit2 65%. De meningen zijn verdeeld voor tests met een COTANbeoordeling ‘onvoldoende’: voor Normen is slechts 16% van de gebruikers het met de COTAN eens, voor Betrouwbaarheid 15% en voor Validiteit 13%. Tests waarvoor de COTAN-beoordeling ‘voldoende’ is, nemen een middenpositie in, waarbij echter opvalt dat relatief veel gebruikers deze voldoende tests ‘goede’ kwaliteiten toekennen en slechts weinigen ‘onvoldoende’. In het algemeen kan men stellen dat de gebruikers soepeler zijn in hun oordeel dan de experts. Anders gezegd: het gebruik van de test gaat hand in hand met een positief oordeel, ook als daar volgens objectieve buitenstaanders geen grond voor is. Hoewel dit laatste zonder uitzondering geldt voor elk van de drie criteria van alle tests waarvoor de COTAN-beoordeling ‘voldoende’ of ‘onvoldoende’ luidt, leert een nadere analyse dat de door gebruikers betoonde soepelheid per test kan verschillen. Twee voorbeelden kunnen dit verduidelijken. Het eerste betreft twee tests waarvoor de COTAN voor betrouwbaarheid de beoordeling ‘onvoldoende’ heeft gegeven, namelijk de MMPI en de ZAT. Voor wat betreft de MMPI is slechts 2% van de gebruikers het hiermee eens, maar voor de ZAT is dit 51%. Het tweede voorbeeld betreft twee tests waarvoor de COTAN voor normen de beoordeling ‘onvoldoende’ heeft gegeven, namelijk de Verkorte GIT en de TMT. Geen enkele Verkorte-GIT-gebruiker is het hiermee eens, maar voor de TMT is er 38% overeenstemming. De vraag is wat de oorzaak is van deze nuances in het gebruikersoordeel. Eén mogelijke verklaring is dat gebruikers de afwezigheid van gegevens een ernstiger tekortkoming vin-
Wetenschap februari 2002
den dan wel beschikbare gegevens die (volgens de COTAN) van onvoldoende kwaliteit zijn. Zo zijn over de ZAT in het geheel geen betrouwbaarheidsgegevens en over de TMT in het geheel geen Nederlandse normgegevens bekend; voor de MMPI zijn Amerikaanse betrouwbaarheidsgegevens beschikbaar en voor de Verkorte GIT lokale normen. Daarbij komt dat de situatie waarin in het geheel geen gegevens worden verschaft, eenduidiger is. Een andere mogelijkheid is dat de opinie van gebruikers op lokale gegevens berust die niet bij de COTAN en de testauteur/uitgever bekend zijn. Een laatste, niet uit te sluiten verklaring, is dat we hier te maken hebben met een verschijnsel van cognitieve dissonantie waarbij de positieve opvatting meer berust op wat hoort en verwacht mag worden, dan op feitelijke gegevens. Dit zou kunnen blijken uit de mening van gebruikers over de normen van de Keten- of Trailmakingtest: 12% vindt de kwaliteit van de normen ‘goed’ en 50% ‘voldoende’, terwijl in het geheel geen Nederlandse normen worden verschaft. Een ander voorbeeld is de Zin Aanvul Test, waarvoor in het geheel geen validiteitsgegevens beschikbaar zijn, maar waarvan niettemin 10% van de gebruikers de validiteit ‘goed’ en 45% ‘voldoende’ vindt.
Discussie Representativiteit Het responspercentage van de enquête-2000 noopt tot de nodige voorzichtigheid bij de generalisatie van de gegevens en de conclusies naar de doorsnee NIP-testgebruiker. Er zijn echter de nodige aanwijzingen dat de onderzoeksgroep voldoende representatief is. Zo vormt de groep respondenten op enkele achtergrondvariabelen een goede doorsnede van de populatie van NIP-psychologen. Met name de vrijwel gelijke verdeling wat betreft vakgebied in steekproef en populatie lijkt hier van belang. Verder vormt de uitkomst van de enquête een uiterst consistent beeld in samenhang met de resultaten van de vorige enquêtes en vertonen enkele tests (bijvoorbeeld de WAIS) zeer constante gebruikerspercentages, ondanks de variatie in responspercentages over de jaren heen. Omvang nationaal testgebruik Voor enkele tests konden de frequentiegegevens volgens de enquête worden afgezet tegen de werkelijke verkoopcijfers in 1999. De verkoopcijfers bleken voor deze tests circa vijfmaal hoger te liggen. Als deze lijn wordt doorgetrokken, kan een schatting worden gemaakt van het aantal personen dat jaarlijks in Nederland wordt getest. Volgens opgave van de respondenten van deze enquête worden door hen gezamenlijk iets meer dan 100.000 personen per jaar getest. Vermenigvuldiging met vijf levert een geschat testgebruik op van circa een half miljoen afnames per jaar. Hierbij blijven de landelijke CITO-toets en ander schooltoetsgebruik buiten beschouwing, omdat de enquête hierop niet was gericht. Ook is geen rekening gehouden met illegaal gebruik van tests, maar wel met gebruik door niet-psychologen voorzover deze hun testmateriaal langs reguliere wegen hebben aangeschaft.
59
De kwaliteit van de gebruikte tests In dit onderzoek zijn de analyses beperkt tot de twintig meest gebruikte tests. Dit aantal is uiteraard arbitrair, maar gelet op de sterk daling van het aantal gebruikers en de gebruiksfrequentie bij de resterende tests, kan men stellen dat de twintig meest gebruikte tests inderdaad een groot en veelbetekenend deel van het testgebruik in Nederland vertegenwoordigen. De kwaliteit van de Nederlandse top-twintig is in 33 jaar aanmerkelijk gestegen. Deze stijging wordt voor het grootste deel veroorzaakt doordat men op nieuwe, kwalitatief betere instrumenten is overgestapt, en voor een ander deel door een verbetering van de kwaliteit van de instrumenten die men trouw is gebleven. Deze gegevens lijken er op te wijzen dat testgebruikers bij hun keuze het kwaliteitsaspect mee laten wegen. Hoewel deze trend tot tevredenheid stemt, past zeker geen genoegzaamheid, aangezien de kwaliteit van met name de psychometrische aspecten van tests nog veel te wensen over laat. Op elk van de vier criteria haalt slechts circa 25% van de tests het niveau ‘goed’. Het aanzien van de top-twintig-tests wordt overigens beter wanneer men de beoordelingen ‘goed’ of ‘voldoende’ samen neemt. Het percentage uit de top-twintig dat op Normen, Betrouwbaarheid, Begripsvaliditeit en Criteriumvaliditeit minstens ‘voldoende’ haalt, is respectievelijk 54%, 78%, 68% en 46%. Dit beeld is weliswaar aanzienlijk positiever, maar juist omdat het de twintig meest gebruikte tests betreft mag de maatlat toch wel op het hoogste niveau worden gelegd. Voor testontwikkelaars is er dus nog veel werk aan de winkel, maar ook van testgebruikers mag worden verwacht dat meer rekening wordt gehouden met kwaliteit bij hun keuze van tests. De rol van de COTAN Bij de bespreking van de resultaten van de betrouwbaarheid van de top-twintig is geconstateerd dat het aantal ‘goed’ beoordeelde tests na 1971 niet meer toeneemt. Wanneer men bij de analyse het percentage tests met een ‘voldoende’ beoordeling betrekt, blijkt een verbetering op te treden van 10%, in 1967, via 15% en 20%, naar 55% in 2000. Met andere woorden, bij betrouwbaarheid komt de verbetering in testkwaliteit niet voor rekening van de ‘goede’ tests, maar van de ‘voldoende’ tests. Is hier sprake van een plafondeffect dat veroorzaakt wordt doordat de COTAN te hoge eisen stelt?3 Kennelijk is het hoogste kwaliteitsniveau voor betrouwbaarheid, zoals door de COTAN geformuleerd, voor veel tests niet zonder meer haalbaar en is het de vraag of de lat in dit opzicht niet te hoog is gelegd. Een discussie tussen betrokkenen, waarbij zowel aan technische vereisten als praktische beperkingen recht wordt gedaan, zal moeten uitwijzen of de COTAN-eisen moeten worden bijgesteld. Kwaliteitsverbetering heeft ook veel te maken met de impact van de gekozen publicatievormen. Kan de informatieve waarde van de huidige documentatie wellicht worden verbeterd door het opnemen van testbesprekingen gericht op dominante gebruiksdoelen? Daarnaast kan gedacht worden aan het ter publicatie aanbieden van testreviews in nieuws-
60
brieven van de verschillende secties, of aan de redactie van De Psycholoog. Ook verdient het uitgeven van monografieën gewijd aan testgebruik in bepaalde toepassingsvelden en/of aan specifieke vraagstellingen (zoals die over gezondheidsvragenlijsten, Groot et al., 1997) mogelijk meer navolging. Voor de meeste kwaliteitscriteria zien we een gestage verbetering in de loop van de jaren. Meer en meer tests voldoen aan de maximale eisen die door de COTAN worden gesteld. Tot zover het objectieve beeld. Nadere analyse leert echter dat de zwakke broeders in de ogen van de frequente testgebruikers nauwelijks tekortschieten, zelfs als objectieve gegevens ontbreken die dat oordeel kunnen schragen. Hoewel niet is uit te sluiten dat de gebruiker beschikt over aanvullende gegevens, is het van tweeën een. Of de gebruiker blijft in gebreke door belangrijke gegevens aan collega’s én de COTAN te onthouden, óf de gebruiker valt ten prooi aan psychologische processen die een onpartijdige en objectieve beoordeling en een daarmee samenhangende verantwoorde handelwijze in de weg staan. Het zal duidelijk zijn dat in beide gevallen de testpraktijk gebaat is bij een onafhankelijke en breed toegankelijke informatievoorziening over tests en testkwaliteit.
Dr. A. Evers is lid van de COTAN en is werkzaam als universitair hoofddocent bij de programmagroep Arbeids- en Organisatiepsychologie van de Universiteit van Amsterdam, Roetersstraat 15, 1018 WB Amsterdam. E-mail <
[email protected]>. Dr. J.N. Zaal is werkzaam bij GITP International B.V. Drs. A.K. Evers was voor de duur van dit onderzoek werkzaam als toegevoegd onderzoeker bij de programmagroep Arbeids- en Organisatiepsychologie van de Universiteit van Amsterdam.
Noten De auteurs danken de leden van de COTAN voor hun commentaar op een eerdere versie van dit artikel. 1. Het complete overzicht van alle genoemde tests is verkrijgbaar bij de eerste auteur. 2. Teneinde de respondenten niet onnodig te belasten werd bij validiteit geen onderscheid gemaakt tussen begrips- en criteriumvaliditeit. Om een zuivere vergelijking mogelijk te maken hebben de resultaten over validiteit in deze paragraaf uitsluitend betrekking op tests waarvoor de COTAN-beoordeling voor beide validiteitsaspecten gelijk is, namelijk 15 tests. 3. De eisen voor betrouwbaarheidscoëfficiënten voor de beoordeling ‘goed’ zijn: > .90 voor tests die zijn bedoeld voor belangrijke beslissingen op individueel niveau, > .80 voor tests die zijn bedoeld voor minder belangrijke beslissingen op individueel niveau, en > .70 voor tests die zijn bedoeld voor onderzoek op groepsniveau (Evers, Van Vliet-Mulder & Groot, 2000, p. 1411).
Wetenschap februari 2002
Summary
Literatuur Altink, W.M.M., Greuter, M.A.M. & Roe, R.A. (1989). De praktijk van werving en selectie. Gids voor Personeelsmanagement, 68, 23-27. Candel, H. (1993). Ontwikkelingen op het gebied van werving en selectie bij Nederlandse bedrijven. Amsterdam: Vakgroep Arbeids- en Organisatiepsychologie, UvA. Evers, A., Evers, A.K. & Zaal, J. (2001). Opvattingen van Nederlandse psychologen over testgebruik. De Psycholoog, 36, 429-436. Evers, A., Vliet-Mulder, J. C. van & Groot, C.J. (2000). Documentatie van Tests en Testresearch in Nederland, dl. 1 en 2. Amsterdam/Assen: NIP/Van Gorcum. Evers, A. & Zaal, J. (1979). De derde N.I.P.-enquête onder testgebruikers. De Psycholoog, 14, 509-528. Groot, C.J., Vliet-Mulder, J.C. van, Douma, M. & Evers, A. (1997). Generieke vragenlijsten voor gezondheidstoestand beschreven en beoordeeld. Amsterdam: NIP. Krielen, F., Olivier, P. & Peeters, H. (1988). AMA Testenquête Psychodiagnostiek. Deventer: Akademie Mens-Arbeid. Nederlands Instituut van Psychologen. (1969). Documentatie van Tests en Testresearch in Nederland. Amsterdam/Zaandijk: NIP/Heijnis. Nederlands Instituut van Psychologen. (1974). Documentatie van Tests en Testresearch in Nederland. Amsterdam/Zaandijk: NIP/Heijnis. Ridder-Meijer, L. de & Gazendam, B. (1990). Testgebruik op de volwassenenafdeling van de Riagg. De Psycholoog, 25, 461-463. Roe, R.A. (1974). Testgebruik in Nederland. De N.I.P.-enquêtes van 1967 en 1971. De Psycholoog, 9, 57-70. Visser, R.S.H., Vliet-Mulder, J.C. van, Evers, A. & Laak, J. ter (1982). Documentatie van Tests en Testresearch in Nederland. Amsterdam: NIP. Zaal, J. & Evers, A. (1979). De derde N.I.P.-enquête onder testgebruikers II. De Psycholoog, 14, 578-588.
Changes in the use of test by Dutch psychologists over a 33 year period A. Evers, J.N. Zaal, A.K. Evers On behalf of the Committee of Test Affairs of the Dutch Association of Psychologists (COTAN) a survey was held in 2000 on test use by Dutch psychologists. The results of this survey were compared with the results of similar surveys held in 1967, 1971 and 1976. A major shift in these years was the disappearance in 2000 of projective techniques from the top-twenty of most used tests, except for one. They were replaced by personality inventories. Seven tests (of which five individual intelligence tests) stayed in the toptwenty in all those years. Through the years the quality of the twenty most used tests has gradually increased, though for reliability a ceiling effect seems to occur. Test users show a more positive opinion about the quality of the tests they use than experts do. Some explanations for this finding are given. It is concluded that public reviewing of tests by independent experts is a prerequisite for the improvement of tests used.
Het dagelijks bestuur van het Nederlands Instituut van Psychologen zoekt op korte termijn contact met kandidaten voor de functie van
penningmeester van de vereniging (M /V) De penningmeester is lid van het hoofdbestuur en van het dagelijks bestuur van de vereniging. Taken • het behandelen van de financiële zaken van de vereniging, waaronder de begrotingszaken, de financiële verslaglegging en de samenstelling van de contributies • het beoordelen van investeringen van een zekere omvang • het opnieuw bezien van de onderlinge financiële verhoudingen van de onderdelen van de vereniging, mede in het kader van de modernisering van het NIP • het voeren van overleg met de personeelsvertegenwoordiging, i.h.b. omtrent de arbeidsvoorwaarden van het NIP-personeel. • het behandelen van overige zaken aangaande het NIP-bureau. De bovengenoemde taken worden in nauwe samenwerking verricht met de directeur-secretaris van het NIP en het hoofd Financiën, Facilitaire Zaken en Informatiebeheer (FFI) van het bureau. De inzet voor de bovenstaande taken komt neer op ten minste een dagdeel per twee weken. Voor de werkzaamheden wordt een vaste onkostenvergoeding per maand verstrekt. Het hoofdbestuur vergadert zesmaal per jaar in Utrecht, het dagelijks bestuur elfmaal per jaar, gewoonlijk te Utrecht en samenvallend met de vergaderdata van het Hoofdbestuur, en deels in Amsterdam op het NIP-bureau. De benoeming voor de functie moet worden gedaan door de Ledenvergadering van het NIP in juni 2002. Inlichtingen over deze functie worden graag gegeven door de voorzitter van het bestuur, prof.dr. Henk van der Molen, tel. (010) 4082705, door de directeur-secretaris van het NIP, mr Rein Baneke, (020) 4106230, en door het hoofd FFI van het NIP, Eugèn Zut, (020) 4106232. Uw interesse kunt u bekendmaken aan de voorzitter of aan de directeur-secretaris, e-mail
[email protected], dan wel per post, NIP-bestuur, Postbus 9921, 1006 AP Amsterdam.
Wetenschap februari 2002
61