het ontstaan van testen, een kritisch overzicht 1. 2.
3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
De meeste mensen zijn normaal begaafd Had hij hoger gescoord als hij die ene vraag, toen de koffiejuffrouw net binnen kwam en met de voet de prullenmand omstootte zodat hij uit de concentratie werd gebracht, wel juist opgelost had? Hoe de tweede wereldoorlog de psychologische test beïnvloedde Een test is betrouwbaar als een kandidaat na 6 maanden nog steeds hetzelfde scoort op de test. U, gebruiker, bent evenzeer verantwoordelijk en bepalend voor de validiteit van de test als de ontwikkelaar ervan! Als u dat zeker weet dan rechtvaardigt uw expertise uw conclusie. Als u dat niet weet staat u – excusez le mot - uit uw nek te lullen. Is de schoenmaat een indicator voor het beheersen van Nederlandse grammatica? De (specifieke) expertise is niet schaars meer, we hoeven daarom niet terug te grijpen naar vervangmiddelen zoals de collectieve paper and pencil testen uit de dertiger jaren. En, eerlijk gezegd, dat is een beetje belachelijk: de computer verwerkt deze input in, wat zou het zijn, 1 milliseconde, en wacht geduldig tot hij 30 seconden later nog iets te doen krijgt Terecht stelde men zich dus de vraag of deze niet-deskundigen wel een juiste en bruikbare conclusie konden formuleren Het resultaat van een computerinterpretatie is constanter van kwaliteit dan dat van een expert In elk geval is duidelijk dat de computer meer kan, echt veel meer, dan paper and pencil. Houdt u van whisky? U mag LogicAssessment vergelijken met en hele goede blend. Tot slot: hoe bruikbaar is LogicAssessment?
In lang vervlogen tijden Het proberen van doorgronden van anderen, het doen van uitspraken over de medemens: dat heeft altijd bestaan. Sophocles speelt met de menselijke emoties in zijn Griekse drama’s, Shakespeare, Mailer en Lanoye doen niet anders. Ze overbruggen wel meer dan 2000 jaar. Er bestaat de zogenaamde psychologische roman, waarbij de karakters van de personages uitgediept worden en het wezen van de roman gaan vormen. Dat alles voor de tijd van de ‘officiële’ psychologie. Zoals bij veel fenomenen is het moeilijk een begindatum te vinden voor het psychologisch testen in een ‘wetenschappelijk’ opzicht. Veelal wordt Alfred Binet als vader genoemd. Daar is reden voor, al komen ook anderen in aanmerking. Binet heeft in elk geval het beroemdste begrip in de psychometrie gelanceerd: het I.Q. De datum is al evenmin met zekerheid bekend – de bronnen spreken mekaar tegen - , maar het gebeurde in het begin van de 20e eeuw. (1)Het beruchte I.Q. Hoe werkt de Binet test? Nemen we als voorbeeld een 6jarige jongen. Hoe intelligent is hij? Binet onderscheidt een reeks taken die op een welbepaalde leeftijd moeten kunnen opgelost worden. Zo zijn er ook specifieke opgaven voor 5, 6 en 7jarigen. Stel dat ons jongentje alle opgaven van de
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 1 van 1
5jarige en van de 6jarige keurig kan oplossen, maar faalt op de opgaven van de 7 jarige. Hoe drukken we dat uit? Binet stelt voor: •
fysiek is hij 72 maanden oud, en mentaal is hij ook 72 maanden (want hij lost alle opgaven van een 6jarige op en faalt bij de hogere leeftijden). Binet deelt de echte leeftijd door de mentale leeftijd en vermenigvuldigt het geheel met honderd om een makkelijker getal te krijgen. In dit geval is het IQ 100 (want zo noemt Binet de uitkomst van de formule, het Intelligentie Quotiënt), dus ons jongentje is normaal begaafd.
•
Als hij niet verder was gekomen dan de opgaven van een 5 jarige (in de volksmond heet dat dan
‘achter zijn’) levert de formule IQ = 83. •
En, naar analogie: als hij alle opgaven van een 7jarige oplost is hij dus ‘slimmer’ dan de rest: het IQ is dan 116, ons jongentje is flink begaafd.
Dit roept vragen op: is iemand met IQ 98 ook normaalbegaafd? Als antwoord worden er grenzen gesteld, eerst met het natte vingertje (”tot 90 vinden we het nog normaal”), later onderbouwt door eenvoudige statistische technieken (“tussen het gemiddelde min 1 standaarddeviatie en het
gemiddeld plus 1 standaarddeviatie ligt 2/3 van de bevolking. Laten we dat normaal noemen.1”) De gebruikte statistische technieken waren die van de beschrijvende statistiek: gemiddelde, standaardafwijking, later zelfs standaardfout en standaardmeetfout. Doel was in wezen steeds hetzelfde: we hebben een uitslag, maar wat zegt dat (is IQ 93 nog normaal of niet) en (2)hoe betrouwbaar is die uitslag (had hij hoger gescoord als hij die ene vraag, toen de koffiejuffrouw net binnen kwam en met de voet de prullenmand omstootte zodat hij uit de concentratie werd gebracht, wel juist opgelost had?). Deze relatief eenvoudige technieken konden daar een antwoord
op geven. De Binet test, later door Terman en Merrill uitgebouwd tot de Stanford Binet test bleef lange tijd de standaard test voor het meten van intelligentie. Groeiende kritiek2 bracht David Wechseler ertoe zijn WISC te ontwikkelen, dan schrijven we al 1958. Sindsdien is aan de “individuele intelligentietest” zoals we dat type test nu noemen niets wezenlijks meer veranderd3. Deze testen werden afgenomen door een psycholoog, “of door iemand die geschoold was in het afnemen van psychologische tests”. Het duurde vrij lang, d.w.z. er werd veel deskundigentijd gebruikt. De testtijd is niet vooraf bepaald (de test eindigt als de kandidaat de vragen niet meer kan beantwoorden) maar het duurt tussen ¾ uur en anderhalf uur. Tenminste, als de psycholoog een assistent heeft om de antwoorden te verwerken en de uitslag op te maken, reken hiervoor ook een 1
Als we werken met een restrictiever criterium, bijvoorbeeld een halve SD is het normale gebied veel kleiner, maar dat impliceert dat meer dan de helft van de bevolking niet normaal begaafd zou zijn. De begrippen ‘statistisch normaal’ en ‘ethisch normaal’ komen dan in conflict. 2 Het bleek bijvoorbeeld niet mogelijk taken te ontwikkelen die specifiek waren voor een 24 , resp. 25 jarige. De test bleef dus beperkt tot kinderen. En dan was er de discussie hoelang iemand dan wel kind bleef. 3 En dat is niet omdat er geen kritiek zou kunnen geformuleerd worden op deze test, eerder omdat de “collectieve test” in de tweede helft van de 20e eeuw meer aandacht kreeg.
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 2 van 2
half uur. Er kunnen dus ruwweg 6 tot 8 mensen getest worden per dag per psycholoog. In sommige gevallen zou dit een probleem blijken. Het afnemen door een psycholoog had ook voordelen. De man (vrouw) had ervoor gestudeerd en was een expert op zijn gebied. Hij bepaalde of het antwoord op de vraag juist of fout was. Hij interpreteerde de uitslag, dat wil zeggen dat hij in menselijke taal vertelde wat hij gemeten had. De conclusie: “Deze jongen kan het gewoon onderwijs aan” nam hij voor zijn rekening4. En hoewel over die uitspraken kan gediscussieerd worden, en als het belang groot is wordt daar ook fel over gedebatteerd, het advies van de vakman weegt zwaar. En dat is terecht. Een vakman weet waarover hij praat, anders is het geen vakman. Hij is vakman omdat hij op zijn gebied meer beslagen is dan de ander, daarom werd hij ook geraadpleegd. Individuele ( een psycholoog zit tegenover een kandidaat) intelligentietests zijn relatief oude instrumenten. Ze steunen sterk op de expertise, het vakmanschap van de psycholoog. Daarom worden het ook wel “klinische’ tests genoemd. Ze slorpen veel expertise tijd op. De juistheid van de uitspraken wordt geborgd door de expertise van de psycholoog, daarbij ondersteund door een aantal relatief eenvoudige statistische technieken.
World War II (3) En toen dreigde de tweede wereldoorlog aan de horizon. En bereidde Amerika zich voor op deelname aan die oorlog. Amerika was intussen vertrouwen gaan stellen in psychologische tests als selectiemiddel. Amerika was efficiënt en dacht in termen van effectiviteit. Amerika wou zijn soldaten daar inzetten waar ze goed in waren om zo een sterker leger en een grotere slagkracht te kunnen ontwikkelen. Voor een deel kon die selectie op basis van opleiding en diploma. Maar dat was de tijd waar niet iedereen school had gelopen, omdat de ouders het niet konden betalen, of omdat de school te ver was, of omdat de oogst elk jaar binnengehaald moest worden. Hoe gingen ze nu die laaggeschoolde rekruten inzetten? Het leger zou ze testen! Stelt u zich eens voor: 4 miljoen rekruten die getest moeten worden. Aan 6 per dag (zie hoger) zou een team van 10 psychologen daar 200 jaar over doen. En er waren, in tegenstelling tot nu, niet zoveel psychologen beschikbaar. Dus: de individuele test moet collectief worden. Hoe dat te realiseren? Honderd man tegelijk in een grote zaal. Schriftelijke testen. Vragen op papier. Antwoorden op die vragen die snel een vooral eenduidig te interpreteren zijn. Geen discussie over: “is dit nu een juist of een fout antwoord?” Een eenduidige uitslag, te interpreteren door een niet-psycholoog. Een eenduidige conclusie: “Is rekruut Janssen geschikt voor het genie-bataljon?” Yes, sir, of No, sir. Welke ressources had men daarvoor? Een aantal gerenommeerde universiteiten waar goed onderzoek verricht werd, en, vooral veel, zij het relatief weinig geschoolde menskracht. 4 Precies hetzelfde gebeurt nu in de forensische psychiatrie waar de psychiater-expert op basis van zijn onderzoek verklaart of de verdachte toerekeningsvatbaar is of niet. En ook daar waar de onderwijzer zegt dat Jantje toch beter een jaar kan doubleren, ook al heeft hij voldoende cijfers om over te gaan.
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 3 van 3
Paper and penciltest Testvragen werden op papier gezet. Daarvoor moesten de vragen vereenvoudigd worden. Complexe vragen, meer complexe antwoorden waren uit de boze. De oplossing was Multiple Choice. Vragen worden zo gesteld dat er slechts één goed antwoord op kan zijn. Dat antwoord wordt meegegeven samen met een paar foute antwoorden. De kandidaat moet het goede antwoord aankruisen op een speciaal vel5. Er is ook een vel met gaatjes op de plaats van de goede antwoorden (de zg. mal) zodat het kruisje zichtbaar wordt als de vraag goed beantwoord wordt. Een legertje Muva’s (vrouwelijke vrijwilligers) werd in een aanpalende zaal gepropt en zij keken alle formulieren na waarbij nakijken zich beperkte tot het tellen van de zichtbare kruisjes op een blad. Het aantal goede antwoorden werd vergeleken met andere antwoorden op een zogenaamde normtabel. Daar kon afgelezen worden of het een goede, gemiddelde of slecht prestatie betrof. Voor functies bij het genie waren normen vastgelegd: er moest minimaal een bepaalde score gehaald worden. Haalde men die was de conclusie “Geschikt”, zoniet “Ongeschikt” Het was een geniale oplossing: het maakte maximaal gebruik van de ressources die er beschikbaar waren, namelijk schaarse gemeenschappelijke kennis en overvloedige mankracht. U kunt zich ongetwijfeld voorstellen dat, door inschakeling van een legertje niet-deskundigen er vragen gesteld werden over de juistheid van hun conclusies. Als Janssen wél geschikt bevonden werd voor het genie, was dat dan wel ook zo? En als Janssen niet geschikt bevonden werd voor het genie, was dát dan wel zo? En, was zijn score niet afhankelijk van de omgevingsfactoren, van een slechte dag, van gokken op een antwoord, van toevallig een of twee vragen meer goed beantwoord? Terechte vragen, die niet meer geborgd konden worden op de vertrouwde wijze van de individuele klinische testen. U herinnert zich nog dat die borging steunde op expertise en op eenvoudige technieken uit de beschrijvende statistiek. Geeft paper and pencil juiste resultaten? (10)Terecht stelde men zich dus de vraag of deze niet-deskundigen wel een juiste en bruikbare conclusie konden formuleren. Om de juistheid en de bruikbaarheid van hun antwoorden te borgen moesten nieuwe technieken ontwikkeld worden. De psychologische faculteiten gingen aan het werk. Of een uitslag door toevallige factoren kon beïnvloed worden noemde men betrouwbaarheid. Of de juiste conclusies getrokken werden uit de gegevens noemde men de validiteit.6
Let u alsjeblieft even op de functie van de betrouwbaarheid en de validiteit in het geheel van het testgebeuren: het is één manier om de bruikbaarheid van de test te borgen. Het zijn geenszins, zoals nu vaak gesuggereerd wordt, voorwaarden waaraan een test te allen tijde en
5
Vandaar de naam paper and pencil test, papier en pen test. De test op papier, en de antwoorden met een pen. Geen mondelinge vraag met mondeling antwoord. Paper and pencil. 6 Er werden overigens nog meer termen geïntroduceerd als power van een test, specifiteit, bandbreedte etc.. Deze termen, die verschijnselen benoemen die evenzeer bepalend zijn voor de bruikbaarheid van de test hebben echter niet zo’n succes gekend, en worden nu in de discussie zelden genoemd.
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 4 van 4
ten alle koste moet voldoen. Een test moet wel bruikbaar en bedrijfszeker zijn. Maar de bruikbaarheid mag ook op een nadere wijze geborgd worden. Betrouwbaarheid (overigens een veel belangrijker begrip dan validiteit) werd benaderd vanuit verschillende hoeken. Veel gehanteerd is de volgende: de test-hertest methode. (4)Een test is betrouwbaar als een kandidaat na 6 maanden nog steeds hetzelfde scoort op de test. Dan kan er immers geen toeval gespeeld hebben. Dat is ook zo. Maar denk eens na over volgende situatie. U constateert via een persoonlijkheidsvragenlijst dat uw werknemer onvoldoende assertief is, u besteedt geld en moeite om hem een cursus te laten volgen, en u meet na afloop het resultaat. Als er verschil is, en dat hoopt en verwacht u toch, dan is de test (volgens de test-hertest methode) niet betrouwbaar. Want: de hertest levert niet hetzelfde resultaat op. Het heeft geen zin een test met een hoge betrouwbaarheid, bepaald volgens de test-hertest methode, toe te passen om veranderingen te meten. Weet ú hoe het betrouwbaarheidscijfer van de test die u
gebruikt tot stand gekomen is? Ook veel gebruikt: de parallelmethode: 2 gelijke proefgroepen (bijvoorbeeld 2 gelijke brugklassen in één school) legt de test af. De gemiddelde uitslagen moeten overeenkomen, want het betreft gelijke proefgroepen. Deze methode wordt heel veel gehanteerd, want is veel makkelijker: in één afname heeft men materiaal verzameld voor de berekening terwijl de hertest methode over een langere periode moet gespreid worden. Ook een goede methode, maar dan alleen als je zeker bent dat het om identieke groepen gaat. Het is niet omdat je geen verschillen ziet dat die er ook niet zijn. De methode sluit eigenlijk nooit7. Om in beide gevallen (er zijn overigens nog veel meer benaderingen) statistisch juiste uitspraken te kunnen krijgen is een bepaald minimum aantal gegevens nodig.
Let op de functie van die grote aantalleen: ze dienen om juiste statistische uitspraken te doen over één mogelijke benadering van het bruikbaarheidvraagstuk. Ze dienen de statistiek, niet de test. Er is géén directe relatie tussen aantal en bruikbaarheid. Als de test dan voldoende betrouwbaar geacht wordt, en als de juiste test toegepast wordt in de juiste situatie kunnen we er binnen grenzen (grenzen van de standaardfout en de standaardmeetfout, deze grenzen zijn in de psychometrie behoorlijk ruim) aannemen dat de meting betrouwbaar is en dus een juiste reflectie is van de eigenschap die we bij de kandidaat willen meten. Rest nu nog de vraag
7
Een voorbeeld uit eigen ervaring: toen ik op de (Belgische) brugklas zat werd de Papy methode voor wiskundeonderwijs experimenteel ingevoerd. Dat hield in dat sommige klassen deze methode kregen aangeboden en andere de ‘traditionele” De vergelijking werd gemaakt. Wat de onderzoekers niet wisten, en niet konden weten zolang niemand het hun vertelde, was dat mijn klas (die de nieuwe methode kreeg) samengesteld was uit de betere leerlingen, gemeten op basis van de adviezen van de hoofden van de basisschool. En, in Nederland, wat te denken van de vergelijking van de scholen op de Cito toets als de strategie van verschillende scholen is om de zwakke leerlingen die dag vrijaf te geven? In beide gevallen blijven de onderzoekers – om strategische redenen - onkundig over de verschillen tussen de groepen
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 5 van 5
of deze meting zinvol is, met andere woorden of die ook die informatie geeft die we nodig hebben om een juiste beslissing te nemen. Dus: of de meting valide was
(5) Dikke mensen zijn gemoedelijk, magere mensen zijn afstandelijk. Als dat zo is volstaat het een volumemaat (gewicht, buikomvang etc..) te relateren aan de lengte van een persoon om te weten of die gemoedelijk of afstandelijk is. De BMI , body mass index is een goed voorbeeld van een dergelijke meting. (gewicht gedeeld door lengte in het kwadraat) De BMI wordt gebruikt als een instrument in de preventieve gezondheidsvoorlichting. De BMI is betrouwbaar. Betrouwbaar wil zeggen dat we zeker zijn dat het resultaat van de meting juist is en niet beïnvloed werd door allerlei toevallige omstandigheden. Nu, lengte en gewicht zijn maten die makkelijk en op zekere wijze te bekomen zijn. Bovendien is er in de medische wereld consensus over het feit dat zwaarlijvigheid een gezondheidsrisico inhoudt. Dat is de validiteit: er is een relatie tussen testresultaat en conclusie. Een hoge BMI indiceert een hoger risico. Een voorbeeld van een betrouwbaar en valide testinstrument. Is iemand met een hoge BMI gemoedelijk? En is iemand met een lage BMI afstandelijk? Neen, zegt u? Nochtans is de BMI een zeer betrouwbaar instrument. Daar schort het niet aan. Maar misschien is het wel niet zo dat dikke mensen gemoedelijk zijn, en magere afstandelijk. Er is dus misschien wel niet zo’n groot verband tussen meetresultaat en conclusie. De BMI is dus wel betrouwbaar maar niet valide. Maar wacht even, BMI was toch een betrouwbaar en valide instrument? Ja, als het gaat om preventieve gezondheidsvoorlichting. Maar niet als het gaat om het typeren van mensen op de schaal van gemoedelijkheid en afstandelijkheid. Wat leren we hieruit? Validiteit is niet uitsluitend gebonden aan het instrument, maar ook aan het gebruik dat u ervan maakt. U, gebruiker, bent evenzeer verantwoordelijk en bepalend voor de
validiteit van de test als de ontwikkelaar ervan! Als de test “spiegelen”uit de MCT testserie een vorm van ruimtelijk inzicht meet van de kandidaat, en als u een kandidaat met een resultaat beneden het gemiddelde adviseert geen technische studie aan te vangen, dan moet u zich wel realiseren dat u op een niet valide wijze bezig bent. (6) De test is valide in de mate dat er conclusies kunnen getrokken worden ten aanzien van het ruimtelijk inzicht. Als ú daaraan conclusies verbindt ten aanzien van technische studies is dat uw verantwoordelijkheid. Weet u dan zo precies wat het aandeel is van het ruimtelijk inzicht bij een studie techniek en bij het uitoefenen van en technisch beroep? Als u dat zeker weet dan rechtvaardigt uw expertise uw conclusie. Als u dat niet weet staat u – excusez le mot - uit uw nek te lullen. Nog een voorbeeld, ditmaal een om zelf uit te zoeken. Jongens in groep 8 van de basisschool kennen meer grammatica dan jongens uit groep 2. Jongens uit groep 8 hebben gemiddeld schoenmaat 38. Jongens uit groep 2 hebben gemiddeld schoenmaat 31. (7)Is de - makkelijk te meten – schoenmaat een indicator voor het beheersen van Nederlandse grammatica?
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 6 van 6
Validiteit heeft te maken – Drenth in “De psychologische Test”- met de mate waarin de test aan zijn doel beantwoordt. Het belangrijkste is dat er een relatie is, een gefundeerde en onderbouwde relatie is, tussen resultaat van de meting en de conclusie. Een test kan alleen valide zijn voor het doel waarvoor ze gemaakt is. Kent ú dat doel altijd? Hoe weet ú dan dat uw test valide is voor het doel
waarvoor u hem gaat gebruiken? De Amerikanen begrepen dat wel zo vlak voor WOII. Zij maakten hun test betrouwbaar en valideerden ze tegenover een welomschreven doel. Ze ontwikkelden richtlijnen voor gebruik van de test, voor de afname van de test, voor de correctie van de test, voor de verwerking van de resultaten en ontwikkelden normtabellen. Ze gaven significantie-intervallen op. Ze deden het goed. Van dat geheel is iets blijven resoneren in de huidige psychologie. Maar niet altijd de juiste zaken. Een test moet valide zijn en betrouwbaar. Ze moeten een validiteit hebben van minstens .80. Grote proefgroepen zijn nodig om een goede normering te maken. De testen zelf moeten lang zijn en veel vragen bevatten om betrouwbaar te zijn.Dit is in het collectieve geheugen blijven hangen en is tot adagium uitgeroepen. Ten onrechte. Dat begrijpt u nu ook. De juiste conclusie: een test moet bruikbaar zijn. We moeten de goede conclusies kunnen trekken uit de resultaten. De bruikbaarheid moet geborgd worden. Een hele goede methode is door expertise en eenvoudige statistische controle technieken. Validiteit en betrouwbaarheid, grote proefgroepen en veel vragen zijn geen noodzakelijkheden voor een test; ze waren noodzakelijk voor de statistische verwerking van een bepaald type test – de pencil and papertest - voor gebruik in bepaalde omstandigheden. Het was geniaal, maar het heeft geen zin om de eisen die ontspruiten aan een zeer specifieke en zeer welomschreven en beperkte situatie, over te dragen naar test in het algemeen.
De computer Geniaal waren de Amerikanen eind dertiger jaren zei ik, door het optimaal gebruiken van de ressources te weten schaarse wetenschappelijke capaciteit en onbeperkte capaciteit voor routinematig werk. Hoe verschillend ziet de wereld er nu uit! Er is geen onbeperkte (betaalbare) capaciteit meer voor routinematig werk. Wetenschappelijke capaciteit daarentegen is geen echt schaars goed meer, maar vooral, er is de computer. Hoe belangrijk is de computer in dit verband? Het belang kan niet overschat worden. Om te beginnen maakt hij het hele vraagstuk waar deze tekst zich over boog, irrelevant. Bij de klinische test is er, ter plaatse, expertise nodig: de psycholoog zit tegenover een individuele kandidaat. Bij de collectieve testafname daarentegen is er grote organisatiekracht nodig: zaal, geluidsinstallatie, bewakers, papieren mallen, een legertje testcorrectors.
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 7 van 7
De schaarste voorbij De computer pakt expertise in een doosje, eigenlijk een Disc – CDROM – USB stick [het gaat snel, we moeten de tekst voortdurend aanpassen], en stelt die ter beschikking van geschoolde, maar niet specifiek psychodiagnostisch geschoolde personen. Aan de docent, aan de Personeelschef, aan de HRM manager, zelfs aan de manager tout court. Gestructureerde expertise kan gerepresenteerd worden in voor computers begrijpelijke programma’s. Expert systems, of knowledge systems zijn het experimenteel stadium al lang voorbij, evenals de fase van de te hoog gespannen verwachtingen. Het zijn instrumenten, wijd verspreid en breed bruikbaar. De (specifieke) expertise is dus niet schaars meer, we hoeven daarom niet terug te grijpen naar vervangmiddelen zoals de collectieve paper and pencil testen uit de dertiger jaren. ‘een beetje belachelijk’ De computer wordt gebruikt. Geen adviesbureau dat zich respecteert dat geen testen op computer aanbiedt. En dat is eigenlijk alweer passé, het moet nu via internet. Maar, de collectieve pencil and papertest is zo binnen gedrongen in ons collectief geheugen dat computers ingezet worden voor dat soort testen, als bestonden er geen andere, al zouden geen andere kunnen ontwikkeld worden die optimaal van de huidige ressources gebruikmaken. En, eerlijk gezegd, dat is een beetje belachelijk: de
kandidaat leest de opgave op het scherm, denkt na, kriebelt op het kladpapier, en na pakweg 30 seconden tikt hij A,B, C of D in. De computer verwerkt deze input in, wat zou het zijn, 1 milliseconde, en wacht geduldig tot hij 30 seconden later nog iets te doen krijgt. Dit is niet optimaal gebruik maken van ressources, dit is vasthouden aan iets wat bekend is, dit is onwil of onkunde om vooruit te kijken, dit is eigenlijk gewoon slecht vakmanschap. Als we ook nu optimaal gebruik willen maken van de ressources, en waarom zouden we dat niet
willen!, moeten we de huidige technologische mogelijkheden inschakelen op een wijze hen waardig. Nieuwe pistes: meerder criteria tegelijk Een programma kan best op heel korte tijd – in mensentermen, tegelijkertijd - een gegeven antwoord meerdere keren evalueren. Dus een antwoord op meerder criteria beoordelen. Pen and paper kan dat niet. U herinnert zich dat de ongeschoolde Muva’s een mal kregen waardoor ze de juiste antwoorden konden zien. Verschillende beoordelingen van gegeven antwoorden zou neerkomen op verschillende mallen. Een verschillend gewicht van gegeven antwoorden op verschillende criteria zou moeizaam kunnen gerepresenteerd worden door kleurcodes op de mallen. En tenslotte – het is ooit geprobeerd weet u – zou het zaakje zo ingewikkeld worden, en zo veel fouten genereren dat de uitslagen onbetrouwbaar worden. En dat was nu net niet de bedoeling. Expertise, het vroegere criterium, kan wel multiple interpretatie aan. Maar hierbij is men sterk afhankelijk van de persoon van de psycholoog, kennis is persoonsgebonden. Vroeger hadden psychologen een hoge status, “hij zou het wel beter weten” en men accepteerde deze persoonsafhankelijkheid. Tegenwoordig is men niet meer zo respectvol. Men is kritischer. De computer kan expertise opslaan, die (via technieken van knowledge engeneering of kennistechnologie) door
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 8 van 8
verschillende specialisten is ingebracht en gecontroleerd. Het resultaat van een computerinterpretatie is constanter van kwaliteit dan dat van een expert (die een slechte dag heeft, hoofdpijn heeft, een dringende afspraak heeft etc..) Nieuwe pistes: antwoordclusters Het interpreteren van antwoordenclusters is via paper and pencil totaal onmogelijk. Ik bedoel hiermee interpretaties in de vorm van: Als op vraag 1 A geantwoord werd en op vraag 3 C, en op vraag 6 niet D geantwoord werd dan … Deze vorm van redeneren komt u waarschijnlijk vertrouwd voor. Het is ook helemaal niets ongebruikelijks. En de computer kan het moeiteloos aan, en vergist zich niet. Vergeet niets. Ook hier is hij constanter dan de expert. En voor de geschoolde niet-expert (de coach, de docent, de P&O functionaris, de HRM man, de manager) opent hij een wereld die ze zelf helemaal niet kunnen openen – het is tenslotte hun vak niet. Nieuwe pistes: multimedia We hebben het nog niet over (toekomstige) mogelijkheden om vragen te generen op het niveau van de kandidaat, om presentatievormen te ontwerpen die beter aansluiten bij sommige kandidaats dan het gebruikelijke: “Lees de vraag en duidt het antwoord aan” Het lezen zouden we bijvoorbeeld makkelijk kunnen uitschakelen en vervangen door “Kijk”, of “Luister” Nieuwe pistes: interpretatie Tot voor kort, en vaak nog steeds, eindigt een testsessie in een geprint blad met balkjes. U kent ze wel, de 16PF, de motivatietesten, de beroepskeuzetesten, de BigFIve, allemaal eindigen ze op een aantal benoemde balkjes die elk een score representeren. U scoort een 5 op introversie en een 7 op neurastenie. Dat zul je maar voorgeschoteld krijgen als coach en als kandidaat. (ze horen bij de N.P.V., een bekende en veel gebruikte test) U scoort 8 op intropunitiviteit en 6 op extrapunitiviteit. (hoort bij de Lievens T.A.T. test) Ben ik dan een kandidaat voor zelfmutilatie of voor zelfmoord? Of wat betekent dat dan? U scoort een 8 op ruimtelijk inzicht en een 5 op analogieën. (hoort bij de differentiële aanleg test, de D.A.T., wellicht de meest gebruikte capaciteitentest) Ben ik nu slecht in analogieën? En wat betekent dat dan voor mij? En voor het bedrijf? Overigens, en dat heel terzijde, de getallen van de D.A.T. zijn STANINES, die van de andere genoemde testen zijn DECIELEN. Dat maakt, neemt u het maar van mij aan, HEEL VEEL verschil. In elk geval kan geen van beide soorten getallen vergeleken worden met schoolcijfers, en dat is nu net wat altijd gebeurt. Kan ik het iemand kwalijk nemen als hij het verschil niet weet tussen decielen en stanines? Of dat hij cijfers automatisch herleid tot wat hem heel bekend is, schoolcijfers? En dat hij een 7, als dat
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 9 van 9
de hoogste score is in een testuitslag, gelijk interpreteert als dezelfde 7 wanner die het laagste getal uit de testuitslag is? En wist u dat een score 3 op de DAT een hele acceptabel score is? Bij schoolcijfers is dat slecht, en niet veel meer dan 3% van de populatie scoort die 3, maar bij de DAT zijn betekent het dat hij ongeveer 20% van de populatie onder zich laat. Kan ik het iemand kwalijk nemen als hij niet helemaal precies weet wat een begrip exact betekent, en dat hij de theorie niet helemaal kent nodig om de verschillende scores tegenover mekaar in perspectief te zetten en zo tot een sluitend en acceptabel en bruikbaar verhaal te komen? Daar kan garen van gesponnen worden: cursussen, certificering. Vooral goed voor de testontwikkelaar, maar wie ben ik om daar iets van te vinden? De betere oplossing is de interpretatie van de professional – daar was het allemaal mee begonnen, herinnert u zich nog – mee te geven zodat de professional, U dus, de juiste interpretatie kunt gebruiken, en die vervolgens kunt aanvullen met uw eigen expertise en uw specifieke kennis. Dan ontstaat er iets heel moois. En dan wordt u die expert, die beter coach, die betere begeleider, die betere leidinggevende. Het criterium is dan niet meer betrouwbaarheid en validiteit (natuurlijk moeten de testen betrouwbaar zij) maar de bewezen bruikbaarheid, het ermee behaalde resultaat, de ‘winst’ voor wie ze gebruikt. In elk geval is duidelijk dat de computer meer kan, echt veel meer, dan paper and pencil. En dat hij gelijkmatiger kwaliteit aflevert dan experts, waarvan sommige piepjong en onervaren zijn.
De ruime verspreiding van computers, en recenter, van internet maakt dat de introductie van deze testen nu beter lukt dan 10 jaar geleden, toen ze ontworpen werden. (14)LogicAssessment In het midden van de jaren 80 van vorige eeuw zijn Ruud Sellink (Mind Group Eindhoven) en ikzelf gestart met de ontwikkeling van geautomatiseerde instrumenten t.b.v. het HRM management. Gezamenlijk brachten we toen ongeveer 40 jaar ervaring met test, met bedrijfskunde en met HRM in. Via kortere of langere samenwerkingsverbanden met collega’s werd het al vlug meer dan een eeuw aan ervaring op het werkgebied. En gezien wij er ook niet jonger op werden, maar wel bleven kijken, ontdekken, proberen en toetsen in de meest uiteenlopende business omgevingen is de expertise blijven stijgen. Klanten vormden de ultieme toetssteen: we ontwikkelen immers voor hen. Als onze testen bruikbaar moeten zijn – ons kernbegrip – dan is dat uiteraard bruikbaar voor de klanten. Begin jaren 90 kwamen onze werkterreinen wat verder van mekaar te liggen, hoewel we een regelmatig contact bleven onderhouden. Uit de basiservaringen ontwikkelde Ruud het Ematch systeem, mijn eigen ontwikkelingen mondden uiteindelijk uit in LogicAssessment In het begin van de 90er ben ik gestart met het bouwen van testen volgens deze inzichten. Soms was het nieuwbouw, soms was het aanpassen van bestaand materiaal, soms was het vernieuwbouw. In alle geval: er ontstond een bibliotheek van testen die werkten volgens de principes zoals beschreven.
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 10 van 10
Ik koos in 1993 voor het afleggen van de test op papier, om de antwoorden vervolgens in te voeren in de computer en het programma zijn ding te laten doen. Uitvoer was weer op papier. Dat deden we omdat er nog niet zoveel computers waren als nu, omdat er nog vrij veel mensen koudwatervrees hadden achter een toetsenbord, en omdat de standaardcomputers niet zo krachtig waren. Bovendien gaf de geringe schermresolutie, en de zwart wit monitoren problemen bij opgaven waarbij tekeningen verwerkt waren (bijvoorbeeld: testen naar ruimtelijk inzicht). Deze technische bezwaren bestaan niet meer in 2009: daarom bieden we nu de testen, onder de naam LogicAssessment, aan via het net. LogicAssessment trekt resoluut de kaart van de klinische testen, waarbij bruikbaarheid voor de gebruiker voorop staat. Wij borgen dat op basis van expertise, en doen dat op een moderne wijze, namelijk via ‘de computer’ en ‘internet’.
De LogicAssessment testen zijn the state of the art zoals u ze kunt verwachten van een goede expert. Het zijn klinische tests. De LogicAssessment testen grijpen terug naar expertise. Via een gepast gebruik van moderne technologieën is de LogicAssessment expertise even hoogstaand, maar gelijkmatiger en van een constanter kwaliteit dan van een individuele expert.
Whisky (13)Houdt u van whisky? U mag LogicAssessment vergelijken met en hele goed blend. Goed, gelijkmatig van kwaliteit, betaalbaar. Misschien is er een single malt die u beter bevalt, maar die vind u pas na lang en veel proeven en vergelijken. En soms valt die single malt ronduit tegen. En als u de ware gevonden hebt moet u een leverancier vinden die hem regelmatig kan leveren. En u betaalt ervoor. Chivas Regal en Johnny Walker, Black Label natuurlijk, zijn hele goede blends. U kunt te allen tijde zeker zijn van de kwaliteit. U kunt ze bij elke speciaalzaak krijgen, maar niet in de supermarkt, en hoewel niet echt goedkoop zijn ze betaalbaar. En u houdt er geen kater aan over, ook als u er toevallig wat teveel van zou consumeren. De vergelijking gaat eigenlijk perfect op. Toeval?
LogicAssessment – het ontstaan van testen, een kritisch overzicht
pagina 11 van 11