Validiteit Wat wordt er eigenlijk mee bedoeld? Dorien Derksen
Dit document is bedoeld als aanvulling op de technische rapportages die TSI Benelux verstrekt ter onderbouwing van haar instrumenten (assessments). Doel is om mensen die niet statistisch onderlegd zijn of mensen die weinig zicht hebben op wat er komt kijken bij het ontwikkelen van een goed instrument, toch een idee te geven van wat de concepten validiteit en betrouwbaarheid behelzen. Wij beogen noch claimen wetenschappelijke volledigheid of 100% juistheid op alle genoemde concepten.
Wat is validiteit? Met validiteit doelen we eigenlijk op een paraplu van statistische methoden om te toetsen (en aan te geven) of een instrument (of assessment, test, toets) geschikt is voor gebruik in de praktijk. Validiteit heeft te maken met twee heel basale en belangrijke vragen: 1. Meet een instrument wat het verondersteld wordt te meten? 2. Hoe goed meet een instrument dat dan? Het zijn geen eenvoudige vragen om te beantwoorden omdat er veel ruimte is voor subjectieve interpretatie van hoe ‘goed’ iets gemeten kan worden. Validiteit is vooral een hulpmiddel om te kijken naar het verband tussen de prestaties of resultaten van een instrument, en andere waarneembare of meetbare aspecten waarop getoetst kan worden.
De drie C’s: Content, Criterion, Construct
assessment over hoe de respondent zich in bepaalde situaties zal manifesteren?
Er zijn drie belangrijke vormen van validiteit, voor het gemak hanteren we hieronder de Engelse termen: Content, Criterion en Construct validity.
Bijvoorbeeld in termen van Drijfveren, verhoogt het hebben van een passie voor de Zakelijke Drijfveer de kans op succes in een salesfunctie? Criterion validity omvat twee subvormen: concurrent validity en predictive validity. Beide vormen zijn er op gericht om de scores van respondenten op een assessment te vergelijken met een aantal externe criteria die op zich geen verband houden met de assessment die gemaakt is. Bijvoorbeeld door ook te kijken naar prestatie-indicatoren of -criteria. Voorwaarde is dat er duidelijke, meetbare criteria zijn waarin de prestatie kan worden gemeten of uitgedrukt. Bijvoorbeeld: omzet bij salesmensen. Of: opgeloste klachten en doorlooptijden bij helpdeskmedewerkers.
Content validity Content validity draait om de vraag of een assessment daadwerkelijk het meetdomein bestrijkt dat men in kaart wil brengen. Als je een toets wilt ontwikkelen die iets zegt over iemands kennis van de Nederlandse taal moet je geen vragen stellen die te maken hebben met iemands kennis van de Engelse taal. Dit lijkt een heel voor de hand liggende vorm van validiteit, maar soms is het minder zwart wit dan het lijkt. Stel je wilt een instrument ontwikkelen om het concept ‘Angst’ te meten. Dan kan het zijn dat er bijvoorbeeld ook vragen insluipen die eigenlijk gaan over het concept ‘Schaamte’. In termen van bijvoorbeeld DISC behelst content validiteit onder meer: Hebben de items op de vragenlijst inderdaad te maken met het meten van observeerbare menselijke gedragsstijlen? Komen alle 4 DISC-factoren in min of meer gelijke mate aan bod in de items van de vragenlijst? Zijn de items bestand tegen ‘sociaal wenselijke’ beantwoording?
Criterion validity Criterion validity heeft alles te maken met het ‘vermogen’ van een test, toets of assessment om voorspellende uitspraken te kunnen doen over de respondent in toekomstige situaties. Wat zeggen de resultaten die de respondent ‘scoort’ op het
2
©TSI Benelux 2015 - Inhoud & verdieping
Een onderzoek van TTI SI onder eerstejaars bouwkunde studenten uit 2007 toonde bijvoorbeeld aan dat het hebben van een hoge C-factor aantoonbaar bijdraagt aan betere studieresultaten en hogere cijfers. Bij concurrent validity wordt het assessment afgenomen en worden de scores tegelijkertijd afgezet tegen andere, externe criteria. Bij predictive validity zit er tijd tussen de afname van het assessment en het moment waarop de scores worden vergeleken met de criteria.
Construct validity Construct validity gaat feitelijk om de vraag: meet je wat je denkt of zegt te meten, of wat je wilt meten? En is daarmee, theoretisch gezien, misschien wel de ‘belangrijkste’ van de drie vormen van validiteit als het om de kwaliteit van een assessment gaat. Om het concreet te maken: als je lengte meet, dan heb je een goede ‘meter’ nodig om dat precies te kunnen meten. Als je een meetlat
hebt kun je heel precies in meters, centimeters en misschien zelfs millimeters de maten van je woonkamer opnemen. De meetlat is construct technisch ‘valide’. Als je je meetlat kwijt raakt, ga je de kamer opmeten in aantal stappen, en kom je uit op een indicatie van de maten. Dat laatste is leuk om een idee te krijgen voordat je naar de woonboulevard gaat, maar niet verstandig als ijkpunt om je peperdure parket op maat te laten leggen. De stappenmeting is daarmee te omschrijven als ‘niet erg valide’.
Construct validity is een complex geheel, waarbij verschillende technieken en methoden op een instrument worden losgelaten en verschillende bronnen worden aangeboord. Meerdere wegen worden bewandeld om uitspraken te kunnen doen over de construct validity van een assessment. Een van die wegen is de zogenaamde factor analyse, een statistische techniek waarbij items op de vragenlijst worden onderzocht en geanalyseerd op basis van interne relaties, samenhang, patronen en variaties. Een factor analyse kan de door de testbouwer veronderstelde en beoogde patronen, samenhang en clustering aantonen maar kan ook niet voorziene patronen aan het licht brengen. Concreet voorbeeld: als testbouwer denk je met een bepaald item iets te meten over de Zakelijke Drijfveer, maar in de praktijk blijkt dat item meer te zeggen over het ontbreken van de Sociale
Drijfveer. Factor analyse is een belangrijke stap om te kunnen bepalen of de aannames die gedaan worden ten aanzien van wat een assessment bedoelt te meten, daadwerkelijk overeind blijven. En een essentieel onderdeel in het ontwikkelingsproces van een instrument dat helpt bij het verfijnen en steeds scherper afstellen van een instrument. Vertaald naar DISC: Als de D-factor dominantie meet (de manier waarop een individu omgaat met problemen en uitdagingen), ‘laden’ bepaalde items op de vragenlijst ook echt op deze D-factor? Construct validiteit gaat daarmee wat ons betreft ook over de vraag of een item discriminerend genoeg is. Concreet voorbeeld: stel je zet het begrip vrolijk in de vragenlijst, en je koppelt dat als testontwikkelaar aan de I-factor, want het hoort volgens jou bij het cluster van woorden dat onderscheidend is voor de hoge I-stijl. Als vervolgens blijkt dat mensen met hoog S- en C-gedrag dat woord net zo vaak kiezen als meest passend als mensen met een hoge I-stijl, kun je stellen dat het woord onvoldoende discriminerend is om iets over de I-factor te kunnen zeggen. Een item dat matig of niet discrimineert wordt in de scoring van veel instrumenten een blanco factor, wat betekent dat hij niet wordt meegerekend in de ‘uitslag’. Veel beter zou zijn om het item te vervangen door een item dat wel scoort.
Nog een C: Cronbach’s alpha, oftewel betrouwbaarheid Validiteit is een ingang. Maar de vraag hoe goed een instrument meet wat het zegt te meten, wordt ook uitgedrukt in termen van betrouwbaarheid.
©TSI Benelux 2015 - Inhoud & verdieping
3
Hiermee wordt in de assessmentwereld altijd bedoeld: hoe consistent is een instrument? Betrouwbaarheid onderzoeken is een vaste routine in de assessmentwereld. Velen zien betrouwbaarheid eigenlijk als een onderdeel van Construct validity omdat het feitelijk gaat om de vervolgstap. Als eenmaal is vastgesteld dat een instrument meet wat het verondersteld wordt te meten, dan volgt namelijk de belangrijke vraag: kunnen we dat ook bewijzen aan de hand van de antwoorden die mensen geven op de test? Hoe consistent zijn respondenten in het beantwoorden van de vragenlijst? Die betrouwbaarheid wordt uitgedrukt in de fameuze Cronbach Alpha factor. Voorbeeld: Stel je even de Drijfveren vragenlijst voor. Om te meten hoeveel waarde de Intellectuele Drijfveer heeft voor jou, wordt er 12 keer aan jou gevraagd hoe jij een item dat met die drijfveer te maken heeft, waardeert in relatie tot andere items die weer met andere drijfveren te maken hebben. Bij vraag 1 staat er bijvoorbeeld Kennis, bij vraag 2 Onderzoek, bij vraag 3 Verdere scholing. Etc. Eigenlijk wordt jou, zij het steeds in andere woorden, min of meer 12 keer hetzelfde gevraagd. De Cronbach Alpha factor meet in hoeverre al die items inderdaad de Intellectuele Drijfveer ‘laden’ door te berekenen in hoeverre de antwoorden van grote groepen representatieve respondenten (bij voorkeur 1000 tot 2000) op de items consistent zijn. In hoeverre geven verschillende mensen binnen die groep een consistent en betrouwbaar beeld in hun antwoorden? Een sterk versimpeld voorbeeld. Stel, 80% van de hoog Zakelijk gedreven mensen zet 85% van de zakelijke items op positie 1 of 2. En 80% van de Sociaal gedrevenen zet
4
©TSI Benelux 2015 - Inhoud & verdieping
‘slechts’ 60% van de items die met deze drijfveer te maken hebben, op positie nummer 1 of 2. Dan kun je stellen dat de consistentie van de items die de Zakelijke Drijfveer laden hoger is dan de consistentie van de items die de Sociale Drijfveer laden. De sociale items kunnen nog steeds aantoonbaar bijdragen aan het meten van de Sociale Drijfveer maar doen dat minder sterk en discriminerend dan de items op de Zakelijke Drijfveer. Betrouwbaarheid wordt dus uitgedrukt in de Cronbach alpha factor. Als minimale eis voor een goed instrument geldt tegenwoordig een score van +0.70 (in wetenschappelijke publicaties aangeduid als α=.70) per gemeten construct (domein, factor). Het verdient altijd de voorkeur, wanneer er door een leverancier meertalige instrumenten worden geleverd, dat de vertaling van een instrument over eigen Cronbach Alpha’s beschikt!
Test-Hertest In het verlengde van betrouwbaarheid ligt ook het onderzoek naar de Test-Hertest waarde van een instrument. Door het instrument binnen een gegeven periode ten minste tweemaal af te nemen bij dezelfde respondenten wordt gekeken hoe goed het instrument bestand is tegen variaties in antwoordpatronen. Als respondenten de tweede keer heel andere antwoorden geven dan de eerste keer, is dat een indicatie dat het instrument niet erg consistent is, want kennelijk is beantwoording ervan onderhevig aan grote schommelingen. Een voorwaarde hierbij is dat de respondenten in de tussenliggende tijd niet door training en heftige gebeurtenissen worden uitgedaagd radicaal anders naar zichzelf te kijken.
Het ondergeschoven kindje Er is nog een vierde vorm van validiteit, die over het algemeen wordt gezien als een minder harde, minder meetbare vorm. Ten onrechte is het daarom misschien bij veel testbouwers een ondergeschoven kindje. Het gaat dan om Face validity.
Face validity Face validity is misschien het beste te omschrijven als output validity. Herkent de respondent zich in de uitkomsten van het instrument? Is wat er beschreven wordt een accurate beschrijving van de gedragsstijl/de drijfveren/de competenties etc. van de persoon in kwestie? Complicerende factoren hierin zijn zaken als confirmatory bias en het Barnum effect. Deze effecten wortelen in twee bekende psychologisch fenomenen. De confirmatory bias maakt dat een respondent actief bevestiging wil vinden als het om positief gepresenteerde statements gaat. Het Barnum effect maakt dat de respondent zich bijna automatisch gaat herkennen in beschrijvingen die eigenlijk zo vaag en algemeen van aard zijn dat ze op iedereen van toepassing hadden kunnen zijn. Deze effecten treden op bij de interpretatie van
uitkomsten van alle vormen van zachte assessments en mogelijk zelfs bij cognitieve assessments, dus niet per definitie alleen bij ipsatieve instrumenten. Mensen willen zich nu eenmaal graag herkennen in scores en gaan zoeken naar bevestiging van de betreffende uitkomsten. Er treedt hier een soort positief omgekeerd roze olifant effect op. Bepaalde vormen van feedback werken de 'wens' om je zelf te herkennen, bovendien sterk in de hand, en veel psychologen en coaches hebben een aangeboren neiging tot het sturen van interpretaties. Het is nu eenmaal een psychologische construct van de mens om meer te zoeken naar bevestiging dan naar afwijken. In alle discussies over ‘harde criteria en meetbare data’ is dat een nuance die we nooit over het hoofd mogen zien. Dat maakt dat het uiteindelijke effect in de praktijk, ook van onderbouwde, betrouwbare en valide instrumenten zoals die van TTI SI, deels afhangt van de kwaliteit, expertise en professionaliteit van de consultant die ze inzet. Reden waarom TTI SI wereldwijd hoge eisen stelt aan de certificatie en (her)certificatie van haar consultants!
Cijfers omtrent betrouwbaarheid van de Nederlandstalige rapportages van TTISI kunt u opvragen via
[email protected], of bel 020 697 96 36
©TSI Benelux 2015 - Inhoud & verdieping
5