Psychometrie en statistische begrippen
Inleiding psychometrie 1. Inleiding In dit hoofdstuk wordt een kort overzicht gegeven van vaak gebruikte termen binnen het onderzoeksdomein. Er worden telkens een aantal voorbeelden gegeven ter illustratie.
2. Wat is een psychologische test? Een psychologische test is een objectieve, gestandaardiseerde procedure opgesteld om een deel van gedrag te meten. Psychologische testen zijn net als de testen in elke andere wetenschap, in zoverre dat observaties gedaan worden van gedrag van individuen op een kleine maar zorgvuldig uitgekozen steekproef1. De diagnostische of voorspellende waarde van een psychologische test hangt af van de mate waarin ze dient als een indicator voor een relatief breed en significant gebied van gedrag. Meting van steekproefsgewijs gedrag direct gecoverd door de test is zelden, indien dit ooit al het geval is, het doel van psychologische testen. Voorbeeld: Het aantal woorden dat een kind kent van een lijst van 50 woorden is op zich niet erg interessant. Dit geldt ook voor de score van een werkzoekende op een test met 20 specifieke rekenkundige vraagstukken. Als echter kan worden aangetoond dat er een verband is tussen de kennis van een kind en de woordenlijst en zijn/haar totale woordenschat, of tussen de score van de werkzoekende op de test met rekenkundige vraagstukken en zijn rekenkundige prestaties in zijn/haar baan, dan dienen deze testen hun doel. In dit opzicht moet worden opgemerkt dat de testitems niet noodzakelijk erg hoeven te lijken op het gedrag dat de test wenst te voorspellen. Het is alleen nodig dat een empirisch verband tussen de twee kan worden aangetoond. De mate waarin de teststeekproef en het voorspelde gedrag overeenstemmen kan sterk variëren. Aan de ene kant kan de test volledig overeenstemmen met een deel van het voorspelde gedrag.
1
In wetenschappelijk onderzoek is men meestal niet geïnteresseerd in de genomen steekproef, maar wil men uitspraken doen over de hele populatie. Er worden steekproeven gebruikt omdat het meten van alle gevallen (personen, dieren, gebeurtenissen, etc.) in de populatie meestal niet haalbaar is. Voor het nemen van een representatieve steekproef werden twee verschillende methoden ontwikkeld. Wanneer we niets of weinig weten over de ruisfactoren in onze meting, zal een volledig toevallige steekproef worden genomen uit de populatie. We veronderstellen dan dat ruisfactoren louter toevallig zijn en dat zij elkaar daarom opheffen. Bij een gecontroleerde steekproef zullen we een aantal ruisfactoren zoals leeftijd, geslacht, opleidingsniveau, etc. controleren. Door gebruik te maken van deze methode zal de verdeling van de gecontroleerde factoren binnen de steekproef gelijk zijn aan de verdeling van deze factoren binnen de populatie.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Voorbeeld: Een vreemde-woordenschattest waarin de kennis van studenten van 20 van de 50 nieuwe woorden die ze bestudeerd hebben onderzocht wordt, of de rijtest die voorafgaat aan het krijgen van een rijbewijs. Aan de andere kant vindt men projectieve persoonlijkheidstesten terug zoals de Rorschach (inktvlekkentest), waarin een poging wordt ondernomen om vanuit de associaties van de persoon omtrent de inktvlekken te voorspellen hoe hij/zij zal reageren op anderen, op emotioneel getinte stimuli (prikkels) en andere complexe dagelijks voorkomende situaties. Ondanks hun verschillen bestaan deze testen elk uit steekproeven van individueel gedrag.
2.1. Standaardisatie Standaardisatie betekent UNIFORMITEIT van de procedure in de afname en scoring van de test. Als de scores van de verschillende mensen bij wie men de test afneemt vergelijkbaar moeten zijn, moeten de testomstandigheden voor allen uiteraard ook dezelfde zijn. In een testsituatie is de enige onafhankelijke variabele vaak het individu dat getest wordt. Om uniformiteit van de testomstandigheden te garanderen, voorziet de testontwikkelaar gedetailleerde richtlijnen voor de afname van elke nieuw ontwikkelde test. De formulering van richtlijnen is een belangrijk onderdeel in de standaardisatie van een test. De standaardisatie omvat verder het precieze gebruikte materiaal, tijdslimieten, mondelinge instructies, voorafgaande voorbeelden en elk ander detail eigen aan de testsituatie. Vele andere, meer subtiele factoren kunnen het resultaat op bepaalde testen beïnvloeden. Bij het geven van de instructies en het mondeling voorstellen van voorbeelden moet rekening gehouden worden met het ritme van spreken, de toonhoogte, pauzes en gelaatsuitdrukkingen. Een tweede belangrijke stap in de standaardisatie van een test is het instellen van NORMEN. Psychologische testen hebben geen vooraf bepaalde standaard inzake falen of slagen; het resultaat van elke test wordt geëvalueerd op basis van empirische gegevens. Daarom wordt de testscore van een individu vergeleken met de behaalde scores van de anderen op dezelfde test. Zoals de naam al zegt is de norm het normale of gemiddelde resultaat.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Voorbeeld: Als normale 8-jarige kinderen 12 van de 50 problemen in een reken-redeneertest correct kunnen oplossen, dan komt de norm voor 8-jarigen voor deze test overeen met een score van 12. Deze laatste score wordt ook wel de ruwe score genoemd. De ruwe score houdt bijvoorbeeld het aantal correct beantwoorde vragen in, de tijd die nodig is om een opdracht te voltooien, het aantal fouten, of een andere objectieve maat geschikt voor de inhoud van de test. Zulk een ruwe score is echter betekenisloos voordat ze geëvalueerd wordt in termen van passende interpreteerbare gegevens (zie verder).
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Tijdens het proces van standaardisering van een test, wordt ze afgenomen bij een grote, representatieve steekproef bestaande uit het type personen waarvoor de test zal dienen. Deze groep, die ook wel de standaardisatiesteekproef wordt genoemd, dient tot het instellen van normen. Zulke normen geven niet alleen het gemiddeld resultaat weer, maar ook de relatieve frequentie van de variërende afwijking boven en onder het gemiddelde. Het is dus mogelijk verschillende graden van superioriteit en inferioriteit te evalueren. De specifieke manier waarop zulke normen uitgedrukt kunnen worden, zie je op bijgevoegde slide. Ze geven elk een beschrijving van de positie van het individu met referentie aan de normatieve of standaardisatiesteekproef. Noot: Persoonlijkheidstesten: de norm op een persoonlijkheidstest is niet noodzakelijk het meest wenselijke of ideale resultaat. De norm komt overeen met het resultaat van een typisch of gemiddeld persoon.
2.2. Objectieve meting van moeilijkheid: zie punt hierboven. Bovendien is de bepaling van het moeilijkheidsniveau van een item of van de hele test gebaseerd op objectieve, empirische procedures.
2.3. Betrouwbaarheid: Hoe goed is de test? Werkt ze echt? De objectieve evaluatie van psychologische testen omvat in eerste instantie het bepalen van de betrouwbaarheid en de validiteit van de test in specifieke situaties. Voorbeeld: Stel, je bent jurylid in een moordzaak. Je zou dan niet erg onder de indruk zijn van een getuige die elke keer een ander verhaal komt vertellen. Zo’n getuige zou als onbetrouwbaar gezien worden. Op dezelfde manier is een meting die elke keer een ander resultaat geeft geen erg goede meting. Voorbeeld: Wanneer een kind een IQ van 110 behaalt op maandag en bij hertesting op vrijdag een IQ van 80 behaalt, is het duidelijk dat weinig tot geen belang kan worden gehecht aan één van deze scores. Binnen de psychometrie betekent de term betrouwbaarheid consistentie. Testbetrouwbaarheid is de consistentie van scores behaald door dezelfde personen wanneer ze hertest worden aan de hand van een identieke test of een equivalente vorm van de test. Betrouwbaarheid kan nagegaan worden door scores te vergelijken die behaald zijn door dezelfde proefpersonen op verschillende tijdstippen, met verschillende itemsets, met verschillende onderzoekers of scoorders, of onder elke andere relevante testomstandigheid.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Componenten van betrouwbaarheid
De GEOBSERVEERDE (TEST)score is de score die men observeert in de onderzoekssetting (komt overeen met de KLASSIEKE TESTTHEORIE). De geobserveerde score bestaat uit twee componenten: - de WARE score is zoals de theoretische entiteit ‘waarheid’ die we altijd lijken te zoeken, maar die haast niet te vinden is. Deze score is echter belangrijk, want hij reflecteert de ware waarde van een variabele. Duidelijker: de theoretische hoeveelheid van een trait of construct waarvan we verwachten dat een persoon die heeft. Als we een test konden creëren bestaande uit alle mogelijke items die het construct meet, dan zou de score van die persoon op deze test zijn/haar ware score zijn. Maar dit is niet mogelijk omwille van twee redenen: (1) je kunt steeds een licht verschillend item maken dat het construct meet, (2) het zou impliceren dat een exacte definitie van het construct bestaat.
- de FOUTENscore op zich is opnieuw in twee delen op te splitsen: *Een methodische (of systematische) fout: refereert aan alles dat een verschil veroorzaakt tussen de testscore en de ware score door de testsituatie. Voorbeeld: Studenten leggen een examen af - het lawaai van werklui zal hun resultaten beïnvloeden als een methodische fout. *Trait-(of toevallige)-fouten: wijzen op factoren verbonden met de traits of kenmerken van de proefpersoon die een examen aflegt, die toevallig de meting kunnen beïnvloeden.
Bijvoorbeeld; Wanneer je erg moe bent als je een examen moet afleggen. FORMULE: TESTscore = WARE score + FOUTENscore
In dagelijks taalgebruik uitgedrukt betekent dit dat het betrouwbaarheidsniveau toeneemt naarmate de foutenscore afneemt. Dit wil dus zeggen dat hoe betrouwbaarder dat je wil dat je instrument is, hoe meer je ervoor zult moeten zorgen dat de foutenscore afneemt (lijkt logisch maar betrouwbaarheid kan jammer genoeg niet gemeten doch alleen geschat worden, pech dus !!).
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Enkele aspecten van betrouwbaarheid
- EQUIVALENTIE-aspecten van betrouwbaarheid: de mate van overeenstemming tussen twee (of meer) instrumenten afgenomen op bijna hetzelfde tijdstip. Kunnen worden gemeten aan de hand van: A) De parallelle of een alternatieve vorm van betrouwbaarheid (zowel equivalentie als stabiliteit – zie verder): Eén van de manieren om het test-hertestprobleem te omzeilen, is door het gebruik van alternatieve vormen van de test. Dezelfde personen krijgen op tijdstip 0 een bepaalde vorm van de test aangeboden en op tijdstip 1 een equivalente vorm van dezelfde test. De correlatie (het verband) tussen de scores behaald op de twee testvormen geeft de betrouwbaarheidscoëfficiënt van de test weer (hoe hoger de correlatie tussen de twee vormen, hoe equivalenter de vormen). Zo’n betrouwbaarheidscoëfficiënt is een maat van temporele stabiliteit en consistentie van de antwoorden voor verschillende itemsteekproeven of testvormen. Deze coëfficiënt combineert dus twee soorten betrouwbaarheid. Belangrijk is dat hetzelfde concept gemeten wordt in beide vormen, hoewel ze verschillen in verwoording en/of de vorm van de vragen. B) De scorer(Interrater)betrouwbaarheid: het gaat hier voornamelijk om een probleem dat optreedt bij projectieve testen waarbij een groot deel van de scoring overgelaten wordt aan de beoordeling van degene die de scoring doet. Men kan de betrouwbaarheid nagaan door een steekproef van testen te laten scoren door twee scoorders en dan te kijken of zij tot dezelfde scoring komen. Deze test wordt meestal buiten de context van wat je wil meten ondernomen (meestal in een pilotstudie). Het wordt meestal op één of twee manieren gedaan: *Als je meting bestaat uit categorieën (bijvoorbeeld: antwoorden “ja”, “nee”, “niet van toepassing” voor elke observatiecategorie) kan men het percentage van overeenstemming tussen de verschillende scoorders berekenen. Als hun metingen overeenstemmen in 82 van de 100 categorieën, is het percentage van overeenstemming 82%. *Correleren van de metingen van activiteiten (bijvoorbeeld het lawaainiveau in een café op een schaal van 1-10, en je vraagt de scoorders een schatting om de 30 seconden) dan geeft de correlatie tussen de scoorders een schatting van de betrouwbaarheid (of consistentie) tussen de scoorders.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Voorbeeld: Een zeer belangrijk punt binnen de gezondheidssector betreft de betrouwbaarheid van de diagnostiek. Verschillende jaren werd een veel energie gestoken in het ontwikkelen van procedures die aangeven hoe medici hun cliënten binnen diagnostische categorieën kunnen onderbrengen. Deze bezorgdheid kwam voort uit een aantal onderzoeken die aantoonden dat patiënten in meer dan 50% van de gevallen verschillende diagnoses te horen kregen van verschillende medici (Schmidt & Fonda, 1956; zie Reaves Celia C., 1992). Dit wijst duidelijk op de lage scorerbetrouwbaarheid van het meten van psychologische stoornissen.
- STABILITEITSaspecten van betrouwbaarheid: men spreekt van instrumentstabiliteit wanneer dezelfde resultaten behaald worden bij herhaald testen bij dezelfde steekproef. De resultaten zijn consistent in hun meting van een aspect van het ene moment tot het andere moment. Hoe kan men stabiliteit meten: C) Test-hertestbetrouwbaarheid: de meest voor de hand liggende methode om de betrouwbaarheid van testscores na te gaan is door een identieke test op een tweede testmoment opnieuw af te nemen. De betrouwbaarheidscoëfficiënt (rtt ) is in dit geval gewoonweg de correlatie tussen de scores behaald door dezelfde persoon op de twee afnames van de test. De foutenvariantie komt overeen met de toevallige fluctuaties van het resultaat van de ene testsessie tot de andere. Deze variaties kunnen voor een deel het resultaat zijn van ongecontroleerde testomstandigheden, zoals extreme weersveranderingen, lawaai en andere afleidingen (een gebroken potloodpunt). Tot op zekere hoogte komen ze echter voort uit veranderingen in de proefpersonen zelf, door bijvoorbeeld, ziekte, vermoeidheid, bezorgdheid of recente gebeurtenissen. Hertestbetrouwbaarheid geeft de mate aan waarin een score op een test veralgemeend kan worden naar verschillende situaties; hoe hoger de betrouwbaarheid, hoe minder de scores beïnvloedbaar zijn door de toevallige veranderingen in de omstandigheden van de proefpersoon of van de testomgeving.
- HOMOGENITEITSaspecten van betrouwbaarheid: het gaat hier om een intern aspect (interne consistentie). Het heeft de bedoeling na te gaan in hoeverre verschillende items in een meting het kenmerk reflecteren dat men beoogt te meten.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Hoe gaat het meten in zijn werk? D) Split-halfbetrouwbaarheid: men behaalt twee scores voor elke persoon door de enige test die men afneemt precies in twee equivalente helften te verdelen. Op die manier voorziet de split-halfmethode een maat voor consistentie met het zicht op inhoudsampling of itemsampling. Dit type van betrouwbaarheidscoëfficiënt wordt vaak een coëfficiënt van interne consistentie genoemd, aangezien maar één afname van één vorm van de test vereist is. Hoe wordt gesplitst? In de meeste gevallen splitst men de test op in de even en oneven items van de test. Voorbeeld: Je hebt een test die uit 30 vragen bestaat. Dan kun je de score op de 15 oneven genummerde items vergelijken met de score op de 15 even genummerde items. Als de test betrouwbaar is, zou je ruwweg dezelfde score moeten krijgen op beide helften. ALTI Interne consistentie op basis van split-halfcorrelaties: ALTI-schaal
split-halfbetrouwbaarheid
E-I
.97
S-N
.93
T-F
.93
J-P
.98
E) Kuder-Richardson-betrouwbaarheid en Coëfficiënt-alfa, Cronbach-Alfa: deze methode is gebaseerd op de consistentie van antwoorden op alle vragen in de test. Deze inter-itemconsistentie wordt beïnvloed door twee bronnen van foutenvariantie: (1) inhoudsampling (zoals in de parallelle vorm en split-halfmethode), en (2) heterogeniteit van het steekproefgedragsdomein. Hoe homogener het domein, hoe hoger de inter-itemconsistentie. Een heel relevante vraag in deze context is of het criterium dat de test tracht te voorspellen op zich relatief homogeen of heterogeen is.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Voorbeeld: Stel je hebt een test die bestaat uit 100 items; bijvoorbeeld een ja/nee-woordenschattest met 100 bestaande woorden. Laat ons veronderstellen dat je deze test gebruikt als onderdeel van een groter onderzoek, waarin je de woordenschattest gebruikt als een controle. Wanneer je de interne consistentie wil nagaan, zul je gebruik maken van de KR-20 (aangezien je werkt met KR-20 rk = K/(K-1) * 1 - (M*(K - M)) / (K*s2 )) K = het aantal items van de test M = de gemiddelde score op de test s = de standaardafwijking van de scores op de ja/nee-test
Voorbeeld: Je hebt een ja/nee-test van 150 items, met 100 bestaande en 50 niet-bestaande woorden. Negeer de niet-bestaande woorden voor de berekening. Je geeft de test aan 75 mensen: ze behalen een gemiddelde score van 72 en een standaardafwijking van 9. K = 100
M = 72
s=9
KR-20 rk
= (100/99) * (1 - (72 * 28) / (100 * 81)) = .7587
Opgelet: De KR-20-formule werkt moeilijkheidsgraad zijn. (a)
het
beste
als
de
items
van
ongeveer
dezelfde
K/(K-1) geeft de grootte van de test weer.
(b) M*(K-M) geeft het patroon van scores op de test als geheel weer. Dit getal is het kleinst wanneer de gemiddelde score erg hoog of erg laag is, en het grootst als de gemiddelde score rond de 50% van het maximum ligt. (c) K*s2 geeft de variatie van de scores weer op itemniveau. Hoe dichter dit getal ligt bij M*(K-M), hoe beter. Wanneer (b) klein is, en (c) is ook klein, dan zal het tweede deel van de vergelijking dicht bij 1 liggen. Dit getal vermenigvuldigen met (a) betekent dat KR ook dicht bij 1 zal liggen. Als (b) groter wordt (omdat het gemiddelde dichter bij 50% ligt) of (c) wordt groter (omdat de scores meer variëren), wordt het tweede deel van de vergelijking kleiner. Dit getal vermenigvuldigen met (a) zal je een kleinere KR geven.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
ALTI ALTI-schaal
KR-20
E-I
.97
S-N
.93
T-F
.95
J-P
.97
Totaal
.96
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
2.4. Validiteit: ongetwijfeld de belangrijkste vraag die men zich kan stellen betreffende een psychologische test betreft de validiteit ervan. Dit is de mate waarin een test werkelijk meet wat ze pretendeert te meten (bijvoorbeeld: als men een examen geschiedenis aflegt moet dat examen vragen bevatten die ook daadwerkelijk de kennis van geschiedenis, en niet van wiskunde, nagaan). De bepaling van validiteit vereist meestal onafhankelijke, externe criteria voor wat de test veronderstelt te meten. Zoals het verhaal van een getuige in een moordzaak volledig consistent kan zijn, terwijl hij of zij toch liegt, zo kan een meting volledig betrouwbaar zijn en toch niet kloppen. Een betrouwbare meting wordt niet erg beïnvloed door een toevallige fout, maar kan wel beïnvloed worden door de waarden van irrelevante constructen. Voorbeeld: Een professor maakt een multiple-choice-item om te bepalen of studenten weten dat een jetlag erger is wanneer je vliegt van west naar oost, dan wanneer je vliegt van oost naar west. Het item wordt als volgt geformuleerd: Welke reis geeft de grootste jetlag? a) Parijs naar New York b) Moskou naar Londen c) Los Angeles naar Tokio d) Parijs naar Moskou De meeste studenten bleken het antwoord op de vraag fout te hebben, niet omdat ze in de war waren over jetlags, maar wel over de geografie. Kennis van geografie was een irrelevant construct dat een groot effect bleek te hebben op deze meting, zodat ze niet valide werd. Onderzoekers merken dit soort probleem op tijdens hun itemanalyses, die het verband nagaan tussen de kans dat een persoon een item correct heeft en de score van de persoon op de hele test. Als dit verband duidelijk aantoonbaar is, dan hebben die studenten die de stof het beste kennen het item juist, wat betekent dat het item waarschijnlijk kennis van de stof meet. Als er een omgekeerd verband bestaat, hebben degenen die het meeste weten het item fout, wat op een ernstig validiteitprobleem van dit item wijst. Het is dus veel gemakkelijker uit te maken of een getuigenis consistent (betrouwbaar) is dan of de getuige ook echt de waarheid vertelt, zonder dat men de waarheid van tevoren kent. Dus validiteit is veel moeilijker te bepalen dan betrouwbaarheid, omdat je een min of meer onafhankelijk idee moet hebben van wat het construct is dat je tracht te meten. Er zijn verschillende vormen van validiteit, die overeenkomen met verschillende technieken die kunnen helpen bij het nagaan van de validiteit van de meting.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
A) Facevaliditeit: houdt in; beslissen of iets op het eerste gezicht valide lijkt. Je vraagt aan mensen die niet bepaald expert zijn inzake het construct dat je wil bestuderen te kijken naar je meetinstrument en te zeggen of het valide lijkt. Voorbeeld: Als men eerlijkheid wil meten, zal de vraag of je een portefeuille die je op straat vindt aan de eigenaar zou teruggeven, duidelijk een grote ‘op het eerste gezicht’-waarde hebben. Of dit item echter een goede indicator is voor de ware validiteit van de meting is een andere vraag. B) Inhoudsvaliditeit: als men het construct ‘eerlijkheid’ wil proberen te meten omvat dit verschillende delen van gedrag. Iemands portefeuille houden is iets heel anders dan het achterhouden van geld wanneer men in een bank werkt. Een meting die inhoudsvaliditeit heeft zal al de verschillende aspecten van het construct in acht nemen. Voorbeeld: Als het eindexamen voor een cursus alleen vragen bevat over één hoofdstuk van de cursus, dan heeft het geen inhoudsvaliditeit. Alleen een test met vragen over de gehele stof kan als valide beschouwd worden.
Voor alledaagse constructen zoals eerlijkheid, waar de meeste mensen bekend mee zijn, is er een klein verschil tussen inhoudsvaliditeit en facevaliditeit. Wanneer experts binnen een veld echter theoretische constructen ontwikkeld hebben vanuit hun onderzoek, wordt het verschil groter. Iets heeft facevaliditeit als de meeste mensen beamen dat het meet wat het moet meten. Het heeft inhoudsvaliditeit als de meeste experts beamen dat alle belangrijke theoretische aspecten van het construct in de meting opgenomen zijn. Voorbeeld: Een belangrijke topic in de sociale psychologie is de locus van controle (wie of wat oefent volgens de persoon controle uit op belangrijke gebeurtenissen in zijn/haar leven). Iemand die gelooft dat we zelf invloed uitoefenen op wat ons overkomt, dat we onze successen en mislukkingen aan onszelf te danken hebben, heeft een interne locus van controle. Iemand die gelooft dat wat ons overkomt grotendeels bepaald wordt door iemand of iets buiten onszelf zoals geluk, God, of de regering, heeft een externe locus van controle. Belangrijk is dus dat in de vragenlijst die men wenst op te stellen om dit construct te meten, alle belangrijke aspecten van het construct aan bod komen.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
C) Constructvaliditeit: een meting heeft constructvaliditeit als ze een verband laat zien met metingen van andere variabelen die samenhangen met dat gemeten construct. Voorbeeld: Je verwacht dat het meten van eerlijkheid een verband laat zien met metingen van aanverwante concepten, zoals religiositeit, afhankelijkheid en legaliteit. Als je kunt terugvinden dat scores op je eerlijkheidsmeting niets te maken hebben met het aantal veroordelingen voor diefstal, dan is er iets mis met je meting. Om tot constructvaliditeit te komen moet je dus je metingen vergelijken met aanvaardbare metingen van overeenstemmende constructen en aantonen dat de verbanden zijn zoals verwacht. Factoranalyse (zie verder) is ontwikkeld om psychologische constructen in kaart te brengen. Factoranalyse is immers een verfijnde statistische techniek voor het analyseren van interrelaties van gedragsgegevens. Verband tussen betrouwbaarheid en validiteit Een meting kan betrouwbaar zijn maar niet per se valide (een meting dient echter eerst betrouwbaar te zijn voor ze valide kan zijn). Zowel betrouwbaarheid als validiteit zijn echter nodig voor een accurate meting in een onderzoek.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
3. Correlatie Meestal is het doel van wetenschappelijk onderzoek de samenhang tussen verschillende variabelen na te gaan. In bijgevoegd voorbeeld is men geïnteresseerd in de samenhang tussen lengte en gewicht. Bijgevoegd vind je de verzamelde gegevens. Lengte en gewicht zijn variabelen die een verband tonen met elkaar. Over het algemeen geldt: hoe groter mensen zijn, hoe meer ze wegen. De correlatiecoëfficiënt varieert tussen +1.00 en - 1.00. Het teken van de correlatiecoëfficiënt geeft de richting van het verband weer. Wanneer er een positieve correlatie bestaat tussen twee variabelen, wil dit zeggen dat hoe hoger (lager) men scoort op variabele A, hoe hoger (lager) men scoort op variabele B. Een negatieve correlatie impliceert dat een hoge (lage) score op variabele A vergezeld gaat van een lage (hoge) score op variabele B. Als de correlatiecoëfficiënt nul bedraagt, is er geen correlatie (verband) tussen beide variabelen. Een curvilineair verband betekent dat als variabele A stijgt en variabele B slechts stijgt tot op een zeker punt, het verband vervolgens van richting verandert. Een klassiek voorbeeld van een curvilineair verband heeft te maken met arousal. Arousal betekent in dit geval verhoogde fysieke of mentale alertheid. Veel mensen veronderstellen dat een verhoogde alertheid positief gecorreleerd is met prestatie. Wanneer de arousal echter te hoog wordt, zal de prestatie weer afnemen. De absolute waarde van de correlatiecoëfficiënt geeft de sterkte van de samenhang weer. Waarden rond 0 duiden niet op samenhang, terwijl waarden in de buurt van 1.00 een erg sterke samenhang weergeven. Correlatiecoëfficiënten van .50 wijzen op verbanden van gelijke sterkte, maar in omgekeerde richting. Zeer vaak worden correlaties onterecht geïnterpreteerd in termen van oorzaak en gevolg. Een correlatie is echter niets meer dan een maatstaf die weergeeft in welke mate individuele verschillen in twee sets van metingen met elkaar covariëren of samengaan. Interpretatie in termen van causale verbanden is alleen mogelijk na een grondige logische analyse. Algemeen kan worden gezegd dat voorzichtigheid aan te raden is bij de interpretatie van correlaties. Problemen die zich kunnen voordoen zijn: ‘spurious correlation’ (bijvoorbeeld: correlatie ooievaars – geboorteniveau onder invloed van landelijkheid), indirecte correlatie (bijvoorbeeld: correlatie onderwijsniveau – duur van vakantie onder invloed van inkomen), verschillende populaties (bijvoorbeeld correlatie boterverbruik – hartinfarct onder invloed van Vlaming/Waal), niet-lineaire verbanden (bijvoorbeeld motivatie-prestatie-curve).
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
4. Verschillen tussen de trait- en de typetheorie Definities Typologie biedt een kader voor het classificeren van persoonlijkheden in kwalitatief verschillende groepen (types2) die sommige kenmerken gemeen hebben met andere groepen, terwijl andere kenmerken uniek zijn voor een bepaalde groep. Het gaat om een op theorie gebaseerde meting die een cohesieve structuur biedt waarin persoonlijkheidsverschillen beschreven, verklaard en voorspeld kunnen worden. De traittheorie biedt een kader om variatie in persoonlijkheid te verklaren, waarbij men traits3 beschouwt als de onderliggende eenheden van beschrijvingen. Verschillende traittheorieën variëren in eerste instantie in het aantal en de oorsprong van de traits waarvan men denkt dat ze voldoende en noodzakelijk zijn om de persoonlijkheid te verklaren. In tegenstelling tot de typetheorie, die berust op een specifiek theoretisch systeem, steunen de meeste traitsystemen op empirie en postuleren ze geen theoretische basis voor een specifiek aantal gebruikte traits. Verschillen Een fundamenteel kenmerk van de typetheorie is dat hij eerder kwalitatief verschillende categorieën postuleert (dichotomieën4) dan meer familiaire gedragstraits die volgens een continuüm5 variëren. Van dichotomieën wordt aangenomen dat ze aangeboren of mentale disposities reflecteren. De ALTI heeft de bedoeling in kaart te brengen voor welke van de twee tegengestelde persoonlijkheidscategorieën een persoon een voorkeur heeft.
2
Type: situeert zich binnen het persoonlijkheidsveld, en specifiek voor de ALTI, een unieke combinatie van mentale attitudes (E of I en J of P) en mentale functies (S of N en T of F) die meer zijn dan de som van de delen. Specifiek gaat het om 1 van de 16 combinaties van vier voorkeuren, met elk specifieke kenmerken gepostuleerd volgens de dynamieken van de theorie. Type wordt niet gebruikt om een enkele voorkeur aan te geven. 3
Trait: een enkel persoonlijkheidskenmerk dat bij iedereen aanwezig is, maar in variërende gradaties. Wanneer persoonlijkheid gedefinieerd wordt in termen van traits, gaat men er vanuit dat iedereen dezelfde kenmerken heeft. De verschillen tussen mensen worden dan veroorzaakt door de mate van elk van de traits die menselijke persoonlijkheid beschrijven. 4
Dichotomie: letterlijk, een opsplitsing in twee verschillende delen. In de typetheorie geven die twee delen tegengestelde domeinen van mentaal functioneren of attitudes weer. Dichotomische constructen verschillen zowel kwalitatief als kwantitatief van continue variabelen. De vier dichotomieën van de ALTI zijn Extraversion-Introversion, Sensing-iNtuition, Thinking-Feeling, en Judging-Perceiving. 5
Continuüm: een kenmerk of eigenschap die varieert in grootte of hoeveelheid, kan niet opgedeeld worden tenzij door arbitraire opsplitsing, en wordt gemeten door een aantal cijfers die geordend zijn van klein naar groot of omgekeerd. Binnen persoonlijkheidsmetingen worden de categorieën van de Likert-schalen beschouwd als een continuüm, bijvoorbeeld een zevenpuntenschaal die loopt van erg ontevreden tot erg tevreden.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen Traitgebaseerde instrumenten definiëren daarentegen een dimensie of schaal als één enkele trait.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
Het type-traitverschil leidt tot verschillende interpretaties van de scores van traitinstrumenten in vergelijking met type-instrumenten. Voorbeeld: Een persoon met een hoge score op de Extraversion-schaal van de NEO Personality Inventory (NEO-PI), een traitinstrument (Costa & McCrae 1985), wordt gezien als iemand met een grotere mate van extraversie dan een persoon met een lage score op die schaal. Een persoon met een lage score op die schaal wordt eerder gezien als iemand met een geringe mate van de geïdentificeerde persoonlijkheidstrait Extraversion. Binnen de type-instrumentaria zal de score aangeven hoe duidelijk een persoon één van de twee tegengestelde polen van een dichotomie prefereert, niet hoe sterk hij/zij die bepaalde voorkeur heeft. Elke voorkeur in een paar is een construct met zijn eigen inhoud, verschillend van de inhoud van de tegenovergestelde voorkeur. Tegengestelde voorkeuren worden niet beschreven door gebruik te maken van een van beide als definitief criterium. Bijvoorbeeld: Introversion wordt niet beschreven als een gebrek aan Extraversion, zoals ook Extraversion niet gezien wordt als een tekort aan Introversion. Qua interpretatie interesseert men zich in het geval van traits in mensen die zich ter hoogte van de extremen van de verdeling bevinden (normaalverdeling – interindividuele vergelijking). In het geval van type in mensen die zich situeren rond het middelpunt, waar de accuraatheid van plaatsing fout kan zijn (bimodaalverdeling – intra-individuele vergelijking)6. Aangezien het doel van type-instrumenten er eerder in bestaat mensen te plaatsen in tegengestelde categorieën dan een hoeveelheid of gradatie van een trait te meten zoals in de traitgebaseerde instrumenten, reflecteert de ALTI de mate van betrouwbaarheid in de accuraatheid door een persoon te plaatsen in een specifieke typecategorie. De focus van de ALTI ligt op de bruikbaarheid ervan. Daarom is de verifiëring van de accuraatheid van het aangegeven type door de persoon zelf essentieel. ALTIresultaten vertellen een persoon niet wie hij/zij is. Individuele personen worden daarentegen gezien als experts die zelf het best in staat zijn de accuraatheid van typebeschrijvingen die resulteren uit hun zelfrapportering te beoordelen.
6
Normen laten ons toe een ruwe score van een individu te vergelijken en op die manier een zinvolle interpretatie van deze score te maken. Het is daarom belangrijk dat we over een goed gedefinieerde en representatieve normgroep die groot genoeg is beschikken, zodat onderlinge vergelijking van de mensen zinvol is. De ALTI wijst daarentegen vooral persoonlijkheidstypes aan, en niet zozeer de mate van een eigenschap, waardoor normen van ondergeschikt belang zijn. Begrip van een ALTI-resultaat zal eerder voortkomen uit het lezen van de typebeschrijving.
© 2003 ALERT MANAGEMENT CONSULTANTS
Psychometrie en statistische begrippen
ALTI-dichotomieën spitsen zich toe op basisattitudes7 en mentale functies die in bijna elk aspect van gedrag aanwezig zijn. Daardoor zijn er veel praktische toepassingen mogelijk zoals carrièrebegeleiding, counseling en teambuilding. Gedrag is in het geval van de ALTI een uitdrukking van een onderliggende typevoorkeur. In de traittheorie is gedrag het gevolg van relevante onderliggende traits.
Traittheorieën
Typetheorieën
ü Veronderstellen universele kwaliteiten:
ü Veronderstellen kwalitatief verschillende
mensen variëren alleen in de mate van een trait.
categorieën: mensen hebben een voorkeur voor één van de beide categorieën.
ü Meten de mate van elke trait.
ü Plaatsen mensen in één van de beide categorieën.
ü Scores zijn normaal verdeeld – de meeste scores zitten rond het gemiddelde.
ü Scores zijn variabelen die tonen hoeveel een persoon van een trait heeft.
ü Scores zijn bimodaal verdeeld – weinig scores ter hoogte van het middelpunt.
ü Scores geven de mate van betrouwbaarheid inzake accuraatheid van de plaatsing in een categorie.
ü Interesse qua interpretatie ligt in mensen die zich situeren ter hoogte van de extremen van de verdeling.
ü Veronderstellen dat gedrag veroorzaakt wordt door relevante onderliggende traits.
ü Interesse qua interpretatie in mensen die zich situeren ter hoogte van het middelpunt, waar de accuraatheid van plaatsing in twijfel kan worden getrokken.
ü Veronderstellen dat gedrag een uitdrukking is van de onderliggende voorkeur.
ü Veronderstellen dat traits grotendeels onafhankelijk zijn van elkaar.
ü Veronderstellen dat de vier typevoorkeuren dynamisch interageren tot een geheel dat niet gelijk is aan de som der delen.
ü Traits worden aan de hand van een begrip geïdentificeerd.
ü Typedichotomieën worden geïdentificeerd door hun twee tegengestelde polen.
ü Zeer hoge en/of zeer lage scores op een trait kunnen negatief of diagnostisch overkomen.
ü Het numerieke gedeelte van het ALTIresultaat heeft geen negatie ve of diagnostische betekenis.
7
Attitude: de Alti gebruikt deze benaming om te refereren aan de schalen Extraversion-Introversion en Judging-Perceiving. De term attitude is binnen dit kader vervangbaar door oriëntatie.
© 2003 ALERT MANAGEMENT CONSULTANTS