Samenvatting Boek Testtheorie – Drenth en Sijtsma
1
Historische ontwikkeling van het testen
Testonderzoek is al oud: • Oudheid: o voor 2000vC: Chinese keizer toetst zijn dienaren elke drie jaar op vorderingen o voor 1000vC: selectie op testscores in boogschieten, muziek, paardrijden, schrijven, rekenen, sociale etiquette o Oude Testament: Gideon reduceert zijn leger middels beoordelingen • Middeleeuwen en nieuwere tijd: o pogingen om intellectuele of karaktereigenschappen te beschrijven en te meten: fysieke kenmerken van gelaat (Lombroso), schedel (Gall), lichaam (Huter), of buitenaardse determinanten (astrologie)
• 1.1
Begin 20e eeuw: meer wetenschappelijke aandacht Periode tot het verschijnen van de BinetSimon test
•
Psychiatrie in Fr en Dld: Verschillen tussen geesteszieken en verschillende gradaties o
In Frankrijk vooral aandacht voor geestelijke onvolwaardigheid Pinel bevrijdde krankzinnigen, omdat zij niet misdadig maar ziek zijn. Ontstaan van sterke interesse in geestelijke abnormaliteit Esquirol: boek met nadruk op onderscheid tussen krankzinnigheid en zwakzinnigheid. Idiotie: geen ziekte maar gebrek aan intellectuele vaardigheden Séguin: trainen van zwakzinnige kinderen, mn motorisch en sensorisch.
o
In Duitsland: onderzoek naar geestelijke vermogens: Rieger: algemeen toepasbare methode voor intelligentieonderzoek Kraepelin: pogingen tot diagnose van krankzinnigheid Ebbinghaus: psychische vermoeidheid meten Ziehen: evaluatie van antwoorden af laten hangen van prestaties van getesten
•
Experimentele psychologie in Dld: stimulerende en remmende werking. Stimulerend:
waarde aan exacte beschrijving van experimenteercondities
rigoureuze controle van variabelen
nauwkeurige verwerking van uitkomsten.
Remmend:
nauwkeurige verwerking van uitkomsten, want verschillen werden toegeschreven aan fouten van het experimenteerproces
o
Wundt: Leipzig. Doel: generaliseerbaarheid van wetten en samenhangen. Onderzoek beperkt tot de primaire sensorische en motorische functies
o
Cattell: individuele verschillen in reactietijd. Woord ‘test’ voor het eerst.
o
Jastrow: serie tests, waarbij ze resultaten konden vergelijken met normen
o
American Psychological Association (1893): commissie met als taak registreren van tests en formuleren van gebruiksmogelijkheden
•
Genetica o
Galton: antropometrische onderzoekingen: lichamelijke, sensorische én geestelijke functies. In navolging van Darwin geïnteresseerd in erfelijkheid van psychische eigenschappen en probeerde aan te tonen dat dezelfde wetten gelden. Drie elementen:
wenselijkheid van het onderzoek van individuele verschillen
noodzaak van systematisering van onderzoekstechnieken: standaardisatie van condities, gedisciplineerd gebruik van onderzoeksinstrumenten
resultaten uitdrukken in termen van afwijkingen van gemiddelde: ‘normatief’denken.
Dit normatieve denken, met resultaten in statistische termen en waarschijnlijkheidsberekeningen waren nieuw. o
Pearson: geïnspireerd door deze mogelijkheden en heeft veel betekend voor statistiek en testpsychologie
Maar nog niet op grote schaal. Interesse was incidenteel en voornamelijk theoretisch en alleen in laboratoria. Onderzoeksresultaten werden weinig toegepast, en als dat werd gedaan was het teleurstellend. Reden: • keuze van de vermogens en functies: hoofdzakelijk psychofysiologisch. Nauwelijks gericht om meer complexe intelligentiefuncties. 1.2
Periode tussen verschijnen van de BinetSimontest en WOI. •
Binet kreeg opdracht (van min van onderwijs) om onderzoek te doen naar moeilijkheid tot differentiatie tussen luie en incapabele kinderen. Succes kwam toen niet getest werd op veronderstelde basisfuncties, maar een steekproef uit verschillende complexe opgaven uit dagelijks leven. Binet’s benadering was nieuw:
accent op complexe i.p.v. eenvoudige mentale processen (begrip, geheugen, oplossen van problemen, verbeeldingskracht)
empirisch uitgangspunt. Opgaven die niet functioneerden werden verwijderd
totaalscore om intelligentieniveau weer te geven
Later doorgetrokken naar hogere leeftijden. Begrip ‘mentale leeftijd’ werd indicatie voor geestelijke groei. Binet’s test waren praktisch van grote betekenis. Niet voor de theoretische vraag naar samenstellende elementen in intelligentie.
•
Claparède bouwde voort. Stern: mentale leeftijd vergelijken met werkelijke leeftijd Terman: o
o •
VSversie van de test. Belang aan twee testtechnische eisen:
standaardinstructies, voor vergelijkbaarheid van testscores
normen construeren
Mentale leeftijd bepalen door testprestatie te delen door chronologische leeftijd
Spearman: tweefactorentheorie: alle test hebben twee intelligentiefactoren:
algemene (g)factor
specifieke (s)factor
Intelligentie = gemeenschappelijke factor die men kan extraheren uit willekeurige serie intelligentietests. •
Thorndike (VS) en Burt (Eng): meting van opleidingsvordering van leerlingen. Educational achievement test.
Nog niet testen op grote schaal. Ook nog geen valideringsonderzoek 1.3
Van het begin van WOI tot WOII
Met WOI kwam ontwikkeling van testen in stroomversnelling. Reden: grote groepen selecteren voor functies en opleidingen. • Dld, Eng, Fr. Voor het eerst buiten laboratorium en meer routinematig bij ‘selectie en plaatsing’ •
VS: noodzaak om snel en efficiënt gróepsgewijs te testen. Schriftelijke test, Army Alpha, met verschillende soorten opdrachten (reken, denksommen, woordbetekenissen). Betrouwbaarheid leek bevredigend en voorspellend vermogen ook.
Na WOI liep testontwikkeling van Eur en VS sterk uiteen: • Eur: gedomineerd door gestaltpsy, personalisme, frenomenologie, dus individuele diagnostiek populair: wijze waarop taak verricht wordt, net als werkinstelling en houding, minstens even belangrijk als prestatie zelf. •
VS: gedomineerd door filosofische, vooral behavioristischpositivistisch, en praktische behoefte: kwantitatief verwerkbare groepstests. Reden: o
grote aantallen voor selectie en plaatsing
o
toenemend aantal immigranten (zo rationeel mogelijk integreren in maatschappij)
o
toenemende specialisatie, differentiatie en vertechnisering van productieproces
Door immigranten ook behoefte aan tests die minder afhankelijk zijn van taal en cultuur: Pintner en Paterson: nietverbale intelligentietest, Army Bèta. Deze test grote invloed: •
Vergelijkend onderzoek tussen bevolkingsgroepen (geringe betrouwbaarheid)
•
onderzoek verschillen tussen volken
•
toepassing in intelligentieonderzoek van gehandicapten, zoals motorisch of perceptueel gestoorden
In VS ook veel individuele testbatterijen. Bv Terman Merril en Wechsler series (WAIS, WISC). Aantal was veel meer dan in Eur. •
Eng: tussenpositie (tussen Eur en VS): o
Ballard, Progressive Matrices van Raven
o
trachten bij beoordeling van schoolvorderingen de subjectiviteit te elimineren. Dus multiple choice, en constructie van docent naar specialist.
Het gebruik van tests ging vooraf aan theorie: • Thurstone stimuleerde aandacht voor kritische evaluatie van test: als het gedrag buiten de testsituatie wil voorspellen (=criteriumgedrag) moet de relatie tussen test en criterium tevoren zijn aangetoond. Dus: statistiek, boeken, tijdschriften •
Door div: nieuwe dimensie aan onderzoek naar intelligentiestructuur: groepsfactoren. Thurstone identificeerde: verbaal begrip, wordfluency, numberfacility, ruimtelijk inzicht, associatief geheugen, perceptualspeed, redeneren.
Ontstaan en ontwikkeling van persoonlijkheidstests. Methoden: • Observatie (vooral in Eur), voor kwalitatieve aspecten van prestatie. Via beoordeling van werkwijze naar test voor gedrag. Nauwelijks betrouwbaar of objectief, voornamelijk impressionistisch en intuïtief. •
Persoonlijkheidsvragenlijsten: behoefte aan systematische vorm van verzamelen. Ook allerlei specifieke terreinen, zoals interesses, waarden en attitudes.
•
Projectietest, voor associaties, voor identificatie van onbewuste motieven en behoeften
Samengevat: • Ontwikkeling stormachtig. Maar theoretische en methodologische verantwoording niet. • Accentverschil tussen Eur en VS. VS: kansen van onderzochte op een positief resultaat, door ‘klasse’ring (actuarische wetenschap). In Eur: totaliteit van de persoon, beleven, structuur, dynamiek, met test in ondergeschikte rol. Conclusies niet kwantitatief, maar beschrijvend (vaak sterk literair) 1.4
Van het begin van WO II tot heden
Ontwikkelingen in VS: Expansie op alle terreinen van testen: qua aantal, en sterke kritische bezinning op methodologische grondslagen. In Eng: Education Act van ’44: test voor schoolkeuze. In Vs samenwerking van psychologen met keurings en selektiediensten. Leidde tot toename selectie en diagnostische test professionalisering selectie en plaatsingsbeleid constructieve en kritische bezinning op psychologische principes van testonderzoek > 9 mio getest met Army General Classification Test (AGCT). Gegevens vormen brond voor normerings en valideringresultaten. Naast algemene intelligentie ook structuur van vaardigheden. Speciale test voor specifieke functies en vaardigheden. Schoolvorderingentest voor vergelijking van resultaten van vooropleiding. Opleidings en kennistest voor voorspellen van toekomstige prestaties, en
opleidingsprogramma’s evalueren. Individuele en groepsobservatiestest, bij samenstelling van groepen, bepaling van leiderschapskwaliteiten en psychiatrische keuring. Persoonlijkheidsvragenlijsten en biografische vragenlijsten voor identificatie van potentiële psychiatrische patiënten. In 1947 Educational Testing Services (ETS): niet alleen gericht op toegepast onderzoek en testconstructie, ook fundamenteel psychometrisch onderzoek. Over test en testonderzoek veel geschreven: boeken tijdschriften. (zie verder blz 29ev). Ook itembanken en adaptief testen Ontwikkelingen in Eur, vooral in Nl In Nl in ‘40/’50 geremd door oriëntatie van psychologie op intuïtie van psycholoog. 1959: Test Research Commissie (nu COTAN), voor publicatie van test en documentatie van het onderzoek daarmee. Schoolvorderingentest: ’70. CITO, voor basisonderwijs en voortgezet algemeen en beroepsonderwijs (niet academisch). Sinds ’87 zijn universitaire onderzoeksactiviteiten gebundeld in het Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie (IOPS). Taken: bundelen van promotieonderzoek in psychometrie en sociometrie via cursussen en congressen.
2
Definitie, kenmerken en toepassingen van de test
Test versus voorwetenschappelijke oordeelsvorming; dus kenmerken voor goede test. Relatie tussen testen en meten. Eisen aan constructie van tests. 2.1
Wat is een test
Onderdelen van een test: testmateriaal testformulieren: voor de antwoorden, reacties, gedragsgegevens testhandleiding: o exacte testinstructie: procedure, condities, aanwijzingen en uitleg, proefopgaven o verwerkingsprocedures: richtlijnen voor toekenning van numerieke scores o normtabellen o bespreking van wetenschappelijke kwaliteiten van de test: betrouwbaarheid, testbetekenis, welke voorspellingen kunnen. Psychologische test = systematische onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking met anderen. Kenmerken van een test: Efficiëntie Standaardisatie, want prestatie moet vergelijkbaar zijn met die van anderen, dus gelijke omstandigheden. Condities en invloeden standaardiseren: procedure van afneming, van testmateriaal, instructie en oefenvoorbeelden, van tijdlimieten en verwerkingsregels Normering: gebonden aan groep proefpersonen o rangorde o afstanden tussen testscores o discrete verdeling omzetten in normaalverdeling (voor ‘gladstrijken’ van steekproeffouten, voor ‘handige’ schaal). Meestal normen noodzakelijk, behalve wanneer een relatie wordt nagegaan (bv selectie van 10 beste kandidaten) Objectiviteit: onafhankelijk van storende invloeden van persoon van waarnemer/beoordelaar /interpretator. Gevolgen: o Maakt niet uit wie beoordelaar is o Openheid en reproduceerbaarheid van de test en evaluatieprocedure Intersubjectiviteitprincipe = mate van overeenstemming van hun resultaten, uit te drukken in interbeoordelaarsbetrouwbaarheid, geeft de mate van objectiviteit aan. Uitdrukken in rangcorrelatie (Spearman, Kendall). Volledige objectiviteit is een ideaal dat meer of minder verwezenlijkt wordt: MC voldoet beter, projectietest niet. Exact voorgeschreven verwerkingsprocedure bevordert de objectiviteit. Betrouwbaarheid: als tussen twee metingen bijzonder weinig verschillen vinden. Er is natuurlijk altijd toeval. Bij psychologische metingen zullen fluctuaties in prestaties en gedrag op vragen) groter en complexer zijn dan bv twee keer lichaamslengte meten. Hoge betrouwbaarheid is belangrijk, zodat het niet uitmaakt, wanneer iemand getest wordt Validiteit: of de indicaties juist zijn. Soms enkelvoudige persoonlijkheidstrek of vaardigheid, soms meer omvattende theorie. 2.2
Meten van eigenschappen door middel van tests
De test als ‘meetlat’ voor psychologische eigenschappen
Meetniveaus en toegestande operaties Stevens: er is sprake van meten, zodra getallen volgens consistente procedure aan objecten worden toegekend. Bijdragen: Operationalisme en schaaltypen Schaaltypen: • Nominale schaal: gewone rekenkundige operaties mogen niet. Getallen dienen alleen om categorieën of objecten te onderscheiden • Ordinale schaal: Rangorde. Niet alle rekenkundige bewerkingen • Intervalschaal: Niet alleen verschillende posities zijn geordend, maar de afstanden hebben betekenis. Geen absoluut maar arbitrair nulpunt. Bv temperatuurschalen. Testscores worden gewoonlijk ook op intervalniveau gemeten, maar dit kan doorgaans empirisch niet ondersteund worden • Verhoudingsschaal: ‘Ratio scale’: alle eigenschappen van intervalschaal + absoluut nulpunt. Daardoor zijn alle rekenkundige bewerkingen toegestaan. Bv lengte, gewicht, volume. Slechts weinig metingen in de psychologie vinden plaats op een verhoudingsschaal Opvattingen over meten Heel veel psychologische eigenschappen zijn niet direct observeerbaar. In de psychologie zijn theorieën en begrippen bijna altijd abstracter en vooral diffuser gedefinieerd. Het gevolg is dat hooguit zwakke of matig positieve/negatieve verbanden worden gevonden. Bv diverse intelligentietheorieën, waarvan experimenten niet in staat zijn gebleken de ene theorie t.g.v. de andere te verwerpen. Operationalisme = meting als uitkomst van een consistente procedure (opvatting van Stevens). Dus gaat eraan voorbij dat in een meetprocedure een theorie over relaties tussen eigenschappen als basis moet hebben. Dus: intelligentie is datgene ‘wat de test meet’. Door dit operationalisme raakte het meten n de psychologie in het slop, want van theorievorming en kennisvorming was nauwelijks nog sprake. Nog steeds van mening dat constructie van tests een technologische aangelegenheid is, zonder noemenswaardige wetenschappelijke bijdrage. Onjuist: want meetbaar maken van psychologische eigenschappen en het onderzoek naar de betekenis van testscores leveren juist een wetenschappelijke bijdrage. Bv. Bouwmeester: ontwikkeling van transitief redeneren: stok A langer dan stok B langer dan stok C. Dit transitief redeneren is belangrijk in het dagelijks leven. Bouwmeester ontwikkelde een inhoudelijktheoretisch als psychometrisch goede computertest. En bleek in staat om evidentie tegen de theorie van Piaget en de informatieverwerkingstheorie, en vóór de ‘fuzzy trace’theorie te verzamelen. Zowel wetenschap als praktijk kan niet zonder betrouwbare en valide meting. De gangbare procedure voor het meten van psychologische eigenschappen Psychologische eigenschappen vallen niet samen met de operaties die men moet verrichten om ze te meten. Men kan pas van meten spreken als vanuit dit ‘getelde aantal’ een conclusie volgt over de eigenschap in kwestie. Identificatie van de te meten eigenschap Welke theorie of rivaliserende theorieën. De onderzoeker die een test/meetinstrument wil maken moet goed op de hoogte zijn van de theorie achter deze eigenschappen en een keuze maken voor een theorie die als uitgangspunt zal dienen Problemen: • Voor veel psychologische eigenschappen is de theorievorming maar matig ontwikkeld. • veel psychologische eigenschappen zijn niet waarneembaar in gedrag (bv creativiteit) • Er zijn veel eigenschappen met een theoretisch onduidelijke of dubieuze status. Deze eigenschappen lijken op te komen en even makkelijk te verdwijnen (waan van de dag) Operationalisering van de eigenschap:
= specificatie van de operaties die nodig zijn om de eigenschap te meten. Psychologische eigenschappen zijn minstens één niveau van de operaties verwijderd. Psychologische eigenschappen zijn hypothetische begrippen. Operationalisering: • Domein van gedragingen typisch voor bedoelde eigenschap. Wanneer het hypothetische begrip theoretisch goed gefundeerd is, zal de definitie van dit gedragsdomein eenvoudiger zijn. Maar deze fundering is vaak onvoldoende. • Afstemmen van stimuli op het beschreven gedragsdomein. Voorbeelden: o uitspraken o taken o vragen Onderzoek en kwantificering van reacties. Reacties zijn in 1e instantie kwalitatief. De stap naar getallen: reacties in een hogere categorie krijgen een hogere numerieke waarde. Items in de test moeten allen positief correleren en wel in dezelfde mate. Dat wordt gezien als ondersteuning van de hypothese dat de items gezamenlijk een en dezelfde eigenschap meten. Terugkoppeling naar de theorie: Uitkomsten van de statistische analyses hebben gevolgen voor de theorie. Een theorie bestaat doorgaans uit het nomologisch netwerk, een theorie ter verklaring van de waarneembare verschijnselen, waarbinnen de gemeten eigenschap een plaats heeft. Statistische methoden worden gebruikt om een test te construeren en de meeteigenschappen vast te stellen: • klassieke testtheorie • itemresponstheorie • representational measurement: alleen sprake van meting, indien de formele relatie tussen meetwaarden/testscores overeenkomen met de relaties die er in de empirie bestaan tussen de objecten. ‘Empirie’ is een direct waarneembaarheid van eigenschappen en relaties. Deze vind je zelden in psychologie. Daarom is deze methode niet zo geschikt voor psychologische, hypothetische eigenschappen 2.3
Definitie van een test
Test = een systematische classificatie of meetprocedure, waarbij het mogelijk is om een uitspraak te doen over één of meer empirischtheoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde zorgvuldig gekozen stimuli. 2.4
Toepassingsmogelijkheden
Beoordeling van individuen • •
• • • •
Voorspellingen van in de toekomst gelegen prestatie: criterium keuzemogelijkheid tussen ten minste 2 opties. Tests moeten niet alleen correleren met criteria, maar er moet ook differentiatie tussen de verschillende alternatieven zijn. (Bv kiezen uit een beste profiel op VWO) onderzoeken wat de zwakke en sterke kanten van een kandidaat zijn. Testscores van dezelfde persoon onderling vergelijken (= ipsatieve scores) ontwikkeling van een persoon in de tijd: interne vergelijking. Longitudinaal onderzoek Beschrijving van een onderzochte. Voor diagnostische doeleinden, voor verklaringen, voor adviezen. t.b.v. counseling, om samen met de cliënt analyseren / bewust maken en herformuleren van het probleem
Beoordeling van groepen Bv onderzoek naar intelligentieverschillen tussen bevolkingsgroepen, verschillen in cognitieve ontwikkeling tussen leeftijdsgroepen.
De individuele diagnostiek grijpt altijd terug op onderzoek naar groepsverschillen. Beoordeling van invloed van situaties en methoden Onderzoek van groepsverschillen ook nodig in het kader van de beoordeling van methoden (bv behandeling) en van situaties (bv stress). Het gaat om conclusies inzake de verschillende experimentele of empirische variabelen op basis waarvan die verschillende groepen zijn onderscheiden. Averechtse diagnostiek: wanneer een test met een criterium correleert, dan deze correlatie niet alleen gebruiken voor voorspellingen, maar licht werpen op criterium zelf.
3
Indelingen, onderscheidingen en begrippen
Overzicht van beschikbare soorten van tests en testmethodieken.. Begrippen uit testpsychologie. Tests naar gedrag van onderzochte en test naar soort testvragen en –opdrachten 3.1
Indeling naar testgedrag
Niet altijd ondubbelzinnig aan te geen in welke categorie een psychologische eigenschap hoort. Onderscheid naar: • tests voor prestatieniveau: maximale prestatie wordt verwacht, met duidelijke norm wat ‘goed’ en ‘fout’ is. • Tests voor gedragswijze: niet een vooraf bekende ‘goed/fout’sleutel. Het gaat erom ‘hoe’ iemand iets doet. Test is vaak ‘vragenlijst’ Tests voor prestatieniveau Enkelvoudige algemene niveautests ‘General ability test’. Leiden tot een enkele indicatie van intelligentie (ondanks dat intelligentie een complex begrip is). Drie deelcategorieën: • Individuele ontwikkelingstest Intelligentietestscore wordt vergeleken met testprestaties van leeftijdgenoten. WISC, RAKIT, Intelligentietest voor visueel gehandicapten Meeste oudere intelligentietests bepalen of intellectuele ontwikkeling sneller of langzamer gaat dan ‘normaal’). Daarom hebben tests als WAIS, GIT intelligentienormen voor alle leeftijden • Individuele intelligentietest voor volwassenen Vaststellen van het niveau wanneer intelligentie min of meer als volgroeid kan worden beschouwd. Vaak ook ‘ontwikkelingstest’ genoemd. Boven leeftijd van 15 a 17 stabiliseert intelligentie zich. Bekendste tests: TermanMerill, WAIS, GIT. • Collectieve algemene intelligentietest Groepsgewijs afgenomen, voor een indicatie van algemene intelligentieniveau. Bekendste: GALO, NDT (collectieve kinderintelligentietest, ofwel schoolintelligentietest. Collectieve nietverbale intelligentietest: testen van nietgeletterden. Veelvoudige algemene niveautests Niet alleen algemene niveau, maar ook nadere differentiatie van intelligentie. Dus deeltests. Deze moeten afzonderlijk gezien voldoende betrouwbaar en tevens onderling voldoende onafhankelijk zijn. Twee typen: • Testbatterijen voor intelligentiefactoren. Doel: elke deeltest meet een homogene dimensie van intelligentie. Vanuit verleden is de vraag: bevat intelligentie een algemene factor (gfactor) of gaat het uitsluitend om een complex van groep en/of specifieke factoren (sfactoren)? Thurstone: verbaal, wordfluency, numeriek, ruimtelijk inzicht, associatief geheugen, perceptiesnelheid, redeneren. Van hem kwam de test: PMA (Primary Mental Abilities). In NL: TNVA, VAT’69, NAT’70) die aansluiten op Thurstone indeling. Guilford’s systeem van intelligentiefactoren: factoranalytische structuur van de intelligentie: structure of intellect • Testbatterijen voor geschiktheden …. Zie voor de rest van de samenvatting van dit hoofdstuk komt uit een andere samenvatting
4
Constructie van items en kwantificering van reacties
Items = bouwstenen van tests. Diverse varianten, onderscheiden naar:
reactie van respondent: opdrachten, stellingen, vragen, praktijkproeven vorm van het antwoord: open/gesloten vragen Uiterlijke verschijningsvorm van item: meerkeuze, rating Hoe reacties omzetten in getallen 4.1
Van de respondent gevraagde activiteit
Items als stimuli. Uit reacties proberen het nivo van geteste persoon af te leiden op een nietobserveerbare psychologische eigenschap die verondersteld wordt te grondslag te liggen aan deze reacties. • Theoretische opdrachten, bv doolhof, rekenopdrachten, taalvraagstukken, theoretische verkeersproblemen. Vaak cognitieve capaciteiten en vaardigheden. Relatief stabiele kenmerken van persoon. Vaardigheden zijn voor een deel te leren. • Stellingen. Voor persoonlijkheidstrekken, opinies, houdingen en voorkeuren. Opinies en houdingen zijn klassen van eigenschappen (belangrijk voor sociologisch en politicologisch onderzoek. Antwoorden zijn niet goed of fout • Vragen. Voor opinies, houdingen en voorkeuren. Antwoorden zijn niet goed of fout • Praktijkproeven • Diverse andere, zoals projectietests 4.2
Vorm waarin het antwoord wordt gegeven
Open vragen: geeft meer info van kennis en diepere inzichten. Maar: • beoordelen en categoriseren is tijdrovend • respondenten weten niet altijd wat met vraag bedoeld wordt, maar geven toch antwoord • niet alle respondenten kunnen even goed gedachten op papier zetten. Niet alle handschriften zijn duidelijk. Gesloten vragen: minder info over diepere inzichten. Maar: • Beantwoorden en categoriseren gaat snel. Meer vragen geven een hogere betrouwbaarheid en daarmee betere validiteit • geen gelegenheid voor irrelevante zaken • Wel lastig: stelling (te) concreet versus te algemeen • interpretatie van het antwoord door onderzoeker speelt geen rol. Bij openvragen speelt subjectiviteit, dus testconstructie door tenminste twee beoordelaars. Indien overeenstemming gering, dan andere vorm kiezen. Nadelen (echt of vermeend) van gesloten vragen: • Bedenken van vragen is lastig, vooral de onjuiste antwoordmogelijkheden • Inschatten van de moeilijkheidsgraad is lastig • Kans op raden. Rekening mee houden door: o per item twee kiezen uit zes, en het antwoord is goed als ze beide goed zijn o correctie toepassen • slechts eenvoudige cognitieve vaardigheden mee kunnen meten: kennis en ‘weetjes’. Meten openvragen en geslotenvragen iets verschillends? Mellenberg: conclusie: veel gevallen mogelijk om met meerkeuzevragen hetzelfde te meten als met open vragen, mits de meerkeuzevragen goed geconstrueerd zijn. Niet overschatten van hogere functies via open vragen, want: onbetrouwbaarheid van beoordeling. Dus wel bij wis en natuurkunde, niet bij wijsbegeerte de hogere functies betreffen vaak subjectief en oncontroleerbaar fantaseren. Meerkeuzevragen zijn vaak betere voorspellers dan open vragen. 4.3
Itemvormen: het speciale geval van geprecodeerde items
Prestatieniveautest en tests voor gedragswijze Items voor prestatieniveautests De stam = de uitspraak (de vraagstelling).
Principes voor meerkeuze: kiezen, rangschikken, toeschrijven • Kiezen. Vormen: o (in)correcteantwoordvorm o meest/minst juiste antwoordvorm o verschillende antwoorden –vorm o complexe vormen • Rangschikking: volgorde van juistheid, toepasbaarheid of voorkeur • Toeschrijving: ‘matching’: hoe minder onzekere combinaties overblijven, hoe meer kans op juistheid bij raden. Items voor test voor gedragswijze Voor persoonlijkheidsvragenlijsten en attitudetests. Presentatievorm varieert: benoemen van twee uiterste hokjes, maar ook voor andere keuzemogelijkheden. Aanwijzingen: • Niet kruisje tussen twee keuzemogelijkheden • Meest bekende is 5antwoordschaal (Likert). Voordeel van even aantal is dat er geen neutrale categorie is. • Niet meer dan zeven nuanceringen: mensen kunnen niet meer nuanceren. • Beschrijvingen van de schaalposities: verschillende interpretaties en lastig labels te bedenken. 4.4
Kwantificering van antwoorden
Met kwalitatieve antwoorden is het moeilijk om systematisch onderzoek te doen naar de kwaliteit van de items en van de test/vragenlijst als geheel. Bovendien meetwaarden toekennen aan personen: • per item de kwalitatieve reactie omzetten in getallen • statistische berekening doen om vast te stellen of er een systematiek in het gedrag is. Zo ja, dan heeft de test goede meeteigenschappen. Projectietests: sommige gebruikers zijn overtuigd dat kwantificering zou leiden tot onaanvaardbare reductie van betekenis. Wellicht waar, maar door de rijkdom van informatie dreigt het zich op wat we willen weten kwijt te raken. Alle informatiebronnen, die voor een beslissing worden gebruikt, moeten aan dezelfde kwaliteitseisen voldoen. En het is gewenst om juist diverse informatiebronnen te gebruiken Kwantificering van items gaat als volgt: Antwoordcategorieën van een item ordenen op continuüm. Meestal dichotoom: goed of fout, per antwoord Polytome items = items met ten minste 3 antwoordcategorieën (oneens…..eens) Richting van continuüm is afhankelijk van de formulering van de stam. Scores = getallen die aan de antwoordcategorieën op de items zijn toegekend. • Alleen ordening is van belang, niet de absolute getallen (bv 01 of 24) • Advies: geef alle items uit dezelfde test dezelfde score. Daarmee voorkomen dat items verschillend worden gewogen. Indien dit juist wel gewenst is, moet dit natuurlijk gerechtvaardigd worden door een psychologische theorie. Maar deze theorieën zijn er niet. Soms gewichten van items afleiden uit statistische analyse: een hoger gewicht aan een item die hoger correleert met de somscore (omdat deze blijkbaar meer gemeen heeft met de andere items en daarom beter in de test past). Maar, ad hoc en theorie ervoor ontbreekt. 4.5
Beoordeling van de kwaliteit van items in vooronderzoek
Testconstructieonderzoek (naar kwaliteit van items) kent ruwweg twee fasen: 1 Kleine steekproef van reacties van proefpersonen (ong 20100, niet perse representatief). Bedoeld als grove zeef om items te identificeren die niet goed functioneren 2 Grotere, welrepresentatieve steekproef (ong. 5002000) Grote steekproef, omdat populatie vaak in diverse interessante deelgroepen valt op te splitsen, waarvoor aparte normen moeten worden opgesteld. Sommige deelgroepen zijn van nature kleiner, maar gewenst is om uit elke groep een even grote steekproef te nemen (zodat ook kleine groepen
voldoende nauwkeurige schatting van normverdeling hebben). Strata = deelgroepen. Daarom: gestratificeerde steekproef. Vooronderzoek van dichotome en polytome items: Dichotome items: pwaarde = relatieve frequentie op het goede antwoord. awaarde = relatieve frequenties op afleiders. Een item uit een studietoets heeft goed gefunctioneerd, indien de meeste respondenten het goede alternatief hebben, én de verschillende afleiders ongeveer even vaak gekozen werden (dus afleiders even aantrekkelijk). Voorbeelden van verdelingen: • 63% goede antwoord, 21% ene foute antwoord, 16% andere foute antwoord. Dus de foute antwoorden even aantrekkelijk • 33% goede antwoord, 33% ene foute antwoord, 33% andere foute antwoord. Dus allen blind gegist. Hoogstwaarschijnlijk, maar aanvullend bewijs nodig: correlaties van het item met andere items moet dan nul zijn. • 94% goede antwoord, 3% ene foute antwoord, 3% andere foute antwoord. Waarschijnlijk item te gemakkelijk, of afleiders niet plausibel • 30% goede antwoord, 10% ene foute antwoord, 60% andere foute antwoord. Meerdere mogelijkheden: o een van de afleiders bevat een valstrik o bewuste afleider zou wel eens juist kunnen zijn Polytome Items: Geordende antwoorden. Indien verdeling: • 10%, 10%, 20%, 50%, 10% dan functioneert item goed omdat er goede spreiding is van respondenten over categorien • 0%, 0%, 5%, 5%, 90%. Verdeling scheef en niemand heeft lage score, iedereen hoge. Dus: item te populair.
5 5.1
Afneming van tests en verwerking van testgegevens Test afnemen
Complex en veelzijdig proces: • testsituatie varieert van zakelijkneutraal tot persoonlijke inzet van zowel proefleider als proefpersoon. Bv rollenspel • Motivatie, samenwerking, onbevangenheid en andere eigenschappen beïnvloeden de relatie met testleider: mate van testervaring van proefpersoon, van testervaring van proefleider. • variëteit in instructietechniek. Sommige tests vragen lange training. Bv RAKIT Enkele aspecten van deze standaardisatie: • Objectieve testsituatie: goed uitgewerkte instructie, eis dat proefleider zich hieraan houdt, weren van omgevingsinvloeden. Speelt vooral bij groepstest en test met snelheidskarakter. • Gedrag van proefpersoon o vermoeidheid o kritisch naar verwachting en tracht verwachting in te lossen o invullen van de vragenlijst met sociaal wenselijke antwoorden o ervaring o verwachting over eigen resultaten en gevolgen o proefpersonen reageren verschillend op stimulansen o Motivatie: angst voor gevolgen (testangst ‘state anxiety’, niet de stabiele persoonlijkheidstrek ‘angstigheid’/‘trait anxiety’). Onderscheid positieve faalangst (bevorderend) versus negatieve faalangst (storend) • Gedrag van proefleider, vooral bij individuele test o variatie in gedrag, ervaring met test o vooroordelen, sympathieën/antipathieën, blijvende invloed van 1e indruk o uiterlijk, sekse, leeftijd o subtiele, fysieke en persoonskenmerken van testleider Ondervangen?: als het gaat om hypothese vinden, dan via klinischintuitieve weg deze elementen in evaluatie verwerken Als voorspellende of classificerende uitspraken gewenst zijn, dan een zo normaal mogelijke relatie, met positieve, stimulerende en vriendelijke toon. In de verwerking doen alsof de invloeden genegeerd kunnen worden.
5.2
Scoring van antwoorden
Scoringsproces o.b.v. subjectieve oordeelsvorming geeft grotere foutenmarge. Scoring van reacties op items met openvraagvorm Zowel verbaal al nietverbaal Gevaren van subjectiviteit en een lage overeenstemming tussen beoordelaars. Reduceren door • coderingssysteem (met regels/voorschriften die duidelijk en ondubbelzinnig zijn. Bv met checklist • beoordelaars vooraf goed instrueren en oefenen. Overigens: hoge overeenstemming leidt niet automatisch tot goede validiteit. Scoring van reacties op geprecodeerde items Zorg voor nauwkeurigheid en efficiëntie. Drie mogelijkheden: • Handscoring: tellen van aantal goed/fout/overgeslagen. Problemen: tijdsduur en (correctie van) fouten • zelfscoring: onder het antwoordformulier een tweede vel met serie cirkeltjes. Aanzienlijk sneller en efficiënter, maar duurder
•
Machinescoring: met potloodstreepje op een optisch leesbaar formulier, of onmiddellijk via beeldscherm. Directe terugkoppeling. Ook controle op kwaliteitskenmerken van de test mogelijk.
Toevalscorrectie: Correcties op het ‘raden’. Methoden:
•
A= aantal antwoordmogelijkheden (bv 4). Goede antwoord raden: 1/A, foute: (A1)/A. Xc= aantal goede antwoorden door kennis. (k=aantal items in de test, X=totale aantal goed) Xc = X – (kX)/(A1)
•
Hetzelfde, maar waarbij respondenten voor nietbeantwoorde items alsnog punten ontvangen: Xc= X +(kXXf)/A Kanttekening bij deze correctiemethoden: • lang niet altijd reële veronderstelling dat er een scherp onderscheid bestaat tussen wel en niet weten. Door partiële kennis kan reële giskans groter of kleiner zijn dan de theoretische, blinde giskans. Bovendien zijn de onjuiste antwoorden verleidelijk. Dus kans op goed antwoord is kleiner dan 1/A, en dus de formule tot overcorrectie • Fout antwoord kan zijn door verkeerd inzicht, hoef niet gegist te zijn • Voor toeval gecorrigeerde testscores hebben een grotere variantie dan ongecorrigeerde testscores. Dan ontstaat er een ongewenst effect wanneer men de gecorrigeerde testscores optelt bij testscores op andere tests. • lineaire relatie tussen ruwe score en gecorrigeerde score: o giscorrectie heeft voor onderlinge ordening geen effect, wel ingeval van aftestgrens o beide scores voorspellen evengoed een criteriumscore o nauwkeurigheid of betrouwbaarheid van X en Xc is gelijk
Dus correctieformule maar beter niet gebruiken. Gissen is voor respondent altijd rendabeler dan het antwoord open laten. Wel rekening mee houden dát er gegist is bij het bepalen van een aftestgrens. Weging van itemscores Gebleken is dat weging weinig invloed heeft op betrouwbaarheid en validiteit. Indien ontevredenheid over betrouwbaarheid en validiteit, dan beter: • meer items in de test opnemen • beter nadenken over de inhoud van de items. 5.3
Testen per computer
Technische bijdragen en veranderingen Winst aan tijd en informatie. Het veranderen, toevoegen of verwijderen van items is er eenvoudig. Mogelijkheid van itembank: behalve item zelf ook psychometrische gegevens over moeilijkheid (p waarde), kwaliteit van afleiders (frequentieverdeling), administratieve gegevens (wanneer eerder gebruikt). Uit deze itembank een gestratificeerde steekproef trekken. • Nitko en Hsu: voorbeeld van geautomatiseerd systeem voor instructie en toetsafneming in scholen: o gegevens over leerlingen en groepen, demografische gegevens, prestaties, voortgang. o Itemanalyse o mogelijkheid zelf itembak te creëren • Online testing: student bepaalt moment, computer selecteert items, levert eindbeoordeling en slaat op. Gevaar: beveiliging: items kunnen bekend raken, en/of iemand anders kan de toets voor de student doen • Diagnostiek toetsen. Cognitive skills diagnostics. Door juist gekozen items de mate van beheersing van deelvaardigheden inschatten. Vervolgens via aanvullend, gericht onderwijs eventuele deficiënties bij leerlingen te verhelpen • vorm van items en wijze waarop gereageerd kan worden. Bv reageren op beweging. Via visuele beelden een bepaalde situatie voorleggen, met de vraag naar adequate professionele reactie.
• Mogelijk onderscheid maken tussen variabelen snelheid en nauwkeurigheid Technologische vernieuwingen hebben gevolgen die van wetenschappelijk belang zijn. Wetenschappelijke bijdragen en veranderingen Mogelijkheid op het gebied van het meten van individuele verschillen in ruimtelijkvisueel redeneren, geheugen en aandacht. Ook bepalen van leerpotentieel. Bv: individuele verschillen in aandachtpotentieel wellicht niet tot uiting bij enkele taak, maar wel als personen twee taken tegelijk of afwisselend moeten utivoeren. Bv beide oren horen signaal: hoeveel fouten én hoeveel tijd. Kanttekening: aandacht lijkt zo een instabiele eigenschap te zijn, maar ind verschillen in vaardigheid is moeilijk te scheiden van ind verschillen in aandacht. Computers kunnen ook problemen veroorzaken: testangst en ervaring met computer. Deze zullen wel verdwijnen Verschillen tussen beide testmethoden voor matchingitems: per computer een lagere toetsscore en geringer aantal veranderingen. Voor andere twee, veel gebruikte itemvormen geen verschillen gevonden. Hofer en Green: zowel voor persoonlijkheidstests als capaciteitentests zullen de verschillen in prestatie tussen computergestuurde en conventionele condities niet groot zijn. Maar normen van een conventionele test kunnen niet zonder meer worden overgenomen naar de computergestuurde testversie. Verschillen tussen conventioneel en computergestuurd: manoeuvreerbaarheid tussen vragen, presentatie en vormgeving Adaptief testen Ofwel: testen op maat: iedere respondent krijgt een test op zijn of haar niveau. Om achteraf de scores van verschillende respondenten te vergelijken, is het handig dat de volledige verzameling items, opgeslagen in een itembank, voldoet aan de eisen van de itemresponstheorie. Vergelijking van adaptief testen tegenover klassieke standaardtest: Itembank vervangt de standaardtest. Binnen itemresponstheorie heeft een meting van een eigenschap van een persoon met een bepaald item de grootste nauwkeurigheid, als de moeilijkheid van het item en het niveau van de persoon op de psychologische eigenschap, beide gemeten op dezelfde schaal, samenvallen. Werkwijze: starten met een gemiddelde moeilijkheid, dan schatting van de meetwaarde, volgende item die samenvalt met de meetwaarde, enz. Kenmerken van deze stapsgewijze bepaling: • iedere stap dichterbij de gezochte waarde • schatting van meetwaarde is nauwkeuriger naarmate meer items zijn gepresenteerd. Een itembank zal tenminste 150 a 200 items moeten bevatten. Metingen kunnen gecorrigeerd worden voor het moeilijkheidsniveau van de test: daarom kunnen verschillende personen worden vergeleken. Verschillen met de klassieke benadering: • klassiek: iedereen maakt dezelfde test. Voor personen met lage of hoge meetwaarden is het instrument ronduit slecht. • Lengte van adaptieve test kan met de helft van de lengte dezelfde nauwkeurigheid als de standaardtest. Toepassingen van adaptief testen: onderwijsevaluatie: of iemand geslaagd is, of prestatie binnen grenzen ligt, of leerstofgebied voortgang heeft geboekt. 5.4
Bewerkte scores en normen
= toekennen van betekenis aan scores. Testuitslag eerst in basisscore / ruwe score, meestal door telling. Ruwe score: X =
g=id van item, Xg = score van item (fout=0, goed=1)
Drie soorten bewerkte scores: bij vergelijking met anderen: • vergelijking met absolute standaard • deling door bv leeftijd of schoolklas • relatieve positie in een referentiegroep
Norm = referentiekader voor de evaluatie van de ruwe scores, dat is gebaseerd op de kenmerken van de verdeling van de ruwe scores in een populatie. Deze kenmerken worden geschat op basis van een representatieve steekproef Ook diverse bewerkingen die onafhankelijk zijn van de prestaties van anderen Gebruik van normen houdt een vergelijking in met een referentiepopulatie, niet met de groep die men toevallig onderzoekt. Bv CITO: uitslag in relatie tot populatie van Nederland. Niet altijd is het nodig/gewenst om normen te berekenen: • voor een rangorde binnen de onderzochte groep (bv beste drie gaan door…) • pct goede antwoorden moet (bv) hoger zijn dan 80, anders (… niet alleen werken in de klas). Soms zijn ruwe scores voldoende, bv bij onderzoeksdoeleinden voor samenhang tussen testscores en criteriumscores. Naarmate onderzochte groep groter is en meer de kenmerken van een relevante populatie weerspiegelt, krijgen de vergelijkingen meer het karakter van vergelijkingen met een norm. Belangrijk hierin: • Bij normeringsonderzoek moeten de kenmerken van de onderzochte normgroep vermeld worden • Normen niet absoluut zien: populatie veranderd. Daarom ook de eis van geregelde normrevisies van de test Vergelijking met een absolute standaard Dus niet vergelijking met klas, leeftijdgenoten of nlpopulatie. Maatstaf kan subjectief en arbitrair zijn, maar ook gebaseerd op grondige onderwijskundige of psychologische analyse. Eng: ‘criterionreferenced measurement’. Bij absolute normering is een analyse van doelen, of de mate waarin die doelen zijn verwezenlijkt op een betrouwbare manier te meten. Verhoudingsnormen Testscores gedeeld door een andere variabele, als leeftijd, klasse, enz. Bv IQ IQ = ML/CL x100 ML=mentale leeftijd, CL=chronologische leeftijd ML = basale leeftijd + aantalgoednabasaleleeftijd/aantal items per leeftijdgroep Basale leeftijd = laatste leeftijd waarop geen fouten is gemaakt Het IQbegrip kent kanttekeningen: • Formule suggereert dat ML en CL vergelijkbare grootheden zijn, maar CL is de verwachte testprestatie o.b.v. leeftijd • Lange tijd ging men ervan uit dat IQ constant was. Maar er zijn veel vragen die zowel door vorming en scholing als van intelligentie afhankelijk is. Ook wordt psychologische groei beïnvloed door allerlei lichamelijke en fysiologische factoren. Verder gelden wijzigingen in leermogelijkheden en motivatie, en emotionele bereidheid. • Hogere leeftijden lopen de prestaties in vele intellectuele functies terug. Oudere mensen zijn dus in het nadeel • Veel IQtest voldoen niet aan de eis van een evenredig toenemende spreiding bij hogere leeftijden (dus steeds grotere noemer) In modernere intelligentietests worden meestal andere bewerkte scores gebruikt. Vergelijking en normen gebaseerd op een rangorde Direct gebonden aan de specifieke groep. Kennis van de groepsgrootte is niet vereist bij percentielscores. Percentielscores zijn onafhankelijk van de groepsgrootte. Wel blijven ze afhankelijk van niveau, spreiding en andere kenmerken. Percentielscores worden veel gebruikt, Reden: eenvoudige en snelle berekening, gemakkelijke toepasbaarheid en de inzichtelijkheid. Nadelen: • geen gemiddelde en varianties
•
geen zin om frequentieverdelingen van percentiele en ruwe scores te vergelijken. De verschillen tussen percentielscores in relatie tot de ruwe scores worden rond de mediaan overschat en aan de uiteinden onderschat.
Vergelijking en normen gebaseerd op gemiddelde en spreiding Standaardnormen: standaardscoreeenheden als representatie van een populatie. Standaardscores en standaardnormen kennen niet de bezwaren van percentiele normen, ordinale schaal en de onvergelijkbaarheid met ruwe scoreeenheden. Standaardscores of zscores = omgezette ruwe scores, uitgedrukt in aantal standaarddeviatieeenheden van het gemiddelde: zX = (X – gemX)/ SX Standaardscores behouden, op gemiddelde en standaarddeviatie na, dezelfde verdelingskenmerken als de ruwe scores. Zscores zijn niet automatisch normaal verdeeld. Omzetten naar zscores betekent: de verdeling van X wordt verschoven en de afstand tussen de scores wordt met een constante factor veranderd. Genormaliseerde standaardscores Verkregen uit nietlineaire transformaties, die de verdeling van X zodanig vervormen, dat wel een normaalverdeling ontstaat. Sommige scoreeenheden worden ‘uitgerekt’ en anderen ‘ingedrukt’ (om verdeling van 34% tussen gemX en (gemX + 1SX) en 34% tussen gemX en (gemX – 1SX) en 14% tussen (gemX + 1SX) en (gemX + 2SX) en 14% tussen (gemX 1SX) en (gemX 2SX) Normalisering van de verdeling is vaak nauwelijks gerechtvaardigd. Beweerd wordt wel dat de intelligentie normaal verdeeld moet zijn, evenals lengte en gewicht van mensen. Een hypothetische eigenschap kan men nooit op haar kenmerken onderzoeken onafhankelijk van de manier van meten. Te gemakkelijke items zullen een scheefheid naar links veroorzaken, te moeilijke items naar rechts. Rechtvaardiging hooguit in het gemak en de bruikbaarheid. Overige standaardscores Binnen genormaliseerde standaardscores: • Tscores: gemiddelde van 50 en spreiding van 10
• •
Stanines (US air force). Scores vertegenwoordigen een breedte van ½SX. Het midden van de vijfde stanine komt overeen met het gemiddelde van de verdeling DeviatieIQ: standaardnormen met een gemiddelde van 100. I.p.v. oorspronkelijke vergelijking van ML en CL worden de testprestaties per leeftijdsklasse verwerkt tot genormaliseerde standaardscores. WAISscores zijn met leeftijd genormeerd.
6
Betrouwbaarheid
Betrouwbaarheid is de mate van herhaalbaarheid van metingen. Bij gelijkblijvende condities en dezelfde persoon, in hoeverre varieert de verkregen testscore over testsessies. Twee vragen: • is het zinvol om dezelfde persoon de test diverse malen voor te leggen • wat verstaan we onder ‘gelijkblijvende condities’. 6.1
Herhaalbaarheid van metingen
Zinvolle herhaalbaarheid van metingen worden in hoge mate bemoeilijkt door geheugeneffecten en leerprocessen. Herhaalbaarheid is derhalve hypothetisch Onder gelijkblijvende condities verstaan we: • Items, instructie, fysieke omstandigheden, tijdstip, • psychologische eigenschappen van persoon. o Onbedoeld beroep op bv woordbegrip o Items kunnen emotionele of agressieve reactie oproepen. Ook woordbegrip speelt • lichamelijke en fysiologische processen, zoals motoriek/waarneming Hoe kunnen bij herhaalde afnemingen onder gelijkblijvende condities de scores toch fluctueren? Het gaat om invloeden die onvoorspelbaar of toevallige wijze variëren. Bij groot aantal metingen heffen voor en nadelen elkaar op. Voorbeelden van invloeden: blackout, lichamelijk ongemak, laag overkomend vliegtuig, tijdelijk concentratieverlies, enz. Dus: herhaalbaarheid van metingen? dan zijn testprestaties bij verschillende afnemingen onafhankelijk van elkaar; geen leer en herinnereffecten. Klassieke testtheorie: relatieve inbreng van onvoorspelbare invloeden en werkzame eigenschappen van personen en situatie. ‘Onafhankelijke replicaties’ = herhaalde metingen. 6.2
De klassieke testtheorie
Reeds uit het begin van 1900. Lang geduurd voordat theorie af was. Betrouwbare score en meetfout Onderscheid tussen constand of systematisch deel (T) en toevallig of nietsystematisch deel (E): Xij = Ti + Eij. i=persoon, j=replicatie, T=true score, Ti is gebonden aan een specifieke test, en niet aan buitentestsituatie. Soms interesse in werkelijke score (meestal), soms juist in toevallige deel (sport) Indien de test volgens doordachte psychologische principes tot stand gekomen is, zal de testscore ongetwijfeld samenhangen met andere belangrijk geachte psychologische variabelen en daarmee gedrag voorspellen Eigenschappen van betrouwbare score en meetfout voor een individu • Gemiddelde meetfout is nul • Standaarddeviatie is de standaardmeetfout van persoon i. Voor specifieke persoon i geldt dat spreiding van de meetfouten gelijk is aan de spreiding van de geobserveerde scores. Uitgangspunt in praktijk is dat de standaardmeetfout voor iedereen identiek is. Maar dit is niet juist: personen die weinig weten gissen meer (en dus grotere standaardmeetfout). Dus: de ‘persoonsgebonden’ standaardmeetfout neemt af bij een toenemende waarde T. • De standaardmeetfout van psychologische metingen (testscores) is vaak aanzienlijk. Reden: onderligeende psychologische processen kunnen m.b.v. een test niet zo nauwkeurig worden beschreven als bv fysische processen Eigenschappen van betrouwbare score en meetfout in de populatie Vooronderstellingen: • Gemiddelde meetfout in een populatie van n personen is gelijk aan nul
•
Meetfouten correleren met geen enkele andere variabele. Meetfout op de test correleert niet met Y (Willekeurige andere variabele): r(E,Y)=0 Let op: r(E,X)>0 E correleert wél met X
•
Meetfout en de betrouwbare score correleren niet.
Eigenschappen: • Gemiddelde geobserveerde score is gelijk aan gemiddelde betrouwbare score •
Variantie van de geobserveerde score is gelijk aan de som van de variantie van de betrouwbare score en de variantie van de meetfout.
Betrouwbaarheid van testscores en de standaardmeetfout Definitie van betrouwbaarheid: Verhouding van de varianties van betrouwbare scroes en geobserveerde score. Betrouwbaarheid is dus de proportie van de variantie van de testscores, X, die systematisch is. Betrouwbaarheid wordt aangeduid: rXX’ Acceptabele waarden van de betrouwbaarheid Minimumwaarde van betrouwbaarheid is nul: de test meet geen enkel betrouwbaar verschil en is als meetinstrument mislukt. Maximumwaarde van betrouwbaarheid is 1: als iedereen dezelfde meetfout heeft (=0). Dus: 0 ≤ rXX’ ≤ 1 Twee praktische situaties onderscheiden:
• •
uitspraken over groepen: groepsgemiddelden en correlaties. Vuistregel: rXX’ > 0.7
uitspraken over individuen: rXX’ > 0.9 Standaardmeetfout van de testscore S(E) = S(X) √(1rXX’) Betrouwbaarheid en standaardmeetfout spelen in klassieke testtheorie ene centrale rol: • voor schatting van nauwkeurigheid van meting • voor indruk van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen Betrouwbaarheid kan niet zondermeer geschat worden, want formule bevat twee onbekenden. Voor methoden, zie verderop. Eerst Belangrijke onderscheidingen Testscore wordt opgesplitst in toevallig en systematisch deel. Testscore zou ook opgesplitst kunnen worden in bedoeld en onbedoeld deel. Bv rigiditeitstrek bepaalt de bedoelde scorecomponent; emotionaliteit, agressiviteit en woordbegrip bepalen (gedeeltelijk) onbedoelde scorecomponent. (Meetfouten zijn altijd onbedoeld). Onbedoelde scorecomponent ≠meetfout, en bedoelde scorecomponent ≠ betrouwbare score. In geval van rigiditeitstest: er bestaat geen zuivere test voor rigiditeit, evenmin voor intelligentie. In hoeverre een test de bedoelde eigenschap meet, is begripsvaliditeit (zie hfdstk 8) 6.3
Bepaling van de betrouwbaarheid
Twee benaderingen voor het schatten van de betrouwbaarheid: 1 twee testafnemingen / herhaalde meting a. Paralleltest / parallelvormmethode. De inwisselbaarheid/equivalentie van de tests is wiskundig gedefinieerd. Correlatie tussen beide tests is de paralleltestbetrouwbaarheid. b. dezelfde test / testhertestmethode. Correlatie tussen beide scores is de test hertestbetrouwbaarheid. 2 eenmalige meting a. twee helften / splitsingsmethode. Via wiskundige berekening de paralleltestbetrouwbaarheid
b.
individuele items / interneconsistentiemethode. Covariantie tussen alle individuele items is de ondergrens van de betrouwbaarheid
Parallelvormmethode Twee inwisselbare, maar niet identieke test voorleggen aan één groep proefpersonen. Correlatie tussen scores van beide is gelijk aan de betrouwbaarheid van afzonderlijke scores. Vooronderstellingen: • bepaalde persoon i geeft op twee paralleltests identieke betrouwbare scores • spreiding van de ruwe score in de populatie is op beide tests gelijk Betrouwbaarheid = correlatie (r) tussen twee parallelle testscores (X en X’). In de praktijk van testconstructie is het niet eenvoudig om twee parallelversies te maken. Bovendien is het pas achteraf te controleren of het gelukt is. Eigenschappen van paralleltest: • testscore van iedere persoon is in beide tests gelijk
•
gemiddelde betrouwbare score op de test is gelijk aan gemiddelde geobserveerde score gemX1 = gemX2
• •
varianties van geobserveerde scores is in beide tests identiek S2(X1) = S2(X2)
Met iedere willekeurige variabele (Y) heeft de paralleltest dezelfde correlatie. r(X1,Y) = r(X2,Y) Samengevat: laatste is belangrijkste. Testhertestmethode Regelrechte poging om het ideaal van onafhankelijke replicaties te realiseren. Procedure: dezelfde test met een behoorlijke tussentijd tweemaal aan dezelfde groep voorleggen. Correlaties tussen beide scores is gelijk aan betrouwbaarheid van de test. Testhertestmethode levert resultaten die afwijken van parallelvormmethode: veranderingen m.b.t. de eigenschap tijdens tijdinterval. Diverse redenen waarom r(X1,X2) (correlatie tussen 1e en 2e meting) geen goede bepaling van betrouwbaarheid (rXX’) geeft: • veranderingen in gemeten eigenschap: leereffect • geheugen • door stellen van vragen kan onderzochte aan het denken zetten, bv tot attitudeverandering Bepaling van grootte van tijdinterval: afweging met problemen, incl uitval van proefpersonen. Deze methode geeft ook beeld in hoeverre de testprestatie over een bepaalde periode stabiel blijft: correlatie geeft dan aan de stabiliteit van de testscores. Splitsingsmethode Efficiënte variant van de parallelvormmethode: twee halve paralleltest. Procedure: • test splitsen • gehele test voorleggen aan respondenten • per testhelft ruwe score bepalen. Indien scores werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Omdat betrouwbaarheid afhangt van aantal items, correctie uitvoeren.
Wat is invloed van testlengte op betrouwbaarheid: SpearmanBrownformule: KrXX’ rKK is de betrouwbaarheid van de verkorte test rKK = K is aantal items verlengdetest/aantal items oorspr test 1 + (K – 1)rXX’ rXX’ is de betrouwbaarheid van de gehele test
Deze formule geeft de mogelijkheid om de betrouwbaarheid van de gehele test af te leiden uit de betrouwbaarheid op de halve tests. Dus 2rXX’ r22 = Stel: r22 = 0.70, dan is rXX’ 0.82 1 + rXX’ Let op: deze formule veronderstelt dat de testdelen parallel zijn. Dit zijn ze zelden. Vuistregels voor vormen van twee testhelften: • evenwichtige spreiding van gemakkelijke en moeilijke items
•
niet 1e en 2e helft (mogelijke oplopende moeilijkheid), maar even en oneven nummers • in verschillende versies items te kiezen die inhoudelijk veel op elkaar lijken. • geen items weglaten. Samenstellen van twee parallelle test is arbitrair; diverse mogelijkheden. Voor elk van de mogelijkheden is de betrouwbaarheid te schatten en gemiddelde geeft dan de echte schatting. Maar: Cronbach geeft eenvoudiger methode: Cronbachs alfa is gelijk aan de gemiddelde splitsingsbetrouwbaarheid Interneconsistentiemethode Gebaseerd op inwisselbaarheid van individuele items in een test. Procedure: • test eenmalig voorleggen aan representatieve groep • Scores op items als basis voor berekeningen. Covarianties berekenen. Variantie van ruwe score berekenen • Gegevens invullen in één van de vele coëfficiënten(methoden) voor een schatting van betrouwbaarheid Bekendste coëfficiënten(methode) is de alfacoefficient (Cronbach). Alfa is een ondergrens voor de betrouwbaarheid. Ofwel: rXX’ ≥ alfa Bovendien: als alle items dezelfde eigenschap meten, is alfa en betrouwbaarheid (ong) gelijk. Formule voor alfa eenvoudig. Daarom populairste methode. Bewijs van stelling, mits variantie van elke variabele groter/gelijk 0 is variantie van verschil van twee variabelen niet negatief is. Alfa als ondergrens in relatie tot populatie en steekproef. Alfa is in de populatie dus ondergrens voor betrouwbaarheid, maar in praktijk wordt alfa geschat met steekproefgegevens, en kan dus hoger of lager uitvallen Een grotere, representatieve steekproef (min. 500) lijkt veel op de populatie en alfa zal inderdaad de ondergrens zijn. Hoe kleiner de steekproefgrootte, hoe meer de steekproeven door toeval van elkaar verschillen, hoe groter de fluctuatie in alfa. Een constructie van een goede test vereist dus grote steekproeven. Reden: vele statistische berekeningen met voldoende nauwkeurigheid, ook voor deelgroepen. Interpretatie en gebruik van alfa Alternatieve formules: Kuder en Richardson (KR20) is gelijk aan alfa voor het geval alle items dichitoom zijn Berekening van alfa: m.b.v. testlengte, alle covarianties tussen de items (=interitemcovariantie), de variantie van de testscore. De variantie van de testscore is gedefinieerd als de som van de itemscores. Selectie van items ter verhoging van alfa Items die niet positief bijdragen aan de betrouwbaarheid (of die verlagen) moeten uit de test. Dus items die goed correleren met andere items. Meestal lastig, daarom: itemrestcorrelatie = beoordelen van items op hun correlatie met de somscore. Dus per item één itemrestcorrelatie, i.p.v. heel veel k1 interitemcovarianties. Mythe van de interne consistentie
Veel onderzoekers gebruiken alfa als maat voor de interne consistentie (of ‘homogeniteit’) van een test en minder vaak als ondergrens voor de betrouwbaarheid. Ongelukkig, want: hoge betrouwbaarheid heeft alles te maken met nauwkeurigheid van de meting, niet met wát de test meet alfa kan een hoge waarde hebben, terwijl de test inhoudelijk sterk heterogeen is. Voor een indruk van interne consistentie van de test: factoranalyse. Alternatieven voor alfa Lambda2coefficcient volgens Guttman. Serie van ondergrenzen voor betrouwbaarheid. Coefficienten kunnen worden geordend naar oplopende grootte. Mu0 is gelijk aan alfa, mu1 is gelijk aan lambda. mu0 ≤ mu1 ≤ mu2 ≤ mu3 ≤ … ≤ rXX’ Gegeven de eenvoud en ouderdom van de formule is het vreemd dat lambda2 veel minder vaak gerapporteerd wordt dan alfa. 6.4
Speciale onderwerpen
Nauwkeurigheid van de meting Twee methoden om de betrouwbare score T te schatten. Bv X = score CITO, Y = score voor success in middelbaar onderwijs. Lineaire functie in de puntenwolk staat bekend als het lineaire regressiemodel: Y = a + bX. Indien correlatie tussen X en Y niet perfect is (dus |r(X,Y)|< 1), dan gaat de schatting van Y gepaard met een zekere mate van onnauwkeurigheid: tussen geobserveerde en geschatte waarde. In een groep personen is het gemiddelde residu gelijk aan nul. De werkelijke Ywaarde in 95% van de gevallen tussen xx.xx en xx.xx zou liggen. Dit is onjuist. Twee methoden om de betrouwbaarheid te meten: Methode 1: standaarddeviatie van de schattingsfouten is gelijk aan de standaardfout. Methode 2: Uit klassieke testtheorie: correlatie r(X,T) is gelijk aan √rXX’ r(X,T) = √rXX’ Standaardeviatie van de schattingsfouten T – T’ = standaardschattingsfout: T’ = rxx’X + (1rXX’)gemX S(T – T’) = S(T)√(1r2XT) - Vergelijking van de standaardfout en de standaardmeetfout: schatting van T d.m.v. tweede methode is nauwkeuriger dan 1e methode - Schattingsmethode: naarmate rXX’ hoger is, krijgt de individuele testprestatie X meer gewicht. Naarmate rXX’ kleiner is en X derhalve onbetrouwbaarder, wordt de rol van groepskenmerk ‘gemX’ belangrijker. Methode 2 geeft meer informatie. Rekenvoorbeeld: zie blz 233 bovenaan Vergelijking van testscores Testscores zijn tamelijk onnauwkeurige schattingen van T. Is dit algemeen? Ja: 95% betrouwbaarheidsinterval en betrouwbaarheid van 0.90 nog steeds groot interval geeft. Hogere betrouwbaarheid is te behalen door meer items in test op te nemen: De winst zit er in dat een 2x zo grote standaardmeetfout wordt gebruikt om testscores te vergelijken op 4x zo lange schaal. Betrouwbaarheidsinterval blijft lang. Toch testscores betrouwbaar en bruikbaar: 1 als standaardmeetfout of standaardschattingsfout gering is t.o.v. lengte van de schaal (Dus veel items nodig). Standaardmeetfout en –schattingsfout geven meer info dan betrouwbaarheid zelf. 2 Test in wetenschappelijk onderzoek vereist een minder hoge meetnauwkeurigheid. Wel moet betrouwbaarheid behoorlijk zijn. Vooral de grootte van de steekproef van proefpersonen is van belang. Voor ind testgebruik worden hogere eisen gesteld. 3 Door vaak geringe aantal items in de test is de standaardmeetfout relatief groot. Evt compenseren met andere testprestaties/gegevens.
Betrouwbaarheid en testlengte Verband tussen betrouwbaarheid en testlengte, via SpearmanBrown formule: KrXX’ rKK is de betrouwbaarheid van de verkorte test rKK = K is aantal items verlengdetest/aantal items oorspr test 1 + (K – 1)rXX’ rXX’ is de betrouwbaarheid van de gehele test Conclusies: • betrouwbaarheidswinst wordt kleiner, naarmate meer items aan de test worden toegevoegd. • Om praktische redenen vaak weinig zin om een test met geringe betrouwbaarheid te verlengen: o niet eenvoudig om nieuwe items te maken o test kan te lang worden: vermoeiend en demotiverend voor respondent Dus: testverlening alleen zin als aanvangsbetrouwbaarheid, rXX’, niet al te laat is (bv 0.60 tot 0.80) en het aantal items in de test niet al te groot (10 a 20) Let op: Spearmanbrownformule is gebaseerd op de vooronderstelling van parallele metingen Betrouwbaarheid en validiteit De betrouwbaarheid van een testscore X legt beperkingen op aan de correlatie van X met andere variabelen, Y. Hoe hoog kan de correlatie van een testscore met een andere variabele maximaal zijn? Betrouwbaarheidsindex: r(X,T) = √rXX’ Dit is de bovengrens voor de correlatie van testscore X met een willekeurige andere variable Y. Deze bovengrens geeft alleen aan wát de maximale correlatie kan zijn, maar niet wat de echte correlatie in een concreet geval is. Dus: hoge betrouwbaarheid is een noodzakelijke, maar niet voldoende voorwaarde voor een goede validiteit Bij testverlenging: validiteitswinst is geringer dan de betrouwbaarheidswinst. Betrouwbaarheid van verschilscores Is een gevonden verschil tussen twee testscores van dezelfde persoon betrouwbaar, of moet het toegeschreven worden aan de onbetrouwbaarheid van één of beide testscores. Bv therapievooruitgang of scores van neuroticisme en agressie tot verschillende typologien. Voor differentiële voorspelling van betrouwbaarheid (bv bij therapievooruitgang) voorwaarden:
• betrouwbaarheid van het verschil D is lager naarmate de betrouwbaarheid van X1 en X2 afzonderlijk lager is
• betrouwbaarheid van verschilscores is gering als de samenhang tussen X1 en X2 sterk is (want dan lijken
hun betrouwbare scores veel op elkaar; de tests meten hetzelfde). Dus, belangrijk is: • streven naar zo onafhankelijk mogelijke tests • testscores van beide test zo betrouwbaar mogelijk Profilering van de testresultaten op een profielblad: vaak onduidelijke statistische onderbouwing; interpretatie, adviezen en beslissingen zijn dubieus. Vaak hebben beslissingen weinig waarde omdat ze gebaseerd zijn op onbetrouwbare verschilscores. Er zijn diverse pogingen gedaan om de afstand van iemads scoreprofiel tot een of ander ideaalproviel in een index uit te drukken. Latenteklassenanalyse is een recente, statistische ontwikkeling in de classificatie van mensen op basis van scoreprofielen op tests of items uit tests of vragenlijsten. De bruikbaarheid hiervan (betrouwbaarheid en validiteit) moet nog blijken Betrouwbaarheid en spreiding van scores. Testkenmerken geven alleen binnen díe populatie een geldige aanwijzing van de kwaliteit. Er bestaat een sterk positief verband tussen de variantie van de betrouwbare score T en de betrouwbaarheid rXX’. Kanttekeningen:
•
Vooronderstelling van een constante, weinig variërende, meetfoutenvariantie (S2(E)). Maar: meetfouten voor personen die veel gissen is groter dan die weinig gissen
•
Wel bekend dat rXX’ afneemt bij afnemende variantie.
Betrouwbaarheid van heterogene tests Voor het meten van complexe begrippen worden testbatterijen ontwikkeld, met soms 10 of meer deeltests. Het streven om de aspecten apart te meten is gebaseerd op theoretische/empirische gegeven dat zij min of meer onafhankelijke intelligentiekenmerken representeren. De onafhankelijkheid of hooguit zwakke samenhang komt tot uiting in lage correlaties of geringe covarianties tussen de scores op deeltests. Bv RAKIT Voor iemands algemene intelligentienivo, dan totaalscore nodig. Dus alle items als één test zien? Nee, Cronbacks alfa (als ondergrens voor betrouwbaarheid) zal laag zijn. Beter: gestratificeerde alfacoefficient Generaliseerbaarheid van metingen Indien een psychologische eigenschap veranderlijk is, geeft de testhertestmethode een indruk van de generaliseerbaarheid van de meting in de tijd, terwijl paralleltestmethode laat zien in hoeverre metingen uit de ene test generaliseerbaar is naar de andere. Cronback’s generaliseerbaarheidtheorie: Aanname dat de testgebruiker altijd een generalisering van de testresultaten beoogt, naar bv tijd, vraagvormen, soortgelijke tests. Totaal van deze condities waarna gegeneraliseerd gaat worden heet universum. Universumscore is de betrouwbare score: de gemiddelde testprestatie berekend over het universum van condities. Wil men een schatting maken van deze universumscore, dan moeten alle condities ook daadwerkelijk in de testprocedure opgenomen zijn. Naast het toeval dragen andere variantiebronnen (totaal: foutenterm E) bij aan een gebrek aan generaliseerbaarheid. De samenstelling van deze foutenterm varieert met de definitie van het universum en daarmee varieert tevens de generaliseerbaarheidcoëfficiënt. 6.5
Tot besluit
Betrouwbaarheid impliceert niet validiteit. Maar een onbetrouwbare score is altijd invalide.
7
Nieuwe ontwikkelingen in testtheorie en testconstructie
Modellen uit itemresponstheorie winnen terrein. Reden: gebruiksmogelijkheden, bv adaptief testen per computer. Gunstige meeteigenschappen van itemrtheorie: • schaal: sommige ordinaal, sommigen interval. ‘Meten bij implicatie’ (=implicit measurement). Bv Rasch model, met een verschilschaal voor meting van personen. Klassieke testmodel: wel worden onderzocht of items of tests parallel zijn, Niet onderzocht of opsplitsing van testscores in een betrouwbaar deel en een meetfout wel realistisch is. ‘Meten bij fiat’: aangenomen wordt dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond. • Populatieonafhankelijk meten. Klassieke testtheorie is populatieafhankelijk. D.w.z. het aantal goede antwoorden is afhankelijk van het moeilijkheidsniveau van de test. Dus het niveau van de proefpersoon kan niet gescheiden worden van het moeilijkheidsniveau van de test. Populatieonafhankelijkheid = iemands meetwaarde, verkregen met een gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test heeft gemaakt. Een itemresponsmodel is een model uit de theorie die past bij de gegevens (zoals intervalmeetniveau, populatieonafhankelijkheid) 7.1
Principes en begrippen van de itemresponstheorie
De itemresponstheorie maakt uitspraken mogelijk over de kans dat persoon i met meetwaarde Ѳi een specifieke (positieve of negatieve) respons geeft op item g. Deze kans wordt door meetwaarde Ѳi en door kenmerken van het item g bepaald, zoals de moeilijkheid δg en het discriminerend vermogen αg. Dus kans wordt bepaald door zowel persoon als item. Deze eigenschappen van personen en items kunnen worden geschat uit testgegevens, en zijn dus parameters. Een kans van 0.70 betekent dat 70% van de personen met dezelfde Ѳwaarde het positieve antwoord op item g geeft. Deze kans op positief antwoord = succeskans. Succeskans is een functie van de te meten psychologische eigenschap. Wiskundig gezien is de succeskans een functie van de schaal, als meetlat voor het psy eigenschap. De precieze vorm en locatie van de functie wordt bepaald door de kenmerken van het item (moeilijkheid, discriminerend vermogen). Dit is de itemrespons functie, ook wel itemkarakteristieke functie of itemkarakteristieke curve. Vorm van de functie: • succeskans is een monotone nietdalende functie van de schaal. (Voor psy eigenschappen zijn verbanden tussen succeskans en eigenschap vaak intuïtief en niet ondersteund door psychologische theorie. Rechtvaardigheid moet dan wel empirisch zijn) • de helling van de functie varieert. Kritisch gebied waar de helling van de functie relatief steil is. Binnen dit gebied is de succeskans goed te onderscheiden, daarbuiten niet. • Drie kenmerken van items, die de exacte vorm van de itemresponsfunctie in een bepaalde klasse van itemresponsmodellen bepalen: o bij lage Ѳwaarden is de succeskans duidelijk groter dan 0. Er is een giskans. De exacte gis
o o
kans hangt af van aantal alternatieven en van inhoudelijke itemkenmerken (samen de pseudokansniveau). De pseudokansniveau ( P(Xg=1|Ѳ) = Уg ). Уg is de pseudokansniveauparameter. De curve heeft een specifieke locatie op de Ѳschaal. Deze locatie is het punt op de schaal
waar (1 + Уg)/2, de locatieparameter δg (ook wel ‘moeilijkheidsparameter’ genoemd) Steilheid van de itemresponsfunctie: naarmate steiler, wordt verdeling van personen scherper in 2en gedeeld. Het discriminerend vermogen van het item is een functie van de richtingscoëfficiënt van de raaklijn aan de itemreponsfunctie in het punt (δg, 1 + Уg)/2). Het discriminerend vermogen wordt aangegeven met αg (discriminatieparameter). Deze parameter is groter bij steilere helling, waar het item meer discrimineert.
7.2
Enkele modellen uit de itemresponstheorie
Conceptueel verschillen deze modellen maar weinig. Verschillen wel in de keuze van de wiskundige functie. Strengere modellen leggen meer beperkingen op aan het ‘gedrag’ en leggen dus meer structuur op aan patronen van itemscores. Zwakkere (in termen van hun vooronderstellingen) geven meer vrijheid. Empirische testgegevens zijn vaak beter in overeenstemming met de zwakkere modellen dan met de strengere. Er is sprake van een spanning tussen mate van praktische toepasbaarheid van een model en de kwaliteit van de meting. Het Raschmodel Formulering en meetniveau Strengste model. Ook wel éénparameter logistische model. Eigenschappen:
•
Voor zeer kleine Ѳwaarden is de succeskans vrijwel nul. Indien uit de itemeigenschappen wel een succeskans groter dan nul is, dan is het Raschmodel niet geschikt. • Alle items hebben hetzelfde discriminerend vermogen • Schaaltransformaties zijn toegestaan • Meetwaarden van respondenten en items veranderen, maar de onderlinge ordeningen van resp personen en items blijft onveranderlijk. • Versies: o Logaritmische schaal die verschiltransformaties toelaat o antilogarimische schaal met ratioeigenschappen Afstanden tussen metingen zijn serieus. • Items mogen varieren in moeilijkheid Populatieonafhankelijkheid Eigenschappen:
•
populatieonafhankelijkheid (=Ѳwaarden zijn onafhankelijk van de moeilijkheden), ofwel binnen de populatie kunnen deelgroepen bestaan die ieder eigen moeilijkheidsniveau hebben • Effecten van personen en items op de succeskansen zijn onafhankelijk en interacties spelen geen rol. (Indien wel, dan is Raschmodel niet het juiste model). De invloeden van persoon en item op de testprestatie kunnen wel uit elkaar gehaald worden. Anders gezegd: de verhouding van de meetwaarden van twee personen, is onafhankelijk van de moeilijkheid van de items. Is dit niet het geval, dan zijn er meer vaardigheden of eigenschappen in het spel. Een numeriek voorbeeld van geschatte parameters uit het Raschmodel
•
Ѳwaarden staan op een andere schaal dan het aantalgoed (X). Het nut van de Ѳschaal ligt vooral in meetniveau en populatieonafhankelijkheid
• •
Ѳscores kunnen zowel positief als negatief zijn
•
Standaardmeetfout per Ѳwaarde Betrouwbaarheidsintervallen zijn behoorlijk lang. Geschatte meetwaarden dienen dus ver uiteen te liggen, wil er sprake zijn van een significant verschil. => dus grote aantal items.
Modellen met respectievelijk twee en drie itemparameters Birnbaummodel met twee itemparameters en het model met drie itemparameters. Beide modellen zijn een veralgemenisering van het Raschmodel. Het Birnbaummodel Formulering en meetniveau Ook wel: tweeparameter logistische model. Eigenschappen: • Items in de test verschillen in discriminerend vermogen. • Items mogen varieren in moeilijkheid (net als Rasch)
•
Voor lage Ѳwaarden nadert de succeskans op het item 0 (net als Rasch) • Transformaties van persoons en itemparameters hebben geen invloed op de succeskans. • De schaal heeft eigenschappen van een intervalschaal (net als Rasch) Populatieonafhankelijkheid Eigenschappen: Populatieonafhankelijk (net als Rasch). Welk problemen:
•
meetwaarde Ѳi is onafhankelijk van de itemmoeilijkheden, maar afhankelijk van de discriminatieparameters van de door respondent i correct beantwoorde items. Ofwel: gegeven het discriminierend vermogen van de gebruikte items, kan Ѳ bepaald worden en bij iedere test die uit het itemdomein wordt samengesteld, komt men tot dezelfde Ѳwaarde. Maar: moeilijkheids en discriminatieparameters kunnen niet populatieonafhankelijk bepaald worden.
Het drieparameter logistische model Formulering en meetniveau Eigenschappen: • pseudokansnivea kan varieren voor iedere item in de test • Items mogen varieren in discriminerend vermogen en moeilijkheid. Populatieonafhankelijkheid Onafhankelijkheid is mogelijk, mits de populatieafhankelijke itemparameters bekend zijn. De modellen volgens Mokken Minst restrictieve model Het model van monotone homogeniteit Formulering en meetniveau Uitgangspunt dat over veel psychologische eigenschappen zo weinig kennis bestaat dat het gebruik van de relatief strenge modellen niet gerechtvaardigd is (waar items alleen maar varieren op moeilijkheid). Bovendien verwachten deze strenge modellen een itemresponsfunctie die eerst een lage, vrijwel constante waarde heeft, vervolgens een tijdje relatief snel stijgt, daarna constant dichtbij 1. Mokken: itemresponsfunctie die wel monotoon nietdalen zijn, maar verder geen beperkingen. Het antwoordgedrag op alle items een afspiegeling zijn van dezelfde psychologische eigenschap. Model impliceert dat personen kunnen worde geordend op Ѳ m.b.v. hun totaalscores X, de som van de itemscores. De eigenschappen van de verschilschaal en de intervalschaal kwijt, maar wel de ordinale schaal voor personen. Dit model leidt, vanwege de zwakke vooronderstellingen, tot het geringste verlies van items, dus hogere betrouwbaarheid. Evenmin als Ѳ geschat kan worden, kunnen itemmoelijkheden of andere itemparameters geschat worden. Wel kan pwaarde, proportie van enen herkend. Dus hoe groter p waarde, hoe gemakkelijker/populairder het item. Populatieonafhankelijkheid Populatieonafhankelijk: elke selectie van items uit het itemdomein, waarvoor het model van monotone homogeniteit geldt, leidt in theorie tot dezelfde ordening van personen. Ordening van de items naar pwaarde misschien populatieonafhankelijk? Nee: itemresponsfuncties snijden elkaar. Het model van dubbele monotonie Formulering en meetniveau Model dat leidt tot populatieonafhankelijke ordeningen van zowel personen als items. Eigenschappen: • itemreponsfuncties monotoon nietdalend • functies mogen elkaar niet snijden (net als Rasch) • personen meten op ordinale schaal • pwaarden van items liggen op ordinale schaal Populaiteonafhankelijkheid
• • •
Ordening van personen is populatieonafhankelijk. Ook ordening van items is populatieonafhankelijk Testscores en pwaarden zijn niet onderling vergelijkbaar. Dus personen wel met elkaar, items wel met elkaar, maar personen en items niet onderling op dezelfde schaal.
De onderlinge relaties van de itemresponsmodellen • •
7.3
In volgorde van algemeen naar specifiek: model van monotone homogeniteit drieparameter logistisch model Birnbaummodel Raschmodel. Model voor dubbele monotone homogeniteit: itemresponsfuncties mogen elkaar niet snijden. Rasch model is speciaal geval van dubbele monotone homogeniteit: itemresponsfuncties mogen niet snijden, maar moeten parallel zijn. Dus in volgorde van algemeen naar spacifiek: model van monotone homogeniteit model van dubbele monotonie Raschmodel. Meten van itemresponsmodellen
Eigenschappen van deze modellen t.a.v. afbeelden van personen en items op een schaal: • Schaaleigenschappen uit het specifieke itemresponsmodel. Dus ‘meten bij implicatie’ • Schaal: o Rasch, Birnbaum, drieparameter logistisch model => metrische schaal (interval, verschil, rationniveau o Mokken: => ordeningen van meetwaarden • Afbeelden: M.b.v. Rasch, Birnbaum, model van drie parameters = personen op dezelfde schaal. M.b.v. Mokken: ordening van personen en items op aparte schalen • In specifieke gevallen populatieonafhankelijk. o Rasch: zowel personen als items populatieonafhankelijk o Birnbaum en drieparametermodel: alleen personen populatieonafhankelijk o Monotone homogeniteit: ordening van personen populatieonafhankelijk o Dubbele monotonie: zowel ordeningen van personen als items populatieonafhankelijk Betekenis en gebruik van metrische schalen Vraag of er een psychologische interpretatie aan metrische schalen kan worden gegeven. Ratioschaal: vergelijking van personen interpreteren in termen van kansen op positieve/neg reacties op een item. ‘Odds’ = de verhouding van de kans op een positief antwoord en de kans op een negatief antwoord op hetzelfde item voor een vaste meetwaarde (Oig=4 betekent dat persoon i item g in 4 gevallen goed beantwoordt en in één geval fout). Voor het Raschmodel is Odds dus alleen afhankelijk van de meetwaarde van twee personen, maar onafhankelijk van het gebruikte item Conclusie: meting op een metrische schaal leidt niet tot een directe psychologische interpretatie, maar van ordeningen. Eggen en Kelderman tonen hoe meetwaarden op Oddsschaal of de Ѳschaal praktisch gebruikt kunnen worden: • Schaal relateren aan normgroep: de schaal krijgt een gemiddelde en spreiding • meetwaarden relateren aan referentiepunten: absolute aftestgrens • omzetting in percentielscores, omzetting van meetwaarden in succeskansen
•
omzetting van de schaal uit de itemresponstheorie in de schaal uit de klassieke testtheorie. Voordeel: ordening volgens T volgt uit de theorie en hoeft niet worden aangenomen, testgebruikers zijn wel bekend met de schaal van betrouwbare score, maar nauwelijks met de Ѳschaal.
Nauwkeurigheid van de meting Itmeresponstheorie wordt gezien als een verfijning van de klassieke testtheorie. Klassiek: standaardmeetfout is voor elke score op de schaal gelijk. Dit is niet plausibel (mensen die meer gissen hebben grotere meetfout). Itemresponstheorie houdt rekening met lokale betrouwbaarheid. Een te gemakkelijke test geeft voor de meting van Ѳi weinig informatie. Wanneer de test goed bij de persoon past, dan is Ѳi nauwkeurig geschat.
Voor ieder afzonderlijke item en voor de gehele test kan het informatiegehalte (of de lokale betrouwbaarheid) voor de schatting van Ѳ worden bepaald. Zie grafiek blz 293 van drie iteminformatiefuncties. Hoe groter de waarden van de informatiefunctie, des te hauwkeuriger de meting. Het Raschmodel en Birnbaummodel: de items in de test leveren een onafhankelijke bijdrage aan de informatie van de gehele test. Dit is handig bij testconstructie: items als bouwstenen. Wil men nu bepaalde plaatsen op de Ѳschaal nauwkeurig meten, dan die items kiezen die op die plaats hun maximale informatiewaarde hebben. Ook het model met drie itemparameters laat het gebruik van de informatiefunctie toe. Mokken niet 7.4
Praktisch gebruik van de itemreponstheorie
Toepassing van de itemreponstheorie op de constructie. Constructie van itembanken. Equivaleren van testscores. Testconstructie met itembank. Adaptief testen. Diagnose van afwijkende items en personen De itembank en equivaliering van scores en kenmerken van items Meeste test in praktijk zijn standaarstests. Bezwaren tegen standaartests: • niet altijd representatief voor een inhoudelijk kennis of vaardigheidsdomein. Probleem van inhoudsvaliditeit. Bovendien heeft respondent op iedere standaartest een andere betrouwbare score, dus prestaties op verschillende tests zijn niet goed vergelijkbaar • test veronderstellen standaarpopulaties. Maar door verschillen in taalbeheersing of curriculum is dit niet helemaal correct • individualisering van leerproces: niet iedereen is op een gegeven tijdstip even ver gevorderd. • Bezwaren bij onderzoek naar ontwikkelingen in het onderwijsniveau op nationale schaal: geheugen effecten, vloed en plafondeffecten Itembanken is een grote verzameling van gemakkelijk toegankelijke testvragen, elk voorzien van informatie. De combinatie itembank – itemresponstheorie is ‘moderne complex’. De combinatie standaardtest en klassieke testtheorie is ‘klassieke complex’. Reden waarom itembank samengaat met itemreponstheorie is de populatieonafhankelijheid vna metingen. Mogelijk om alle items uit een bank op dezelfde schaal af te beelden, mits de gehele itembank kan worden beschreven met een itemresponsmodel. Calibreren = afbeelden van een verzameling items op een schaal en het daarbij toekennen van meetwaarden Equivaleren van itemkenmerken = het afbeelden van gecalibreerde items die afkomstig zijn uit verschillende tests die alle hetzelfde psychologische begrip meten. Zodra alle items in een bank beschreven worden m.b.v. een itemresponsmodel, en zijn de itemkenmerken geschat, dan maakt het niet uit welke items we ene persoon voorleggen. Ѳschaal wordt geschat. De nauwkeurigheid of betrouwbaarheid van die schatting is wel afhankelijk vna de geburikte items. Opbouwen van een itembank: • bescheiden aantal items voorleggen aan personen. Gegevens verzamelen • Berekeningen: of itemreponsmodel en testgegevens passen; zo ja, dan schatten van item en persoonskenmerken. • Regelmatig nieuwe items, regelmatig tussentijdse berekeningen, dus steeds meer bekend over kwaliteit van de items. Opslaan van items in de itembank: • Twee klassificatiemethoden o naar onderwerp op plaats in curriculum (bv optellen/vermenigvuldigen, onder/boven 100, enz) o item krijgt een of meer sleutelwoorden. Tweede systeem kent grotere flexibliteit, want nieuwe categorien mogelijk. • Naast inhoudelijke kenmerken ook technische info, zoals moeilijheid, discriminerend vermogen, pseudokansniveau. antwoordfrequentie, info over mogelijke afwijzing, kruisverwijzingen, enz.
Testconstructie op basis van een itembank Afhankelijk van het doel kunnen we slimme keuzes maken uit de items. Er zullen vaak aanvullende testeisen gelden, zoals testtijd, aantal items, onderwerpsamenstelling. Wanneer we willen weten wie geslaagd en wie gezakt is, zal de test nauwkeuriger meten rond de cesuur/aftestgrens. De testconstructeur maakt een doelinformatiefunctie. De som van de iteminformatiefunctie is gelijk aan de testinformatiefunctie. Daardoor kan uit efficientieoverwegingen de kleinst mogelijke deelverzameling van items uit de itembank geselecteerd worden (waarvan de testinformatiefunctie tenminste even groot is als de doelinformatiefunctie). Doelinformatiefunctie is ook te gebruiken om de test te veranderen in een gewenste richting Adaptieve tests • •
Grote itembank met itemparameters, met tussentijdse schattingen van de persoonsparameter scores op items moeten kunnen worden beschreven met een itemreponsmodel. Diverse problemen: o strenge eigen van itemreponsmodel o testconstructeurs gaan uit van een inhoudelijk brede test, met alle aspecten van de te meten eigenschap, zodat de test valide is. Itemreponsmodellen veronderstellen één aspect
•
Na initiele schatting van Ѳwaarde: keuze van volgende items zo dicht mogelijk bij de moeilijkheid van deze waarde: meest discriminerende item (en indien drieparametermodel, ook pseudokansniveau) Adaptieve test kan vereenvoudigd door steeds 2 of meer items voor elke berekening te doen. Varianten:
•
‘twostage testing’: dezelfde korte test, en voor 2e stadium liggen diverse tests van uiteenlopend moeilijkheidsniveau klaar.
• ‘multistage testing’: tussen 2stage en adaptief testen. Adaptief testen heeft voordelen: • Nauwkeurige meting • respondenten krijgen tests die op hun niveau zijn afgestemd. Voorkomt concentratieverlies • adaptieve testprocedure is geautomatiseerd en daardoor objectief • testtijd is relatief kort • snelle terugkoppeling van resultaten • testprestaties van verschillende tests kunnen met elkaar worden vergeleken. Maar toch: • Itemresponsmodellen leggen vele restricties op aan de testgegevens • hoge kosten voor ontwikkeling van itembank en adaptief testsysteem • operationalisering van psychologische begrippen en constructie van items zijn bepalend voor itembank. Theorien daaronder zijn vaak onvoldoende scherp. Empirische toetsing laat dan zien dat het item responsmodel niet past en daarom niet populatieonafhankelijk is, en daarmee vervallen voordelen. o In onderwijs laat eendimensionaliteit zich niet gemakkelijk combineren met heterogeniteit van meeste itembanken. De meeste eigenschappen zijn inhoudelijk heterogener dan item responsmodellen veronderstellen o Vooral bij persoonlijkheids en attitudemeting: het aantal benodigde items is moeilijk te halen (al moeilijk om een paar te definieren) Hoe erg is het dat het itemresponsmodel niet altijd past bij de gegevens; welke mate van discrepantie is toegestaan? Vraagonzuiverheid Tests worden soms gebruikt in populaties waarvoor ze niet bedoeld zijn. In hoeverre is dit toch gerechtvaardigd? Dit is het onderzoek naar vraagonzuiverheid of vraagpartijdigheid (itembias of ‘differential item functioning’) Sommige items zijn meer in het nadeel van de ene groep dan van de andere, bv want sommige items doen ook een beroep op nietbedoelde eigenschappen. Partijdigheid van items is ongewenst. Vraagonzuiverheid: de itemresponsfunctie van een item in beide/verschillende populaties verschillen. (Bij een zuiver items is de itemresponsfunctie in beide populaties identiek). Verborgen meerdimensionaliteit.
Voor onderzoek naar vraagonzuiverheid zijn diverse methode voorgesteld. Sommigen vergelijken itemkenmerken. Als de itemresponsfunctie van een item in beide groepen identiek, dan zijn moeilijkheid, discrimineren vermogen en pseudokansniveau in beide groepen gelijk • Itemreponsfuncties kunnen verschillen in moeilijkheid, maar gelijk zijn in discriminerend vermogen en pseudokansniveau. De richting van de partijdigheid is dus steeds dezelfde en daardoor tegen alle leden van een specifieke groep gericht. • Discriminerend vermogen van items verschilt in beide groepen, waardoor itemreponsfuncties elkaar snijden. • Bij oppervlakberekeningen (opp tussen twee itemresponsfuncties): hoe groter dit oppervlak, des te sterker de onzuiverheid. Het lastigste deel van het onderzoek naar vraagonzuiverheid is het geven van een inhoudelijke verklaring voor statistisch gebleken onzuiverheid. Drie strategieën voor het onderzoek: 1. inspectie van partijdige items naar opvallende kenmerken. 2. verband leggen tussen eigenschappen van personen enerzijds en kritische kenmerken van partijdige items in vergelijking met onpartijdige items anderzijds. Bv beheersing van nltaal voor Turkse en Marokkaanse leerlingen moeilijk. Dus als veel uitleg in vragen zit, dan zijn zij op achterstand 3. experimentele onderzoek naar de oorzaken van vraagonzuiverheid: moeilijke woorden vervangen door gemakkelijke. Afwijkende patronen van itemscores Soms wijken enkele individuen af van andere uit dezelfde populatie, wat niet logisch is uit hun Ѳwaarde en itemkenmerken. Mogelijke patronen: 1. Afwijkend gedrag op studietoetsen. Slecht op niet voorbereide leerlingen maken ook op gemakkelijke items regelmatig een fout. Of bedrog of fraude. 2. Scores voor afwijkendheid voegen toe aan de voorspelling van bv examencijfers 3. onderzoek naar deelvaardigheden laten mogelijk een bepaald type denkfout zien. 4. personen met weinig ervaring met invullen van formulier, kunnen vraag overslaan, maar vergeten een vakje over te slaan. Alle methoden hebben gemaan dat de kans op een patroon van itemscores wordt berekend gegeven iemands meetwaarde en de kenmerken van alle items in de test, en de kans wordt vergeleken met de verwachte kan. • Recente aanpak gaat uit van persoonresponsfunctie. Die toont zich ale een dalende lijn. Volgens patroon 1 is deze lijn vlak en laag Volgens patroon van testangst, is deze lijn eerst laag en daarna normaal Volgens patroon van ‘bedrog’ is de lijn eerst normaal en aan het eind hoog • Emons: mogelijkheden om afwijkingen van deze functie statistisch te meten. Ook de wenselijkheid om zo veel mogelijk aanvullende informatie bij de beslissingen over afwijkendheid te betrekken. Overeenkomst met het onderzoek naar vraagonzuiverheid: statistisch gebleken afwijkendheid dient inhoudelijk psychologisch te worden verklaard. • Onderzoek naar afwijkende patronen als complement onderzoek naar vraagonzuiverheid. Nulhypothese van zuiverheid: personen uit verschillende groepen, maar met dezelfde Ѳwaarde, patronen van itemscores generenen (die plausibel zijn). Bij verwerpen, dan item onzuiver of persoon afwijkend. 7.5
Tot besluit enkele speciale onderwerpen
Itemresponstheorie voor polytoom gescoorde items Dit zijn ratingscale items (van toepassing … niet van toepassing). De kans op een specifieke itemscore wordt dus voor iedere score apart gemodelleerd. Er is een locatie op de Ѳ schaal waarvoor de kans op score 1 het grootst is, een hogere waar kans op score 2 het grootst is, enz. Elke itemscore bij elke Ѳwaarde heeft een positieve kans, maar die kansen verschillen, zodat per Ѳwaarde meestal één score het meest waarschijnlijk is. De som van de kansen per Ѳwaarde is gelijk aan 1. Daarom zijn de itemresponsmodellen voor polytome items zoveel ingewikkelder. Passen van een model bij de gegevens en het scatten van de itemkenmerken zijn lastiger.
Vergelijking klassieke testtheorie en itemresponstheorie Elkaars tegenvoeters, maar eerder aanvullend dan uitsluitend. Voordelen van itemresponstheorie: • itemresponsmodellen kunnen als nulhypothese. Pas een model bij de gegevens, dan gelden, bij implicatie, de iegenschappen van het model voor de gegevens. Alle items in de test meten dan dezelfde eigenschap. • Personen de met verschillende test zijn gemeten, kunnen op dezelfde schaal worden afgebeeld. • betrouwbaarheid van de meting varieert over de schaal. Kan blijken dat de test geschikter is voor de ene persoon dan voor de ander In klassieke testtheorie: passen van het model op de gegevens kan niet goed worden onderzocht, zijn metingen populatieafhankelijk en wordt de betrouwbaarheid overal op de schaal evengroot verondersteld. Met itemresponstheorie zijn nieuwe/geavanceerde toepassingen mogelijk: equivalering van metwaarden, constructie van tests o.b.v. itembank, adaptieve testprocedures, onderzoek naar vraagonzuiverheid en het onderzoek naar afwijkende scorepatronen. Voordelen van klassieke testtheorie zijn meer praktisch: • eenvoudiger, toegankelijker • het is maar de vraag of de validiteit van de test zoveel minder is. • klassieke testtheiroe ‘werkt’ bij de testconstructie bijna altijd. Itemrestcorrelaties gebruiken om evt items weg te laten. Let op: meeste vooronderstellingen van de klassieke testtheorie lenen zich niet voor empirische controle. Cito en veel onderwijskundig onderzoek in VS is volgens itemresponstheorie. In VS is de populariteit van item respons ontstaan door justitiele druk. Rol van itemresponstheorie in de psychologische theorievorming Is statistisch gebleken dat er sprake is van onzuiverheid of afwijkendheid, dan is een psychologische verklaring nodig. En vv: ook een psychologische verklaring wordt gezocht voor de totstandkoming vna de testprestatie. Zo krijgen we inzicht hoe testprestaties tot stand komen en welke deelvaardigheden moeilijkheden kunnen opleveren bij het oplossen van problemen.
Modellen t.o.v. elkaar Model:
Rasch (éénparameter)
Birnbaum (2parameter)
Drieparameter logistisch model
Mokken: monotone homogeniteit
Mokken: dubbele monotonie
Interval/verschil/rationiv eau
Interval/verschil/rationiv eau
Interval/verschil/rationiv eau
Ordening (ordinaal)
Ordening (ordinaal)
Schaaltransformatie op Ѳ
Ѳ + b
bѲ + a
δ
variërend
variërend
variërend
variërend
Variërend
Schaaltransformatie op δ
δ + b
Bδ + a
α
Overal gelijk
variërend
variërend
variërend
Variërend
Schaaltransformatie op α
?
α/b
Уg
(vrijwel) nul
(vrijwel) nul
Varierend
Varierend
?
Populatieonafhankelijkheid (van personen):
Ja, maar wel afh van varierende itempar (δ)
Ja, maar wel afh van varierende itempar (δ en α)
Ja, maar wel afh van varierende itempar (δ en α en Уg)
Ja, maar wel afh van varierende itempar (δ en α en Уg)
Ja, maar wel afh van varierende itempar (δ en α en Уg)
Populatieonafhankelijkheid van items
Ja
Nee (want afh van α)
nee
nee
Ja (want grafieken snijden elkaar niet)
Afbeelden: personen en items op:
dezelfde schaal
dezelfde schaal
dezelfde schaal
verschillende schaal
verschillende schaal
Vorm van IRF
Nietsnijdende, parallelle functies
Snijdende functies
Snijdend
Snijdend en grillige vorm
Nietsnijdende niet parallelle, grillige vorm
Schaal: Ѳ
Allen:
• • •
Vorm van irt: xas: moeilijkheid (δ), yas: succeskans. Succeskans = P(Xg=1|Ѳ). Succeskans = de kans op een goed antwoord op een item bij een gegeven meetwaarde (Ѳ). De succeskans is een wiskundige functie (vorm irt) van Ѳ, δ, α, en Уg Schaaleigenschappen van het specifieke irm: ‘meten bij implicatie’. Populatieonafhankelijkheid = Ѳwaarden zijn onafhankelijk van de moeilijkheden. Dus (als IRTmodel voldoet) voor willekeurige deelpopulatie dezelfde meetwaarden, ongeacht welke deelpopulatieitems aan de personen wordt voorgelegd. Let op: moeilijkheidsparameters kunnen niet populatieonafhankelijk gemeten worden (
8
Validiteit en betekenis
Voor een goede validiteit is een hoge betrouwbaarheid nodig, maar een betrouwbare test is niet perse valide. Betrouwbaarheid: in hoeverre een testscore herhaalbaar is onder gelijkblijvende condities. Dus meetfout in testscore is klein. Test is valide als hij aan zijn doel beantwoordt, dus bv correct een bepaalde psychologische eigenschap representeerd. 8.1
Het begrip validiteit
De mate waarin de test aan zijn doel beantwoordt. Validiteit heeft betrekking op de vraag of die sprong van het testgedrag naar iets anders verantwoord is. Valideringsproces = verzamelen van bewijs dat deze sprong gerechtvaardigd is. Validiteit = mate waarin die rechtvaardiging is gevonden. De vraag naar validiteit kan betrekking hebben op ieder proces van concluderen tot andere dan waargenomen feiten of gebeurtenissen. Geneeskunde: in hoeverre zegt bloeddruk iets over een mogelijke hartkwaal. Intelligentiescore: in hoeverre zegt deze iets over leervermogen of geschiktheid voor een opleiding. Twee mogelijkheden: 1 Test als voorspeller van ander gedrag Over feiten waarvoor we geen directe evidentie hebben. Feiten kunnen in de toekomst liggen (predictie), heden (paradictie) of verleden (postdictie). Enige relativering over de mogelijkheid van correcte voorspellingen: 1. aantoonbare relatie tussen de begrippen (bv) intelligentiescore en schoolsucces 2. zinvolle operationalisering van intelligentie/schoolsucces 2 De test als operationalisering van een psychologisch begrip Capaciteit, persoonlijkheidstrek of attitude, die verantwoordelijk geacht mag worden voor de testscore of het testresultaat. Gebruik van hypothetische begrippen en meting daarvan. Enige relativering: ook relaties met operationaliseringen van andere psychologische begrippen worden in de beschouwing betrokken. Predictieve validiteit en begripsvaliditeit Predictief: voorspellend. Begrips: meten van de eigenschap. Alle gebruik van de psychologische test van onder één van deze twee. Daarom alle variëteiten binnen beide soorten. Het onderscheid is niet altijd duidelijk en noodzakelijk. Toch afzonderlijke behandeling, want voor onderwijs en personeelspsychologie is vooral voorspellend gewenst. Daar komen methodologische overwegingen en principes bij die minder kenmerkend zijn voor begripsvalidering. 8.3
Enkele andere onderscheidingen in validiteit
Vier belangrijke soorten validiteit Uit American Psychological Association Predictive validity = welke mate de voorspellingen, gedaan o.b.v. testprestatie, worden bevestigd door gegevens of observaties verzameld op een later tijdstip. Dus temporeel. Verschil met predictieve valitieit: breder van niet gebonden aan toekomst. Concurrent validity = hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Bv valideren door vergelijking met gelijktijdige prestatiebeoordelingen. Gevaar is dat de resultaten zomaar gegeneraliseerd worden naar ‘predictive’. Content validity
inhoudsvaliditeit = hoezeer de inhoud van de test een geheel van situaties, kenisinhouden of vaardigheden representeert. Vooral in onderwijskunde: taken of kennisinhouden waaruit de test een steekproef vormt. Inhoudsvaliditeit is dus een indicatie van de mate waarin test of toets het domein van mogelijke items representeert. Vaak vastgesteld door deskundigen te vragen, maar dit is niet objectief of absoluut. Bezwaar tegen begrip inhoudsvaliditeit is dat empirisch onderzoek vaak ontbreekt. Het vaststellen van inhoudsvaliditeit is dus vooral een kwestie van oordelen, waarbij subjectiviteit enigszins kan worden gecontroleerd door meerdere beoordelaars te gebruiken. Formele definitie van inhoudsvaliditeit: sterkte van samenhang tussen de testscore en de totaalscore op het gehele itemdomein. Dus: het bepalen van de samenhang tussen de scores op twee tests die verondersteld worden equivalent te zijn. Betrouwbaarheidsschatting is dan op te vatten als een schatting van de inhoudsvaliditeit. Mogelijk dat beide tests niet representatief zijn Construct validity Tot 1955 geen aandacht voor echt wetenschappelijke gedachtegang. De construct validity: door onderzoeken welke psychologische eigenschappen door de test worden gemeten. Drie onderdelen: • Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de testprestatie (=> verbeeldingskracht o.b.v. observatie en logische bestudering van de test) • afleiden van toetsbare hypothesen uit de theorie die het ‘construct’ verklaart (=> logisch) • empirisch onderzoek om hypothesen te onderzoeken (=> methodologisch) Constructvaliditeit komt in de buurt van ‘betekenisanalyse’, maar is breder. Begrips(/betekenis)validering: vragen beantwoorden door gericht, confirmatief onderzoek naar de relatie tussen de testscore en andere operationeliseringen van hetzelfde beoogde begrip. Exploratieve vraag naar betekenis van de test valt buiten begripsvalidering. Andere onderscheidingen in het begrip validiteit Synthetische validiteit Voor praktische toepassing van tests in de selectie en beroepskeuzepsychologie. Richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag. Bv i.p.v. ‘leidinggeven’ richten op ‘doelgerichtheid’, ‘vriendelijkheid’, enz. Hiermee wordt probleem opgelost dat voor een complexe functie vaak te weinig proefpersonen zijn voor validering. Door elementen wordt voorspelling gesynthetiseerd: stap in richting van begripsvalidering Congruent validity = ‘soortgenootvaliditeit’. De mate waarin de test correleert met een andere test, waarvan wordt aangenomen dat die dezelfde eigenschap meet. Dus onderdeel van proces van begripsvalidering Face validity ook wel: indrukvaliditeit. = de relatie tussen test en criterium, gemeten naar de subjectieve indruk van leek of psycholoog. Kan gevaarlijk zijn. Is obstakel voor werkelijk validiteitsonderzoek. Indrukvaliditeit lijkt op begrip ‘transparantheid’ van test. Transparantheid = conditie voor acceptatie van een test. Dus eerder een wenselijke dan noodzakelijke eigenschap Incremental validity = verbetering van de voorspelling m.b.v. een test t.o.v. voorspellingen die kunnen worden gedaan o.b.v. reeds aanwezige informatie. Voorbeeld van aanwezige info: levensloopgeschiedenis, vooropleidingen. 8.3
Predictieve validiteit
Hoe goed is criterium te voorspellen: voor toekomst, heden of verleden. Voor predictieve validiteit is representatieve steekproef nodig om testgegevens en criteriumgegevens te verzamelen. Alle bevindingen in een puntenwolk geeft vaak een rechte lijn Y = a + bX Bepaling van de lineaire benadering door regressieanalyse Nadere bepaling van het criteriumbegrip Criterium: uiteindelijk (‘ultimate’), tussentijds (‘intermediate’) en onmiddellijk (‘immediate’).
Twee problemen bij deze driedeling: • Probleem tijd: uiteindelijk criterium kan ver in de tijd verwijderd zijn, terwijl tussentijds/onmiddellijk dichterbij liggen. • Probleem van de beschikbaarheid van het criterium: kan het geoperationaliseerd worden en gekwantificeerd worden? Doel van organisatie (niet psychologisch, bv groei) is uitgangspunt • conceptuele criterium = concretisering van het uiteindelijke organisatiedoel in termen van zichtbare resultaten. Laagste niveau van abstractie. (bv sociale aangepastheid, vaardigheden of arbeidsprestaties) • Criteriummaat = expliciete, ondubbelzinnige uitspraken of scores die betrekking hebben op criteriumgedrag of –prestatie. Criteriumgedrag of –prestatie is waarneembaar en registreerbaar. Bv bij sociale aangepastheid: als criteriumgedrag ‘zelfbeoordeling, beoordeling door behandelend arts, acceptatie groepsleden. Criteriummaat is dan de score op een psychiatrische beoordelingsschaal en/of het aantal malen dat patiënt in sociogram wordt gekozen. Het meten van criterium voldoet aan dezelfde eisen van betrouwbaarheid en validiteit. De relatie tussen criteriumgedrag (of –scores) en het erachter liggende conceptuele criterium (en uiteindelijke doel) is niet voor empirisch onderzoek toegankelijk, dus moet rationeel beoordeeld worden. In de praktijk wil men ook weten wat de relatie is tussen twee criteriummaten. Deze blijkt nogal eens zwak. Wie is verantwoordelijk voor de keuze van het conceptuele criterium? Opdrachtgever. Psycholoog adviseert. Opzet van een test of testbatterij met predictieve validiteit Het proces van het kiezen van tests, de samenstelling van een testbatterij en de bepaling van predictieve validiteit. Zes fasen: Fase 1: Operationalisering van het criterium In een zo exact mogelijke criteriummaat Fase 2: Keuze en constructie van tests De keuze kan in meer of mindere mate gebaseerd zijn op een psychologische analyse van het criteriumgedrag en van de eisen die daarin gesteld worden. Fase 3: Proefafneming van bestaande of nieuwe tests Bij een bestaande test is een proefafneming alleen nodig als de populatie afwijkt Populatie en steekproef: Aangezien betrouwbaarheid en validiteit wel gevoelig zijn voor variatie in de spreiding, maar niet voor variatie in het gemiddelde van de testscores, zijn afwijkingen tussen steekproef en populatie qua gemiddelde minder erg dan qua spreiding. Representativiteit van de steekproef => gestratificeerde steekproef. Steekproeven zijn vaak niet representatief wat betreft leeftijd, en daarmee worden belangrijke ontwikkelingsaspecten genegeerd Onderscheid tussen vooronderzoek en hoofdonderzoek: vooronderzoek is de grove zeef, kan volstaan met kleine, niet representatieve steekproef. Wel handig om juist de extreme gevallen in het vooronderzoek mee te nemen. Itemanalyse: Indien test nog moeten worden geconstrueerd, dan in vooronderzoek ook verzamelen van informatie voor een itemanalyse. Een homogene test verkrijgt men door • factoranalyse op de scores. Met factoranalyse worden items die onderling hoog correleren in groepen ‘bij elkaar genomen’: deze items meten bv dezelfde eigenschap • dat de onderzoeker zelf items rechtstreeks in dezelfde test selecteert op basis van hun onderlinge correlaties of hoge itemrestcorrelaties. Aan het eind van deze fase is de test in zijn definitieve vorm samengesteld. Fase 4: Validatie van de testprocedure Vergelijking met gelijktijdig criterium (concurrent) zal niet veel tijd vergen. Bij een in de toekomst liggend criterium kan het jaren duren. In plaats daarvan wordt vaak een gelijktijdig criterium gebruikt. Dit is niet
altijd terecht. Bv in een experimentele situatie is er niet dezelfde motivatie en inzet als in een echte sollicitatie. Ook aan het ideale onderzoek, waarbij gewacht wordt, zijn bezwaren verbonden: • lange duur, dus erg kostbaar • lange duur, dus van hoeveel proefpersonen zullen de criteriumscores ter beschikking komen? Vaak de extremen niet, dus variatiebeperking. Hierdoor zou zowel de betrouwbaarheid als validiteit te laag worden ingeschat. Er zijn correctiemethoden waarmee validiteit wordt teruggeschat • testuitslagen kunnen bij een latere beoordelaar bekend raken (‘zie je wel’): testscore en criteriumscore zijn niet meer onafhankelijk: contaminatie van het criterium. In zo’n geval valt de correlatie tussen test en criteriumscore kunstmatig hoog uit. Vaststellen van de validiteit: Correlatie tussen testscore en criteriumscore is een aanduiding van de validiteit: validiteitscoefficient. Door productmomentcorrelatie te nemen, wordt aangenomen dat deze een rechte lijn benadert. Vaak wel, niet altijd. Twee bekende uitzonderingsgevallen: • kromlijnige relatie. Bv tussen motivatie en prestatie: hogere motivatie geeft betere prestatie, maar een te sterke motivatie geeft zoveel spanning dat dit negatief werkt op prestatie • heteroscedastische relatie: naarmate X toeneemt, neemt de spreiding van waarde van Y toe. Bv intelligentie (X) en studieprestatie (Y) Vele relaties zijn niet perfect homoscedastisch: onderzoeken en niet kritiekloos gebruiken van productmomentcorrelatie:
•
Tests soms nuttig als ‘suppressor’variabele. (Komt niet veel voor in praktijk). X correleert met Y, en X2 niet met Y, maar wel met X1. X2 is suppressor, omdat hij het nietrelevante deel van X1 bij de voorspelling van Y onderdrukt. Y = a + b1X1 – b2X2 Voorbeeld: taalvaardigheid is voor technisch beroep niet van belang, wel rekenvaardigheid. • Testscores kunnen functioneren als moderatorvariabelen. Bv een testscore correleert wel voor mannen met Y maar niet voor vrouwen. Sekse is dan een moderatorvariabele. Voorbeeld: rol van motivatie in de relatie tussen intelligentiescores (X) en schoolprestaties (Y). In valideringsonderzoek kan het zeer de moeite waard zijn met moderatoren rekening te houden. Zij maken duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen. • Twee variabelen correleren elk met Y, maar hun interactieeffect ook: ‘moderated regression’. Fase 5: Samenstelling van de predictorbatterij Tests worden gecombineerd in een maximaal voorspellende testbatterij. Een veelgebruikte statistische methode is multipele of meervoudige regressieanalyse: Y = a + b1X1 + b2X2 + … + bmXm Ideaal is een batterij van tests, die onderling laag correleren en alle hoog met Y correleren, dus alle ene uniek aspect van Y verklaren. Het succes van de gehele testbatterij wordt uitgedrukt in de multipele correlatie. Er bestaan ook andere methoden voor de combinatie van predictoren: multivariate analyse, zoals profielanalyse, discriminantanalyse en multidimensionale schaaltechnieken. Fase 6: Kruisvalidering ‘Cross validation’ = het statistische voorspellingsmodel o.b.v. steekproefgegevens wordt gecontroleerd op een nieuwe, representatieve steekproef van proefpersonen. Reden voor deze controle: veel trialand error. En als men veel modellen probeert, stapelen die fouten op (kanskapitalisatie). Dus voorkomen dat je veel modellen probeert, door uit te gaan van een theorie of rationele analyse. Kanskapitalisatie controleren door • nieuwe steekproef uit de populatie te trekken => duur en tijdrovend
steekproef aselect te splitsen. Dan de kansrijke modellen van de ene deelsteekproef vergelijken met de ander. Als er weinig kanskapitalisatie is, zullen correlaties weinig verschillen. Kruisvalidering is van groot belang in vrijwel elk onderzoek, waarin een effect of een relatie wordt geschat. Daarom is het zorgelijk dat het zo weinig gebeurt. •
Differentiatie in het criteriumonderzoek Resultaten van het empirisch valideringsonderzoek zijn over het algemeen niet zo rooskleurig: validiteitcoefficienten van ong 0.3 en 0.4. Tests met geringe validiteit leveren soms toch nog een zinvolle bijdrage aan de beslissing, vooral die test die een beroep doen op unieke eigenschappen. Waarom zijn veel validiteitscoefficienten zo laag? Vijf redenen: 1. Geringe betrouwbaarheid van het criterium Er is meestal minder aandacht voor de constructie van een betrouwbare criteriummaat. Schoolcijfers, bedrijfsbeoordelingen, psychiatrische classificaties zijn vaak onvoldoende betrouwbaar. 2. Miskenning van een nietlineaire relatie tussen predictor en criterium. Verleidelijk om een rechtlijnige relatie aan te nemen, die ook overal even sterk is (lineariteit en homoscedasticiteit). Want dit maakt toepassing van standaardstatistische methoden mogelijk (en productmomentcorrelatie voor de sterkte van de relatie). Eenvoudig te onderzoeken: ‘scatter plot’. 3. Negeren van de complexe samenstelling van groepen De relatie tussen predictor en criterium kan verschillen voor deelgroepen. Dus: juiste covariaten of moderatorvariabelen vinden 4. Negeren van de variabele betekenis van het criterium in verschillende organisaties. Bv type functie ‘verpleger’ is voor verpleeghuis en verzorgingshuis verschillend. Dus zal criterium ‘beroepssucces’ ook verschillend zijn. 5. Onterechte vereenvoudiging van het criterium Dus meer gedifferentieerde benadering nodig: a. begrippen op zorgvuldige wijze operationaliseren en meten b. criteriumgedrag: niet zonder meer generaliseerbaar in de tijd. Mensen ontwikkelen. Validiteitsgeneralisatie In hoeverre zijn tests en functies inwisselbaar, dus in hoeverre hebben we met dezelfde voorspellingssituatie te maken. Zo ja: dan geen nieuw valideringsonderzoek. Men gaat er van oudsher uit dat predictieve validiteit varieert over wisselende combinaties van voorspellende test en te voorspellen criterium. Schmidt en Hunter stellen een methode voor waarbij de vragen worden beantwoord: Voor alle combinaties van een specifieke test en gedragingen in een specifieke functie worden validiteitscoefficienten verzameld. Deze worden opgevat als waarden en omgezet naar standaardeviatie. Deze geeft de variatie in gevolden validiteitscoefficienten weer. De standaardeviatie wordt gecorrigeerd voor deze veronderstelde methodologische fouten: steekproeffouten, onbetrouwbaarheid van predictoren en criteria en beperking van de vaiatiebreedte. Door nu te corrigeren voor dit soort effecten, wordt een meer realistische schatting van de validiteitscoefficient verkregen. Wanneer na correctie de resulterende standaarddeviatie van validiteitscoefficient gelijk is aan nul, dan betekent dit, dat de validiteit van de tests niet verschilt over deelsituaties. Uit onderzoek blijkt: de validiteitscoefficienten zijn vaak weinig situatiespecifiek, dus generalisatie is mogelijk over organisatie, geografische gebieden, functies en tijdvakken. In hoeverre kan gebleken validiteit worden gegeneraliseerd? Effectiviteit = representatieve validiteit binnen een specifieke categorie van tests en functies. Schmidt concludeert o.b.v. empirisch onderzoek naar validatiegeneralisatie dat effectiviteit groot genoeg is en resterende variantie klein genoeg, om in 90 a 95% van de nieuwe toepassingen een positieve validiteit te verwachten. Zelfs voor tests voor cognitieve vaardigheden: geen situatiespecificiteit.
Enkele punten van kritiek op de onderzoeksmethoden om generalisatie te onderzoeken: • ingewikkelde criteria als beroepssucces zijn op veel te eenvoudige manier gemeten. Slecht geoperationaliseerde criteria leidt tot te lage validiteiten met te weinig spreiding. Dus als wel goed was gemeten, zou de mogelijkheid van situatiespecificiteit niet verworpen worden • correctie is vaak te groot Beperkingen van predictieve validiteit Leidt statistische analyse na predictoren altijd tot inzicht (waarom een testbatterij het criterium goed voorspelt)? Soms zijn verbanden van tests met criteria erg doorzichtig, soms helemaal niet. ‘Construct validity’ / begripsvalidering is onmisbaar voor testconstructie. Reden: • blind toepassen van test omdat ‘deze werkt’ leidt niet tot inzicht. • blind afgaan op grootste correlaties impliceert dat men alle mogelijke predictoren moet onderzoeken. Dat is onbegonnen werk. • Er kan sprake zijn van een unieke situatie die nauwelijks in een criterium is vast te stellen (bv nieuwe functie). Indien er wel inzicht in psychologische betekenis van testgedrag is, dan kan in ieder geval enkele hypothesen worden geformuleerd. • Psycholoog zal zonder theorie in de problemen komen, wanneer de onderzochte moet worden ‘beschreven’. • Betekenisanalyse en begripsvaliditeit halen ‘het criterium’ van zijn voetstuk Conclusie: predictieve validiteit is onmisbaar voor de praktijk van voorspellen testgebruik, maar voor wetenschappelijk inzicht én praktisch gebruik is begripsanalyse onmisbaar. 8.4
Betekenis en begripsvaliditeit
Begripsvalidering De betekenisanalyse worden in dezelfde fasen doorlopen als die van theorievorming en toetsing van theorieën. 1. Creatieve fase: trachten theorie te vinden of op te stellen. Hypothetisch 2. Theorie bevestigen (is begripsvalidering) door concrete voorspelling te doen. Van belang hierbij is:
•
1e fase, creatief, wordt gezocht naar plausibele verklaringen • voorspelling moet ondubbelzinnig te onderzoeken zijn • nooit definitief te bewijzen of een test al dan niet ene bepaalde theoretische betekenis heeft • ook van belang is het om alternatieve hypothesen te kunnen verwerpen Betekenisanalyse = het vinden van een theorie of theoretisch begrip als verklaring voor het testgedrag. Begripsanalyse = het empirisch bevestigen van deze verklaring Binnen begripsanalyse onderscheid tussen • trekvalidering = in hoeverre testgedrag verklaard kan worden m.b.v. persoonelijkheidstrek of geschiktheid. Theorie is hierbij niet noodzakelijk • Nomologische validering = testgedrag verklaren uit een psychologische theorie. Voordeel van inbedding van testgedrag in nomologisch netwerk is dat de betekenis in meer algemene psychologische termen kan worden begrepen. De mogelijkheid om testgedrag te relateren aan nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan. Bv een test voor transitief redeneren is gebaseerd op 3 theorieën. Nomologische validering is nog lang geen gemeengoed. Doorgaans alleen valideren op trekvaliditeit. Verschil tussen trekvaliditeit en nomologische validiteit is meer gradueel dan principieel. Vaak ontbreekt een theorie. Door toetsing van de theorie beoordelen we de test en door evaluatie van de test beoordelen en vormen we de theorie. Tests spelen in psychologische theorievorming vaak zelfs een dominante rol. Bv StandfordBinettest voor intelligentie. Een testontwikkelaar begint ook nooit zomaar in vacuum, maar o.b.v. noties.
Fase van begripsvalidering start, nadat een trek of nomologisch netwerk is gekozen als potentiele verklaring van het testgedrag. Start door formuleren van voorspellingen. De uitkomsten van de empirische toetsing leveren dan de basis voor de conclusies over de juistheid van deze potentiele verklaring Twee soorten voorspellingen: • confirmerende validering = oorspronkelijke hypothese bevestigen • discriminante validering = alternatieve hypothesen verwerpen. Als voorbeeld ‘neurotische labiliteit’ in ABVtest. Zie boek blz 375. In dit voorbeeld begripsvalidering door correlationeel onderzoek. Kan ook met experimenteel onderzoek. Betekenisanalyse: op zoek naar de betekenis Onderzoeker start vaak met vage vermoedens (soms met duidelijke en expliciete theoretische uitgangspunten). Twee manieren om het testgedrag te analyseren (en daarmee de testbetekenis): • Structuuronderzoek. o psychologische analyse van de inhoud van de items. Proberen greep te krijgen op het oplossingsproces door hardop te laten denken, te interviewen, te observeren. Hieruit komen slechts veronderstellingen. o analyse van formele kenmerken, zoals keuzeantwoorden/vrije antwoorden, mate van snelheidskarakter, onderzochte weet de bedoeling. Ook correlatie tussen testscores op twee verschillende tijdstippen. • relatieonderzoek. Vier vormen o spreiding en normen. In verschillende groepen bestuderen o experimenteel onderzoek: voorleggen onder verschillende condities o factoranalyse: explorerende methode om informatie die in groot aantal variabelen is vervat, samen te vatten in een geringer aantal (=factoren) Factor is een gewogen som van itemscores of testscores. Indien correlaties of covarianties tussen testscores ongeveer nul is, zijn de tests onafhankelijk. Indien correlaties hoog, dan psychologisch veel overlap (dus dezelfde eigenschap). Werkelijkheid ligt tussen beide. Verschil tussen regressieanalyse en factoranalyse: Regressieanalyse = gewichten worden zodanig gekozen, dat het criterium goed wordt voorspeld. Factoranalyse = gewichten zodanig gekozen, dat de informatie in te testscores zo goed mogelijk wordt samengevat. Drie soorten factoren: algemene: waarmee vrijwel alle tests samenhangen groepsfactoren: kleiner gedeelte van de tests vertegenwoordigd specifieke factoren: één test of slechts enkele items. Factoranalyse is dus handig voor exploratie vna de betekenis van de test: met welke factoren hoog correleren, en met welke laag. O.b.v. psychologische interpretatie wordt de betekenis verduidelijkt. Bv RAKIT: factoranalyse geeft performale intelligentie (fluid intelligence) en verbale intelligentie (crystallized intelligence). In de praktijk is waarde van factoranalyse overtrokken. Want resultaat is afhankelijk van voorwaarden en uitgangspunten als: soort en hoeveelheid van de variabelen die men in de analyse opneemt. de steekproef waarop de analyse is uitgevoerd. Naarmate meer variaties zijn er hogere correlaties tussen testscores. De structuur van factoren wordt daardoor scherper Enkele wiskundige en technische vooronderstellingen, die vaak een sterk arbitrair karakter hebben interpretatie van de resultaten van factoranalyse: subjectieve inhoudsanalyse o Wat kan de test voorspellen? Wisselwerking tussen betekenisanalyse en predictieve validiteit. Voorspellingen geven aanleiding tot zinvolle veronderstellingen over de testbetekenis.
Zowel structuuronderzoek als relatieonderzoek dragen bij tot voorlopige formulering van een antwoord op de betekenisvraag. Verbeelding en systematische analyse dienen gecombineerd. Alternatieve verklaringen Een test die wordt verondersteld eigenschap A te eten, mag geen relatie vertonen met tests of variabelen die eigenschap B meten, waarvan wordt verondersteld dat deze niet met eigenschap A samenhangt. Lage correlatie tussen een test en eigenschap B is even belangrijk en bemoedigend dan de correlatie met eigenschap A. De waarde van het verwerpen van alternatieve verklaringen is niet steeds even groot. Hangt af van: • precisie van de experimentele opzet. Een onjuiste of slordige opzet kan ten onrechte een alternatieve verklaring verwerpen • plausibiliteit van de alternatieve verklaring Het is zinvol om een aantal alternatieven als routine te controleren: 1. Samenhang met intelligentie. Bv Fschaal voor autoritaire instellingen. Deze hangt negatief samen met intelligentie, en daardoor natuurlijk ook negatief samen met andere 2. sociale wenselijkheid als onbedoelde eigenschap Vooral bij persoonlijkheidsvragenlijsten. Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de test niet goed functioneert. Onderscheid: a. individuele sociale wenselijkheid (ofwel: test attitude of testtaking attitude). Te onderzoeken door te vragen, of nietanoniem met welanoniem te vergelijken b. algemene sociale wenselijkheid. Te onderzoeken door proefpersonen de sociale wenselijkheid van antwoorden te laten beoordelen en een algemene socialewenselijkheidssleutel te construeren. Neiging van sociaal wenselijke antwoorden is toch praktisch bruikbaar. De reductie van sociale wenselijkheid wordt bevorderd door een grotere subtiliteit van de opzet van de vragenlijst en de procedure van afneming. 3. Antwoordtendenties: neiging tot consistent keuzepatroon 4. Instemtendentie (‘acquiescenceset’): instemmen met de richting van de vraag 5. Positievoorkeur: bv voorkeur voor neutrale middenpositie, of voor 3e antwoord bij 4keuze 6. Semantische interpretatie: ‘altijd’, ‘soms’, enz. 7. sequentietendentie: verdeling over keuzemogelijkheden, bv even vaak ja en nee 8. snelheidtendentie versus precisietendentie: nadruk op snelheid en kwantiteit of juist kwaliteit 9. uitvoerigheidtendentie (‘inclusiveness’), vooral bij vrijeantwoordentests 10. gistendentie 11. voorkeur voor formele kenmerken, bv neiging voor het langste antwoord te kiezen, of opties met vreemde, technische of wetenschappelijke termen. 8.5
Nogmaals betrouwbaarheid en validiteit
Betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor: • de betrouwbare testscore uit de klassieke testtheorie • de persoonsparameter uit de itemresponstheorie Een lage betrouwbaarheid houdt in dat de test wel de eigenschap meet, maar dit doet met veel ruis Multitrekmultimethodebenadering van Campbell en Fiske: methode voor evaluatie van tests: • onderscheid in betrouwbaarheid en validiteit, • verschil in confirmerende en discriminante validiteit, • verband met methodevariantie en trekvariantie Iedere test is een ‘trekmethodeeenheid, en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek/eigenschap als in de methode/test Methode I Methode II Methode III
trek A B C A B C A B Met b h. IA B m b C m m b Met v d d b h. IIA B v d m b C v m m b Met v v d d b h. IIIA B v v d m b C v d v m m bwaarden: monotrekmonomethodeoverlap: betrouwbaarheid vwaarden: monotrekheteromethodeoverlap: confirmerende validteit mwaarden: heterotrekmonomethodeoverlap: methodevariantie dwaarden (of blanko): heterotrekheteromethodeoverlap Vier overwegingen: • vwaarden moeten significant van nul afwijken en voldoende hoog zijn om verder werken met de test te rechtvaardigen. • vwaarden moeten hoger zijn dan dwaarden • vwaarden moeten hoger zijn dan mwaarden • In de mdriehoeken en ddriehoeken moeten ongeveer gelijke patronen van correlaties zijn. Volgens deze benadering: • testhertestmethode: bwaarden • Twee paralleltests: bwaarden • Afwijking van parallellie: vwaarde Met multitrekmultimethodebenadering wordt een model geboden om enerzijds betrouwbaarheid en anderzijds de confirmerende en discriminante validiteit van een test te onderzoeken.
9
De bijdrage van de test in het beslissingsproces
Wetenschappelijke waarde van een test wordt bepaald door het belang van de eigenschap die wordt gemeten. De praktische waarde van een test wordt beoordeeld o.b.v. de te nemen beslissingen. Wat wordt bedoeld met de bijdrage van een test aan een beslissing of een beoordeling? Bv: CITOtoets: hoeveel juiste schooladviezen worden gegeven o.b.v. het gebruik van de CITOtoets, of een alternatieve vorm van beoordelen waarvan de CITOtoets geen deel uitmaakt. (Cronbach en Gleser:) niet de test vergelijken met een aselecte toewijzing van kandidaten (want dat is overschatting van de bijdrage van de test), maar vergelijken met de aprioristrategie (totaal van andere voorspellingsmogelijkheden). Dus ‘incremental validity’. Overigens is aselect selecteren soms reëel (voor zeer eenvoudige functies): ‘antecedent probability’ of ‘base rate’. Dit hfdstk: soorten beslissingen; meest voorkomende in psy; beslissingsprc bij openvraag 9.1
Taxonomie van beslissingen
Beslissingen over mensen bevat drie elementen: • individu (of meer) • twee of meer behandelingen (‘treatments’) waartussen gekozen wordt • informatie die dient als basis voor beslissing Beslissingsstrategie = samenstel van beslissingsregels. Schematisch:
Een beslissingsstrategie kan expliciet of vaag/onduidelijk zijn. Vaak ook discrepantie tussen normatieve strategie en feitelijk gevolgde. Indelingsprincipes m.b.t. beslissingen over mensen: • Onderscheid individuele met institutionele beslissingen Individuele beslissingen zijn eenmalig, rendement varieert Institutionele beslissingen zijn een groot aantal gelijksoortige. Vaste serie beslissingsregels (dus ‘institutionele beslissingsstrategie’). Bv toelatingsprocedure, rijbewijsexamen, therapiekeuze • Onderlinge relatie van de te kiezen alternatieven: o kwantitatief verschillen, maar wel in één dimensie: univariaat. Bv schooltypen. Dan alleen varieren vna de strengheid van normen. o Multivariate informatie: keuzealternatieven die verschillen qua niveau en qua aard. Bv keuze tussen studie psy of economie, plaatsing als ICTdeskundige of als assistentpersoneelschef. • Binnen de beslissingen o.b.v. univariate informatie: keuze voor één enkel treatment of een keuze uit verschillende Taxonomie van beslissingen: Institutionele beslissingen
In di
vi du el e be sli ss in ge n
Univ ariat e infor mati e
Dicotomie Niet/wel
Klassen
Multi vari ate infor mati e
Ja /n ee ke uz e
Selectie
Plaatsing (niveauverschillen)
Ni ve au ke uz e
Plaatsing (kwalitatieve verschillen)
S oo rtk eu ze n
Differentiaties: • twee soorten beslissingen (‘plaatsing (niveauverschillen)’ en ‘selectie’) kunnen soms in één model. Vaak in bedrijfs en schoolpsychologie • Binnen categorie van plaatsingsbeslissingen rekening houden met beperkingen. Soms is het aantal kandidaten onbeperkt, soms beperkingen in aantal plaatsen • Onderscheid bij plaatsingsbeslissingen in variabele en vaste treatments. • Vraag of de beslissingen in een enkele fase worden genomen (‘singlestage’ of ‘nonsequential decisions’) of in verschillende fasen verloopt (‘sequential decisions’). Voorbeeld: voorselectie. 9.2
Enkelvoudige selectie c.q. afwijzingsmodel
Zie taxonomie van beslissingen onder ‘selectie’. Enkel criterium, waarbij twee mogelijkheden zijn: voldoet wel/ voldoet niet. Daarom ook wel ‘afwijzingsmodel’. Het gaat om institutionele beslissingen met univariate informatie. Dit betekent niet perse één enkele test. Het gebruik van een enkele test.
Criterimprestatie
Hoe hoog moet de correlatie met criterium zijn, wil de test zinvol zijn? Illustreren m.b.v. voorbeeld:
A
B
6 0 50 40 30 20
C
D
10 1 Testpres tatie > Vier categorien individuen: A. personen ten onrechte afgewezen: positieve missers ofwel ‘false positives’ B. personen die terecht zijn aangenomen: positieve treffers C. personen die terecht zijn afgewezen: negatieve treffers D. personen die onterecht zijn aangenomen: negatieve missers Selectieratio = pct kandidaten dat wordt aangenomen Toevalskans = pct geschikte kandidaten volgens toeval (‘antecedent probability’ of ‘base rate’) Succesratio = pct succesvolle kandidaten binnen de aangenomen groep: Stel: toevalskans is 0.76 en selectieratio is 0.86, dan heeft test duidelijk toegevoegde waarde. Waar is succesratio van afhankelijk? • Afhankelijk van correlatie van test met criterium. Hoe hoger de correlatie, hoe voller de kwadranten B en C • Beïnvloed door toevalskans. Toevalskans is afhankelijk van kwaliteit van aanbod (meer in B) en strengheid van beoordeling van criteriumprestaties (plaats van horizontale lijn). • Beïnvloed door selectieratio. Hoe meer personen worden afgewezen, hoe groter de breuk (B/B+D) (plaats van verticale lijn) Enkele repercussies voor bijdrage van test: • Dat ondanks de test toch nog een ongeschikte kandidaat wordt aangenomen, hoeft niet aan test te liggen, maar kan ook aan kwaliteit van aanbod, of geringe aanbod liggen. • Ook oordelen en waardebepalingen spelen een rol: o Horizontale lijn bepaalt wat voldoende is en wat onvoldoende is o Het aantal kandidaten dat aangenomen moet worden o hoeveel risico men wil lopen om een ongeschikte persoon aan te nemen Door selectieratio te variëren, varieert men tevens de verhouding tussen positieve en negatieve missers: hoe minder positieve, hoe meer negatieve missers en vv. • Als toevalskans dicht bij 1 ligt, heeft testen geen zin. Omgekeerd: als er weinig geschikte kandidaten zijn, heeft een test met betrekkelijk lage validiteit al een bijdrage. • Bij zeer hoge waarde van selectieratio en bij constante toevalskans, is een veel hogere validiteit nodig, dan wanneer een strenge selectie en klein pct moet worden aangenomen. • Relatie tussen positieve (C) en negatieve missers (D). Bij verschuiving van aftestgrens naar rechts vermindert aantal negatieve missers (D). Aantal positieve missers wordt groter. Kwestie van beleid waar men die aftestgrens legt. Belangrijk: o situaties waarin negatieve missers ernstige gevolgen hebben. Bv bij zeer dure opleiding (piloot). In dat geval liever meer positieve missers (C) o In andere situaties aantal positieve missers zo klein mogelijk. Bv bij een niet veel voorkomende en moeilijk vast te stellen eigenschap (bv wetenschappelijk research) o Zowel positieve als negatieve missers zo klein mogelijk. Bv overgang van 5e naar 6e VWO.
Vaststellen van de optimale aftestgrens is lastig. Aftestgrens is optimaal, als de daarbij behorende opbrengst of utiliteit van de selectieprocedure maximaal is, of, omgekeerd, als het verlies van de procedure minimaal is. • Bij zeer lage toevalskans (bv klinische psychologie) kan een test met lage ‘base rate’ (matige validiteit) het aantal foutieve beslissingen zelfs vergroten. Ook bij meer valide, toch nog veel ten onrechte afgewezen kandidaten. De absolute waarde van de validiteit van een test heeft op zich weinig betekenis. Ook met andere factoren, zoals toevalskans en selectieratio, moet rekening worden gehouden. Van welke factoren is de nuttigheid/utiliteit van een testprocedure bij een gegeven toevalskans afhankelijk? Formule: ΔU = SU x rXU x ξ(X’) C ΔU is netto utiliteitswinst per onderzochte • Standaarddeviatie in de utiliteitsscores: indien een geringe toename in de criteriumprestatie voor de organisatie toch van grote waarde is, zal de nuttigheid van het testonderzoek eveneens groot zijn.
•
•
•
Correlatie tussen test en utiliteit, rXU, en tussen test en criterium is volgens de formule lineair gerelateerd aan het nuttig effect van de test. Uitgangspunt hierbij is het vaal nietreele geval dat iedereen die aan de minimum eisen voldoet,voor de organisatie van evenveel waarde is. De selectieratio is van invloed op de utiliteit. Bij extreme waarden van de selectieratio, waarbij men zeer velen moet afwijzen of bijna iedereen moet aannemen, kan de utiliteit negatief worden, omdat het nuttige effect van het testen niet opweegt tegen het totaal aan testkosten Met de formule is uit te rekenen of de kosten van het testprogramma (C) opwegen tegen het uiteindelijke rendement van de selectieprocedure.
Het gelijktijdig gebruik van diverse tests Zelden volstaat één enkele test. Vooral als het criterium heterogeen is. Testbatterij: test die hoog correleren met criteriumprestatie, maar onderling laag. Op welke wijze moeten gegevens gecombineerd voor goede testresultaten? • Statistisch wegen van testscores en berekenen van succeskansen: actuarische statistische voorspelling • Nietstatistisch, intuïtief: intuïtieve, klinische voorspelling. Niet in alle gevallen is een gewogen samenstelling van testscores de meest aangewezen methode. • soms voor iedere test een afzonderlijke kritische score: multiple cutoff procedure. Veelvoudige minimumscore: conjunctief. Bv bij sportprestaties, of gezichtsscherpte bij piloten. • Gewogen samenstelling: compensatorisch. Dit is in veel gevallen. • of een combinatie Selectie in één of meer fasen Soms efficiënter om trapsgewijs te testen, bv bij sollicitaties: eerst selectie op brieven. Ook deze voorselectie moet valide zijn. De gebruikte test kan in voorselectie ook nuttig zijn als deze minder betrouwbaar en valide is, omdat de toevalskans voor kostbaar vervolgonderzoek toeneemt. Sequentiële beslissingsmodellen kunnen gecompliceerder zijn: bij eerste snelle screening: wie wel, wie niet, wie verder getest in volgende ronde. Ander voorbeeld is in de klinische diagnostiek: MMPI. Zie figuur 9.6 blz 418. 9.3
Plaatsingsbeslissingen
Dus: keuze uit diverse alternatieven, die van niveau en aard verschillen. Vraagt om andere beslissingsmodel, want multivariaat. Plaatsing en niveauverschillen Waardebepaling en vergelijkingen tussen nietkwantitatief vergelijkbare grootheden. Rol psycholoog: • kansen op behalen van resultaten van beslissingen bepalen en expliciteren • ervoor zorgen dat de beslisser rekenschap geeft van prioriteiten in waardesysteem en adequate waardering van uitkomsten. Bv keuze tussen opleiding A en B
1.
kans tot volbrengen van opleiding (=samenhang tussen test en criterium): regressievergelijking of verwachtingstabellen 2. waardering van voltooing van opleiding A of B, en waarde van nietvoltooide opleiding E(rendement) = P(A) x W(A) + P(A) x W(A) P=kans op voltooien, W=waarde, A/B=opleiding Enkele relaties tussen beslissingsrendement (yas) en testprestatie/predictor (xas in grafiek): • parallelle lijnen: rendement van beide opleidingen nemen even snel toe, maar A heeft steeds hoger rendement • samenvallende lijnen: identieke toename in rendement en compenseren kansen met waarden • snijdende lijnen: beneden bepaalde testprestatie heeft B de voorkeur, daarboven A • niet rechtlijnige lijnen: grillig Vaak extra beperkingen: beperkt aantal plaatsen, of sommige functies moeten perse vervuld worden. In de praktijk worden dit soort beslissingen op gevoel gedaan: adhoc strategie. Meer exacte en rationele procedure heeft de voorkeur. Plaatsing en kwalitatieve verschillen Ook hier: kansen op succes versus de waarde van goed vervullen van de functie. Bv twee sterk verschillende opleidingen, vooral als inhoud verschilt. Testbatterij nodig. Testprestaties moeten dan zo sterk mogelijk tussen beide opleidingen differentiëren. Dus hoge correlatie van test met criteria voor beide opleidingen is niet voldoende. Testbatterij, waarbij scores op de deeltests optimaal voorspelt voor één van de alternatieven. Eenvoudigst wanneer sommige test hoog correleren met het ene criterium en met het andere niet, en andere tests omgekeerd. Bij selectie op één criterium is de bijdrage van de test evenredig aan de validiteit. Bij de differentiële voorspelling is niet alleen de correlatie met afzonderlijke criteria, maar ook differentiële validiteit van belang. Dus als validiteiten van testscore X met de twee criteria verder uiteenlopen. Testscore X heeft dan dus ene hogere differentiële validiteit. Vergelijkbaar met beslissingen o.b.v. univariate informatie, vooral zonder restricties en eisen. Wanneer wel eisen, dan snel te complex: plaatsingsstrategie om n individuen over n posities in M verschillende plaatsingen te verdelen. Andere, praktische manieren:
• •
9.4
‘cut and fit method’: eerst meest bekwame kandidaten in de best bij hen passende functies plaatsen, daarna minder bekwame kandidaten meer aselect. Bepaalde functie is zo veel belangrijker dan andere functie, dat de beste voor de eerste functie zonder meer geplaatst wordt. Individuele beslissingen
Veel van het psychologisch advieswerk is in institutioneel kader. Ander deel bij helpen bij het nemen van individuele beslissingen. Het verschil tussen beide: evaluatie van de resultaten van beslissingen van individuen is, een individuele en ook over individuen variërende zaak is. In geval van kwalitatief verschillende alternatieven dient de informatie die de basis van de beslissing vormt een hoge differentiële validiteit te bezitten. Illustratie: • Voorbeeld 1: of een mw een functie E zal accepteren of niet. Kans van slagen is 0.60, falen 0.40. Stel: waarde van falen 3x zo ernstig dan hebben van succes: E(rendement) = 0.60 x 1 + 0.40 x (3) = 0.60 • Voorbeeld 2: kwalitatieve keuze tussen een technische opleiding F en een commerciële opleiding G. Stel: kans van slagen op F is 0.80, op G 0.60. Waarde voor opleiding F is 10, 15 voor G. Waarde bij niet halen te verwaarlozen. De kostenfactor (moeite, inspanning, tijd en kosten) moeten gewaardeerd worden. Dus: kostenwaarde voor F is 2 en voor G is 4 Voor F: E(rendement) = 0.80 x 10 – 2 = 6 Voor G: E(rendement) = 0.60 x 15 – 4 = 5 • Voorbeeld 3: schoolkeuze. Niet alleen alternatieven van halen / niethalen, ook de mogelijkheid dat slechts enkele klassen met succes worden gehaald
…. exacte kansbepaling is meestal niet zo eenvoudig. Waardering van de diverse uitkomsten is niet eenvoudig. Bovendien veelal binnen een keuze weer mogelijkheden. 9.5
Open vraag
Openvraagprobleem (bv wat is er met persoon aan de hand) is er sprake van een zeer groot aantal mogelijkheden. Belang van vraag en probleemanalyse, want bij openvraag blijkt het vaak na onderzoek te gaan om een gerichte keuzevraag. Soms is het nog onvoldoende doordacht, of onredelijke verwachtingen bestaan. Voor beantwoording kan men persoon beste testen:
•
1e fase: reduceren van grote aantal mogelijkheden. Tests die groot aantal mogelijkheden tegelijk bestrijken, evt. niet zo betrouwbaar
•
2e fase: o.b.v. beperkt aantal mogelijkheden hypotheses toetsen. Gericht, betrouwbaar instrument. Cronback en Gleser: twee typen nader omschreven in termen van informatietheorie: Bandwijdte (‘bandwidth’) en zuiverheid (‘fidelity’). Een test kan niet beide tegelijk bezitten: grote bandwijdte gaat ten koste van de zuiverheid en vv. Steeds getracht een compromis te vinden: bij definitieve conclusie of keuze moet de zekerheid maximaal zijn, bij hypothesevorming juist breedte. Geringe bandwijdte en grote zuiverheid zijn volgens klassieke testbenadering ideaal. Bv intelligentietest en test voor specifieke vaardigheden (met goede begrips en predictieve validiteit en hoge betrouwbaarheid). Om de zuiverheid van bredebandtest zoch te verbeteren: • standaardisering van de procedure van afnemen; objectief verwerkingssysteem • voldoende items voor spreiding in testprestaties • voor verschillende populaties normgegevens beschikbaar • beoordeelde kenmerken moeten plaats in theorie krijgen Hiermee nemen betrouwbaarheid en validiteit toe, maar neemt bandwijdte af. Voor keuze ne het gebruik van bredebandtest voor exploratieve doeleinden zijn niet zulke duidelijke regels te geven als voor selectie of plaatsingsbeslissing. Bij subjectief gebruik rekening houden met: • bij het ontwikkelen van hypothesen aansluiten bij literatuur of eigen ervaring • in hypothesevorming altijd gebruik gemaakt van impliciete en expliciete theorieën. Afzien van duistere theorieën. • afzien van gebruik van projectietests, die testtechnisch gebrekkig zijn. 9.6
Tot besluit
Bij beslissingen over personen wordt de praktische waarde van de psychologische test ondergeschikt gemaakt aan het belang en de waarde van deze beslissingen.
10
Ethiek van het testen
De test neemt niet de beslissing voor rekening, maar is wel een factor van betekenis. Gewicht van test wordt nogal eens overschat. De publieke opinie oordeelt niet onverdeeld gunstig over de psychologische tests. Soms terechte punten van kritiek, dikwijls eenzijdige en misplaatste generalisaties. Vaak ten onrechte geen onderscheid gemaakt tussen testgebruik in de praktijk en principiële mogelijkheden en de kwaliteiten van tests. Goed informeren van de onderzochte d.m.v. toelichting en voorbeeldopgaven. Veel kritiek, maar het is onverstandig deze te negeren: 1. veel waars 2. er is veel weerstand tegen testen 3. psycholoog en psychologie hebben er voor een deel zelf naar gemaakt, door te veel met hun tests te pretenderen. Maar het is onjuist dat zij zich nooit druk maken over praktische en ethische consequenties (sinds 1961 code voor psychologen) Attitude t.o.v. testen in het algemeen: • test fungeert vaak als zondebok voor frustraties. Valt toch mee: onderzoek wijst uit dat eigen ervaring geen grote rol speelt bij ontstaan van deze attitude • Dieper liggende oorzaak: algemeen onbehagen over de toenemende bureaucratisering en vertechnisering van de maatschappij. Vrees voor manipulatie. Maar moedigt het testen niet een onpersoonlijke, rigide en mechanistische processen aan? Leidt predictie niet gauw tot controle en determinatie van het menselijk gedrag? Vooral in institutioneel verband. Maar eigenlijk niet probleem van testonderzoek, maar van beslissingsproces. Meer specifieke bezwaren hierna. 10.1
Levensbeschouwelijke en menselijke bezwaren
Uniciteit van de mens en de onmogelijkheid dit te meten Het feit dat de mens niet ‘te meten’ is. Maar test gaat om onderzoek van waarneembaar gedrag Rollen van psycholoog en onderzochte Reduceert het testen de mensen niet tot onpersoonlijke objecten met een superieure machtsrol van testpsycholoog en soms infantiel aandoende testopdrachten? Er moet een persoonlijke introductie zijn. Ook duidelijkheid over doel, gelegenheid tot ontmoeting en een gesprek, waarin geen machtsverhoudingen bestaan. Tests moet voldoende uitdagend zijn. Het verzet tegen de ondergeschikte rol / afhankelijkheidspositie: is maar de vraag of dit verwijt de test betreft. In NIPethiek uit 1961: primaire zorg van psycholoog is: het welzijn en de belangen van de cliënt (onderzochte). Praktijk kent twee uitersten: • leer aan het leven aanpassen. Dus belangen van organisatie in meenemen. • verdedigen dat de belangen van het individu altijd dienen te prevaleren. Commentaar op deze twee uitersten: • Het is maar de vraag of toekennen van gelijke kansen ethisch wel ideaal is: lui, onbekwaam, enz.
•
Loting is in strijd met streven naar optimale benutting. APA (1969): full manpower usage and full conservation of human resources are essential ingredients of a healthy society • Werkgever zal nooit willen loten. Indien testen niet, dan toch alternatieve methoden met mogelijk geringer voorspellend vermogen. NIPethiek (1976): cliëntsysteem. Psycholoog stelt zich in dienst van beide partijen, en beide hebben recht op vertrouwelijke behandeling.
10.2
Technische en methodologische bezwaren
Voor veel bezwaren geldt het probleem dat er onvoldoende scherp onderscheid wordt gemaakt tussen praktisch slecht functionerende tests en het principe van de test als zodanig. Het bestaan van slechte tests leidt niet tot de conclusie dat goed testgebruik niet mogelijk is. Psychometrische kwaliteit van tests Vaak onbetrouwbaarheid onvoldoende, maar nog vaker begripsvaliditeit of predictieve validiteit onvoldoende of onbekend, normtabellen ontbreken of normpopulatie wijkt af. COTAN: onderzoek onder 457 tests heeft 33% onvoldoende betrouwbaar, 35% onvoldoende begripsvaliditeit, 67% onvoldoende predictieve validiteit, 59% onvoldoende voor normen. Sinds die tijd lichte verbetering 1993 –Sijtsma: 21% van alle tests heeft voldoende voor validiteit en normen (=78 tests) Let op: ook in voorselectie van selectietraject zijn onvoldoendetests niet geoorloofd, want ook dan vallen al kandidaten af. NIP: psychodiagnostische instrumenten kunnen alleen voor advies worden gebruikt als de theoretische herkomst, betrouwbaarheid, validiteit en normering voldoende zijn. Stereotypenbevestigende karakter van tests Methodologisch bezwaar op de gekozen tests als zodanig. De test zouden door hun beperkte en behoudende karakter de ondernemende, creatieve en exceptionele kandidaat weren, en de fantasie en initiatiefloze conformist belonen. Ook zouden tests leiden tot homogenisering en bevriezing van een bestaande ondernemingsstijl. Het gaat hier niet om kritiek op de test, maar kritiek op het gekozen criterium. 10.3
Misbruik
Ethisch karakter Schending van vertrouwen Ofwel: of de testresultaten wel voldoende binnenskamer blijven • bij wetenschappelijk onderzoek moet gewaakt worden voor de anonimiteit van de proefpersoon • in praktische onderzoekssituaties zijn twee gevaren: o nietpsychologen krijgen inzage. Dit leidt naast schending van vertrouwen ook tot misinterpretatie en misbruik. ASTNIP: alleen bewerkte testuitslagen verstrekken o opdrachtgever die het rapport leest, zal het ook voor andere doeleinden gebruiken. ASTNIP: niet voor andere doeleinden gebruiken, en onderzochte mag elk moment het onderzoek stoppen, en moet toestemming geven om rapport door te sturen • Verstrekken van informatie aan collegapsychologen. Ook dan is toestemming van betrokkene nodig. • Geheimhouding van onderzochte zelf. Ook hier gevaar van misinterpretatie en ongewenste effecten. ASTNIP: cliënt heeft recht op nabespreking; recht op inzage in het rapport voor het naar opdrachtgever gaat; op eventuele blokkering; op aanvulling, correctie en eventuele verwijdering van gegevens; o een afschrift van het rapport; op inzage in en afschrift van het onderzoeksdossier. Slechts een rechterlijke uitspraak kan de psycholoog verplichten om een rapport aan derden te openbaren. Misleiding Sterkst bij indirecte tests. • Geen probleem bij wetenschappelijk onderzoek. Zolang anonimiteit en persoon geen schade leidt, de proefpersonen vrijwillig meedoen, doel wordt toegelicht. • Ook geen probleem bij therapieën en in individueel advieswerk • Mogelijk wel daar, waar conflict tussen belangen ontstaat, bv selectie en plaatsingsbeslissingen. Maar: als principe van selectie is aanvaard, dan is het probleem opgelost. NIP: wel goed voorlichten
Binnendringen in het priveleven Ter relativering: het binnendringen kan niet los gezien worden van de bedoeling van de test. Bv MMPI gaat het niet om de waarheid. Bovendien worden antwoorden onpersoonlijk verwerkt. Van de 109 vragenlijsten (met 5300 items) bleken slechts 10 items onacceptabel Bij alle vormen van informatie inwinnen is er sprake van binnendringen in het privéleven. Dus weinig zin om absolute privacy te eisen Recht op privacy: het belang hiervan moet worden afgewogen tegen andere belangen: • recht op kennis, om onszelf en de wereld te kennen • wenselijkheid of noodzaak om enige controle over de vrijheid van leden uit te oefenen. Veiligheid boven privacy. • recht op privacy afwegen tegen de wenselijkheid om in een maatschappij optimale benutting van kwaliteiten, capaciteiten en kennis te bereiken. Dus: evenwicht tussen uiteenlopende belangen Discriminatie NL sinds ’80. VS sinds ‘60 • klachten dat tests niet goed zijn gestandaardiseerd voor minderheidsgroepen • Inhoud van de test: zouden capaciteiten, prestaties en vooral kennisaspecten meten, die bevoorrechte groepen beter hebben kunnen ontwikkelen. Vooral in persoonlijkheidstest en biografische vragenlijsten zitten vragen die verkapt vragen naar ras of nationale origine. • valideringsonderzoek is op beperkte groepen gedaan. Resultaten worden vaak gegeneraliseerd naar andere populaties. Verdedigers: test stelt slechts objectief vast wat iemand kan en kent, niet dat mensen ongelijke waarde hebben. Een test als zodanig kan nooit discriminerend zijn. Wat wel discriminerend is: • Testinterpretatie. Bv intelligentietestscores. Het aangeboren potentieel (intelligentie A) kan niet zuiver, los van omgevingsinvloeden gemeten worden. Bij concrete metingen is het resultaat een aanduiding van ‘Intelligentie B’, het fenotypische aspect van cognitieve vermogens (dus resultante van genetische en omgevingsinvloeden). Wel kan de ene test beter A meten dan de andere. Deze zijn minder cultureel gevoelig. Echte cultuurvrije tests bestaan niet. • testgebruik. Vooral op terrein van selectie: minderheidsgroepen, die gemiddeld lager scoren op de test krijgen minder kans. Twee strategieën: o Strategie van de maximalisering van de doelmatigheid:
o
Personen met de grootste kansen op succes in de functie worden geselecteerd, door validiteit van procedure te maximaliseren. Discriminatie? Niet wanneer score overeenkomt met score op prestatie in de functie. Wel wanneer ene groep met een bepaalde testscore een systematisch hogere criteriumscore haalt. In dit geval: aftestgrenzen voor verschillende groepen. Twee problemen hierbij: als criteriumprestatie een oneerlijke weergave is (bv bevooroordeelde beoordelingen). Dan via ‘zuivering’ criterium aanpassen. Voor maximalisering is vaak variabelen als sekse, sociaaleconomische klasse, etnische groepering, enz nodig. Dit zou directe discriminering betekenen? Twee benaderingen: Ongekwalificeerde individualisme: alles wat validiteit verhoogt, wordt opgenomen (als predictor of als moderator). Dus als lid zijn van allochtone groep kansen vermindert, dan opnemen in model. Gekwalificeerde individualisme: directe discriminatie niet acceptabel. Validiteit wel proberen te maximaliseren, maar dan toch vaak indirecte discriminatie. Strategie van de maximalisering van gelijke kansen Loting, de meest extreme, maar geen enkele doelmatigheid Gewogen loting
Gecorrigeerde individualisme: alle predictoren worden gecorrigeerd voor hun samenhang met mogelijk discriminerende variabelen. Bv scores op test voor logisch redeneren worden gecorrigeerd voor samenhang met scores op een test voor Nl woordenschat. Residuscore wordt gebruik voor selectie. Uit iedere categorie een bepaald percentage selecteren (quotasysteem) Dus: doelstelling van maximale doelmatigheid en maximaal gelijke kansen zijn vaak in strijd met elkaar. Conclusie: onjuist om de test als zodanig te beschuldigen van discriminatie. Er is altijd de interpretatie of het gebruik. Het is een beleidsbeslissing welk evenwicht tussen beide.
10.4 .
Tot besluit