iagnostiek en testgebruik met allochtonen Fons van de Vijver
Een cliënt komt onze spreekkamer binnen. Hij is doorgestuurd door de huisarts, die klachten van depressieve aard vermoedt. Laat ons veronder stellen dat de cliënt de Nederlandse taal voldoende beheerst om een vra genlijst in te kunnen vullen. We besluiten de Nederlandse versie van de Beck Depression Inventory (Beck et al., 1961) af te nemen. Uit eerder crosscultureel onderzoek is bekend dat dit instrument bruikbaar is in allerlei culturen. Zoals gemeten met de Nederlandse normen blijkt de cli ent hoge scores te hebben op de items over somatische problemen en een gemiddelde score op psychische problemen. Hoe moeten we dit patroon in terpreteren?
Er zijn verschifiende mogelijkheden. Om te beginnen is het mogelijk dat de man geen psychologische verschijnselen van depressie vertoont en er sprake is van een ander sornatisch probleem dat niet door de arts geconstateerd is. Verder is het mogelijk dat de normen van de lijst, die ontwikkeld zijn bij en voor een groep autochtone Nederlanders, niet van toepassing zijn op deze cliënt. Het is ook mogelijk dat er in de cultuur van de cliënt andere normen gelden ten aanzien van het uiten van depressieve gevoelens dan in de Neder landse. Zo vond Kleinman (1977) dat Taiwanese studenten eerder geneigd waren somatische klachten dan psychische klachten te rapporteren. Allen (1998) vond bij gebruik van een depressieschaal bij onder andere Ameri kaanse Indianen de gebruikelijke factorstructuur niet terug die bij blanke Amerikanen gevonden was. Depressieve gevoelens en somatische klachten bleken veel sterker samen te hangen bij de Indianen dan bij de blanke Ame rikanen. Verder zou de cliënt uit een cultuur kunnen komen waarin men meer geneigd is sociaal wenselijk te antwoorden op vragenlijsten en men minder geneigd is een eerlijk antwoord te geven. Onderzoek van Van Hemert et al. (2002) toonde aan dat personen afkomstig uit landen met een kleiner Bruto Nationaal Product vaak meer geneigd zijn tot het geven van
9
196
Psychologie en de multiculturele samenleving
sociaalwenselijke antwoorden. Om inzicht te kunnen krijgen in welke inter pretatie de juiste is, hebben we aanvullende informatie nodig. Het fictieve voorbeeld leidt tot een belangrijke conclusie: we kunnen niet zomaar de testscores van een allochtone cliënt interpreteren alsof het scores van een autochtoon zijn. Het doen van uitspraken over de mate van depressiviteit van de cliënt is allesbehalve eenvoudig en vergt kennis van zijn culturele achtergrond. Dit hoofdstuk geeft eerst een overzicht van de theoretische achtergrond van multiculturele diagnostiek (met diagnostiek wordt hier verwezen naar allerlei gebieden van de psychologie waarin met tests gewerkt wordt in een toege paste of wetenschappelijke context, zoals de ontwikkelingspsychologie, de Mi nische psychologie en de arbeids- en organisatiepsychologie). Betoogd wordt dat zich bij multiculturele diagnostiek vaak problemen voordoen waarvoor geen standaardoplossingen zijn. In het tweede deel wordt een overzicht gege ven van de huidige stand van zaken op het terrein van multiculturele dia gnostiek in Nederland. Daarna volgt een beschrijving van richtlijnen die op dit terrein ontwikkeld zijn. In de laatste sectie worden conclusies getrokken. Box i geeft een overzicht van belangrijke kwesties in de ontwikkeling en het gebruik van tests in multiculturele groepen. Dit overzicht vat de belangrijkste bevindingen en aanbevelingen van het hoofdstuk samen en geeft de lezer een leidraad voor hoe het beschreven raamwerk in de praktijk vertaald kan wor den.
Box
i.
Regels voor het gebruik van psychologische tests in multiculturele groepen
Van de Vijver en Bleichrodt
(2001)
heb
ben tien uitgangspunten geformuleerd voor het gebruik van psychologische tests in multiculturele groepen: 1
Psychologische tests zijn alleen op valide wijze toepasbaar bij allochto nen als deze toepasbaarheid aange toond is.
2
Het is noodzakelijk om bij de inter pretaties van testscores de bruik baarheid van de test voor
3 Resultaten van onderzoek naar vraagpartijdigheid in Nederlandse tests laten vaak dezelfde conclusies zien als onderzoek naar vraagpartij digheid in Amerikaanse tests. 4 De belangrijkste bron van partijdig heid in tests is kennis van de Neder landse taal en cultuur. 5 Verschillen in woordenschat tussen allochtonen en autochtonen kunnen
allochtonen in ogenschouw te
leiden tot systematische bias (partij digheid, vertekening) van de test
nemen.
scores. Deze bias kan betrekking op
Diagnostiek en testgebruik met allochtonen
197
Vervolg zowel afzonderlijke vragen (als er bijvoorbeeld ongebruikelijke woor den of zegswijzen in items gebruikt zijn) als op de gehele test. Deze glo
genaamd, is moeilijker aan te tonen en kan gemakkelijk als echte ver schillen in testscores geinterpreteerd worden. Voor het interpreteren van testsco res van allochtonen zijn naast testscores zelf ook gegevens nodig over
psychometrische eisen hebben te maken met de beschikbaarheid van tests en adequate testprocedures, terwijl de maatschappelijke conditie
de persoon, zoals verblijfsduur, generatiestatus (eerste, tweede of derde generatie) en acculturatiestra
te maken heeft met een draagvlak voor een dergelijk beleid. to In het proces van maatschappelijke
tegie. 7
Indien een test in mindere mate bij allochtonen bruikbaar is dan bij autochtonen, dient dit bij de inter pretatie in ogenschouw genomen te worden en bij de rapportage ver meld.
9.1
Bij de keuze van tests voor gebruik bij allochtonen verdient het aanbe veling gebruik te maken van tests
die op hun bruikbaarheid bij alloch tonen onderzocht zijn. 9 Om een beleid van ‘equal opportu nity employment’ te realiseren moet aan psychometrische en maatschap pelijke condities voldaan zijn. De
bale invloed van bias op testscores, ook wel methodepartijdigheid
6
8
integratie kunnen tests een belang rijke rol spelen, maar verdere maat regelen op scholen en in organisaties zijn nodig om een maatschappelijke integratie van allochtonen te bevorderen.
Theoretisch kader
Uit het bovenstaande voorbeeld blijkt dat er in het geval van multicuiturele diagnostiek gemakkelijk problemen kunnen optreden die bij toepassingen van een instrument in een cultureel homogene groep (zoals autochtonen hoewel die uiteraard ook geen cultureel homogene groep vormen, zie de definities van cultuur in hoofdstuk 1) nauwelijks van belang zijn (Suzuki & Ponterotto, 2007). Meet het instrument echter wel in beide groepen wat het beoogt te meten? Het gaat dus om het probleem van geldigheid (construct validiteit). Centraal staat de vraag of de betekenis van testscores voor autoch tonen en allochtonen identiek is. —
198
Psychologie en de multiculturele samenleving
9.1.1
Achtergrond
Het theoretische raamwerk van dit hoofdstuk is ontwikkeld in de crosscultu rele psychologie (zie onder andere Lonner & Berry, 1986; Poortinga, 1989; Van de Vijver & Leung, 1997). Aanvankelijk waren crosscultureel psycholo gen vooral geïnteresseerd in de vraag of tests die ontwikkeld waren voor een westerse groep ook in niet-westerse culturen bruikbaar waren. Hoe kun je nagaan of de tests bruikbaar zijn? Welke problemen zouden zich voor kun nen doen? In de literatuur worden al deze problemen onder één begrip gevat: ‘bias’ ofwel vertekenirig (Fontaine, 1999). Vertekening verwijst naar iedere systematische invloed op testscores die niet zelf het onderwerp van de test is (Poortinga, 1989). Deze ingewikkeld ogende omschrijving betekent dat het om alle storende factoren gaat die van invloed kunnen zijn op test 5cores en die daarmee een vertekend beeld kunnen geven van de persoonlijk heid, intelligentie, vaardigheden of ziekte van de onderzochte. Indien antwoorden op de vragen van onze lijst sterk beïnvloed worden door sociale wenselijkheid, belet deze factor inzicht in het werkelijke niveau van depressiviteit van de geteste. Vooral in culturen met normen om niet te pra ten over eigen psychisch leed kan het moeilijk zijn om inzicht te krijgen in de werkelijke problemen van de cliënt. Zo zou de relatief grote vraag onder Turkse Nederlanders naar lichamelijke gezondheidszorg en de relatief kleine vraag naar geestelijke gezondheidszorg (hoewel dat nogal genuanceerd ligt de laatste jaren zie hoofdstuk io) op culturele verschifien in het uiten van psychische problemen kunnen wijzen. —
9.1.2
Vertekening
De vraag rijst nu om wat voor aspecten het gaat: welke factoren kunnen de geldigheid van uitspraken bij multiculturele diagnostiek bedreigen? Er wordt in de literatuur nogal eens een onderscheid gemaakt tussen interne en externe vertekening (‘internal and external bias’; bijv. Jensen, 1980). Bij interne vertekening gaat het erom dat een item of test niet hetzelfde meet in verschifiende culturele groepen. Veronderstel dat de volgende rekensom afge nomen wordt bij autochtonen en allochtonen: ‘Een kind wil een dozijn pot loden eerlijk verdelen onder drie vrienden. Hoeveel potloden krijgt elk van de drie vrienden?’ De vraag veronderstelt dat het kind weet wat een dozijn is. Indien dit niet geval is, faalt het kind vanwege een gebrek aan taalvaardig heid en blijft onduidelijk of het kind de benodigde rekenvaardigheid vertoont om de onderliggende vraag op te lossen (hoeveel twaalf gedeeld door drie is). Bij externe vertekening hebben we te maken met het gebruik van tests voor selectie. Tests worden dan gebruikt om toekomstig gedrag te voorspellen
Diagnostiek en testgebruik met allochtonen
(hoe goed zal het kind het doen op school? Hoe goed zal de sollicitant pres teren op het werk indien hij of zij aangenomen wordt?). Er is sprake van externe vertekening als de test niet even goed voorspelt voor autochtonen en allochtonen. Dit kan het geval zijn als autochtone en allochtone kinderen met dezelfde scores op de test niet dezelfde prestaties op school vertonen. Er kunnen drie vormen van interne vertekening onderscheiden worden (zie Tabel i; zie ook Van de Vijver & Tanzer, 2004). Constructbias Om te beginnen kan het construct dat gemeten wordt vertekening vertonen (met construct wordt verwezen naar de onderliggende trek of vaardigheid van een test, zoals depressiviteit en intelligentie). Deze vorm van vertekening, constructbias genoemd, kan een gevolg zijn van verschillen in gedragingen die bij een construct horen. Als manifestaties van een psychische stoornis (zoals depressie, ADHD of bipolaire stoornis) sterk over culturen verschillen, betekent dit dat een Nederlandse vragenlijst naar de verkeerde symptomen vraagt. Zo blijkt bij onderzoek naar depressiviteit in Zimbabwe dat de meeste gerapporteerde symptomen van depressiviteit hoofdpijn en vermoeidheid zijn en dat deze patiënten hun problemen toeschrijven aan kufungisisa, het geen zo ongeveer betekent dat de patiënt te veel nadenkt (Patel et al., 2001). Er bestaat wel een term in Shona voor depressiviteit, maar deze verwijst naar een ziekte zonder emotionele symptomen. We zien dus dat onze westerse term voor depressiviteit verwijst naar een syndroom dat voorkomt in Zim babwe maar dat het lokale woord voor depressiviteit niet de beste vertaling voor het westerse concept is. Een ander voorbeeld van een concept dat in verschillende culturen met andere gedragingen geassocieerd is, is ‘filial piety’, wat verwijst naar de verplichtingen van kinderen tegenover hun ouders (Ho, 1996). In China hebben kinderen morele plichten, zoals het tonen van eerbied en liefde, evenals materiële plichten, zoals het verzorgen van de ouders indien deze oud en behoeftig zijn geworden. In westerse lan den met hun veelal aan instituties uitbestede zorg voor ouderen is het besef van de materiële zorg voor de ouders veel minder sterk aanwezig. Methodebias Een tweede vorm van vertekening, methodebias, heeft te maken met de methodische aspecten van multiculturele diagnostiek. Er zijn drie bronnen van methodebias. Om te beginnen kunnen problemen voortkomen uit speci fieke eigenschappen van de culturele achtergrond van de persoon. Bij het afnemen van persoonlijkheidsvragenlijsten kunnen zich verschillen tussen culturen in responsstijlen voordoen. Landenvergeljkend onderzoek laat forse
199
200
Psychologie en de multiculturele samenleving
verschillen zien (Van Hemert et al., 2002; Van Herk et al., 2004). Het lijkt aannemelijk dat de resultaten ook voor vergelijkingen tussen allochtonen en autochtonen gelden. Vooral bij groepen lageropgeleide allochtonen kunnen we meer sociale wenselijkheid en ‘acquiescence’ (meegaan met de toon van de vraag wat neerkomt op het bevestigen van positieve uitspraken en ont kennen van negatieve uitspraken) verwachten dan bij autochtonen. Bij het afnemen van cognitieve tests kunnen ongeletterdheid of de onbekendheid van een cliënt met het afnemen van dergelijke tests problemen vormen, die niet te voorkomen zijn en ook verre van eenvoudig op te lossen zijn. Een lange testinstructie kan wellicht veel maar niet alle problemen voorkomen. Er is nogal wat onderzoek waarin aangetoond wordt dat vooral cognitieve tests gevoelig zijn voor eerdere ervaring. Bij hernieuwde testafnames in groe pen analfabeten bleken testscores relatief veel omhoog te gaan en bleken de scores bij de tweede testafnames betere voorspellers van latere prestaties op het werk dan scores bij de eerste testafnarne (Nkaya et al., 1994). Bij een onderzoek in Zuid-Afrika werd een intelligentietest ontwikkeld die gebruikmaakt van stimuli ontleend aan de (blanke) Afrikaanse cultuur en aan de (zwarte) Tswana-cultuur. Kinderen bleken opgaven die aan de eigen cultuur ontleend waren beter op te kunnen lossen (Malda et al., 2010). Deze bevin dingen kunnen implicaties hebben voor de individuele diagnosticus. In het testen van groepen met weinig of geen testervaring kan het nodig zijn om additionele instructies of voorbeelden te geven en alerter te zijn op tekens die erop duiden dat de cliënt mogelijk niet begrijpt wat er gevraagd wordt. Persoonlijke eigenschappen van de persoon die de test afneemt kunnen ook een belangrijke invloed hebben op het testresultaat. Culturele sensitiviteit bij de testafnemer is een noodzakelijke voorwaarde voor goede testafnames in multiculturele groepen. Veel hulpverleners krijgen met een veelheid aan cul turen te maken, waardoor het praktisch gesproken onmogelijk is om veel expertise op te bouwen op het terrein van die specifieke culturen. Ervaring met culturele groepen leert echter wel op welke terreinen zich vaak proble men voordoen: de directheid van Nederlanders, de kleine verschillen tussen mannen en vrouwen in Nederland, specifieke aspecten van het taalgebruik (zoals het gebruik van metaforen en spreektvoorden) en conventies in de communicatie (zie hieronder). De invloed van persoonlijke opvattingen is vooral een gevaar bij het gebruik van ongestructureerde technieken zoals een open interview. Bij ongestructureerde technieken hebben de persoonlijke opvattingen van de testafnemer in principe vrij spel. Een van de redenen waarom een open interview zo’n slechte voorspeller is van toekomstig gedrag van de geteste heeft hier waarschijnlijk mee te maken. Het is vanuit het oog punt van de kwaliteit van de testafname verder niet van belang of de psycho-
ç
II Diagnostiek en testgebruik met allochtonen
loog de allochtone cliënt op negatieve of positieve wijze discrimineert. Waar het om gaat is dat de procedure gemakkelijk invalide kan zijn. Het is moei lijk tegen te gaan dat persoonlijke opvattingen doorspelen in het eindresul taat. Voor de opdrachtgever is vaak niet of nauwelijks in te zien hoe deze persoonlijke opvattingen meegewogen zijn in het eindoordeel. Ten slotte zijn er interessante verschillen in communicatiepatronen tussen etnische groepen die gemakkelijk voor methodebias kunnen zorgen. De testsituatie zelf kan, indien de onderzochte nooit eerder getest is, al voor de nodige bronnen van vertekening zorgen. Het is dan niet altijd duidelijk voor de onderzochte hoe hij of zij zich dient te gedragen, wat de psycholoog ver wacht, wat het betekent om op een persoonlijkheidstest geen ‘foute antwoor den’ te kunnen geven, enzovoorts. Er spelen in de communicatie tussen psycholoog en onderzochte allerlei impliciete verwachtingen en normen (conventies) die voor iemand die nog nooit getest is niet duidelijk hoeven te zijn. Deze conventies kunnen van cultuur tot cultuur verschillen. Zo is het bij een gesprek tussen een cliënt en een hulpverlener of tussen een sollicitant en een psycholoog gebruikelijk in onze cultuur dat beide personen elkaar direct aankijken. Er zijn echter nogal wat etnische groepen in Nederland waarin de cliënt geacht wordt zich onderdanig op te stellen in dit soort gesprekken; het direct aankijken van de hulpverlener of psycholoog wordt dan als onbeleefd gezien. Er zijn ook voorbeelden bekend van Indiërs die als ze Engels spreken, als onvriendelijk gezien worden door Engelsen. Dit heeft te maken met het intonatiepatroon van hun verzoeken. Aan het eind van de zin gaat de toon nogal eens omhoog bij Indiërs terwijl deze bij Engelsen juist omlaag gaat. Engelsen interpreteren een verzoek dat met het Indische into natiepatroon uitgesproken wordt als dwingend en onvriendelijk (vgl. het op hoge toon iets vragen in het Nederlands), terwijl het voor Indiërs het natuur lijke patroon in hun eerste taal is. Een andere belangrijke conventie in com municatie waarop culturen sterk verschillen is de manier om verzoeken af te wijzen. Er zijn veel culturen waarin het direct afwijzen van een verzoek van een vreemdeling (zoals een psycholoog) onbeleefd is vanwege het gezichts verlies en de implicaties voor de relatie tussen beide personen. Een verzoek van de psycholoog wordt dan niet direct afgewezen maar de cliënt wijst op problemen die zouden kunnen rijzen bij de uitvoering van het verzoek (zoals het tijdelijk niet kunnen voldoen aan het verzoek). Door Nederlanders kan een dergelijk communicatiepatroon gemakkelijk gezien worden als het creëren van problemen terwijl het niet veel anders is dan een beleefde, indi recte manier om niet op het verzoek in te gaan. Een laatste thema in com municatie in de gezondheidszorg betreft verschillen in het uiten en ervaren van klachten tussen autochtone en allochtone groepen in Nederland. Uit
201
202
Psychologie en de multiculturele samenleving
onderzoek blijkt dat (in tegenstelling tot wat nog wel eens beweerd wordt) Turken en Marokkanen niet meer somatiseren dan andere groepen. Zij blij ken echter wel vaker de somatische kanten van hun klachten te benadruk ken: ‘Interetnische verschillen betreffen derhalve meer de articulatie dan de aard van de klachten’ (Knipscheer, 2000, p. 210 zie ook hoofdstuk io). Het komt ook overeen met het vaak gehoorde probleem van huisartsen dat het opstellen van een diagnose bij allochtonen problematisch kan zijn. —
Item bias Een laatste bron van vertekening heeft betrekking op de items van een instrument. In de literatuur staat deze bekend als itembias. In een van de Nederlandstalige intelligentietests voor kinderen wordt de vraag gesteld van welk dier spek gemaakt wordt. In een vergelijking tussen autochtone en allochtone basisschoolleerlingen vonden we dat het item relatief moeilijk was voor allochtone leerlingen (Van de Vijver et al., 1993). Het is gemakke lijk in te zien waarom dit zo is. De allochtone leerlingen waren bijna alle maal van Turkse en Marokkaanse afkomst. In islamitische culturen is het verboden varkensvlees te eten, waardoor je mag aannemen dat spek een soort vlees is waar deze allochtone leerlingen weinig mee in aanraking komen. Van der Maesen de Sombreff en Abeil (2001) noemen het verschil in connotatie van het woord ‘liegen’ voor Surinamers en Nederlanders. Het item ‘Liegt u wel eens?’ (onderdeel van een vragenlijst voor sociale wenselijk heid) heeft waarschijnlijk een iets andere betekenis voor Nederlanders en Surinamers, vanwege de zwaardere lading van het begrip in de laatste groep. Het woord ‘jokken’ heeft bij Surinamers een wat onschuldiger betekenis, maar voor Nederlanders klinkt dit woord juist weer kinderachtig. Er zijn tal van psychometrische technieken ontwikkeld om itembias te onderzoeken (zie onder andere Camilli & Shepard, 1994; Poortinga, 2001; Van de Vijver & Leung, 1997). Itembias is niet alleen voor de wetenschapper maar ook voor de praktiserend diagnosticus van belang. Vreemde of onverwachte antwoorden van een cliënt kunnen wijzen op misinterpretaties of ongeschiktheid van het item voor een cliënt.
Diagnostiek en testgebruik met allochtonen
Tabel
9.1
203
Overzicht van de soorten bias (vertekening) en hun oorzaak
Soort bias
Mogelijke oorzaak
Constructbias
Definitie: het construct dat gemeten wordt vertoont vertekening, de onderliggende trek of vaardigheid van een test is niet hetzelfde voor autochtonen en alloch tonen.
• • • • Methodebias
Gedeeltelijke overlap in de definities van het concept over culturen Verschil geschiktheid van het gedrag verbonden aan het concept (bijvoorbeeld vaardigheden behoren niet tot het repertoire van één van de culturele groepen) Slechte representatie van alle relevant gedrag (bijvoorbeeld korte instrumenten) Niet alle relevante domeinen worden bevraagd
Definitie: Het verwijst naar alle bronnen van vertekening die een gevolg zijn van methodi sche aspecten van een instrument.
•
Problemen als gevolg van culturele achtergrond van cliënt: Verschillen in onderwijs (onderwijs niet vergelijkbaar)
—
—
—
•
Problemen als gevolg van testafnemer —
—
•
Gebrek aan vertrouwdheid met psychologische testsituaties Responsestijlen (zoals sociale wenselijkheid) Gebrek aan deskundigheid (culturele sensitiviteit) bij testafnemers Persoonlijke opvattingen van testafnemer beïnvloeden interpretatie
Problemen als gevolg van de communicatie tussen cliënt en testafnemer Onduidelijke instructies voor cliënten
—
Communicatie- en taalproblemen tussen cliënt en testafnemer Definitie: Een item vertoont vertekening als een autochtoon en een allochtoon met het zelfde niveau op de onderliggende trek gemiddeld niet dezelfde score hebben op het item. Vaak betekent dit dat een item heel moeilijk (of onaantrekkelijk) is in één groep in verge —
Itembias
lijking tot de scoreverschillen op de andere items. • Ingewikkeld taalgebruik in een item (bijv. gebruik van spreekwoorden die de cliënt niet kent)
•
Item niet of minder relevant in de cultuur van de cliënt
Alle vormen van vertekening hebben implicaties voor diagnostiek. Voor sommige tests bestaat evidentie dat deze vertekening vertonen in de vergelij king van autochtonen en allochtonen. Verder kan de diagnosticus bij het tes ten sterke aanwijzingen hebben dat de test of bepaalde onderdelen ervan minder geschikt zijn voor een cliënt. In alle gevallen waarin sprake is van aangetoonde of vermeende vertekening, verdient het aanbeveling om op deze problemen van beperkte bruikbaarheid in de rapportage te wijzen.
204
Psychologie en de multiculturele samenleving
9.1.3
Equivalentie
In de crossculturele psychologie wordt equivalentie (gelijkwaardigheid, verge Ijkbaarheid) als kernbegrip gebruikt om naar vergelijkbaarheid te verwijzen (Lonner & Berry, 1986; Poortinga, 1989; Van de Vijver & Leung, 1997). Test scores zijn gelijkwaardig als deze dezelfde psychologische betekenis heb ben. Er zijn in de literatuur meer dan vijftig soorten equivalentie onderschei den (Johnson, 1998), maar in het kader van dit hoofdstuk gaat het in feite maar om twee soorten. De eerste, kwalitatieve equivalentie (ook wel structu rele equivalentie genoemd; Van de Vijver & Leung, 1997), verwijst naar de vraag of een instrument dat bij een bepaalde cliënt afgenomen wordt wel datgene meet wat de test verondersteld wordt te meten. Indien de cliënt uit het begin van het hoofdstuk zijn depressieve klachten zou uiten op een andere manier dan in de vragen van de lijst aangegeven wordt, levert een testscore geen relevante informatie over de mate van depressiviteit van de cliënt. De tweede vorm, kwantitatieve equivalentie (zie Van de Vijver & Leung, 1997, voor een verder onderscheid in verschillende subvormen), verwijst naar de vergelijkbaarheid van scores op een instrument. Indien sprake is van kwantitatieve equivalentie van scores tussen groepen, kunnen scores bin nen en tussen groepen vergeleken worden. Verschillen in scores tussen twee autochtone cliënten hebben dan dezelfde betekenis als verschillen in scores tussen een autochtone en een allochtone cliënt. Voor de individuele diagnos ticus gaat het bij kwantitatieve equivalentie vaak om de vraag naar de bruik baarheid van normen. Als we normen die zijn ontwikkeld voor een autochtoon-Nederlandse populatie toepassen op allochtonen, veronderstellen we kwantitatieve vergelijkbaarheid van scores. Voor ‘vernederlandste’ alloch tonen hoeft dit geen enkel probleem te zijn. Indien allochtonen echter uit een cultuur afkomstig zijn die sterk van de Nederlandse verschilt (zoals de Turkse en Marokkaanse) en nog niet lang in Nederland zijn, is het gebruik van Nederlandse normen af te raden. Het onderscheid in de verschillende vormen van equivalentie heeft belang rijke implicaties voor de praktijk. Indien er enkel sprake is van kwalitatieve equivalentie, heeft het geen zin om scores te vergelijken van autochtonen en allochtonen. Nederlandse normen zijn dan ook niet van toepassing op de betreffende cliënten. Het grote probleem vanuit het standpunt van de indivi duele diagnosticus is dat er maar weining tests zijn waarvan de equivalentie onderzocht is. Het lijkt gepast om voor andere tests een ‘bij twijfel niet inha len’-strategie te gebruiken, die erop neerkomt dat Nederlandse normen enkel te gebruiken zijn als van de test aangetoond is dat deze voldoet aan de eisen van kwalitatieve equivalentie en de test op adequate wijze bij de cliënt afge
Diagnostiek en testgebruik met allochtonen
nomen kan worden (en er bijvoorbeeld geen belemmeringen zijn vanwege een gebrekkige kennis van de Nederlandse taal en cultuur bij de cliënt).
9.2
De huidige stand van zaken
Het eerste grootschalige en systematische onderzoek naar vertekening in de internationale literatuur is meer dan veertig jaar oud. Cleary en Hilton heb ben in 1968 een artikel gepubliceerd waarin ze ilustreerden hoe itembias te onderzoeken is in grote datasets. In dezelfde periode zijn ook studies uitge voerd van de constructbias in intelligentietests. Sinds die tijd zijn veel studies gedaan naar zowel interne als externe vertekening in tests die bij blanke en zwarte Amerikanen afgenomen zijn. Als we in enkele zinnen de balans pro beren op te maken van deze onderzoekstraditie, valt op dat er een arsenaal aan psychometrische technieken ontwikkeld is om vertekening op te sporen; vooral itembias heeft veel aandacht gekregen (zie onder andere Camilli & Shepard, 1994). De uitkomsten van het onderzoek zijn redelijk consistent. Zo wordt voor intelligentiests meestal gevonden dat er geen constructbias is. Er zitten kennelijk geen verschillen in de structuur van intelligentie van blanke en zwarte Amerikanen. Ook in landenvergelijkend onderzoek wordt dit veelal gevonden (Van de Vijver, ‘997). Er is niet zoiets als ‘Afrikaanse intelligentie’, als daarmee bedoeld wordt dat deze intelligentie fundamenteel afwijkt qua structuur van intelligentie elders in de wereld. Wel zijn er forse verschillen in gemiddelde scores tussen blanken en zwarten in de Verenigde Staten. De biastraditie is niet in staat gebleken om de controverse op te los sen die daarover nog steeds bestaat (zijn zwarten dommer, zijn ze maat schappelijk achtergesteld, deugen de tests niet, of er is sprake van een combinatie van factoren?). Op het terrein van de persoonlijkheidsvragenlijsten is veel minder Ameri kaans onderzoek gedaan. De resultaten wijzen soms op equivalentie. Uit lan denvergelijkend onderzoek weten we van enkele instrumenten (het model met de vijf factoren van McCrae & Costa, 1997, en met de drie factoren van Eysenck & Eysenck, 1983) dat deze een hoge mate van structurele equivalen tie vertonen (de lijsten meten dus hetzelfde in alle onderzochte landen). In landenvergelijkend onderzoek zien we dus dat persoonlijkheidsmetingen met een stevige theoretische basis wijzen op de universaliteit van de persoonlijk heidsstructuur. Het onderzoek naar externe vertekening toont steeds weer aan dat de relaties tussen predictor (testscore) en criterium (toekomstig gedrag zoals succes op school of werk) niet erg verschillen voor blanken en zwarten (Schmidt & Hunter, 1977). Deze bevindingen lijken erop te wijzen
205
206
Psychologie en de multiculturele samenleving
dat de tests niet discrimineren. De schijn zou echter wel eens kunnen bedrie gen. De tests zijn vaak onderzocht op vertekening, voor de criteria geldt dat echter niet. Zo is weinig bekend over de vraag in hoeverre veel gehanteerde criteria zoals rapportpunten en beoordelingen wel dezelfde betekenis hebben voor autochtonen en allochtonen. Hebben rapportcijfers dezelfde betekenis voor autochtonen en allochtonen? In eerder onderzoek vonden Van de Vij ver en Willemse (1991) dat docenten daar niet van uitgaan en dat rapportpunten bij autochtonen meer naar prestaties en bij allochtonen meer naar vooruitgang (wat heeft de leerling bijgeleerd?) verwijzen. Veel systematisch onderzoek naar verschillen in de betekenis van criteriumgedrag hebben we echter niet. Derhalve is de conclusie voorbarig dat gelijke relaties tussen test en criterium erop duiden dat er geen discriminatie plaatsvindt. In Nederland heeft het lang geduurd voordat vertekening en equivalentie op de agenda kwamen van de psychologie als professie. Eind jaren tachtig is op initiatief van het toenmalige Landelijk Bureau ter Bestrijding van Rassendis crirninatie (nu Art.i genaamd; www.arti.nl) een groep samengekomen van experts op het terrein van multicultureel testen. Onder leiding van Hofstee heeft de commissie zich gebogen over de bruikbaarheid van de meest gebruikte psychologische tests voor allochtonen (Hofstee, 1990; Hofstee et al., 1990). De commissie concludeerde dat er helaas geen degelijk onderzoek in Nederland was om op terug te vallen. De conclusie past in het eerder gesignaleerde beeld dat in Nederland lang is gedacht dat allochtonen terug zouden gaan naar hun land van herkomst en dat ons land traag is gebleken in het multiculturaliseren. De commissie heeft een inhoudsanalyse gemaakt van de meest gebruikte tests. Er werden geen aanwijzingen voor openlijk racisme aangetroffen in de testinhouden (zoals het maken van of impliceren van denigrerende opmerkingen over andere dan de autochtone groep). Ver volgens is ook nagegaan of de tests bruikbaar waren. De commissie was hel der in haar conclusie: in alle tests wordt zoveel kennis van de Nederlandse taal en cultuur verondersteld dat deze etnocentrisch genoemd kunnen wor den; de tests nemen de Nederlandse cultuur als uitgangspunt. Dit etnocen trisme maakt de tests beperkt bruikbaar voor allochtonen. De commissie deed verder een oproep aan de beroepsgroep om bestaande tests op bias en bruikbaarheid te onderzoeken en nieuwe instrumenten te ontwikkelen. Deze oproep is niet onbeantwoord gebleven. Er zijn drie lijnen in het moderne onderzoek te onderkennen: i het ontwikkelen van nieuwe instrumenten; 2 het ontwikkelen van nieuwe normen; en 3 het onderzoeken van bestaande instrumenten op vertekening.
Diagnostiek en testgebruik met allochtonen
Verschillende nieuwe tests zijn ontwikkeld en genormeerd in de laatste twin tig jaar. In een drietal proefschriften is instrumentarium ontwikkeld, dat tot doel heeft om problemen met de beperkte bruikbaarheid van bestaande tests tegen te gaan (Van den Berg, 2ool; Helms-Lorenz, 2001; Hessels, 1993). Van den Berg (2001) heeft de zogenoemde multiculturele capaciteitentest ontwik keld (www.noa-vu.nI). Bij de samenstelling van de items is er rekening mee gehouden dat de gebruikte taal niet complex mocht zijn. Verder krijgen kan didaten voor de testafname materiaal met voorbeelden van af te nemen tests mee waardoor de kandidaat zich thuis kan voorbereiden op de testafname. Hiermee wordt een poging gedaan om methodebias zoveel mogelijk te ver kleinen. De test is afgenomen bij allochtonen en autochtonen. Uit de analy ses bleek de structurele equivalentie goed te zijn. In de analyse van de itembias werden grote hoeveelheden items gevonden die partijdig waren (soms in het voordeel van allochtonen, soms in het voordeel van autochto nen). Itembias bleek echter nauwelijks invloed te hebben op de grootte van de crossculturele scoreverschillen; de gemiddelden van de groepen met alle items vertoonden nagenoeg dezelfde crossculturele verschillen als de gemid delden nadat alle items met bias verwijderd waren. Hessels heeft een test ontwikkeld voor leerpotentieel bij jonge kinderen, de zogenoemde Leertest voor Etnische Minderheden (Hessels, 1993). Het idee erachter is dat allochtone kinderen vaak slecht presteren op cognitieve tests omdat ze vanwege gebrek aan kennis van de taal en ervaring met psycholo gische tests niet in staat zijn om optimaal te presteren. Bij de afname van een test voor leerpotentieel krijgt een kind op gestandaardiseerde wijze hulp bij het invullen. De persoon die de test afneemt maakt met gebaren of door het zelf voor te doen duidelijk wat van het kind wordt verwacht. De verteke ning van de test bleek klein te zijn. Resing en Hessels (2001) vatten de resul taten van het onderzoek naar de bruikbaarheid als volgt samen: ‘Hoewel Nederlandse, Turkse en Marokkaanse kinderen verschillen in hun gemid delde leerpotentieelscore, blijkt dat deze onderlinge verschillen veel kleiner zijn dan wanneer hun IQ-scores worden vergeleken. Ook de verblijfsduur in Nederland, die soms zeer kort was, blijkt over het algemeen geen significant effect op te leveren. Bij vergelijking van kinderen van gelijk sociaalecono misch niveau, en deze vergelijking is gerechtvaardigd aangezien de overgrote meerderheid van de Turkse en Marokkaanse kinderen afkomstig is uit gezin nen met een laag sociaaleconomisch niveau, blijken de verschillen tussen de groepen beduidend kleiner in vergelijking tot de verschillen in IQ-scores. Daarnaast blijkt dat de verschillen in leerpotentieelscores kleiner worden met het ouder worden, een tendens die bij IQ-scores niet wordt teruggevon den’ (p. 94).
207
208
Psychologie en de multiculturele samenleving
Helms-Lorenz (2001) heeft onderzoek gedaan naar de bruikbaarheid van eenvoudige computergestuurde cognitieve reactietij dtaken. In vergelijking met reguliere intelligentietests bleken deze taken weinig vertekening te verto nen en ook kleine scoreverschillen tussen allochtone en autochtone kinderen te laten zien. De vertekening in de taken was veel kleiner dan in intelligentietests die bij dezelfde kinderen afgenomen werden. In elk van de drie proef schriften zien we dat nieuwe tests erin geslaagd zijn om bepaalde bronnen van vertekening tegen te gaan en dat de gevonden crossculturele scorever schillen kleiner zijn dan bij reguliere intelligentietests. Er is meer gedegen onderzoek naar vertekening in bestaande instrumenten uitgevoerd. Zo onderzocht Van Leest structurele equivalentie van twee per soonlijkheidsvragenlijsten (te weten de RPDV, de persoonlijkheidsvragenlijst van de Rijks Psychologische Dienst, en de NPVJ, de Junior Nederlandse Per soonlijkheidsvragenlijst) voor de selectie van autochtone en Turks-Neder landse aspirant-agenten. De structurele equivalentie van het instrument was redelijk. Ook itembias werd onderzocht. Bij een vergelijking tussen Turken en autochtonen blijkt slechts een klein deel van de items vertekening te ver tonen. De verwijdering van deze items leidde (ook hier) niet tot een verande ring van de verschillen in gemiddelden tussen de groepen. De allochtonen hadden gemiddeld een profiel dat minder overeenkwam met het door de opdrachtgever gewenste profiel en dat veranderde niet door de slechte items te verwijderen. De voorspellende waarde van de test was erg klein (zoals wel vaker gevonden wordt dat persoonljkheidsfactoren slechte voorspellers zijn van werksucces); er waren echter geen aanwijzingen voor externe verteke ning. Van de NPVJ bleken veel items bias te vertonen. De structurele equiva lentie was redelijk. Een belangrijke vraag bij de meting van persoonlijkheid bij allochtonen betreft het vereiste taalniveau: hoe goed moet een cliënt op de hoogte zijn van de Nederlandse taal en cultuur voordat een bepaald instrument afgenomen kan worden? Het taalgebruik van persoonlijkheids vragenlj sten is vaak ingewikkeld, het gebruik van metaforen en bestaande uitdrukkingen wordt niet geschuwd. Dit zijn nu echter typisch aspecten die bij het aanleren van een tweede taal pas laat verworven worden. Daarom ging Van Leest ook na in hoeverre de betekenis van de scores op de per soonlijkheidsljst veranderde met het taalniveau van de sollicitant. Er traden eigenlijk pas problemen op als de sollicitant erg weinig Nederlands kende. Helaas kon Van Leest de externe vertekening niet onderzoeken. Zo’n onder zoek veronderstelt namelijk dat er een verband is tussen testcores en crite ri umgedrag. Van Leest vond echter geen verband tussen beide en kon derhalve geen enkele voorspelling maken van het criteriumgedrag op basis van persoonlijkheidsdata.
Diagnostiek en testgebruik met atlochtonen
Een ander onderzoek behandelt de interne partijdigheid van de GATB (General Aptitude Test Battery) (Te Nijenhuis, 1997). Het onderzoek werd uitgevoerd onder volwassen autochtone en allochtone sollicitanten met uit voerende functies bij de Nederlandse Spoorwegen en streekvervoerbedrijven. De structurele equivalentie van de test was goed; er werden sterke aanwijzin gen gevonden dat de tests bij zowel autochtonen als allochtonen dezelfde intelligentiedimensies maten. Ook in dit onderzoek werd gevonden dat ver wijdering van items met vertekening geen invloed had op de verschillen in scores van autochtone en allochtone sollicitanten (de eerste groep scoorde beduidend hoger dit leidde tot een behoorlijke controverse in het vakge bied). Na de eerste golf van grote studies op het terrein van multicultureel testen in Nederland is het (helaas) weer wat rustiger geworden. De laatste jaren is er meer nadruk komen te liggen op het maken van richtlijnen voor tests en testgebruik in een multiculturele context. De verschuiving in aandacht is te begrijpen, maar ook te betreuren. Een commissie heeft zich (wederom op initiatief van het Landelijk Bureau ter Bestrijding van Rassendiscriminatie) gebogen over de vraag wat er nu veranderd is sinds het verschijnen van het rapport van de commissie-Hofstee (Bochhah et al., 2001). De commissie noemde de hierboven beschreven proefschriften als voorbeelden van goed onderzoek dat bijdraagt aan de kwaliteit van het testen in een multiculturele samenleving. Anderzijds constateert de commissie dat er nog niet veel tests op vertekening onderzocht zijn: ‘Wie vanuit een praktisch perspectief kijkt naar welke tests gevalideerd zijn voor multiculturele diagnostiek, kan niet anders dan tot de conclusie komen dat er nog niet veel tests zijn’ (Bochhah et al., 2001, p. 17). In de laatste jaren is ook onderzoek in Vlaanderen op gang gekomen. Sinds, 2003 loopt aan de Universiteit Gent onder leiding van Fontaine en Schitte katte vergelijkend onderzoek naar de WISC-Ili-resultaten van autochtone en allochtone kinderen en de invloed van acculturatie op de scores (zie Van de Vijver et al., 2007). Bij autochtone en allochtone kinderen tussen 6 en 16 jaar (met gelijk geslacht, gelijke leeftijd en uit dezelfde klas) worden verscheidene cognitieve instrumenten waaronder de WISC-Ili (een intelligentietest voor kinderen; Kort et al., 2005) afgenomen. Daarnaast werd aan de allochtone kinderen een acculturatieschaal voorgelegd (Arends-Téth, 2003). Deze schaal gaat vooral in op de culturele achtergrond van het gedrag van kinderen en adolescenten, zoals de taal die ze thuis spreken, de vrienden met wie ze Spe len en de televisieprogramma’s waar ze naar kijken. De items zijn zo gefor muleerd dat ze ofwel vragen naar cultuurbehoud (bijv. ‘ik denk in het Turks’) ofwel naar culturele aanpassing (bijv. ‘mijn beste vrienden zijn —
[1 i
210
Psychologie en de multiculturele samenleving
Vlaams’). De IQ-scores binnen de allochtone groep bleken sterk samen te hangen met acculturatie. Kinderen met hogere IQ-scores richten zich meer op de gastcultuur en minder op de thuiscultuur. Dit effect was het meest uit gesproken bij de verbale subtests, maar trad ook op bij de performale subtests. Duidelijk is wel dat de problemen van diagnostiek van intelligentie bij allochtonen dus niet simpel op te lossen zijn door enkel van performale tests gebruik te maken. Het onderzoek naar de bruikbaarheid van tests heeft aangetoond dat bij een goede keuze van instrumentarium problemen van structurele equivalentie tegen te gaan zijn. Methodebias is moeilijker te vermijden. Studies waarin de inhoud en de instructies van tests aangepast zijn, geven belangrijke infor matie over de vraag hoe we de methodebias zo klein mogelijk kunnen maken. Ook itembias is moeilijk tegen te gaan; dit heeft vooral te maken met het feit dat we psychologisch gezien maar weinig inzicht hebben in de factoren die ervoor zorgen dat een item vertekening vertoont. Uitgebreide analyses van testitems die in het Amerikaanse onderwijs gebruikt worden, hebben weinig opgeleverd (Holland & Wainer, ‘993). De enige eigenschap waarvan systematisch gevonden wordt dat deze een vertekening oplevert, is de moeilijkheid van een item: moeilijke vragen vertonen meer vertekening dan gemakkelijke vragen. De reden hiervoor is onduidelijk. Verder blijkt dat het Nederlandse onderzoek naar vertekening dezelfde bevindingen laat zien als het Amerikaanse. Algemene patronen uit dit onderzoek zijn daarom redelijk goed toepasbaar op Nederland. In de keuze van nieuwe technieken kunnen we ons laten inspireren door methoden die daar gehanteerd zijn om vertekening tegen te gaan.
9.3
Hoe kunnen we de kwaliteit van multicultureel testen verbeteren?
Multiculturele diagnostiek heeft in veel gevallen geen paskiare oplossingen op vragen, maar er zijn wel allerlei meer en minder effectieve manieren voorgesteld om in de praktijk met deze vragen om te gaan. In deze sectie worden eerst drie soorten van aanpak besproken die aantrekkelijk lijken maar die ook hun problemen hebben (zie ook Van de Vijver, 2011). Daarna wordt ingegaan op andere modellen die voorgesteld zijn en worden vuistre gels gegeven die niet zozeer een specifieke aanpak propageren maar meer een soort van constructief-kritisch denken kenschetsen dat de kwaliteit van multiculturele diagnostiek ten goede komt.
Diagnostiek en testgebruik met allochtonen
Aanpak 1: gebruik cultuurvrije tests Het is al een oud idee om bij diagnostiek in heterogene groepen tests te gebruiken die vrij zijn van enige culturele invloed. Het begon in, 1940 met Catteil, die beweerde dat zijn intelligentietest vrij was van culturele invloe den. Al snel ontstond echter het besef dat het naïef is te veronderstellen dat er tests zijn die helemaal geen relatie met cultuur zouden hebben (Frijda & Jahoda, 1966). Zelfs een eenvoudige taak waarbij cijfers onthouden moeten worden veronderstelt dat cijfers even goed bekend zijn bij alle groepen waarin de test afgenomen wordt. Kennis van cijfers is echter afhankelijk van onder andere de kwaliteit van het genoten onderwijs (en daarmee een bron van vertekening). Later zijn de ambities van cultuurvrij testen wat naar bene den bijgesteld en zijn andere concepten geïntroduceerd, zoals ‘culture-fair’ (Catteil & Catteli, 1963) en ‘culture-reduced’ tests (Jensen, 1980), maar het idee is steeds gebleven om tests te gebruiken die zo weinig mogelijk gebruik maken van kennis van de taal en cultuur van de testontwerper. Ook al vindt het idee dat er cultuurvrije tests ontwikkeld kunnen worden nog nauwelijks navolging, het is een bruikbaar idee om stil te staan bij de mate van gevoeligheid van een instrument voor kennis van de Nederlandse taal en cul tuur. Het is een belangrijk onderdeel van de professionele training en expertise van diagnostici om een goed oordeel te kunnen vormen over de bruikbaarheid van tests en om deze bruikbaarheid mee te laten wegen in het uiteindelijke oordeel. Er is in Nederland een systeem van kwaliteitsbeoordeling en -bewa king ontwikkeld door de Commissie Testaangelegenheden Nederland (COTAN; www.cotandocumentatie.nl). De COTAN onderwerpt psychologi sche tests van een kwaliteitsbeoordeling. In box 9.2 wordt een overzicht geven van instrumenten die veel gebruikt worden in multiculturele diagnostiek.
2
11
212
Psychologie en de multiculturele samenleving
Box
2.
Overzicht van beoordelingen van vaak
gebruikte tests De volgende aspecten van een test worden beoordeeld door de COTAN
•
(Commissie Test Aangelegenheden Nederland) van het NIP (Evers et al.,
Begripsvaliditeit: is er onderzoek gedaan naar wat de test meet en wat is de kwaliteit van dit onder zoek?
Uitgangspunten bij de testconstruc
Criteriumvaliditeit: is er onderzoek gedaan naar het verband test-crite
tie: wat is het gebruiksdoel van de test, wat is de meetpretentie; is er
rium en wat is de kwaliteit van (de uitkomsten van) het onderzoek?
2000):
•
een theoretisch kader voor testcon structie? Kwaliteit van het testmateriaal: zijn scoring, testopgaven en instructie
Opgemerkt dient te worden dat geen van de COTAN-beoordelingen betrek king heeft op toepasbaarheid van de
gestandaardiseerd en is er mogelijk sprake van voor specifieke bevol
test voor multiculturele groepen of op de beschikbaarheid van afzonderlijke normen voor autochtonen en allochto
kingsgroepen kwetsende inhoud van items voldoende duidelijk en een duidig geschreven? •
Normen: is de test genormeerd bij groepen?
gnostiek, waarvoor COTAN beoordelingen bestaan. De tests heb
Kwaliteit van de handleiding: wordt de testgebruiker voldoende informa
ben vooral betrekking op intelligentie. Er zijn mij geen voorbeelden bekend
tie geboden ten behoeve van de afname en interpretatie van de test? Betrouwbaarheid: is er onderzoek
van lijsten op het terrein van gezond heid met een COTAN-beoordeling die in
gedaan naar de betrouwbaarheid van de test en wat is de kwaliteit van (de uitkomsten van) het onderzoek?
zijn.
voldoende grote, representatieve •
•
nen. Hieronder staan voorbeelden van tests die gebruikt zijn in wetenschappe lijk onderzoek naar multiculturele dia
wetenschappelijk onderzoek gebruikt
Diacinostiek en testqebruik met allochtonen
213
Vervolg Test
Bayley Ontwikkelingsschalen, BOS
Test-
Hand- Nor-
Betrouw- Begrips- Criteri
gangs-
mate-
lei-
baar-
validi-
umvalidi
punten
riaal
ding
heid
teit
teit
goed
goed
goed
vold.
vold.
vold.
vold.
goed
goed
goed
goed
vold.
goed
goed
goed
goed
goed
vold.
goed
vold.
goed
goed
goed
goed
goed
goed
goed
onvold.
vold.
goed
goed
onvold. goed
vold.
vold.
goed
goed
goed
goed
vold.
vold.
vold.
goed
goed
goed
onvold. vold.
vold.
vold.
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
vold.
goed
vold.
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
goed
vold.
onvold. onvold.
vold.
onvold.
goed
goed
goed
vold.
onvold.
men
-
2-30, 1983
Differentiële Aanleg Testserie,
Uit-
1983
General Aptitude Test Battery, GATB versie B iooz-B,
1958
Groningse Ontwikkelingsschalen, GOS
27/
2-41/2, 1996
Leertest voor Etnische Minderheden, LEM,
1991
Leidse Diagnostische Test, LDT,
1976
Progressive Matrices, PM, 1938
Revisie Amsterdamse Kinder Intelligentie Test, RAKIT,
1984
Schoolgedrag BeoordeIingslijst, SCHOBL-R,
1993
Snijders-Oomen Nietverbale Intelligentietest, SON-R
21/2-7,
1998
SON-r,
57/2-77,
Niet-ver-
bale Intelligentietest, 1989 Wechsler Preschool and onvold. Primary Scale of intelli gence, WPPSI-R,
7997
Wechsler Intelligence Scale for Children-Revi sed, WISC-R, 1986
vold.
=
onvold.
voldoende =
onvoldoende
goed
vold.
214
Psychologie en de multiculturele samenleving
Aanpak : gebruik standaardtests Er is nogal wat onderzoek dat aantoont dat psychologische tests dezelfde voorspellende waarde hebben voor autochtonen en allochtonen in dergelijke toepassingsdorneinen (zie bijvoorbeeld Te Nijenhuis, 1997). Zolang tests even goed voorspellen voor alle culturele groepen, zijn ze bruikbaar voor intercul turele diagnostiek. Dat is de redenering achter het gebruik van standaardtests zoals die ook bij autochtonen gebruikt worden. Deze benadering heeft twee problemen. Veel testscores worden niet gebruikt om toekomstig gedrag te voorspellen (zoals de vraag of een kind een bepaald soort school aan zal kunnen) maar om uitspraken te doen over bijvoorbeeld iemands intelligentie of geestelijke gezondheid. In dit soort gevallen zijn normtabellen nodig om iemands intelligentie of geestelijke gezondheid met een referentiegroep te kunnen vergelijken en als deze normen niet bestaan of niet gelden voor allochtonen, zijn standaardtests weinig bruikbaar. Aanpak : gebruik geen standaardtests en werk enkel met interviews en gedragsobservaties Deze praktijk is ongeveer het omgekeerde van de vorige. Het idee achter deze aanpak is dat er eigenlijk nauwelijks een psychologische test bruikbaar is voor allochtone groepen en dat daarom maar beter geen standaardinstru menten gebruikt kunnen worden. De kracht van deze benadering is de aan dacht voor vertekening in tests en de flexibiliteit die bereikt kan worden. In deze benadering moet dus veel geïmproviseerd worden. De zwakte van de benadering is dat er geen referentiemateriaal aanwezig is (zoals gegevens van norrngroepen) en dat de validiteit van het diagnostisch proces onbekend is en niet hoog hoeft te zijn. Van ongestandaardiseerde methoden, zoals het ongestructureerde interview, is bekend dat deze een erg lage validiteit kun nen hebben. De drie soorten aanpak die ik hier besproken heb proberen elk op eigen wijze om te gaan met problemen in de interculturele diagnostiek. In elk van de drie gevallen is de conclusie dat het een aanpak betreft waarvan de kern bruikbaar is, maar die, indien consequent toegepast, niet tot een adequate oplossing leidt. Elk van de drie soorten aanpak kan een probleem van multiculturele diagnostiek oplossen, maar door de eenzijdigheid van de oplossing worden andere problemen uit het oog verloren. Multiculturele diagnostiek is gebaat bij een open oog voor de problemen die kunnen spelen bij de toepas sing van een specifiek instrument bij een specifieke cliënt. Het is juist een balans van standaardisatie en flexibiliteit (samen te vatten als standaardise ring waar mogelijk, flexibiliteit waar nodig’) die het kenmerk is van adequate diagnostiek in multiculturele groepen.
Diagnostiek en testgebruik met allochtonen
Voorbeelden van modellen die deze combinatie proberen te maken zijn te vinden in de Angelsaksische literatuur in onder andere het werk van Dana (1998; zie ook Suzuki & Ponterotto, 2007). In Nederland is recentelijk een model voorgesteld door Borra et al. (2011). Ze onderscheiden een zestal stap pen in hun proces: probleemverkenning (verkenning van cliënt en pro bleem), probleemdefiniëring (specificatie van psychodiagnostisch probleem), brainstorm (mogelijke aanpak van oplossingen), plan van aanpak (keuze van instrumenten en optimaliseren van testcondities), uitvoering plan van aanpak (afname en beoordeling testbaarheid), en analyse en reflectie (evalua tie storende factoren, beantwoording initiële vraag en verantwoording). Een belangrijke eigenschap van het model is dat de zes stappen geen lineair pro ces vormen: cm de psychodiagnostiek is een aantal reflexieve pauzes of momenten te onderscheiden die aanleiding kunnen geven tot herbezinning en herformulering van het profiel van de cliënt en de vraagstelling, of tot een herziening van het plan van aanpak en de keuze van instrumenten’ (p. 275). Het vinden van een goede balans tussen standaardisatie en flexibili teit vergt ervaring en een professionele houding. Hieronder staan zes viiistre gels die als uitdrukking van een dergelijke houding gezien kunnen worden (Van de Vijver, 2011): i Er bestaat geen standaardaanpak om problemen van validiteit en verteke ning in interculturele diagnostiek op te lossen. Sensitiviteit voor proble men in deze diagnostiek en kennis van de relevante literatuur zijn belangrijker dan de keuze voor een standaardaanpak. 2 Er zijn geen cultuurvrje tests, maar er zijn wel tests die beter bruikbaar zijn en tests die minder bruikbaar zijn in interculturele diagnostiek. 3 Het afnemen van een psychologische test bij een allochtone cliënt stelt eisen aan zowel het instrument, de diagnosticus als de cliënt. 4 Het is van groot belang rekening te houden met bronnen van vertekening bij interculturele diagnostiek. 5 De kwaliteit van interculturele diagnostiek wordt sterk bepaald door het vermogen van de diagnosticus om op adequate wijze om te gaan met pro blemen als gevolg van de beperkte bruikbaarheid van tests. 6 Het getuigt van professionalisme om in de rapportage naar de cliënt en opdrachtgever duidelijk te maken hoe met de culturele achtergrond van de cliënt rekening gehouden is. De professionele attitude die kenmerkend is voor de goede diagnosticus is een combinatie van ‘kunde en kunst’, van competentie en creativiteit. Naar mate we meer ervaring hebben met multiculturele diagnostiek en meer onderzoek gedaan hebben naar de validiteit van deze diagnostiek zuilen test-
______________________________________________________________________________________________
216
Psychologie en de multiculturele samenleving
keuze, -afname en -interpretatie steeds het karakter van een kunde krijgen en steeds minder kunst zijn (Dana, 1998).
Conclusie
9.4
In de komende periode is het zaak verder te gaan professionaliseren om een hoger niveau van kwaliteit in de diagnostiek van en testgebruik bij allochto nen te bereiken. Enerzijds moet de opgebouwde kennis verder worden ver spreid onder testgebruikers en cliënten; anderzijds dient het onderzoek dat uitgevoerd is van nieuwe impulsen te worden voorzien om duidelijk te com municeren aan testgebruikers wat cbest practices’ zijn op het terrein van mal ticulturele diagnostiek. Bij het kiezen van een test stelt de diagnosticus zich de vraag of het instrument wel betrouwbaar is. Bij het kiezen van een test bij een allochtone cliënt ligt het voor de hand om daar de vraag aan toe te voegen of de test wel bruikbaar is voor de cliënt. Multiculturele diagnostiek moet een prominentere plaats krijgen in onderzoek, opleiding en communi catie tussen psychologen. Het ‘multiculturaliseren’ van de Nederlandse psy chologie heeft nog een lange weg te gaan, maar de vooruitzichten zijn goed. De combinatie van druk vanuit cliënten naar cultuursensitieve behandeling op maat, de wens van psychologen en andere professionals die met psycho logische tests werken (in bijvoorbeeld onderwijs en zorg) om hun niveau van professionaliteit te verhogen en de jaar na jaar expanderende weten schappelijke kennis zullen zorgdragen voor verdere ontwikkelingen op aller lei terreinen van multiculturele diagnostiek in de komende jaren.
Literatuur Allen, 1. (1998). Personality assessment with Arnerican Indians and Alaska Natives: Instrument consi derations and service delivery style. Journal of Personality Assessment, 70, 17-42. Arends-Thth, J.V.
(2003).
Psychological acculturation of Turkish migrants in the Netherlands: Issues in
theory and assessrnent. Amsterdam: Dutch University Press. Beck, A.T., Ward, CH., Mendelson, M., Mock, J. & Erbaugh, J. (i6i). An inventory for measuring depression Archives for General Psychiatry, 4, 561-571. Berg, R.H. van den
(2001).
Psychologisch onderzoek in een multiculturele samenleving: Psychologische
tests, interview- en functioneringsheoordelingen. Amsterdam: Vrije Universiteit. Bleichrodt, N., Drenth, P.J.D., Zaal, J.N. & Resing, W.C.M. (1984). Revisie Amsterdamse Kinder Intelligentie Test. Lisse: Swets & Zeitlinger.
Diagnostiek en testgebruik met allochtonen
Bochhah, N., Kort, W., Seddik, 1-1. & Vijver, F.LR. van de
(2001).
Deskundigen over het testen van etni
sche minderheden. Rotterdam: Argus. Borra, R., Dijk, R. van & Verboom, R.
(2osI).
Cultuurbewuste diagnostiek; een methodische aanpak. In
R. Borra, R. van Dijk & R. Verboom (Red.). Cidtuur en psychodiagnostiek. Professioneel werken niet psychodiagnostische instrumenten (pp. Camihi, G. & Shepard, LA. Catteil, R.B.
(1940).
(1994).
Houten: Bohn Stafleu van Loghum.
271-281).
Methods for idenijfying biased test items. Thousand Oaks, CA: Sage.
A culture-free intelligence test, T. Journal of Educational Psychology,
31, 176-199.
Catteil, R.B, & Catteil, A.K.S. (1963). Culture Fair Intelligence Test. Charnpaign, IL: Institute for Personality and Ability Testing. Cleary, T., & Hilton, T.L. (1968). An investigation of item bias. Educatiuncil and Psychological
Measurement,
28, 61-75.
Dana, R.H. (1998). Multicultural assessment in the United States: Stil art, not yet science, and contro
versial. European Journal of Personality Assessinent, Evers, A., Vliet-Mulder, J.C.
van
& Groot, C.J.
(2000).
14, 62-70.
Documentatie i’an tests en testresearch in
Nederland. Amsterdam: NIP-Dienstencentrum. Eysenck, H.J. & Eysenck, S.B.G. (1983). Recent advances in the cross-cultural study of personality. In IN. Butcher & C.D. Spielberger (Eds.). Advances in personality assessment (Vol. z, pp. 41-69). Hillsdale, NJ: Eribaum.
Culturele vertekening in Schwartz’ waardeninstrument. Leuven: Katholieke
Fontaine, J.
Universiteit Leuven. Frijda, N. & Jahoda, G. (1966). On the scope and methods of cross-cultural research. International
Journal of Psychology,
1, 109-127.
Hambieton, R.K. Merenda, P.F. & Spielberger, CD. (Eds.)
(2005).
Adapting educational tests and psy
chological tests for cross-cultural assessment. Mawhaw, NJ: Erlbaurn. Helms-Lorenz, M.
(2001).
Assessing cultural influences on cognitive test performance: a study with
migrant children in the Netherlands. Tilburg: Tilburg University. Hemert, D.A. van, Vijver, F.J.R. van de, Poortinga, Y.H. & Georgas,
J. (.ooij. Structural and functional
equivalence of the Eysenck Personahity Questionnaire within and between countries. Personailty and
Individual Differences, 33,
1229-1249.
Herk, H. van, Poortinga, Y.H. & Verhailen, T.M.M.
(2004).
Response Styles in Rating Scales: Evidence
of Method Bias in Data From Six EU Countries. Journal of Cross-Cultural Psychology, 35, 346-360. Hessels, M.G.P.
(1993).
Lecrtest voor etnische minderheden: Theoretische en einpirische verantwoording.
Rotterdam: RISBO. Ho, D.Y.F. (1996). Fihial piety and its psychological consequences. In M.H. Bond (Ed.). Handbook of Chinese psychology (pp. 155-165). Hong Kong: Oxford University Press. Hofstee, W.K.B.
(1990).
Toepasbaarheid van psychologische tests bij aliochtonen. De Psycholoog, 45,
291-294.
Hofstee, W.K.B., Campbell, W.H., Eppink, A., Evers, A., 10e, R.C., Koppel, J.M.H. van de, Zweers, H., Choenni, C.E.S. & Zwan, T.J. van der
(1990).
Toepasbaarheid van psychologische tests bij allochtonen.
Utrecht: Landelijk Bureau Racismebestrijding. LBR-serie nr.
ii.
217
218
Psychologie en de multicultu rele samenleving
Holland, P.W. & Wainer, H. (Eds.) (‘993). Differential item functioning. Hillsdale, NJ: Erlb auin. Jensen, A.R. (1980). Bias in mental testi ng. New York: Free Press. Johnson T.P. (1998). Approaches to equi valence in cross-cultural and cross-national survey research in cross-cultural survey equivalence. ZUM A Nachrichten, No. 3, pp. 1-40. Kleiriman, A.M. (1977). Depression, soni atization and the new cross-cultural psyc hiatry. Soci and Medicine,
al Science
11, 3-10.
Knipscheer, J.W. (zooo). Cultural conv ergence and divergence in mental healt h care: Empirical studies on meutal distress and help-seeking beha viour of Surinamese, Ghanaian, Turk ish and Moroccan nigrants in the Netherlands. Veenenda al: Universal Press.
Kort, W., Schittekatte, M., Dekker, P.H. , Verhaeghe, P., Compaan, EL., Bosmans, M. & Vermeir, G. (2005). WISC-III NL. Hand leiding en verantwoording. London: The Psychological Corporation. Leest, P.F. van (1997). Persoonlijkheidsm eting bij allochtonen. Lisse: Swets & Zeitl inger. Lonner, W.J. & Berry, J.W. (Eds.) (1986) . Field methods in cross-cultural resea rch. Newbury Park, CA: Sage. Maesen de Sombreff, P.A.E.M. van der & Abell, P. (2001). Interview en arbeidsproev en hij allochtone sollicitanten. In N. Bleichrodt & F.J.R. van de Vijver (Eds.). Het gebruik van psycholo gische tests bij alloch tonen (pp. 140-157). Lisse: Swe ts & Zeitlinger. Malda, M., Vijver, F.J.R. van de & Tem ane, M.Q. (2010). Rugby versus soccer in South Africa: Content familiarity explains most cross-cultural differences in cognitive test scores. Intel ligence, 38, 582-595. McCrae, R.R. & Costa, P.T., (1997). Pers onality trait structure as a human universal . American Psychologist,
52, 509-516.
Nijenhuis, j. te (1997). Coniparability of test scores Jor inlmigrants and rnajo rity group inembers in the Netherlands. Amsterdam: Vrije Universit eit. Nkaya, H.N., Huteau, M. & Bonnet, 1. (1994). Retest effect on cognitive performance on the Raven.38 Matrices in France and in the Congo. Perc eptual and Motor Skills, 78, 503-510. Patel, V., Abas, M., Broadhead, Todd , C. & Reeler, A. (2001). Depression J., in developing countries: lessons from Zimbabwe. British Medical Jour nal, No.322, 482-484. Poortinga, Y.H. (1989). Equivalence of cross -cultural data: An overview of hasic issue s. International Journal of Psychology, 24, 737-756. Poortinga, Y.H. (2001). Het gebruik van psychologische tests bij allochtonen: Prob leembeschrijving. In N. Bleichrodt & F.J.R. van de Vijver (Eds .). Het gebruik van psychologische tests bij alloch tonen (pp. 5-31). Lisse: S14’ets & Zeitlinger. Resing, W.C.M. & 1-Jessels, M.G.P. (200 1). Het meten van de cognitiev e mogelijkheden en het schoolgedrag van allochtone kinderen. In N. Blei chrodt & F.J.R. van de Vijver (Eds.). Het gebruik van psy chologische tests bij alloch tonen (pp. 75-103 ). Lisse: Swets & Zeitlinge r. Schmidt, F.L. & 1-lunter, JE. (1977). Deve lopment of a general solution to the prob lem of validity genera[ization. Journal of Applied Psyc hology,
Suzuki, LA. & Ponterotto, J.G. (Eds.)
62, 529-540.
(2007). 1-landbook of mult icultural assessment. Clinical, psycholo gical, and educational appiications (3’ ed). San Francisco: Jossey Bass.
Diagnostiek en testgebruik met allochtonen
Vijver, RJ.R. van de
(1997).
Meta-analysis of cross-cultural comparisons of cognitive test performance.
Jouraal of Cross-Cultural Psychology, Vijver, F.J.R. van de
(2011).
219
28,
678-709.
Interculturele psychodiagnostiek. In R. Borra, R. van Dijk & R. Verboom
(Red.). Cultuur en psychodiagnostiek. Professioneel werken met psychodiagnostische instrumenten (pp.
11-22).
Houten: Bohn Stafleu van Loghum.
Vijver, F.J.R. van de & Bleichrodt, N.
(2001).
Conclusies. In N. Bleichrodt & F.J.R. van de Vijver (Eds.).
Het gebruik van psychologische tests bij alloch tonen (pp. Vijver, F.J.R. van de, Fontaine, J.R.J. & Schittekatte, M.
237-243).
(2007).
Lisse: Swets & Zeitlinger.
Diagnostiek bij allochtone leerlingen. In
K. Verschueren & H. Koomen (Eds.). Handboek diagnostiek in de leerlingen begeleiding (pp.
251-263).
Antwerpen/Apeldoorn: Garant-Uitgevers.
Vijver, F.J.R. van de & Leung, K.
(1997).
Methods and data analysis for cross-cultural research. Newbury
Park, CA: Sage. Vijver, F.J.R. van de & Phalet, K.
(2004).
Assessment in multicultural groups: The role of acculturation.
Applied Psychology: Au International Review, 53, Vijver, F.J.R. van de & Tanzer, N.K.
(2004).
215-236.
Bias and equivalence in cross-cultural assessment: An
overview. European Review of Applied Psychology, 54,
119-135.
Vijver, F,J.R. van de & Willemse, G.R. (‘99’). Are reaction time tasks hetter suited for ethnic minorities than paper-and-pencil tests? In N. Bleichrodt & P.J.D. Drenth (Eds.), Contemporary issues in cross cultural psychology (pp. 450-464). Lisse: Swets & Zeitlinger. Vijver, F.J.R. van de, Willemse, G.R.C.M. & Rijt, B.A.M. van de digheden van allochtone leerlingen. De Psycholoog, 28,
Het testen van cognitieve vaar
152-159.
4:,