3. VALIDITEIT 3.1 Inleiding Experimenteel onderzoek is erop gericht om hypotheses te falsifiëren. In experimenteel onderzoek wordt getracht causale verbanden aannemelijk te maken. Wanneer na afloop van het onderzoek de hypothese bevestigd is, wordt het aannemelijk geacht dat een verandering in de onafhankelijke variabele een verandering in de afhankelijke variabele veroorzaakt. Tussen beide variabelen is een causaal verband aannemelijk gemaakt. 3.2 Causaliteit Een causaal of oorzakelijk verband tussen twee variabelen is vanzelfsprekend iets anders dan de constatering dat beide variabelen samenhangen. Als we vuurstenen op elkaar slaan ontstaan er vonken. Er is dus een samenhang tussen het ontstaan van vonken en het op elkaar slaan van vuurstenen. In dit geval kunnen we een stap verder gaan en zeggen dat er vonken ontstaan doordat er vuurstenen op elkaar geslagen worden. Maar neem nu het volgende voorbeeld: er is een zekere samenhang tussen de lengte van personen en hun gewicht: lange mensen zijn over het algemeen zwaarder dan korte mensen, of omgekeerd: korte mensen zijn over het algemeen lichter dan lange mensen. Is er nu sprake van een causale relatie tussen lengte en gewicht? Wordt de lengte van een persoon veroorzaakt door zijn gewicht? Of, wordt zijn gewicht bepaald door zijn lengte? Nee, natuurlijk niet. In dit geval is er louter sprake van een samenhang (beide variabelen worden beïnvloed door andere variabelen als genetische eigenschappen of voedingspatronen). Een causaal verband is in feite een speciale vorm van samenhang. Eén van de eisen is natuurlijk dat de oorzaak aan het gevolg vooraf gaat. Daarnaast is het essentieel dat gedemonstreerd kan worden dat het effect of gevolg niet optreedt wanneer de oorzaak afwezig is. En dat het effect optreedt wanneer de oorzaak aanwezig is. Dit laatste punt is voor sociaalwetenschappelijk onderzoek, èn dus voor toegepast wetenschappelijk onderzoek, zeer lastig. Daarom zullen we dit verder uitdiepen. De sociale wetenschappen zijn een relatief jong wetenschappelijke discipline. Dit heeft tot gevolg dat vele theorieën niet uitgekristalliseerd zijn: er bestaan nog vele gaten in de theorieën. De consequentie hiervan is dat relaties vaak op uitsluitend globaal niveau gespecificeerd kunnen worden, zonder dat deze op microniveau verklaard kunnen worden. Bijvoorbeeld: Er is een causaal verband tussen een experimentele cursus ter verbetering van de leesvaardigheid en de leesvaardigheid van leerlingen in de hoogste groep van het basisonderwijs. Een dergelijke hypothese geeft niet aan welke cognitieve (mentale) processen deel uit maken van leesvaardigheid en welke cognitieve processen in de experimentele cursus aangeleerd wor.
40 den, laat staan hoe de relatie is tussen de bij de leerlingen al aanwezige vaardigheden en de ‘verbeterde’ vaardigheden. De hypothese is dus vrij globaal van aard. Toch is het in onze ogen ook op zo’n globaal niveau zinvol om over causale verbanden te spreken. We wijzen er op dat niet alle relevante variabelen in deze hypothese (en dus dit onderzoek) zijn opgenomen. Zo wordt in deze hypothese geen aandacht besteed aan eventuele relevante variabelen als: eerdere leerervaringen, sociaaleconomische status, moedertaal van de leerling, motivatie aspecten et cetera. Een lijst met eventueel relevante variabelen kan zeer lang zijn en er kan in geen enkel onderzoek rekening gehouden worden met alle mogelijk relevante variabelen. De consequentie hiervan is dat − onder de aanname van het genoemde globale specificatieniveau − causale relaties altijd probabilistisch van aard zijn. Dat wil zeggen: dat over een verband tussen variabele x en y ‘slechts’ wordt beweerd dat de relatieve verdeling over de waarden van variabele y van eenheden die op x een bepaalde waarde hebben, anders is dan die van eenheden die op x een andere waarden hebben. Zo kan het voorkomen dat in een onderzoek de genoemde (alternatieve) hypothese niet geaccepteerd kan worden, omdat de leerlingen in de experimentele conditie bijzonder gedemotiveerd waren. Of om een natuurkundig voorbeeld te geven: er is natuurlijk een causale relatie tussen het omdraaien van het lichtknopje en het aangaan van het licht. Echter, niet elke keer dat het lichtknopje omgedraaid wordt hoeft het licht aan te gaan. Immers, de lamp kan kapot zijn, of de stop is gesprongen, de stroom is afgesloten, et cetera. Het probabilistische aspect is een gevolg van het feit dat men niet alle tussenliggende processen en factoren kent. Er is een zekere afstand tussen oorzaak en gevolg. In de sociale wetenschappen betekent een causale relatie dat een effect optreedt onder gespecificeerde omstandigheden (bijvoorbeeld: de lamp is intact). Naarmate de afstand tussen de oorzaak en het gevolg groter is, is de relatie ondoorzichtiger en zal de kans dat het effect optreedt kleiner zijn. Prachtige voorbeelden van dit laatste vinden we in onderzoek naar de effectiviteit van lesmethoden. In talloze studies (zie bijvoorbeeld: Chall 1983) worden de effecten van verschillende leerboeken vergeleken. De traditionele opzet van zo’n studie is: de vaardigheden van de leerlingen worden vooraf gemeten, en na enige tijd − variërend van ongeveer acht weken tot een jaar – nogmaals getoetst. Verwacht wordt dat de nulhypothese − er is geen verschil in gemiddelde prestaties tussen klassen ten gevolge van het gebruikte leerboek bij de eindmeting − verworpen zou kunnen worden ten gunste van de alternatieve hypothese − er is wel een verschil in gemiddelde prestaties tussen leerboeken bij de eindmeting. In vrijwel geen van deze studies kon een duidelijk verschil tussen de leerboeken aangetoond worden. Pas later heeft men bedacht dat het niet alleen het leerboek is dat een verschil maakt, maar vooral hoe er door de docent met het leerboek wordt omgegaan (zie: Kuhlemeier, Melse & Van den Bergh, 1995). Daarnaast is er pas recentelijk aandacht voor de vraag wat de leerling doet tijdens de les: let deze op, is deze met het vak bezig, of doet deze wat anders (Creemers, 1994)? De laatst genoemde
HOOFDSTUK 3: VALIDITEIT factoren (wat doet de docent, en wat doet de leerling?) kunnen opgevat worden als invulling van een oorzaak-gevolg-mechanisme, waardoor de afstand van oorzaak tot gevolg kleiner wordt. 3.3 Validiteit
De vraag naar validiteit richt zicht op de geldigheid van de getrokken conclusies. Deze vraag kunnen we opsplitsen in drie deelvragen: 1)
In hoeverre zijn de conclusies over de relaties tussen de afhankelijke en de onafhankelijke variabele geldig?
In hoeverre zijn de uitwerkingen, operationaliseringen, van de afhankelijke en onafhankelijke variabele adequaat? 3) In hoeverre kunnen de conclusies gegeneraliseerd worden? Bij de eerste vraag gaat het om de interne validiteit. De tweede vraag richt zich op de constructvaliditeit en bij de derde vraag is de externe validiteit van het onderzoek in geding. Deze drie vormen van validiteit zullen wij in de navolgende paragrafen toelichten. 2)
3.3.1
Interne validiteit
Het is vanzelfsprekend de bedoeling om in een experimenteel onderzoek zoveel mogelijk alternatieve verklaringen voor de onderzoeksresultaten uit te sluiten. Er moet immers aangetoond worden dat er een causaal verband is tussen twee variabelen A en B en daarbij moeten storende factoren zoveel mogelijk onder controle gehouden worden. Wat bijvoorbeeld te denken van het volgende onderzoek: Dudink (1985) vraagt zich af of vierdeklassers (uit het basisonderwijs) kunnen leren studeren. Daarom ontwerpt Dudink een onderwijsprogramma om studievaardigheden aan te leren. Dit onderwijsprogramma is in principe gebaseerd op het leren schematiseren van zakelijke teksten. Om na te gaan of het ontwikkelde studeerprogramma van invloed is op de prestaties van de leerlingen verzorgt Dudink het onderwijs in drie vierde klassen. De helft van de leerlingen krijgt tien uur les volgens het experimentele studeerprogramma, terwijl de andere helft van de leerlingen zonder instructies schema’s van teksten moeten maken. Na afloop van de cursus wordt geconcludeerd dat de resultaten van het onderzoek niet tegenvallen; de vierdeklassers in de experimentele conditie kunnen beter studeren dan de vierdeklassers in de controleconditie. De experimentele cursus heeft dus effect gehad.
De vraag of Dudink een juiste of terechte conclusie getrokken heeft is een vraag naar de interne validiteit van zijn onderzoek. De interne validiteit heeft betrekking op de relaties tussen gemeten of gemanipuleerde variabelen, en is onafhankelijk van de (theoretische) constructen die de verschillende variabelen representeren (vandaar de term ‘interne validiteit’). Of, anders gezegd: de vraag naar de interne
42 validiteit is een vraag naar mogelijke alternatieve verklaringen voor de gevonden onderzoeksresultaten. Veel van de mogelijke alternatieve verklaringen kan men ondervangen in de manier waarop de gegevens worden verzameld. Laten we de meest in het oog lopende bedreigingen van de interne validiteit eens doornemen (Cook & Campbell, 1979). 1. Geschiedenis is een bedreiging van de interne validiteit. We doelen met geschiedenis op gebeurtenissen die plaatsvinden tussen een voormeting en een nameting, die geen deel uitmaken van de experimentele manipulatie (de onafhankelijke variabele), maar wel van invloed zouden kunnen zijn op de afhankelijke variabele. In laboratoriumonderzoek wordt de ‘geschiedenis’ onder controle gehouden door de proefpersonen af te sluiten van invloeden van buitenaf, of door afhankelijke variabelen te kiezen die nauwelijks beïnvloed kunnen worden door externe factoren. In veldonderzoek is het onder controle houden van invloeden van buitenaf veel lastiger, en vaak zelfs onmogelijk. In het volgende voorbeeld wordt dit duidelijk. Er wordt een landelijk onderzoek gepland naar het effect van de reclame voor ‘glaasje-op-laat-je-rijden’. Hiertoe worden de alcoholcontroles in het verkeer geïntensiveerd. De gegevens uit deze alcoholcontroles dienen ter bepaling van het algemene niveau (een dergelijke meting vooraf wordt wel een voormeting genoemd). Daarna volgt een intensieve reclamecampagne; iedere dag wordt in elk reclameblok gedurende 30 seconden het reclamefilmpje getoond. Een maand later wordt er opnieuw een verkeerscontrole gehouden (nameting). Het effect van de reclamecampagne zou moeten blijken in een afname van het aantal automobilisten dat tussen de eerste en de tweede controle met teveel alcohol in het bloed achter het stuur zat. Helaas voor de onderzoekers zijn tussentijds de straffen op het rijden onder invloed verzwaard, met alle gevolgen van dien.
Een door de onderzoekers gevonden verschil tussen de voor- en nameting kan twee oorzaken hebben. Het kan een gevolg zijn van de reclamecampagne, maar het kan ook een gevolg zijn van de verzwaring van de straffen, of misschien zelfs wel een effect van een combinatie van beide maatregelen. Hoe het ook zij, de onderzoekers kunnen door de storende factor van buitenaf, waar zij geen invloed op hadden, geen eenduidig causaal verband leggen tussen de onafhankelijke variabele (reclamecampagne) en de afhankelijke variabele (aantal automobilisten onder invloed). 2. Met rijping wordt het effect van het ouder worden (natuurlijke ontwikkeling) van proefpersonen aangegeven. Als de proefpersonen gedurende een onderzoek ouder, meer ervaren of sterker worden, èn het ouder worden is niet opgenomen in de onderzoeksvraag, dan is rijping een bedreiging van de interne validiteit. Een speciale vorm van rijping is de zogenaamde testwijsheid, i.c. trainingseffecten. Door veel ervaring op te doen met het maken van bepaalde typen tests, worden de prestaties van proefpersonen beduidend beter.
HOOFDSTUK 3: VALIDITEIT Traub & Fisher (1977), bijvoorbeeld, waren geïnteresseerd in de vraag of het beantwoorden van open en gesloten vragen een beroep doet op dezelfde intellectuele vaardigheden. Dit onderzoek is dus een onderzoek naar de validiteit van gesloten vragen. Traub & Fisher verzamelden de prestaties van studenten die in één maand zes toetsen maakten met dezelfde vragen. Het enige verschil tussen de toetsen was de vraagvorm. Vier voorbeelden: • Wanneer bereikte Columbus Amerika?
......
• In .... bereikte Columbus Amerika. • Wanneer bereikte Columbus Amerika? a. 1942
b. 1592
c. 1492
d. 1249
• Bereikte Columbus Amerika in 1492? a. ja
b. nee
Na een intensieve analyse van de verzamelde gegevens kwamen Traub en Fisher tot de conclusie dat de wijze waarop een vraag gesteld wordt de prestaties beïnvloedt. Zo bleek onder andere dat studenten op toetsen met gesloten vragen hoger scoorden dan op toetsen met open vragen.
Het zal uit dit voorbeeld duidelijk zijn dat een willekeurige respondent die alle vraagvormen voorgelegd krijgt de eerste keer anders tegen een vraag aankijkt dan wanneer hij deze voor de vierde keer onder ogen krijgt. Zo zouden mogelijke geheugeninvloeden een rol kunnen spelen; de respondent heeft dan het antwoord, dat hij eerder gegeven heeft op een vraag, onthouden. Deze alternatieve verklaring wint aan kracht als we bedenken dat de studenten in dit onderzoek zes versies van een vraag in anderhalve week gemaakt hebben. Het effect van vraagvorm dat Traub en Fisher aangetoond menen te hebben, zou ook een effect van rijping kunnen zijn. In dit voorbeeld is er sprake van rijping doordat de proefpersonen vele malen achtereen dezelfde vragen beantwoordden. Rijping kan ook optreden wanneer respondenten hun antwoorden op een relatief onbekende wijze kenbaar moeten maken (bijvoorbeeld in een relatief ingewikkelde meerkeuzevorm). De eerste keer dat zij dan vragen beantwoorden kan de wijze van beantwoorden interfereren met de beantwoording. Als later een vergelijking gemaakt wordt tussen de eerste en de tweede antwoorden, wordt niet alleen een effect van de experimentele manipulatie geëvalueerd, maar ook een effect van oefening in de wijze van beantwoorden, oftewel: rijping. 3. Ook de instrumenten die voor een onderzoek gebruikt worden, zouden een bedreiging kunnen vormen voor de interne validiteit. Met name wanneer op de verschillende meetmomenten niet exact dezelfde toets wordt afgenomen. Soms is het niet wenselijk om twee keer dezelfde toets af te nemen. Dit geldt bijvoorbeeld wanneer het interval tussen beide meetmomenten erg klein is en de onderzoeker niet wil dat er geheugen-effecten optreden. De onderzoeker moet dan echter zeker zijn dat de instrumenten op de verschillende meetmomenten exact dezelfde vaar-
44 digheden meten. Dit is een lastige zaak; de onderzoeker moet aantonen dat de verschillende instrumenten exact hetzèlfde construct meten. Een voorbeeld uit de praktijk maakt dit probleem wellicht duidelijk. Schrijven is een belangrijke vaardigheid waaraan veel tijd besteed wordt in het voortgezet onderwijs. Er is echter nauwelijks een uitgewerkte didactiek voorhanden. Een veelbelovende didactiek lijkt: het laten beoordelen van concept-opstellen door medeleerlingen (‘peer-evaluation’), waarna de schrijver zijn opstel moet herzien. Leerlingen kunnen in theorie beter elkaars werk beoordelen, omdat zij elkaars fouten en problemen veel beter begrijpen dan docenten. Docenten staan (te) ver boven de stof, waardoor zij ‘eenvoudige’ problemen niet meer begrijpen. Bovendien worden door de beoordelingstaak leerlingen veel meer bij het schrijven betrokken, met alle positieve motivationele aspecten van dien. Rijlaarsdam (1986) deed een onderzoek naar het effect van ‘peer-evaluation’ op de kwaliteit van schrijfproducten. Hij onderscheidde twee condities. In de experimentele conditie moesten de leerlingen concept-opstellen herschrijven op basis van commentaar door medeleerlingen, terwijl in de controleconditie het herschrijven plaatsvond op basis van het commentaar van de docent. De opzet van zijn onderzoek was (enigszins vereenvoudigd) als volgt: eerst schrijven de leerlingen een opstel over ‘stress bij scholieren’, dan volgt het schrijfonderwijs, waarna nogmaals een opstel geschreven wordt, met als onderwerp: ‘de zin en onzin van huiswerk’. De schrijfproducten op beide opdrachten worden beoordeeld, waarna getoetst is of de gemiddelde prestaties in beide condities verschilden.
In dit onderzoek is er een duidelijk verschil tussen de voor- en de nameting. Voor de voormeting moesten de leerlingen een opstel over ‘stress bij scholieren schrijven’, terwijl bij de nameting een opstel over ‘de zin en onzin van huiswerk’ geschreven moest worden. De vraag is of met beide schrijfopdrachten exact hetzelfde wordt gemeten. Verschillen tussen beide opdrachten zijn evident. Zo zal ‘stress’ voor veel scholieren een abstracter concept zijn dan huiswerk. Alleen al door de enorme ervaring die leerlingen hebben met huiswerk zullen zij veel makkelijker relevante informatie uit hun geheugen opdiepen over huiswerk dan over stress. Er lijkt een gerede kans dat een verschil in prestaties tussen de scores op de voortoets en de natoets te wijten zal zijn aan een effect van onderwerp. Eigenlijk ligt hier een groot validiteitprobleem. Als op de verschillende momenten een (deels) ander aspect van de schrijfvaardigheid gemeten is, dan kàn men geen duidelijke relatie aantonen tussen de schrijfprestaties op de meetmomenten. (Merk op dat Rijlaarsdam dat ook niet behoeft te doen als het hem er om gaat een (causaal) effect van zijn experimentele schrijfcursus aan te tonen. Dan kan hij, zoals hij doet, volstaan door te stellen dat de ‘groei’ in schrijfvaardigheid verschilt tussen de beide condities, ook als hij rekening houdt met eventuele verschillen in het begin van het onderzoek). 4. Een volgende bedreiging van de interne validiteit staat bekend als het effect van regressie naar het gemiddelde. Regressie naar het gemiddelde is een effect dat een rol kan spelen zodra het onderzoek gericht is op speciale groepen; bijvoorbeeld
HOOFDSTUK 3: VALIDITEIT slechte lezers, slechte schrijvers, maar evenzo: goede lezers, goede schrijvers et cetera. Regressie naar het gemiddelde is een fenomeen dat niet direct intuïtief duidelijk is. Laten we daarom een voorbeeld geven alvorens dit effect in algemene bewoordingen behandelen. Er is enige controverse over het gebruik van illustraties in kinderboeken. Sommigen menen dat in boeken waarmee kinderen leren lezen geen (of zo min mogelijk) illustraties mogen voorkomen. Illustraties leiden de aandacht af van te leren kenmerken van woorden. Anderen menen dat in illustraties wezenlijke informatie weergegeven kan worden. Illustraties dienen als extra informatiebron. Ook de beginnende lezer kan van deze extra informatie al op een verstandige wijze gebruik maken. Deze korte inleiding hoort bij een onderzoek van Donald (1983) naar de invloed die uitgaat van illustraties bij teksten op het begrip van de tekst. Donald maakte uit 1868 leerlingen uit de derde en zesde groep van het basisonderwijs een selectie van 120 leerlingen; 60 uit elk van beide groepen. Volgens de prestaties op een eerder afgenomen leestoets bleken van de 60 leerlingen per klas er 30 als zeer slechte en 30 als zeer goede lezers geclassificeerd te kunnen worden. Elke leerling kreeg een tekst met illustraties te zien, of dezelfde tekst maar dan zonder illustraties. In onderstaand schema is de afnameprocedure weergegeven. geen illustraties slechte lezers goede lezers groep 3 groep 6 groep 3 groep 6 15 15 15 15
wel illustraties slechte lezers goede lezers groep 3 groep 6 groep 3 groep 6 15 15 15 15
Dus: vijftien slechte lezers uit de eerste klas kregen een tekst met illustraties, vijftien slechte lezers kregen de tekst zonder illustraties et cetera. De resultaten bleken goeddeels de tweede hypothese te ondersteunen; illustraties bevorderen het begrip van de tekst, ook bij onervaren lezers. Het bleek dat met name de slechte lezers de tekst met illustraties beter begrepen èn dat jongere lezers voordeel ondervonden van de illustraties. Dit is in de onderstaande figuur weergegeven. Gemiddeld percentage correct beantwoorde vragen (y-as) voor goede (G) en zwakke lezers uit de 3de en 6de groep in een conditie mét en een conditie zonder illustraties (x-as). Percentage goede antwoorden
90
3_G
70
3_G 6_G
6_G
3_Z 6_Z
50
30
6_Z 3_Z
10
Zonder illustraties
Met illustraties
46 Wat is er nu mis met dit onderzoek? Het antwoord is gelegen in de selectie van de leerlingen. De prestaties op de eerste leesvaardigheidtoets worden namelijk altijd beïnvloed door toevallige factoren; factoren die niets met leesvaardigheid te maken hebben: Klaas voelde zich niet lekker, daarom heeft hij deze toets slecht gemaakt, Marietje was met haar gedachten elders, Jan had last van zijn been, Cindy was enorm gemotiveerd en heeft zichzelf overtroffen. Met andere woorden: de leesvaardigheid is niet geheel betrouwbaar gemeten. Dit betekent: (1) dat de slechte lezers die toevallig boven hun niveau gepresteerd hebben, ten niet bij de slechte lezers geteld werden, maar deel uitmaakten van de groep ‘goede’ lezers; en (2) dat leerlingen die op deze toets toevallig onder hun niveau gepresteerd hebben, ten onrechte als slechte lezers bestempeld worden. Onder de slechte lezers zitten dus altijd ook een paar lezers die helemaal zo slecht nog niet zijn. Ten aanzien van de goede lezers geldt hetzelfde. De groep goede lezers bestaat dus deels uit echt goede en deels uit niet zulke heel goede lezers. Wanneer de slechte lezers, die ten onrechte geselecteerd zijn een tweede leestoets maken (nadat zij een tekst met of zonder illustraties bestudeerd hebben), dan zullen zij meestal weer op hun gewone niveau presteren. Een hogere score op de tweede toets (de natoets) kan dus een artefact zijn van de selectiemethode. Wederom geldt ongeveer hetzelfde voor de ten onrechte geselecteerde goede lezers. Als deze leerlingen een tweede leesvaardigheidtoets maken, dan is de kans groot dat zij weer op hun gewone niveau presteren. De score op de natoets ligt voor hen dus lager dan de score op de voortoets. Voor het aangehaalde onderzoek van Donald betekent dit dat met name het geconstateerde verschil tussen slechte en goede lezers gedeeltelijk toevallig is. Zonder dat we spreken van een effect van illustraties kunnen we verwachten dat op een tweede test de goede lezers als groep minder goed zullen presteren en dat de slechte lezers als groep beter zullen presteren. Met andere woorden: het aanvankelijke verschil tussen de groepen goede en slechte lezers wordt minder groot alleen om toevallige (!) redenen (regressie naar het gemiddelde). Het zal duidelijk zijn dat onderzoeksresultaten getroebleerd kunnen worden door dit verschijnsel. Regressie naar het gemiddelde kan ten onrechte als experimenteel effect gezien worden, of een experimenteel effect kan verdwijnen door regressie naar het gemiddelde. In het algemeen kan regressie naar het gemiddelde optreden als er een classificatie gemaakt wordt op basis van toetsprestaties die samenhangen met de natoets scores. Regressie naar het gemiddelde kan een verklaring zijn voor de winst tussen voor- en natoets scores voor een lage prestatiegroep ten opzichte van een hoge prestatiegroep. Ook het omgekeerde geldt: regressie naar het gemiddelde kan een verklaring zijn voor het verlies tussen voor- en natoets voor een hoge prestatiegroep ten opzichte van een lage prestatiegroep. Voor een ‘gemiddelde’ groep is er echter geen effect van regressie naar het gemiddelde, omdat in deze groep evenveel proefpersonen zullen zitten met een door het toeval iets te hoge als met een iets te lage uitgevallen score.
HOOFDSTUK 3: VALIDITEIT 5. Een vijfde bedreiging van de interne validiteit is selectie. Hiermee doelen we (voornamelijk) op een zodanige verdeling van proefpersonen over verschillende condities dat deze bij aanvang van het onderzoek niet gelijkwaardig zijn. Wanneer bijvoorbeeld in de experimentele conditie alle hoogintelligente leerlingen zitten, terwijl in de controleconditie alleen de relatief domme leerlingen terecht gekomen zijn, dan kan een effect niet zonder meer aan de manipulatie van de onafhankelijke variabele toegeschreven worden; het zou immers ook een effect van de verschillen in uitgangspositie (intelligentie) kunnen zijn. Nu kan de lezer denken: weinigen zullen zo onhandig zijn om dergelijke verschillen in aanvangsniveau te creëren. Echter, Riemersma (1991) construeerde in een onderzoek naar een didactiek voor het oplossen van wiskundige problemen twee groepen: een experimentele en een controlegroep. De experimentele conditie bestond voornamelijk uit havo/vwo-leerlingen, terwijl de controleconditie overwegend gevuld was met mavo/lbo-leerlingen. Kan nu geconcludeerd worden, zoals Riemersma deed, dat de prestaties in de experimentele conditie beter zijn vanwege zijn nieuwe onderwijsmethode? Of, kan een alternatieve verklaring ontleend worden aan de a priori verschillen tussen de beide condities? Of, wat te denken van het volgende voorbeeld? Leerlingen van Vrije Scholen leren in de eerste klas de letters alfabetisch benoemen en de lettervormen herkennen. De consonanten worden afgeleid uit figuratieve beelden en woorden waarin ook de klank van de letter herkenbaar is. De onderstaande afbeelding illustreert hoe de letter B (Berenletter) ontstaat als abstractie van het beeld van een klimmend beertje. Bij het aanleren van vocalen en tweeklanken die na de consonanten aan bod komen, wordt een andere werkwijze dan bij de consonanten gevolgd. Het volgende citaat illustreert hoe de vormen van vocalen afgeleid worden uit gevoelens.‘Bij de klinkers gaat u er steeds vanuit dat ze het menselijk innerlijk en zijn betrekking tot de buitenwereld weergeven. Wanneer u bijvoorbeeld probeert het kind de A bij te brengen, zult u zeggen: ‘Stel je nu eens de zon voor, die je ‘s ochtends ziet. Kan niemand van jullie zich herinneren wat je hebt gedaan toen de zon opging?’ Nu zal zich misschien het een of andere kind dit herinneren, zo niet, dan moet men het kind wat helpen, zich te herinneren wat het heeft gedaan, hoe het is gaan staan en bij een bijzonder mooie zonsopgang zal hebben gezegd: ‘Ah!’. Men moet deze weergave van een gevoel laten aanslaan, men moet trachten, de resonans die in de vocaal weerklinkt, vanuit het gevoel naar buiten te halen. En men moet pogen, nu eens te zeggen: ‘Toen je zo bent gaan staan en ‘Ah!’ hebt gezegd, was het zo, alsof vanuit je innerlijk de zonnestraal naar buiten was gegaan zoals in een hoek vanuit je mond. Wat in jouw innerlijk leeft, dat laat jij zo ... uit je wegstromen en je brengt het voort wanneer je ‘A’ zegt. Je laat het echter niet helemaal wegstromen, je houdt iets ervan achter en dat wordt dit teken: A’ (Steiner, 1919/1983, p. 77).
48
Toepassing van letterkennis bij het lezen van woorden komt op Vrije Scholen ook in de volgende leerjaren nauwelijks aan bod, maar moet door overschrijven en lezen van korte teksten min of meer spontaan ontdekt worden. Uit bovenstaande kan in elk geval worden begrepen dat het aanvankelijke leesonderwijs op Vrije Scholen flink afwijkt van hetgeen traditioneel gangbaar is. Een belangrijke vraag is nu: wat zijn de effecten van deze experimentele leesmethode? Kunnen leerlingen die zo hebben leren lezen inderdaad net zo goed, of misschien zelfs beter, lezen dan leeftijdgenoten die op een meer traditionele manier lezen hebben geleerd? Om deze vraag te beantwoorden moet de leesvaardigheid van leerlingen die onderwijs op een Vrije School volgen vergeleken worden met de leesvaardigheid van leerlingen die op een traditionele wijze leren lezen.
Een onderzoeker kan in bovenstaand voorbeeld alleen gebruik maken van al bestaande groepen. Het is of onmogelijk of onverantwoord leerlingen aan de hierboven beschreven didactiek te onderwerpen, zonder dat hun ouders hier expliciet voor gekozen hebben. Echter, de groep leerlingen die naar de Vrije School gaat is een bijzondere groep, die in veel opzichten niet hetzelfde is als de ‘gewone’ basisschoolleerling. Zo komen deze leerlingen bijvoorbeeld veelal uit een wat hoger sociaaleconomisch milieu. Als er dus een positief effect van de experimentele onderwijsmethode gevonden wordt, dan zou het kunnen zijn dat hiervoor die àndere verschillen tussen de groepen verantwoordelijk zijn. Voor de goede orde: de leerlingen op de Vrije School bleken niet beter te lezen dan andere leerlingen. Het tegendeel was het geval: ze lazen beduidend slechter (Bus & Kruizinga, 1987). In veel onderwijskundig onderzoek is het onmogelijk om leerlingen van verschillende klassen op basis van het toeval aan condities toe te wijzen − dit wordt wel aselecte toewijzing genoemd (zie paragraaf 3.3.3). Dit kan namelijk onoverkomelijke organisatorische problemen met zich meebrengen. Deze organisatorische problemen omvatten meer dan alleen het (aselect) splitsen van de klas, hoewel dit vaak al lastig te realiseren is. Ook moet de onderzoeker rekenschap afleggen van mogelijke overdrachtseffecten tussen de condities; de leerlingen praten met elkaar, leren elkaar misschien zelfs wel de essentialia van de experimentele cursus. Het uitblijven van een effect zou dan op tenminste één alternatieve manier verklaard kunnen worden. Vanwege de geschetste problematiek worden vaak hele
HOOFDSTUK 3: VALIDITEIT klassen aan condities toegewezen. Maar klassen bestaan uit een aantal leerlingen van dezelfde school. Dat er bij de keuze van scholen een zelfselectie (door de ouders en/of leerlingen) plaatsvindt, behoeft nauwelijks betoog. Hierboven is al de meest eenvoudige manier uiteengezet om verschillende condities een gelijk aanvangsniveau te geven: wijs de leerlingen aselect aan de condities toe. Deze methode staat bekend als randomisatie. We kunnen bijvoorbeeld randomiseren door leerlingen eerst te nummeren en daarna de ‘even leerlingen’ aan de ene conditie en de ‘oneven leerlingen’ aan de andere conditie toe te wijzen. Bij de aselecte toewijzing van proefpersonen aan condities berusten alle verschillen tussen de condities op toeval (en middelen elkaar uit). Naar alle waarschijnlijkheid zijn er dan geen systematische verschillen tussen de onderscheiden groepen of condities. Dit geldt natuurlijk alleen wanneer de groepen groot genoeg zijn. Een tweede methode om twee gelijke groepen te creëren is matching. Bij matching worden proefpersonen eerst gemeten op een aantal relevante variabelen. Daarna worden koppels gevormd die een gelijke score op deze variabelen hebben. Van deze koppels wordt er één aan de ene conditie en één aan de andere conditie toegewezen. Matching heeft echter verschillende bezwaren. Ten eerste kan regressie naar het gemiddelde een rol gaan spelen. Ten tweede is matching, wanneer de proefpersonen op meerdere variabelen gematched moeten worden, zeer bewerkelijk, en is een grote groep potentiële proefpersonen vereist. Kortom, de relatief eenvoudige randomisatie is verre te prefereren boven matching. 6. Uitval van respondenten is de laatste interne validiteitbedreigende factor die wij zullen behandelen. In sommige gevallen begint een onderzoeker met veel proefpersonen. Gedurende het onderzoek vallen echter proefpersonen uit. Zolang het percentage uitvallers binnen redelijke grenzen blijft, is er geen probleem. Dat wil zeggen: als de uitval niet selectief is voor één van de onderscheiden condities. Is dat laatste wel het geval, dan kan er over die conditie niet veel meer gezegd worden. Het probleem van uitval speelt vooral een rol bij longitudinaal onderzoek. Dit is onderzoek waarbij een beperkte groep respondenten gedurende een langere periode gevolgd wordt. Men heeft daarbij echter te maken met mensen die verhuizen, of overlijden gedurende het experiment, of participanten die niet meer willen meewerken et cetera. Dit kan een enorme reductie van het aantal respondenten teweeg brengen. Er zijn gevallen bekend dat een onderzoeker startte met meer dan 200 respondenten om er na enkele jaren nog geen twintig over te houden. Hiermee sluiten we onze behandeling van de belangrijkste soorten bedreigingen van interne validiteit af.
50 3.3.2
Constructvaliditeit
In een experimenteel onderzoek wordt een onafhankelijke variabele gemanipuleerd. Dit kan, afhankelijk van de vraagstelling, op vele manieren. Evenzo kan de wijze waarop de afhankelijke variabele(n) gemeten wordt op verschillende manieren vorm gegeven worden. De manier waarop de onafhankelijke en de afhankelijke variabelen vorm gegeven worden noemen we de operationalisatie van deze variabelen. De leesvaardigheid van leerlingen kan bijvoorbeeld geoperationaliseerd worden als hun score op een tekstbegriptoets met open vragen; hun score op een 1 tekstbegriptoets met meerkeuzevragen; hun score op een cloze-toets ; of als de mate waarin geschreven instructies uitgevoerd kunnen worden. Het aantal mogelijkheden voor de operationalisatie van variabelen is vaak schier oneindig. Zelden volgt uit een theorie één dwingende beschrijving voor de wijze van operationalisatie van de onafhankelijke of de afhankelijke variabelen. Constructvaliditeit, of begripsvaliditeit, refereert aan de mate waarin de operationalisatie van zowel de afhankelijke variabele(n) als de onafhankelijke variabele(n) een adequate afspiegeling is (zijn) van de theoretische constructen. Wordt de leesvaardigheid, zoals gemeten in een onderzoek, inderdaad geaccepteerd als een valide meting van de leesvaardigheid of staat de theorie ook andere manieren toe om de leesvaardigheid te meten? Volgens sommigen kan bijvoorbeeld de leesvaardigheid van leerlingen niet gemeten worden met behulp van meerkeuzevragen; meerkeuzevragen zijn geen adequate operationalisering van leesvaardigheid, en dus kan met behulp van meerkeuzevragen geen constructvalide meting van het theoretische construct leesvaardigheid plaatsvinden (zie bijvoorbeeld Houtman 1986, of Shohamy 1984). Zo zouden met meerkeuzevragen naast leesvaardigheid ook zaken als ‘gokvaardigheid’, ‘testwijsheid’ e.d. gemeten worden. Ook kan bij meerkeuzevragen het onderzoeksresultaat afhankelijk zijn van de specifieke keuze van antwoordalternatieven; kijk maar naar het volgende voorbeeld: Wie van de volgende personen heeft onlangs zijn autobiografie geschreven? a. Napoleon b. Prins Willem-Alexander c. Churchill d. Bell
Het zal uit deze voorbeeldvraag duidelijk zijn dat de beantwoording niet zo zeer een kwestie is van de kennis over auteurs van autobiografieën, maar veeleer een kwestie van algemene (geschiedkundige) kennis. Het antwoord is volledig duidelijk, als men bedenkt dat drie van de vier genoemde personen al lang dood zijn en dus niet recentelijk een autobiografie geschreven kunnen hebben. Kortom, deze vraag is niet constructvalide voor het meten van kennis over autobiografieën.
1 Een cloze-toets is een soort leestoets waarbij in plaats van elk nde woord een streepje of een aantal puntjes afgedrukt zijn. De proefpersoon moet vervolgens het weggelaten woord invullen. Bijvoorbeeld: Dit is .......... cloze-toets. Het ......... zelfs een .......... vorm van .......... Want elk .......... woord is .......... .
HOOFDSTUK 3: VALIDITEIT Problemen met de constructvaliditeit gelden natuurlijk niet alleen voor meerkeuzevragen of voor andere schriftelijke vragen. Ook van mondelinge vragen kan een zeer suggestieve werking uitgaan, waardoor de antwoorden van de respondenten al dan niet bewust in een bepaalde richting gestuurd worden. In Tros-Aktua werd bijvoorbeeld eens de volgende vraag gesteld: ‘Wat vindt u van de havenstaking mede gezien de slechte economische toestand van ons land?’ Over het effect van deze beladen vraag op het mogelijke antwoord van een respondent mag ieder voor zich filosoferen. Een ander voorbeeld: een onderzoeker die een experiment verricht naar de schrijfvaardigheid, zal tenminste de schrijfvaardigheid moeten meten. De kwaliteit van de schrijfproducten zal op de één of andere manier geoperationaliseerd moeten worden; wat kenmerkt goede en wat kenmerkt slechte schrijfproducten? Een (niet uitputtende) literatuurinventarisatie bracht tenminste 150 verschillende schema’s aan het licht, waarin de kwaliteit van schrijfproducten op verschillende manieren geoperationaliseerd is (Wolowitsj 1975). De vraag is nu: wat is schrijfvaardigheid eigenlijk? Kan schrijfvaardigheid gemeten worden door een telling van relevante inhoudselementen in een tekst, moeten er zinnen geteld worden of misschien connectieven, moeten er oordelen van lezers verzameld worden over doelgerichtheid, publiekgerichtheid, stijl, − of kan misschien met één oordeel over de globale kwaliteit volstaan − moeten er spelfouten geteld worden, et cetera? En, misschien kan schrijfvaardigheid zelfs wel gemeten worden met meerkeuzevragen. Hier wreekt zich het gebrek aan een theorie, waaruit een definitie voor de kwaliteit van schrijfproducten afgeleid kan worden (Van den Bergh & Meuffels 1993). Het bekritiseren van de wijze waarop de kwaliteit van schrijfproducten bepaald is, is derhalve vrij eenvoudig; critici kunnen altijd ‘scoren’. Als het hen echter gevraagd wordt een alternatief voor de afgekeurde operationalisering- methode aan te dragen, staan critici vaak met hun mond vol tanden. Tot nog toe hebben we het gehad over problemen met betrekking tot de constructvaliditeit van de afhankelijke variabelen. Ook de operationalisatie van de onafhankelijke variabele echter, staat vaak ter discussie. Immers, de onderzoeker heeft vele keuzes moeten maken tijdens de operationalisering van zijn onafhankelijke variabele. Zo worden er in sommige studies meer onafhankelijke variabelen gelijktijdig gemanipuleerd, terwijl de onderzoeker alleen geïnteresseerd was in het effect van één van de gemanipuleerde variabelen. Evans en Ballance (1983) vergeleken de prestaties van twee groepen eerstejaarsstudenten. De experimentele groep ontving intensieve instructies in zincombinatie. De controlegroep kreeg alleen een traditioneel handboek mee om thuis te bestuderen.
In dit voorbeeld wordt volgens de auteurs het al dan niet ontvangen van onderwijs in zincombinatie gemanipuleerd. Dit is dus de onafhankelijke variabele. Daarnaast zijn echter zaken als de hoeveelheid instructie, de frequentie van contact en de
52 hoeveelheid oefeningen, samengevat: de intensiteit van de instructies, onbedoeld meegemanipuleerd. Met andere woorden: de operationalisatie van de variabele ‘wel of geen onderwijs in zincombinatie is niet zo geslaagd. In het algemeen is het beoordelen van schrijfproducten een lastige zaak. Niet alleen door het zojuist genoemde gebrek aan een eenduidige definitie, maar ook omdat er altijd beoordelaars ingeschakeld moeten worden. De kwaliteit van een stelproduct (wat daar ook onder verstaan moge worden) is immers niet direct afleesbaar; er is een interpretatie nodig en dus zijn er beoordelaars nodig. De oordelen van deze beoordelaars kunnen door allerlei factoren beïnvloed worden. In het volgende fragment is bijvoorbeeld het effect van de manipulatie van het humeur van de beoordelaars op het toekennen van cijfers onderzocht (Townsend, Kek & Tuck, 1989). Wij laten het aan de lezer over om een oordeel te vellen over de kwaliteit van de manipulatie van het humeur. De beoordelaars, 84 in getal, beoordeelden negen opstellen onder twee condities. In de ene conditie waren de beoordelaars in een goed humeur gebracht en in de andere conditie was het humeur van de beoordelaars negatief beïnvloed. Het humeur van de beoordelaars werd beïnvloed door de beoordelaars van te voren naar een film te laten kijken. Een klein half uur na afloop van de film moesten de negen opstellen beoordeeld worden. Om een goed humeur te induceren keken de 41 beoordelaars naar een komische musical, die over het zelfconcept en de eigen identiteit ging, maar belicht werd door de ogen van een eend. Om het slecht humeur te induceren moesten 43 beoordelaars naar een documentaire over Auschwitz kijken. De onderzoekers concluderen na analyse van de oordelen dat slechts enkele oordelen over de kwaliteit van de opstellen beïnvloed zijn door de manipulatie van het humeur. Helaas hebben de auteurs geen verklaring voor het gegeven dat sommige opstellen hoger gewaardeerd worden door degenen wiens humeur negatief beïnvloed is, terwijl andere opstellen hoger gewaardeerd worden door degenen wiens humeur positief beïnvloed is. Tot slot rest nog de vraag waarom de oordelen op sommige opstellen wel en op andere opstellen niet beïnvloed lijken te worden door het humeur van de beoordelaars.
We kunnen het voorgaande samenvatten met: een onderzoek is niet constructvalide, of niet begripsvalide, als de operationalisaties van de afhankelijke variabelen de toets der kritiek niet kunnen doorstaan. Dit is echter niet het enige aspect van de constructvaliditeit dat onze aandacht verdient. Een onderzoek is niet constructvalide wanneer de onafhankelijke variabele geen constructvalide operationalisatie is van het-begrip-zoals-bedoeld. In dat geval is de relatie tussen de afhankelijke variabele en de onafhankelijke variabele zoals bedoeld niet eenduidig meer; verschillen op de afhankelijke variabele hoeven niet alleen veroorzaakt te worden door de onafhankelijke variabele zoals bedoeld, maar kunnen (ook) beïnvloed zijn andere factoren. Een bekend effect in dit opzicht is het zogenaamde Hawthorne-effect. In het onderstaande fragment lichten we dit effect toe.
HOOFDSTUK 3: VALIDITEIT De directie van de Corporal Motors Company in het plaatsje Hawthorne in de VS. was gealarmeerd door de slechte bedrijfsresultaten. Niet dat de marktsituatie verslechterd was, de vraag naar het topmodel was keurig op peil gebleven, maar de productie stagneerde zienderogen. Elke week rolden er minder auto’s van de band. Omzet- en winstdaling waren het gevolg. In vroeger tijden zou een directie misschien de opdracht gegeven hebben de snelheid van de band op te voeren. Maar dat was tegenwoordig onmogelijk. Eerst moest de interne efficiëntie van het bedrijf maar eens doorgelicht worden; pas daarna zouden eventuele maatregelen genomen worden. De onderzoekers die het bedrijf kwamen doorlichten gingen zeer voortvarend te werk. De werkvloer werd letterlijk overspoeld met onderzoekers gewapend met notitieblok en stopwatch. Transportlijnen werden opgemeten en koffie- en plaspauzes geklokt. Eén onderzoeker zou zelfs het aantal sigarettenpeukjes langs de lopende band geteld hebben. Binnen één week had het onderzoeksbureau zich overbodig gemaakt. Rendementsverbeteringen hoefden niet meer doorgevoerd te worden, omdat het rendement al enorm verbeterd was: in de onderzoeksweek haalde de fabriek de hoogste productie uit haar bestaan.
Samenvattend: het Hawthorne-effect duidt niet op een effect van de manipulatie van de onafhankelijke variabele, maar op een effect ten gevolge van het feit dat de proefpersonen weten dat zij onderzocht worden. Een ander voorbeeld van het Hawthorne-effect is van eigen bodem. Eind jaren zeventig besloot de Universiteit van Leiden het onderwijsprogramma drastisch te herzien. Vele onderzoekers en didactici hebben bijzonder veel tijd en energie gestoken in de ontwikkeling van een nieuw curriculum. Een eerste evaluatie van de onderwijsprestaties van de eerstejaars liet een geweldig effect zien. Nù hadden ze tenminste iets geleerd. Evaluaties in latere jaren lieten zien dat het effect gestaag afnam, tot drie jaar na de invoering van het nieuwe onderwijsprogramma, toen de prestaties weer op het oorspronkelijke peil terug waren.
Net zoals bij de interne validiteit kan ook bij de construct- of begripsvaliditeit een aantal validiteitbedreigende factoren genoemd worden. 1. Als eerste bedreiging van de begripsvaliditeit kan mono-operationalisatie genoemd worden2. In veel onderzoeken wordt de afhankelijke variabele slechts op één manier geoperationaliseerd. De proefpersonen hoeven slechts één lees- of schrijftoets te maken of één vragenlijst in te vullen. Het onderzoek staat of valt dan met deze specifieke operationalisering van de afhankelijke variabele (bijvoorbeeld: een tekstbegriptoets aan de hand van een tekst over het ontstaan van de duinen met 40 meerkeuzevragen). Over de validiteit van deze specifieke operationalisering zijn dan geen verdere gegevens voorhanden. De onderzoeker laat in zo’n geval 2 Strikt genomen is mono-operationalisatie geen bedreiging van de constructvaliditeit. Maar een onderzoek waarin een variabele slechts op één manier geoperationaliseerd is, is veel gevoeliger voor invaliditeit.
54 ruimte voor twijfel. Strikt genomen moeten we de onderzoeker immers op zijn woord geloven omtrent de validiteit van zijn operationalisering. Dergelijk onderzoek kan veel beter worden uitgevoerd. De onderzoeker moet dan het te meten construct op verschillende manieren operationaliseren (bijvoorbeeld: het tekstbegrip van leerlingen meten met behulp van verschillende toetsen waarin zowel open als meerkeuzevragen opgenomen zijn). Wanneer de prestaties op deze toets in hoge mate samenhangen, kan aangetoond worden dat al deze toetsen hetzelfde construct vertegenwoordigen. We noemen dit convergente validiteit. Er is sprake van convergente validiteit als de prestaties op instrumenten die hetzelfde concept vertegenwoordigen in hoge mate samenhangen. Het is echter niet voldoende om te demonstreren dat toetsen die hetzelfde concept beogen te meten inderdaad convergent valide zijn. Immers, dan is nog niet aangetoond wat dit concept is. Er zou, in het tekstbegripvoorbeeld, wel eens iets gemeten kunnen zijn als spanning of faalangst, zeker wanneer het een prestatie betreft waar veel van af hangt. Daarom moet eigenlijk ook worden aangetoond dat de instrumenten divergent valide zijn ten opzichte van instrumenten die een ànder aspect of een andere (verwante) vaardigheid beogen te meten. Kortom de onderzoeker moet aan kunnen tonen dat de prestaties op instrumenten die één vaardigheid vertegenwoordigen in hoge mate samenhangen, terwijl de samenhang met instrumenten die een ander concept vertegenwoordigen weer laag is. Pas dan heeft de onderzoeker aannemelijk gemaakt dat de specifieke operationaliseringen, de toetsen, constructvalide zijn. Een bekend model voor de structuur van intellectuele vaardigheden is het Structure-of-Intellect model van Guilford (Guilford, 1971; Guilford & Hoepfner, 1971). In dit model worden maar liefst 150 verschillende intellectuele vaardigheden onderscheiden. Een onderzoeker die met behulp van dit model onderzoek wil doen heeft dus een ruime keuze uit verschillende te meten vaardigheden. Dit levert tevens een probleem op: hoe weet de onderzoeker zeker dat hij juist die ene en niet een andere vaardigheid meet? Om zicht te houden op de ernst van het probleem, zal de onderzoeker elke vaardigheid die in het onderzoek van belang is op verschillende manieren moeten operationaliseren (zelfs al is de onderzoeker slechts in één SI-vaardigheid geïnteresseerd, dan moet hij toch meer vaardigheden operationaliseren in verband met de divergente validiteit). Dan kan immers nagegaan worden of de verschillende operationalisaties van dezelfde vaardigheid onderling hoog samenhangen (convergentie), en of de samenhang met prestaties op toetsen ter meting van andere vaardigheden laag is (divergentie). Eén van de vaardigheden die in het Structure-of-Intellect model onderscheiden wordt, is de cognitie van betekenisvolle systemen. Deze vaardigheid verwijst naar de vaardigheid in het begrijpen van relatief gecompliceerde ideeën, waarvan de constituerende elementen een soort ordening of patroon vertonen. Het zal duidelijk zijn dat een dergelijke abstracte vaardigheid niet eenvoudig operationaliseerbaar is. De onderzoeker zal de vaardigheid op verschillende manieren trachten te meten, door verschillende toetsen te ontwikkelen. Mogelijke voorbeelditems voor drie toetsen zijn:
HOOFDSTUK 3: VALIDITEIT Kies het beste alternatief: 1. Kees is de oom van Elske. Gaby is de dochter van Kees. a. Elske is de nicht van Gaby. b. Elske is de dochter van Kees. c. Gaby is de moeder van Elske. d. Kees is de oom van Gaby. 2. Els is niet zo groot als Wim. Brigit is niet zo groot als Els. Wie is de kleinste? a. Els. b. Brigit. c. Wim. 3. Vul de woorden op de juiste plaats in inkt vulling
dooier dop
voet eiwit schoen vulpen sok
De onderzoeker moet aan kunnen tonen dat deze items dezelfde vaardigheid meten. Hij moet demonstreren dat deze drie verschillende operationalisaties voor de vaardigheid ‘cognitie van betekenisvolle systemen’ onderling in hoge mate samenhangen (convergeren) en weinig samenhang vertonen met toetsen ter meting van andere vaardigheden (divergeren). Pas dan kan de onderzoeker enig vertrouwen in hebben in de validiteit van de ontwikkelde toetsen. De vraag die hieraan gekoppeld kan worden is natuurlijk: hoeveel toetsen moeten er afgenomen worden om één construct te meten? Een voor alle gevallen pasklaar antwoord valt niet te geven. Veel is afhankelijk van de mate waarin er al vaker getracht is de vaardigheid in kwestie te meten en in hoeverre er al beproefde toetsen voorhanden zijn. Elshout (1976) noemde, voor essentiële concepten, een aantal van drie toetsen.
2. Ook de verwachtingen van de onderzoeker − die zich in (on)bewust gedrag uiten − kunnen de begripsvaliditeit van een onderzoek beïnvloeden. Achteraf is de invloed van de onderzoeker soms maar moeilijk te achterhalen. Vaak gaat er van de onderzoeker een meer subtiele invloed uit. Een bekend voorbeeld over de subtiliteit van invloeden van een onderzoeker of proefleider op het onderzoeksobject is dat van ‘Kluger Hans’. Kluger Hans was een paard dat kon rekenen. Als Kluger Hans gevraagd werd ‘hoeveel is 4 + 4?’, dan stampte het paard 8 maal met zijn rechter voorhoef, als gevraagd werd ‘hoeveel is 3 − 1?’, dan stampte Hans twee maal met zijn voorhoef. Dit baarde vanzelfsprekend nogal wat opzien. Daarom was dit paard het onderwerp van verschillende studies. Vele sceptische onderzoekers kwamen echter terug van hun onderzoek met de mededeling dat Hans inderdaad kon rekenen. Totdat één van hen besloot tot een experiment. De variabele die gemanipuleerd werd was de aanwezigheid van de baas. Wat bleek:
56 als de baas aanwezig was, dan kon Kluger Hans perfect rekenen, maar als de baas er niet bij was, dan kon Hans het niet. Het rekenen van het paard stond dus in causaal verband met de aanwezigheid van zijn baas. Na zeer veel nauwkeurige observaties bleek dat de baas van Kluger Hans zich een heel klein beetje ontspande zodra Hans het juiste aantal malen met zijn rechter voorpoot gestampt had. Dit was voor Kluger Hans voldoende aanleiding om te stoppen met stampen.
Het doel van dit voorbeeld is te illustreren hoe subtiel de invloed van een onderzoeker of proefleider op het te onderzoeken subject kan zijn. Deze beïnvloeding is natuurlijk een bedreiging van de constructvaliditeit. Dit moet zoveel mogelijk vermeden worden; vandaar dat het niet aan te bevelen is om als onderzoeker zelf als proefleider op te treden. Studies waarin de onderzoeker bijvoorbeeld zelf aan zowel de experimentele als de controleconditie les geeft, kunnen bekritiseerd worden vanwege mogelijke invloeden van de (verwachtingen van) onderzoeker en de daaruit voortkomende nadelige effecten op de constructvaliditeit van de onafhankelijke variabele. 3. Een derde bedreiging van de constructvaliditeit kan samengevat worden onder de term motivatie. Aan de bedreiging van de validiteit door motivatie zitten tenminste twee kanten. Als (ten minste) één van de condities in een onderzoek erg vervelend is dan kunnen de proefpersonen gedemotiveerd raken. Het (eventuele) bedoelde effect van de onafhankelijke variabele mag dan niet zonder meer als een causaal effect geïnterpreteerd worden. Immers, omdat (één van) de condities zo demotiverend was, gooiden die proefpersonen er met de pet naar. Daarom presteerden zij minder goed. In dit geval wordt er een causaal verband gepostuleerd, waarbij het (causale) effect via de demotiverende werking van één van de condities loopt. Het effect hoeft dan niet veroorzaakt te worden door de manipulatie van het bedoelde construct, maar door de onbedoelde manipulatie van de motivatie van de proefpersonen. Ook het omgekeerde kan natuurlijk een bedreiging van de begripsvaliditeit vormen. Indien van één van de condities een extra motiverende werking op de proefpersonen heeft, kan een eventueel effect toegeschreven worden aan motivationele aspecten. Ook dan kan er sprake zijn van een effect van een onbedoeld gemanipuleerde variabele. 4. Een vierde bedreiging van de validiteit heeft te maken met de keuze uit de vele mogelijke waarden van een onafhankelijke variabele. Als de onafhankelijke variabele is ‘het aantal keren dat een gedicht ter voorbereiding mag worden doorgelezen’, moet de onderzoeker bepalen hoeveel keer de proefpersonen het gedicht mogen doorlezen; één-, twee-, drie-maal et cetera. Als de onafhankelijke variabele is ‘de tijd die de proefpersonen mogen studeren’, dan moet de onderzoeker een keuze maken hoe lang de proefpersonen mogen leren: vijf minuten, een kwartier, twee uur? De onderzoeker maakt in feite een keuze uit alle mogelijke leertijden. Op grond van de gekozen waarden van de onafhankelijke variabele kan de onderzoeker tot de conclusie komen dat de afhankelijke variabele niet beïnvloed wordt door
HOOFDSTUK 3: VALIDITEIT de onafhankelijke variabele. In feite moet de onderzoeker echter concluderen dat er geen verband lijkt tussen de gekozen waarden voor de onafhankelijke variabele en de afhankelijke variabele. In feite wordt een mogelijk effect versluierd door de keuze van de waarden van de onafhankelijke variabele. Er is veel onderzoek gedaan naar de relatie tussen schoolprestaties en de mate waarin televisie gekeken wordt. In de eerste studies wordt een vergelijking gemaakt tussen de prestaties van leerlingen die veel (meer dan drie uur per dag) tv kijken en leerlingen die weinig kijken (minder dan vijf minuten per dag). In deze studies waren de onderzoekers niet of nauwelijks in staat een verband tussen televisie kijkgedrag en schoolprestaties aan te tonen. Later bleek dat dit een gevolg was van de keuze van de waarden van de onafhankelijke variabele (tv kijken). Het bleek namelijk dat zowel leerlingen die zeer veel naar de televisie kijken als leerlingen die zeer weinig naar de televisie kijken lagere schoolprestaties behaalden dan leerlingen die per dag (gemiddeld) tussen de 30 en 90 minuten kijken (Ward, 1983). In de nevenstaande figuur is de samenhang tussen het gemiddelde aantal minuten dat per dag naar de televisie gekeken wordt en schoolprestaties uitgezet. Uit de onderstaande grafiek, waarin het verband tussen prestaties en de tijd die aan televisiekijken besteed wordt enigszins gechargeerd weergegeven is, blijkt dat lage prestaties samenhangen met weinig televisie kijken en met veel televisie kijken. Leerlingen die hoog presteren kijken ‘gemiddeld’ naar de televisie. In het oudere onderzoek waarin alleen de prestaties van leerlingen die extreem veel of extreem weinig naar de televisiekijken geanalyseerd zijn, kan dus géén verband tussen beide variabelen gevonden worden. Dit is een gevolg van de keuze voor de waarden van de onafhankelijke variabele.
5. Een vijfde bedreiging van de constructvaliditeit wordt veroorzaakt door de sturende werking van de voormeting. In veel studies worden voorafgaand aan de behandeling de scores van de proefpersonen bepaald op een variabele die beïnvloed wordt door de onafhankelijke variabele, bijvoorbeeld: het kennisniveau, de mate waarin de proefpersoon fobisch is of de onregelmatigheid van zijn hartritme. Na afloop van het experiment wordt nogmaals de score op de onafhankelijke variabele bepaald. Deze (vaak noodzakelijke) voormeting is echter zelden probleemloos. Aard en inhoud van zowel de voormeting als de gebeurtenis van de afname zelf kunnen hun sporen nalaten bij de proefpersoon. Zo kan de proefpersoon zijn onbevangenheid verliezen, wat een onvervormde behandeling (in de experimentele conditie) onmogelijk maakt. Een eventueel verschil tussen de scores van de experimentele en de controlegroep kan dus op uiteenlopende manieren worden verklaard. Het kan immers gezocht worden in een effect van de behandeling zelf of in een combinatie van de behandeling en de voormeting. Bovendien moet de afwezigheid van een verschil (tussen de experimentele en de controlegroep) soms worden toegeschreven aan het feit dat een voormeting is verricht. Heel duidelijk blijkt de sturende werking van een voormeting uit een onderzoek van Hoogstraten (1979).
58 Eerstejaars psychologiestudenten bestudeerden een geprogrammeerde instructie wiskunde. Een aselect bepaald deel van de studenten kreeg vooraf een attitudevragenlijst voorgelegd met beweringen als: ‘Bij geprogrammeerde instructies wordt op inefficiënte wijze gebruik gemaakt van mijn tijd’ en ‘Geprogrammeerde instructie is een niet-flexibele leermethode’. Een ander deel van de studenten bestudeerde de instructie zonder daaraan voorafgaand de attitudevragenlijst ingevuld te hebben. Na afloop, ongeveer zes weken later, werden de vragen (nogmaals) beantwoord door alle personen. Dit resulteerde in de volgende proefopzet: experimentele groep attitudemeting controlegroep
studie studie
attitudemeting attitudemeting
De experimentele groep betoonde zich bij de nameting beduidend negatiever dan in de voormeting ten opzichte van de bestudeerde cursus. In totaal 28 personen waren negatiever en slechts drie positiever. Drie personen behaalden op beide metingen dezelfde score. De conclusie ligt voor de hand en stemt overeen met eerdere bevindingen (Windle, 1954): de vragenlijst heeft de houding van de proefpersonen ten opzichte van de geprogrammeerde lesmethode op negatieve beïnvloed. Met het hier gehanteerde onderzoeksontwerp kan echter de invloed van de eerste afname van de vragenlijst gecontroleerd worden. Door de voormeting van de experimentele groep en de nameting van de controlegroep met elkaar te vergelijken, moet men het resultaat van de vergelijking de experimentele groep kunnen bevestigen. In dit geval bleef die bevestiging uit: de controlegroep was bij de nameting zelfs iets positiever over de geprogrammeerde instructie dan de experimentele groep bij de voormeting. Het lijkt erop dat de studenten door de voormeting alerter zijn geworden voor de negatieve aspecten van de geprogrammeerde methode. Met name het gegeven dat 14 van de 21 beweringen in de vragenlijst negatief waren geformuleerd en slechts zeven beweringen de positieve kanten van de methode belichtten, ondersteunt de gedachte dat een dergelijk aandachtrichtend, sensitisatie- effect is opgetreden. Kortom als er geen effect is van de voormeting, dan zou in dit onderzoeksontwerp verwacht worden dat de attitudemeting in de experimentele en de controlegroep op de nameting (gemiddeld) eenzelfde score hebben. Verschilt de experimentele groep echter van de controlegroep op de nameting, dan kan door de vergelijking van de scores (in de experimentele groep) op voormeting en de nameting een effect van de voormeting aannemelijk gemaakt worden.
6. Een ander probleem dat van invloed kan zijn op de constructvaliditeit is sociaal wenselijk antwoorden. Dat is niets anders dan dat mensen een antwoord geven, dat voor de meerderheid acceptabel is, en hen dus niet in de problemen brengt. Een voorbeeld kan dit verduidelijken. In de aanloop naar de verkiezingen krijgen de ultra-rechtse partijen als de Centrumpartij en de Centrumdemocraten in de peilingen veel minder stemmen dan tijdens de echte verkiezingen. Verkiezingsonderzoekers onderschatten dus altijd het aantal zetels/stemmen dat zo’n partij krijgt. Dit
HOOFDSTUK 3: VALIDITEIT wordt veroorzaakt door de manier waarop zij hun gegevens verzamelen. Omdat de voorspelling zo actueel mogelijk moet zijn, enquêteren de onderzoekers telefonisch. Proefpersonen die op bovengenoemde partijen stemmen, blijken door de telefoon niet altijd te antwoorden wat ze gaan stemmen. Waarschijnlijk zijn ze bang dat ze een verklaring moeten geven voor hun stemgedrag. Vandaar dat ze een partij noemen die meer geaccepteerd wordt. 7. Een laatste probleem met betrekking tot de constructvaliditeit kan aangeduid worden als: een beperkte generaliseerbaarheid over constructen. Bij de presentatie van de resultaten van sociaalwetenschappelijk onderzoek worden regelmatig opmerkingen gemaakt als: ‘Ja, ik ben het er wel mee eens dat het volgen een trainingsprogramma tijdens de studie de kans op het vinden van een baan direct na het afstuderen wel vergroten, maar hoe zit het met ....’. Op de puntjes kan dan van alles ingevuld worden, de inzetbaarheid (is een trainingsprogramma niet te specifiek zodat de leerlingen/studenten maar op één plaats inzetbaar zijn?, de arbeidsmoraal, stiptheid et cetera.) Dat leidt ertoe dat uitspraken over gemeten constructen altijd worden beïnvloed door andere factoren. Ook kunnen de andere variabelen daarmee zelfs (onbedoeld) gemanipuleerd worden. Er worden vaak vragen gesteld naar aspecten die weliswaar van belang zijn, maar die niet direct een rol spelen in het onderzoek. Wanneer dergelijke vragen beantwoord worden, dan kan een veel rijker en gedetailleerder beeld van de effecten van een onafhankelijke variabele worden verkregen. Soms blijken (onafhankelijke) variabelen een positief effect te hebben op de ene afhankelijke variabele en een onbedoeld en ongewenst negatief effect op andere afhankelijke variabelen. Hoewel het natuurlijk onmogelijk is alle (afhankelijke) variabelen, die door de manipulatie van een onafhankelijke variabele beïnvloed kunnen worden, te meten, wordt het aanbevolen deze relaties wel te exploreren. Dit betekent niet dat er meteen een nieuw onderzoek gestart moet worden, maar wel dat men niet blind moet zijn voor ongewenste negatieve invloeden op de niet gemeten variabelen. 3.3.3
Externe validiteit
Op basis van de in een onderzoek verzamelde gegevens kan een onderzoeker in elk geval de conclusie trekken: in dit onderzoek ... . Het is echter zelden de bedoeling van een onderzoeker om conclusies te trekken die alleen gelden voor één onderzoek. Een onderzoeker wil niet aantonen dat shirt-reclame in het betaalde voetbal van invloed is op het koopgedrag van zijn ondervraagde toeschouwers, of dat een experimentele cursus het verwachte effect heeft op zijn groep van onderzochte kinderen. Een onderzoeker wil conclusies trekken als: shirt-reclame bij betaald voetbal is van invloed op het koopgedrag van toeschouwers, of de experimentele cursus heeft effect op … van kinderen. De onderzoeker wil generaliseren. Merk op dat we in het dagelijkse leven precies hetzelfde doen; we proeven een hapje van de salade, we nemen een lepeltje van de soep, en op grond daarvan doen een uit-
60 spraak over de hele schaal met salade, of de hele pan met soep. Zelden zal iemand zeggen: ‘je kunt alleen dan zeggen dat iets lekker is als je het hele gerecht hebt geproefd’. De vraag of een onderzoeker de onderzoeksbevindingen kan en mag generaliseren is de vraag naar de externe validiteit van een onderzoek. Bij generalisatie moet gedacht worden aan generalisatie met betrekking tot personen (zijn de onderzoeksbevindingen ook geldig voor personen die niet aan het onderzoek deelnamen?), situaties (is dit onderzoeksresultaat geldig buiten deze specifieke context?) en tijd (zijn de resultaten van dit onderzoek ook over vijf jaar nog geldig?). Bij externe validiteit maken we een onderscheid tussen (1) de generalisatie naar een beoogde specifieke doelgroep, situatie en tijd en (2) de generalisatie over doelgroepen, situaties en tijd. Het generaliseren naar ... en over ... zijn twee aspecten van de externe validiteit die goed uit elkaar gehouden moeten worden. Het generaliseren naar een doelgroep of populatie heeft te maken met de representativiteit van de gebruikte steekproef; in hoeverre is de steekproef een goede afspiegeling van de populatie? Het generaliseren naar is dus direct verbonden met het onderzoeksdoel, pas als er gegeneraliseerd kan worden naar gedefinieerde populaties kan een onderzoeksdoel bereikt zijn. Het generaliseren over doelgroepen (andere populaties) heeft te maken met de mate waarin de geformuleerde conclusies geldig zijn voor te onderscheiden populaties. Een voorbeeld zal het onderscheid wellicht verduidelijken. Er wordt een nieuw televisieprogramma (à la Sesamstraat) geïntroduceerd, waarin zevenjarige kinderen de basisprincipes van het rekenen wordt bijgebracht. Op de een of andere manier zijn we in staat om een representatieve steekproef onder zevenjarigen op aselecte wijze te splitsen in twee delen. Dit resulteert in twee equivalente groepen, die representatief zijn voor alle zevenjarigen in Nederland. De ene groep, de experimentele groep, volgt het nieuwe televisieprogramma. De andere groep, de controlegroep, krijgt het programma niet te zien. Na de data-analyse blijkt dat de leerlingen in de experimentele groep beduidend beter kunnen rekenen dan de leerlingen in de controlegroep. Deze uitkomst kan gegeneraliseerd worden naar de doelgroep: alle zevenjarige kinderen, de beoogde populatie. Deze generalisatie wordt gemaakt ondanks de mogelijkheid dat verschillende typen zevenjarigen in verschillende mate geprofiteerd kunnen hebben van het programma. Een later uitgevoerde meer gedetailleerde data-analyse leert dat met name meisjes van het programma geprofiteerd hebben; meisjes die het programma gezien hebben, kunnen veel beter rekenen dan meisjes die het programma niet gezien hebben. Voor jongens daarentegen maakt het niet zoveel uit. Zij presteren ongeveer even goed, ongeacht het gegeven of zij het programma al dan niet gezien hebben. Deze uitkomst zou demonstreren dat niet gegeneraliseerd mag worden over deelgroepen, hoewel wel gegeneraliseerd kon worden naar de doelgroep.
Voor de generalisatie van de uitkomsten van een onderzoek naar de doelgroep of de steekproef, is de kwaliteit van de steekproef bepalend. Is de steekproef een
HOOFDSTUK 3: VALIDITEIT adequate afspiegeling van de populatie? Om een extreem voorbeeld te geven: wanneer in een onderzoek de leesvaardigheid van 1000 meisjes in de achtste groep van het basisonderwijs gemeten wordt, kan niet gegeneraliseerd worden naar de populatie basisschoolleerlingen. Een steekproef die zich louter op meisjes richt is immers geen goede afspiegeling van de populatie basisschoolleerlingen, omdat er geen jongens in opgenomen zijn. Afhankelijk van de methode die de onderzoekers gebruiken om de proefpersonen te selecteren, kunnen er vele soorten steekproeven onderscheiden worden. In het kader van dit hoofdstuk maken we echter een grove indeling in: steekproeven die zich aandienen, systematisch getrokken steekproeven en random getrokken steekproeven. Voor een verdere verdieping in de wijze waarop steekproeven getrokken kunnen worden en de problemen die daarbij een rol spelen volstaan we met een verwijzing naar de desbetreffende literatuur (zie bijvoorbeeld: Cochran, 1977; Moors & Muilwijk, 1975). In veel sociaalwetenschappelijk onderzoek wordt gewerkt met steekproeven die zich aandienen, zogenaamde gelegenheidssteekproeven. De onderzoeker voert het experiment uit met personen die hem min of meer toevallig ter beschikking staan. Voor sommige onderzoeken wordt gebruik gemaakt van al dan niet betaalde vrijwilligers. In andere onderzoeken worden studenten ingezet, die in het kader van hun studie verplicht zijn 200 uur als proefpersoon aan onderzoek mee te werken, en soms moeten de leerlingen van een met de onderzoeker bevriende docent aan het onderzoek meewerken. Een dergelijke steekproef is niet zonder gevaren. De onderzoeker heeft de mate van generaliseerbaarheid naar de populatie op geen enkele manier meer in de hand. Natuurlijk heeft de onderzoeker wel een populatie op het oog en zal hij proefpersonen uit het onderzoek weren die geen deel uit maken van de beoogde populatie, maar hij kan geen uitspraken doen over de representativiteit van de steekproef. Met name bij psychologie heeft de wijze van steekproeftrekking aanleiding gegeven tot verhitte discussies. Sommigen stelden zelfs dat de psychologie haar gegevens voor 90% tot 95% baseerde op blanke mannelijke proefpersonen. Dergelijke steekproeven zijn natuurlijk niet representatief. Gevolg is dat de op deze gegevens gebaseerde theorieën slechts een beperkte geldigheid hebben (de theorieën zouden alleen gelden voor het type personen dat ook in de steekproeven vertegenwoordigd is). Bij alle bezwaren die tegen dit type steekproef naar voren gebracht worden, blijft het een gegeven dat de praktische omstandigheden waaronder het onderzoek plaatsvindt, dwingen tot het gebruik van een ‘zich aandienende steekproef’. Het wordt in dit geval aanbevolen om na te gaan in hoeverre de ‘zich aandienende steekproef’ zich onderscheidt van de populatie. Zo kan een onderzoeker die via een bevriende docent twee HAVO-klassen ‘in de schoot geworpen krijgt’ nagaan in hoeverre deze HAVO zich op een aantal kenmerken onderscheidt van andere HAVO’s; in hoeverre het een ‘doorsnee-HAVO klas’ betreft. Is dat het geval, dan kan de onderzoeker betogen dat er enige grond is om te generaliseren naar de populatie ‘HAVO-leerlingen uit bepaalde klas’. Tot slot
62 van dit stukje over zich aandienende steekproeven een voorbeeld over de gevaren van dit type steekproef. Nog niet zo lang geleden hield de KRO een wedstrijd op de televisie wie van een negental kandidaten het beste kon zingen. De kijkers mochten hun voorkeur telefonisch kenbaar maken. Voor alle negen kandidaten was een aparte telefoonlijn geopend. Voor elke beller kreeg een kandidaat één punt. Degene die de meeste punten binnen een bepaalde tijdlimiet verzameld had was de winnaar. De reactie van het publiek was overweldigend: in grote delen van Nederland was het telefoonnet volledig overbezet. Al snel bleek één van de kandidaten een flinke voorsprong te hebben. In de loop van de avond werd deze voorsprong echter steeds kleiner. Uiteindelijk scheelde het nog maar enkele bellers met nummer twee. Opvallend was overigens dat naarmate de avond vorderde de verschillen tussen de deelnemers (relatief) steeds kleiner werden. We kunnen de door de KRO gevolgde procedure als een steekproeftrekking beschouwen. Er wordt een steekproef van stemmen (of bellers) uitgevoerd. Echter, deze steekproef is ziek, zeer ziek. Als veel mensen willen stemmen op één kandidaat, dan zal de telefoonlijn voor die kandidaat overbezet raken. Dus: de zangers die veel bellers trekken, zullen (relatief) minder stemmen krijgen dan zangers die weinig stemmen trekken, omdat de telefoonlijnen van de laatsten niet overbezet zullen zijn. In werkelijkheid zal er dus een veel groter verschil zijn in aantal stemmen van per kandidaat dan de KRO gemeten heeft. Het ergste is eigenlijk dat de KRO deze systematische vertekening van de resultaten zelf veroorzaakt heeft, door voor alle negen kandidaten een aparte telefoonlijn te openen. Wanneer de KRO negen telefoonlijnen geopend had, en de kijkers hadden kunnen stemmen door het noemen van hun favoriete kandidaat dan waren de verzamelde gegevens zeker representatiever geweest.
Wanneer de elementen in een steekproef op de een of andere manier systematisch geordend zijn, dan kan met behulp van een systematische trekkingsprocedure van steekproefelementen een redelijk representatieve steekproef verkregen worden. Een ordening kan zijn bijvoorbeeld een namenlijst. In feite voldoet elk registratiesysteem aan de steekproefelementen. Laten we even aannemen dat we een onderzoek doen naar de taalvaardigheid van derdeklassers in het voortgezet onderwijs. De gehele populatie van derdeklassers is echter veel en veel te groot om de lees-, schrijf-, spreek- en luistervaardigheid te meten. In de derde klas zitten namelijk ongeveer 200.000 leerlingen. Er moet dus een steekproef genomen worden. Op het Ministerie van Onderwijs en Wetenschappen is een registratiesysteem voorhanden waarin een lijst met de namen van alle scholen met derde klassen is opgenomen. Een voor de hand liggende werkwijze is nu deze lijst te nemen en elke 100ste school in de steekproef op te nemen. Een vrij representatieve steekproef lijkt dan het logische gevolg. Twee factoren kunnen echter roet in het eten gooien: de responsiegraad en wat we noemen de storende trendwerking. Als een aanzienlijk deel van de aangeschreven scholen geen medewerking verleent, dan hebben we in
HOOFDSTUK 3: VALIDITEIT feite te maken met een ‘zichzelf aandienende steekproef’. Een ongewenste situatie, want we kunnen aannemen dat de scholen die meewerken een grotere ‘plichtsgetrouwheid’ bezitten dan de niet-responderende scholen of de gemiddelde school. Tevens kunnen de leerlingen op de responderende en niet-responderende scholen verschillen. De steekproef behoeft niet meer representatief te zijn voor de populatie. De meting van de taalvaardigheid onder de derdeklassers van meewerkende scholen levert dan ook slecht generaliseerbare resultaten over de taalvaardigheid van derdeklassers. De tweede factor die de representativiteit van de steekproef kan beïnvloeden is de storende trendwerking. Er is sprake van een storende trendwerking wanneer populatie-elementen met een bepaald relevant kenmerk meer kans hebben in de steekproef terecht te komen dan populatie-elementen die dit kenmerk niet hebben. In ons voorbeeld van de meting van de taalvaardigheid van derdeklassers hebben we met de storende trendwerking te maken. Niet alle leerlingen hebben namelijk een gelijke kans om in de steekproef te komen. Immers, elke individuele school heeft dezelfde kans als elke andere school om in de steekproef terecht te komen. Het gevolg is dat er relatief weinig derdeklassers in de steekproef zullen komen van scholen met veel leerlingen. Derdeklassers van grote scholen zijn ondervertegenwoordigd. Daar de lees-, schrijf-, spreek- en luisterprestaties van leerlingen (deels) beïnvloed worden door het genoten onderwijs en omdat het onderwijs dat gegeven wordt afhankelijk is van de grootte van de school, moet de steekproef niet representatief genoemd worden. Er zijn verschillende manieren om een storende trendwerking te voorkomen. Dit zijn allemaal vormen van random steekproeftrekkingen, ook wel aselecte steekproeftrekking genoemd. Er kunnen vele vormen van random steekproeven onderscheiden worden. Drie voorbeelden: simple random sampling, stratified random sampling en quota sampling. In simple random sampling krijgen alle populatie-elementen een gelijke kans om getrokken te worden. Dit kan bijvoorbeeld gerealiseerd worden door alle elementen van een nummer te voorzien en dan, afhankelijk van de gewenste steekproefgrootte het n-de element te selecteren. Voor de selectie van getallen staan de onderzoeker tabellen met toevalsgetallen ter beschikking, maar ook op de meeste zakrekenmachines kunnen random getallen gegenereerd worden. Het verdient aanbeveling random getallen te gebruiken, want de menselijke geest is altijd tot ordening geneigd en die drang valt zeer moeilijk uit te schakelen. Een voorwaarde voor de toepassing van deze methode is echter wel dat de populatie-elementen vooraf geregistreerd zijn (of worden), zodat ze op enigerlei wijze van een nummer voorzien kunnen worden. Een voorbeeld: We willen een steekproef trekken van 400 basisscholen. Dit is vijf procent van de populatie basisscholen. We vragen daarom bij het Ministerie van Onderwijs en Wetenschappen een lijst met alle 9000 basisscholen op en voorzien alle basisscholen van een nummer (1, 2, 3 tot en met 9000). Daarna selecteren
64 we alle basisscholen waarvan de laatste twee cijfers (die we uit een lijst met toevalsgetallen gehaald hebben) 05, 17, 65 en 91 zijn.
We spreken van stratified random sampling wanneer we van elk populatie-element weten of een bepaald kenmerk aan- of afwezig is, en we zorgen ervoor dat elke kenmerkconditie in de gewenste mate in de steekproef vertegenwoordigd is. We verdelen de steekproef in zogenaamde strata. Terug naar de basisschool om het een en ander te verhelderen. Om welke reden dan ook zijn we er nu in geïnteresseerd de steekproef (nog steeds vijf procent van de populatie) zo te maken dat openbare, christelijke en katholieke scholen in gelijke mate vertegenwoordigd zijn. We stellen daarom drie lijsten op: voor alle drie de schooltype één. Daarna gaan we precies zo te werk als bij simple random sampling.
Met quota sampling gaan we nog een stapje verder dan bij stratified random sampling: we verdisconteren nu ook het feit dat we weten wat de verdeling is van een bepaald kenmerk in de populatie. Uit de lijst met basisscholen zal bijvoorbeeld blijken dat 35% van de scholen openbaar is, 31% katholiek, 31% protestant en 3% een andere signatuur heeft. We trekken uit de populatie nu random samples en wel zo dat de verhouding uit de populatie (35 : 31 : 31 : 3) in de steekproef weerspiegeld wordt. Als je in een tijdschrift verschillende onderzoeksartikelen leest, dan is één van de eerste zaken die opvalt de enorme variatie in aantallen respondenten. In sommige onderzoeken worden enkele duizenden proefpersonen betrokken en in andere slechts enkele tientallen of soms nog minder. We zullen hier een viertal aspecten de revue laten passeren die van invloed zijn op de grootte van de te trekken steekproef: de homogeniteit van de populatie, de aard van de steekproeftrekking, de gewenste precisie en de kans om een effect aan te tonen als dat in de populatie ook daadwerkelijk aanwezig is. Wanneer op de televisie of in het blad van de ANWB auto’s getest worden, dan wordt van een type slechts één exemplaar getest. De resultaten van dit testexemplaar worden zonder voorbehoud gegeneraliseerd naar alle auto’s van hetzelfde type en merk. Dit kan omdat de populatie auto’s waarnaar gegeneraliseerd wordt bijzonder homogeen is: de fabrikant streeft er immers naar om de verschillende exemplaren zo gelijk mogelijk op de markt te brengen. Als een populatie homogeen is, dan kunnen we met een kleine steekproef volstaan. Anders is het wanneer we bijvoorbeeld de conversatiepatronen van kleuters willen analyseren. In de conversatiepatronen van kleuters treffen we grote verschillen aan; er is een grote variatie in conversatiepatronen. Om een goed beeld te krijgen hebben we daarom een veel grotere steekproef nodig. De omvang van de benodigde steekproef neemt dus toe naarmate de populatie waarna gegeneraliseerd moet worden heterogener is. De aard van de steekproeftrekking. Als er in een populatie duidelijke strata aanwezig zijn, maar we passen − om welke reden dan ook − geen stratified of quota
HOOFDSTUK 3: VALIDITEIT sampling toe, dan hebben we een grotere steekproef nodig dan wanneer we dit wel zouden doen. Immers, bij deze laatste twee methoden zorgt de onderzoeker zelf voor een gelijke dan wel evenredige vertegenwoordiging van strata in de steekproef, terwijl dit bij simple random sampling aan het toeval wordt overgelaten. Dit impliceert dat we een beroep doen op ‘de wet van de grote getallen’; bij een kleine steekproef weten we allerminst zeker dat de verschillende strata in voldoende mate in de steekproef vertegenwoordigd zijn. Als we, om naar het basisschoolvoorbeeld terug te keren, drie basisscholen ‘simple random’ selecteren, dan bestaat natuurlijk de kans dat dit één openbare, één katholieke en één protestante is. Maar ook andere mogelijkheden zijn zeer reëel. Bij stratified en quota sampling hebben we gegarandeerd van elk type onderwijs ‘één exemplaar’ in onze steekproef. Onze basis voor generalisatie is beter. Hoe groter precisie vereist of gewenst is, des te groter dient de steekproef te zijn. Maurice de Hondt doet bijvoorbeeld regelmatig uitspraken over de politieke voorkeur van Nederlanders. Deze geeft hij aan met een precisie van plus of min 2%, zoals hij zelf zegt. Hij hanteert daarvoor een steekproef van 800 stemgerechtigde Nederlanders. Zou hij een beduidend grotere steekproef gebruiken, die met dezelfde zorgvuldigheid getrokken is, dan zou ook die te verwachten foutenmarge teruglopen. Op de verkiezingsavond, wanneer ongeveer 40.000 Nederlanders geenquêteerd worden, bedraagt de foutenmarge nog maar ± 0.2%. Als laatste aspect van de grootte van een steekproef willen we kort ingaan op de kans om een effect aan te tonen als dat in de populatie ook daadwerkelijk aanwezig is. Dit is een vraag naar het onderscheidingsvermogen. Voordat een onderzoek uitgevoerd wordt, moet de onderzoeker een beslissing nemen met betrekking tot het aantal te onderzoeken elementen (te toetsen personen). Hoe groter de steekproef, des te groter de kans dat er een significant verschil gevonden wordt (zie: Hoofdstuk 2). Een concreet voorbeeld kan dit illustreren (Mellenbergh, 1976). Een onderzoeker wil het effect van een door hem ontwikkelde leesvaardigheiddidactiek empirisch nagaan. De onderzoeker veronderstelt dat na afloop van een intensieve training de groep leerlingen die onderwijs genoten heeft volgens zijn didactiek, gemiddeld beter zal lezen dan een vergelijkbare groep. Na zes maanden neemt hij aan beide groepen een leesvaardigheidtest af. Hoe groot moet nu het verschil in gemiddelde prestaties zijn wil de onderzoeker significante resultaten vinden − en conform de praktijk − zijn nulhypothese ‘er zijn geen verschillen in prestaties’ falsifiëren. In de volgende tabel zijn 3 enkele mogelijke uitkomsten weergegeven.
3 Bij deze uitkomsten is ervan uitgegaan dat alle overige omstandigheden gelijk zijn voor de verschillende steekproefgroottes; zo wordt uitgegaan van een toets met een gemiddelde van 100 en een standaarddeviatie van 15.
66 steekproefgrootte per onderzoeksgroep 11 101 1001 10001
verschil in gemiddelden dat significant is 13.99 4.16 1.32 0.42
Wanneer beide groepen elk 10001 personen bevatten, vindt de onderzoeker een statistisch significante uitkomst als het verschil in score tussen beide groepen groter is dan 0.42. Bevatten de groepen echter elk slechts 11 personen, dan moet het verschil maar liefst 13.99 zijn wil de onderzoeker de nulhypothese kunnen verwerpen. Omdat de onderzoeker de grootte van de steekproef in eigen hand heeft en deze − althans bij voldoende tijd en geld − zo groot kan maken als hij zelf wil, kan hij kennelijk elke hypothese hoe triviaal die ook mag zijn bevestigen (Meuffels & Burgers, 1985). Aan de andere kant blijkt dat bij een hele kleine steekproef enorme verschillen nodig zijn wil men van een significant resultaat kunnen spreken.
Met het bovenstaande fragment hebben we willen aantonen dat een grote steekproef kan leiden tot significante resultaten, die in feite trivialiteiten zijn. Met een kleine steekproef daarentegen maakt een onderzoeker het zichzelf wel erg moeilijk om een significant resultaat aan te kunnen tonen, ook al is dit in werkelijkheid wel aanwezig. Voor procedures om van te voren de gewenste/noodzakelijke steekproefomvang te kunnen schatten verwijzen we naar de desbetreffende literatuur (bijvoorbeeld: Cohen, 1977). Hier willen we alleen de relatie tussen steekproefgrootte en het aan kunnen tonen van significantie benadrukken.