Praktijkonderzoek naar causale relaties 1: het experiment Hans Landsheer en Martijn de Goede
6
O P E N I N G S C A S U S
Reductie van waargenomen gezondheidsrisico’s door persoonsgerichte bijsluiters De voordelen van bijsluiters bij medicijnen zijn bekend. Ze vergroten de kennis van de patiënten over de behandeling en ze vergroten de kans dat de behandelingsinstructies opgevolgd worden. Er is echter minder bekend over welke inhoud de bijsluiter het meest effectief maakt. Met dit onderzoek wordt nagegaan of het persoonlijk maken van de informatie een gunstig effect heeft. De vraag luidt: heeft het persoonlijk maken van de informatie in de bijsluiter over de te behandelen ziekte, het medicijn, doseringsinstructies, bijeffecten en contra-indicaties een gunstig effect op de mate waarin de informatie correct gereproduceerd kan worden, op de tevredenheid met de verstrekte informatie, de waargenomen ernst van de waargenomen gezondheidsrisico’s en de intentie om de behandelingsinstructies op te volgen? De deelnemers aan het onderzoek waren 100 vrijwilligers. Zij werden gerekruteerd in verschillende plaatselijke clubs, organisaties en publieke instellingen zoals bibliotheken. De leeftijden varieerden tussen de 18 en 60 jaar. Er waren 39 mannelijke deelnemers en 61 vrouwelijke. De deelnemers werden aselect toegewezen aan twee condities, waarbinnen zij respectievelijk persoonsgerichte informatie en niet-persoonsgerichte informatie over het medicijn kreeg. De informatie over de ziekte, het medicijn en dergelijke was in beide condities fictief. In beide condities ontvingen de deelnemers een boekje waarin was opgenomen:
135
· · · · ·
een voorbeeld van een ziektegeval; het voorgeschreven medicijn; de doseringsinstructies; de mogelijke bijeffecten; de contra-indicaties.
In de persoonlijke conditie werd de proefpersoon direct aangesproken met ‘u’, terwijl in de andere conditie de bijsluiter algemeen gericht was. Een zin uit de persoonsgerichte bijsluiter was: ‘Uw symptomen suggereren dat u lijdt aan een subacute schildklierontsteking. Dit is een ontsteking van uw schildklier, die waarschijnlijk is veroorzaakt doordat u een virusinfectie heeft opgelopen’. Een zin uit de onpersoonlijke bijsluiter was: ‘De symptomen suggereren een subacute schildklierontsteking. Dit is een ontsteking van de schildklier, die waarschijnlijk is veroorzaakt door een virusinfectie’. De tevredenheid over de verstrekte informatie, de waargenomen ernst van de waargenomen gezondheidsrisico’s en de intentie om de behandelingsinstructies op te volgen werden elk met één vraag vastgesteld. De mogelijke antwoorden varieerden daarbij van 1 (zeer onwaarschijnlijk) tot 6 (zeer waarschijnlijk). Na vijftien minuten werden de instructies en vragenlijsten ingenomen. Tot slot werd aan de deelnemers gevraagd om alles wat zij zich herinnerden van de uitleg over het medicijn op te schrijven op een vel papier. Het antwoord op deze herinneringsvraag werd op juistheid en volledigheid beoordeeld in vijf categorieën: · aard van de ziekte; · medicijn; · dosering; · bijeffecten; · contra-indicaties. Elke categorie kreeg een beoordeling tussen 0 en 10. De belangrijkste resultaten van het onderzoek waren: · De groepen verschilden niet op de variabelen geslacht, leeftijd of opleidingsniveau. · De persoonsgerichte groep was significant meer tevreden met de verstrekte informatie (F (1,98) = 4,02, p < 0,05). Deze groep gaf vaker aan bijeffecten minder waarschijnlijk te vinden (F (1,98) = 4,23, p < 0,05) en oordeelde dat de gezondheidsrisico’s lager waren (F (1,98) = 4,52, p < 0,05). · Er waren echter geen significante verschillen tussen beide groepen wat betreft de intentie om het medicijn ook te gaan gebruiken (F (1,98) = 2,84, p < 0,05). Beide groepen vonden het waarschijnlijk dat zij de medicijnen zouden gaan innemen. · De groep die de persoonsgerichte informatie ontving, had de informatie significant juister en vollediger opgeschreven (F (1,98) = 11,38, p < 0,001), in het bijzonder waar het ging om dosering, bijeffecten en contra-indicaties. Het opmerkelijke van dit onderzoek is dat met een zeer eenvoudige manipulatie toch zulke duidelijke en wenselijke effecten gevonden worden. Weliswaar geven beide groepen aan waarschijnlijk de behandelingsinstructies op te volgen, maar dat neemt niet weg dat de gunstige effecten die de persoonsgerichte informatie oplevert de moeite waard zijn. De onderzoeksresultaten geven aanleiding om de informatie die in bijsluiters wordt gegeven zo veel mogelijk te formuleren in persoonsgerichte termen, en een onpersoonlijke formulering te vermijden. Nader onderzoek is echter wel gewenst.
136 6 Praktijkonderzoek naar causale relaties 1: het experiment
Gebaseerd op: Berry, D.C., Michas, I.C. & Bersellini, E. (2003). Communicating information about medication: the benefits of making it personal. Psychology and Health, 18(1), 127-139.
In dit hoofdstuk komen de basisprincipes van het experimentele onderzoek aan de orde. Om uit een onderzoek te kunnen concluderen dat een bepaald effect het gevolg is van een bepaalde behandeling, moet het onderzoek aan een aantal strikte voorwaarden voldoen. Daarbij moet de onderzoekssituatie in hoge mate gecontroleerd worden, om alternatieve verklaringen voor het gevonden effect uit te kunnen sluiten. Alleen dan wordt het mogelijk om het gevonden effect te interpreteren als het oorzakelijke gevolg van de behandeling. In dit hoofdstuk worden de experimentele ontwerpen geïntroduceerd, waarbij de nadruk ligt op het zuivere experiment. In hoofdstuk 7 worden de quasi-experimentele onderzoeksontwerpen behandeld die toegepast worden wanneer een zuivere experiment niet mogelijk is. Deze ontwerpen bouwen voort op de basisprincipes van het zuivere experiment maar zijn gemakkelijker toepasbaar in de praktijkcontext. Bij een zuiver experiment worden alle standaardmaatregelen toegepast om alternatieve verklaringen voor een mogelijk behandelingseffect zo veel mogelijk uit te sluiten, dat wil zeggen alle andere verklaringen behalve de behandeling. Bij zuivere experimenten wordt er gebruikgemaakt van twee of meer groepen die je dan met elkaar vergelijkt. Daarbij wordt er zorg voor gedragen dat de te vergelijken groepen zo gelijk mogelijk zijn. Er wordt gestreefd naar een zo zuiver mogelijke vergelijking. Het zuivere experiment wordt vaak toegepast vanuit een theoriegestuurde vraagstelling. Dat is begrijpelijk, omdat het aangeven van een mogelijke oorzaak van een bepaald verschijnsel op zich al een theorie is. In dit hoofdstuk passeren verschillende voorbeelden van zuivere experimentele ontwerpen de revue die zijn uitgevoerd vanuit een praktische vraagstelling. De openingscasus is een voorbeeld van een zuiver experimenteel onderzoek. In paragraaf 6.1 wordt de belangrijkste functie van causaliteitsonderzoek in de praktijk behandeld, namelijk het aantonen van behandelingseffecten. Dat is lastiger dan het op het eerste gezicht lijkt. In paragraaf 6.2 worden de pre-experimentele ontwerpen behandeld en wordt uitgelegd waarom deze tekortschieten. Om dat te illustreren wordt in casus 6.1 het praktijkonderzoek van Semmelweis gebruikt. In paragraaf 6.3 wordt het experiment behandeld als ideaaltypische onderzoeksvorm voor causale vraagstellingen. In paragraaf 6.4 wordt aan de hand van een ontwerp uitgewerkt wat de interne en externe validiteit van een experiment is. In paragraaf 6.5 wordt het concept van de alternatieve verklaringen nader uitgewerkt, worden de meest toepasbare alternatieve verklaringen behandeld en wordt ingegaan op de vraag hoe je met een onderzoeksontwerp deze alternatieve verklaringen kunt uitsluiten. In paragraaf 6.6 wordt uitgewerkt hoe je kunt aantonen dat er een behandelingseffect is. In paragraaf 6.7 komen de blokontwerpen aan de orde die gebruikt worden om aan te tonen dat de causale effecten gevonden kunnen worden in te onderscheiden Inleiding 137
groepen. Deze laatste zijn voor praktijkgestuurd onderzoek van bijzonder belang, omdat we dan in eerste instantie te maken hebben met selecte groepen en met behulp van blokontwerpen kan aangetoond worden dat de eerder gevonden resultaten al dan niet een grotere geldigheid hebben dan alleen voor de selecte groep.
6.1
Causale vraag
Causaliteitsonderzoek in de praktijk
In de praktijk voert een deskundige allerlei handelingen uit om zijn clienten zo goed mogelijk van dienst te zijn. Belangrijk daarbij zijn de probleemanalyse (diagnostiek) en de uitvoering van een behandeling. Een belangrijke vraag daarbij is of de handelingen geleid hebben tot het beoogde doel. Is de cliënt door de handelingen van de deskundige geholpen? Uit de aard van de zaak gaat het daarbij om een causale vraag: · Er is een beoogd resultaat (de mate waarin de cliënt geholpen is of in hoeverre de klachten zijn afgenomen). · Er is een behandeling die gericht is op het bereiken van dat doel. Ieder experiment begint met het vaststellen van de verklarende en de verklaarde variabelen waarbij de aard van de behandeling duidelijk moet zijn en het effect van de behandeling gemeten moet kunnen worden.
Manipulatie
Effect
Bij een experiment bestaan de verklarende of onafhankelijke variabelen in veel gevallen alleen uit gemanipuleerde variabelen. Een manipulatie wordt ook wel kortweg als ‘de behandeling’ aangeduid. Ook worden gemanipuleerde variabelen wel de ‘experimentele variabelen’ genoemd, omdat daarmee geëxperimenteerd wordt. Met de verklaarde, of afhankelijke variabelen wordt het effect van de verklarende variabelen vastgesteld. Bij experimenten wordt het ook wel kortweg aangeduid als ‘het behandelingseffect’. In de openingscasus bestaat de experimentele behandeling uit het direct aanspreken van de onderzochte in de medicijnbijsluiter en de experimentele of onafhankelijke variabele uit het al dan niet ondergaan van de experimentele behandeling. Het effect van de behandeling wordt vastgesteld met verschillende afhankelijke variabelen: · tevredenheid over de verstrekte informatie; · waargenomen ernst van de waargenomen gezondheidsrisico’s; · intentie om de behandelingsinstructies op te volgen; · mate waarin de inhoud van de bijsluiter correct wordt gereproduceerd. Vaak zal het bij het vaststellen van behandelingseffecten gaan om de evaluatie van bestaand praktijkhandelen, dat wil zeggen dat er voor een bepaalde problematiek een min of meer vaste diagnostische procedure en vaste behandelingsprocedure gevolgd wordt. De eerste vraag die met een experiment beantwoord kan worden, is of een groep cliënten met de specifieke behandeling effectief geholpen is. Bij onderzoek naar groepsverschillen is er tenminste één behandelingswijze te evalueren. Daarbij wordt een behandelingsgroep vergeleken met een groep zonder behandeling of met een groep met een andersoortige behandeling. De openingscasus is een voorbeeld van het laatste.
138 6 Praktijkonderzoek naar causale relaties 1: het experiment
6.2
Pre-experimentele ontwerpen
Als het bij een onderzoeksontwerp niet mogelijk is om plausibele alternatieve verklaringen uit te sluiten en het dus niet mogelijk is om te concluderen dat de resultaten het gevolg zijn van de toegepaste behandeling, dan wordt een ontwerp pre-experimenteel genoemd. Voorbeelden van pre-experimentele ontwerpen zijn: 1 een voormeting en een nameting bij één groep 2 alleen een nameting bij één groep 3 alleen een nameting bij twee (bestaande) groepen.
Voor- en nameting bij één groep
Ad 1 Een voormeting en een nameting bij één groep Stel we willen weten of een voorlichtingsfilm over drankmisbruik (de ingreep) effect heeft op de attitude over drankgebruik (de effectmeting). Als het onderzoek slechts bestaat uit een voormeting en een nameting bij één groep, dan kan het gevonden effect bijvoorbeeld ook heel goed gezien worden als gevolg van: · een gebeurtenis naast de behandeling (een krantenartikel, een tvprogramma); · de toevallige samenstelling van die groep; · rijping of groei van de personen in de onderzochte groep. Omdat er zoveel andere verklaringsmogelijkheden zijn voor de gevonden resultaten, is het niet zinnig om de behandeling (voorlichtingsfilm) te interpreteren als de oorzaak van het gemeten effect (attitude drankgebruik).
Nameting bij één groep
Nameting bij twee groepen
Ad 2 Alleen een nameting bij één groep Wanneer alleen bij een nameting gegevens bij één groep worden verzameld, is het onmogelijk om te concluderen dat de ingreep met de voorlichtingsfilm effect heeft; met één meting is het niet mogelijk om een verschil vast te stellen. In feite kan het eventuele effect op het drankgebruik ook toegeschreven worden aan iedere andere gebeurtenis dan de ingreep. Er kan nooit worden geconcludeerd dat er een verandering tengevolge van de ‘ingreep’ heeft plaatsgevonden. Ad 3 Alleen een nameting bij twee (bestaande) groepen Als er sprake is van alleen een nameting bij twee groepen, waarvan er één de ingreep heeft ondergaan, kun je eventueel wel achteraf bekijken of de groep die de behandeling ondergaat en de controlegroep zonder behandeling aan elkaar gelijk zijn en dus uitwisselbaar zijn. Het is echter niet mogelijk om een eventueel gevonden verschil tussen beide groepen toe te wijzen aan de behandeling. Het kan ook heel goed een verschil tussen de groepen zijn dat al voor de behandeling bestond. Bij pre-experimentele ontwerpen zijn er altijd alternatieve verklaringen mogelijk. Daarom vormen pre-experimentele ontwerpen geen solide basis om causale uitspraken te doen. In de volgende casus wordt een voorbeeld gegeven van een causaal praktijkonderzoek: het werk van Semmelweis in het midden van de negentiende eeuw. In die tijd was de methodologische en statistische kennis betreffende causaal onderzoek nog nauwelijks ontwikkeld. Semmel6.2 Pre-experimentele ontwerpen 139
weis deed een praktijkonderzoek, waarbij hij gebruikmaakte van verschillende principes die essentieel zijn voor het trekken van causale conclusies uit onderzoeksresultaten: · het identificeren van mogelijke verklaringen; · het systematisch vergelijken van groepen; · manipulatie van mogelijke oorzaken; · het meten van resultaten. Casus 6.1 Semmelweis: praktijkonderzoek naar de oorzaak van kraamvrouwenkoorts Een beroemd voorbeeld van een onderzoek naar een oorzakelijke verklaring is het werk van Semmelweis. Deze arts van Hongaarse afkomst werkte in de jaren 1844–1848 bij de Eerste Kraamafdeling in het algemeen ziekenhuis van Wenen. Veel vrouwen die in deze kliniek hun kind ter wereld brachten, kregen kraamvrouwenkoorts, een ernstige ziekte met veelal dodelijke afloop. In 1844 stierven 260 (8,2%) van de 3 157 moeders in de Eerste Kraamafdeling aan deze ziekte. In 1845 en 1846 waren deze percentages respectievelijk 6,8% en 11,4%. In de aangrenzende Tweede Kraamafdeling van hetzelfde ziekenhuis, waar bijna evenveel vrouwen werden verzorgd, eiste de kraamvrouwenkoorts veel minder doden namelijk: 2,3% in 1844, 2,0% in 1845 en 2,7% in 1846. Opmerkelijk is dat Semmelweis allereerst begon met het identificeren van allerlei mogelijke verklaringen en dat hij deze mogelijke verklaringen van kraamvrouwenkoorts systematisch evalueerde aan de hand van gemeten resultaten. Hij overwoog verschillende verklaringen die in die tijd gangbaar waren. Volgens een door velen aanvaarde zienswijze werd de kraamvrouwenkoorts toegeschreven aan ‘epidemische invloeden’. Deze externe invloeden werden vaag aangeduid als ‘atmosferisch-kosmischtellurische veranderingen’ die zich over hele districten uitbreidden en bij de bevalling kraamvrouwenkoorts veroorzaakten. Bij zijn evaluatie vergeleek Semmelweis diverse groepen. Het was vreemd, redeneerde Semmelweis, dat deze invloeden de Eerste Kraamafdeling jaren achter elkaar teisterden, maar aan de Tweede Kraamafdeling voorbijgingen. Bovendien vond hij het merkwaardig dat in Wenen en omgeving nauwelijks een geval van kraamvrouwenkoorts voorkwam. Een echte epidemie, zoals cholera, zou niet zo selectief zijn. Hij constateerde dat enkele vrouwen die waren opgenomen op de Eerste Kraamafdeling ver van het ziekenhuis af woonden, onderweg door weeën waren overvallen en op straat waren bevallen. Ondanks deze ongunstige omstandigheden was de sterfte door kraamvrouwenkoorts
140 6 Praktijkonderzoek naar causale relaties 1: het experiment
onder deze gevallen van bevalling op straat echter lager dan het gemiddelde van de Eerste Kraamafdeling. Verder was de Eerste Kraamafdeling overvol. Dit zou mogelijk de oorzaak zijn van de sterfte op de Eerste Kraamafdeling. Maar Semmelweis vond dat de Tweede Kraamafdeling voller was, deels als gevolg van wanhopige pogingen van cliënten om plaatsing op de beruchte Eerste Kraamafdeling te voorkomen. Ook bleken er geen verschillen in voeding en algemene verzorging van de cliënten te bestaan tussen de twee afdelingen. Een commissie die in 1846 was ingesteld om de zaak te onderzoeken, weet de ziekte aan verwondingen als gevolg van ruwe behandeling door medische studenten, die allemaal hun verloskundige opleiding ontvingen op de Eerste Kraamafdeling. Semmelweis bracht daar verschillende argumenten tegen in: · De verwondingen die het natuurlijke gevolg zijn van de geboorte zijn uitgebreider dan ruwe onderzoeken zouden kunnen veroorzaken. · De vroedvrouwen die hun opleiding op de Tweede Kraamafdeling kregen onderzochten hun cliënten op ongeveer dezelfde manier, zonder ernstige gevolgen. · Toen als reactie op het rapport van de commissie het aantal medische studenten werd gehalveerd en onderzoeken door hen tot een minimum werden teruggebracht, steeg de sterfte na een korte daling sterker dan ooit tevoren. Ook verschillende psychologische verklaringen passeerden de revue. Een daarvan ging uit van het feit dat de Eerste Kraamafdeling zo was gesitueerd dat een priester die het sacrament bracht aan een stervende vrouw vijf zalen moest doorlopen om de sterfkamer daarachter te bereiken. Men ging ervan uit dat het verschijnen van de priester, voorafgegaan door een misdienaar met een bel, de cliënten schrik aanjoeg en een verzwakkende uitwerking had op de cliënten in de zalen en dus de kans vergrootte dat zij aan de ziekte ten offer zouden vallen. Op de Tweede Kraamafdeling was deze factor afwezig aangezien de priester rechtstreeks toegang had tot de sterfkamer. Semmelweis besloot dit te toetsen door deze mogelijke oorzaak te manipuleren. Hij haalde de priester over om langs een omweg te komen en zonder belgerinkel, om zo onopgemerkt de sterfka-
mer te bereiken. Op de Eerste Kraamafdeling nam de sterfte echter niet af. Verder realiseerde Semmelweis zich dat de vrouwen op de Eerste Kraamafdeling op hun rug lagen bij de bevalling en op de Tweede Kraamafdeling op hun zij. Ook deze mogelijke oorzaak werd door een manipulatie systematisch gewijzigd. Hij voerde het liggen op de zij bij de bevalling ook in op de Eerste Kraamafdeling. Dit had echter geen invloed op het sterftecijfer. In 1847 vond Semmelweis bij toeval de oplossing van het probleem. Een collega van hem verwondde zijn vinger door een prik van het scalpel van een student met wie hij een autopsie verrichtte. Deze collega stierf na een martelende ziekte, waarbij Semmelweis dezelfde symptomen zag als hij bij slachtoffers van kraamvrouwenkoorts had waargenomen. De rol van micro-organismen bij zulke infecties werd in die tijd nog niet ingezien. Toch besefte Semmelweis dat lijkengif, dat via het scalpel van de student in het bloed van zijn collega was gebracht, de dodelijke ziekte had veroorzaakt. Door de overeenkomsten tussen het verloop van de ziekte van zijn collega en die van de vrouwen in zijn kliniek concludeerde Semmelweis dat de cliënten waren gestorven aan dezelfde soort bloedvergiftiging. De artsen, inclusief hijzelf, en de medische studenten waren de dragers geweest van de besmettende stof. Hij en zijn medewerkers kwamen gewoonlijk direct na het verrichten van ontledingen in de autopsiekamer naar de zalen en onderzochten de vrouwen in barensnood na slechts vluchtig hun handen te hebben gewassen. Hun handen hielden vaak een karakteristieke bedorven geur.
6.3 Kenmerken causaal onderzoek
Semmelweis onderwierp ook deze veronderstelling aan een test. Hij redeneerde dat de kraamvrouwenkoorts voorkomen zou kunnen worden door de besmettende stof die aan de handen kleefde chemisch te vernietigen. Hij manipuleerde deze variabele door alle medische studenten de opdracht te geven hun handen te wassen in een oplossing van chloorkalk voordat zij iemand gingen onderzoeken. De sterfte door kraamvrouwenkoorts begon meteen af te nemen en daalde in het jaar 1848 naar 1,27% op de Eerste Kraamafdeling. In dat jaar was op de Tweede Kraamafdeling het percentage sterfgevallen 1,33%. Voor de verdere ondersteuning van deze hypothese pleit nog dat de cliënten op de Tweede Kraamafdeling werden verzorgd door vroedvrouwen bij wie anatomisch onderwijs door het ontleden van lijken niet voorkwam. Daarom was het sterftecijfer op de Tweede Kraamafdeling veel lager. Deze hypothese verklaarde ook de lagere sterfte bij bevallingen op straat. Vrouwen die bij het ziekenhuis aankwamen met een kind in de armen werden zelden onderzocht en hadden dus een grotere kans om niet besmet te raken. Overigens werd Semmelweis wegens zijn opvatting, die later juist bleek, ontslagen uit het ziekenhuis waar hij werkte en in een krankzinnigeninrichting opgesloten. De informatie over Semmelweis is ontleend aan C. G. Hempel (1970), Filosofie van de natuurwetenschappen (pp. 12-17). Hempel ontleende zijn informatie aan W.J. Sinclair (1909), Semmelweis: His Life and His Doctrine. Manchester.
Het experiment als ideaaltypische vorm
In het werk van Semmelweis zijn een aantal specifieke kenmerken aan te wijzen van causaal onderzoek: · identificatie van de te verklaren variabele (de afhankelijke variabele); · identificatie van verklarende variabelen (de onafhankelijke variabelen); · herhaalde meting van de afhankelijke variabele; · systematische manipulatie van de verklarende variabele(n); · vaststellen van het behandelingseffect door systematische vergelijking van groepen. Deze kenmerken komen terug bij elk onderzoek dat gericht is op het vaststellen van causaliteit. Wij zullen verderop zien dat deze kenmerken nodig zijn voor het identificeren van een verklarende variabele, maar niet voldoende zijn. Semmelweis heeft zijn onderzoek uitgevoerd onder (min of meer) natuurlijke omstandigheden, waardoor de onder6.3 Het experiment als ideaaltypische vorm 141
zoekssituatie niet volledig controleerbaar was en de te onderzoeken groepen op min of meer natuurlijke wijze waren samengesteld. Onderzoeksvraag
Het uitgangspunt van elk onderzoek is een onderzoeksvraag. Bij een onderzoeksvraag wordt impliciet een verwachting uitgesproken over de relatie tussen verklarende (onafhankelijke) variabelen en de verklaarde (afhankelijke) variabele. Bij een experimenteel onderzoek gaat het daarbij om een causale relatie.
Keuze onafhankelijke variabele
De keuze van de onafhankelijke variabele is vanzelfsprekend afhankelijk van de onderzoeksvraag. Het gaat daarbij om de keuze van een manipulatie waarvan verwacht wordt dat die de verwachte verschillen bewerkstelligt. Vaak is de vraagstelling afkomstig van een abstracte theorie en er is in dat geval meestal een keuze mogelijk uit verschillende operationalisaties. Het probleem van operationalisatie, een abstract concept wordt toegespitst tot een meetbare variabele, is een van de belangrijkste problemen die bij het opzetten van onderzoek opgelost moeten worden. Bij de keuze van de afhankelijke variabele geldt dat: · de gemeten afhankelijke variabele gevoelig is voor verschillen tussen de verschillende experimentele condities; · de variabelen observeerbaar zijn onder de verschillende condities van het experiment; · de meting economisch haalbaar is; · de proefpersoon van de meting zo min mogelijk hinder ondervindt.
Keuze afhankelijke variabele
Het moet voorkomen worden dat de groepen die in het experiment vergeleken worden van elkaar verschillen, voordat de verschillende manipulaties van de groepen hebben plaatsgevonden. Semmelweis had, zoals meestal in een praktijkcontext, te maken met min of meer natuurlijk samengestelde groepen. Hij had zelf geen invloed op de samenstelling van de groepen. Voor een zuivere vergelijking moeten de te vergelijken groepen zo gelijk mogelijk aan elkaar zijn. In het geval van Semmelweis zou het zo kunnen zijn dat de groep vrouwen van de Eerste Kraamafdeling anders is samengesteld dan die van de Tweede Kraamafdeling. Als de Eerste Kraamafdeling bijvoorbeeld meer vrouwen met een slechtere gezondheidsconditie bevat dan de andere kraamafdeling, dan zou het ook niet verwonderlijk zijn dat deze vrouwen kwetsbaarder zijn voor kraamvrouwenkoorts. We zien hieraan dat het in een praktijkcontext vaak lastig is om te garanderen dat groepen goed met elkaar vergeleken kunnen worden.
Een laboratoriumexperiment Een voorbeeld van een laboratoriumonderzoek naar een causale relatie is een onderzoek naar het onthouden van woorden door lagere schoolkinderen tussen 7 en 9 jaar onder twee condities: · In de ene conditie worden de woorden gepresenteerd in gewone zinnen. · In de tweede worden de woorden gepresenteerd in rijmende zinnen. De verwachting is dat de rijmvorm tot betere herinnering leidt, doordat de zinnen gemakkelijker cognitief verbonden worden. De afhankelijke variabele bestaat uit het aantal woorden dat de kinderen zich een week na de presentatie correct herinnert. De verklarende variabele is de presentatiewijze van de 142 6 Praktijkonderzoek naar causale relaties 1: het experiment
zinnen. Verwacht wordt dat het verschil tussen de groepen zal leiden tot een verschil in het aantal onthouden woorden.
Een praktijkexperiment Bij praktijkonderzoek zijn we ook vaak geïnteresseerd in causale vraagstukken, bijvoorbeeld of een bepaalde behandelingswijze effectief is of effectiever dan een andere behandelingswijze. Een voorbeeld is een onderzoek naar het effect van een trainingsmethode op de sociale vaardigheid van adolescenten. Daarbij wordt onderzocht of een training die gericht is op assertiviteit effectiever is dan een voorlichting die gericht is op beleefdheid. Zowel de trainingsgroep als de voorlichtingsgroep wordt vergeleken met een groep die geen behandeling ondergaat. Assertiviteit is het opkomen voor het eigen belang, zonder daarbij onnodig de belangen van een ander te schaden. Assertief gedrag staat enerzijds tegenover subassertief gedrag, waarbij de eigen belangen geschaad worden en anderzijds tegenover agressief gedrag, waarbij de belangen van de ander worden geschaad. Assertief gedrag wijkt vaak af van beleefd gedrag, omdat bij het tonen van assertiviteit de belangentegenstelling op een duidelijke wijze aan de orde wordt gesteld. Bij beleefd gedrag laat je een belangentegenstelling juist vaak onopgemerkt passeren om opschudding en twistgesprekken te voorkomen, ook al roept het gedrag van een ander enige ergernis op. De onderzoeksvraag is een causaal vraagstuk, omdat we niet alleen graag willen weten of er effect is, maar daarbij ook graag zeker willen weten dat het de behandeling is geweest die geleid heeft tot het effect en niet allerlei andere omstandigheden. Wij zullen zien dat het aantonen van causaliteit in dit praktijkonderzoek veel lastiger is en dat bij praktijkonderzoek alternatieve verklaringen voor het gevonden effect meestal minder goed uitgesloten kunnen worden. Zuiver experiment
Een zuiver experiment heeft de volgende kenmerken: 1 verschillende manipulaties of behandelingen 2 aselecte toewijzing 3 controle van irrelevante variabelen 4 meting van het effect van de manipulaties. Ad 1 Verschillende manipulaties Er is een experimentele groep die een manipulatie of behandeling ondergaat en ten minste één vergelijkingsgroep. Elke onderzoeksgroep ondergaat een andere behandeling (manipulatie) of dezelfde behandeling in verschillende mate. In het laboratoriumexperiment krijgt de vergelijkingsgroep of de controlegroep de woorden gepresenteerd in de vorm van gewone zinnen, de experimentele groep krijgt de woorden gepresenteerd in rijmende zinnen. Bij het praktijkexperiment krijgt één groep een op sociale vaardigheid gerichte assertiviteitstraining (de feitelijke behandelingsgroep), terwijl een andere groep voorlichting krijgt over sociaal gedrag op grond van een boek over goede manieren (controlegroep met equivalente behandeling). Een derde groep ondergaat geen enkele vorm van behandeling (controlegroep zonder behandeling). Ad 2 Aselecte toewijzing Er moet enige garantie zijn dat de groepen goed met elkaar vergeleken kunnen worden. Om hiervoor te zorgen, wordt er gebruikgemaakt van aselecte toewijzing, waarmee wordt voorkomen dat de te vergelijken 6.3 Het experiment als ideaaltypische vorm 143
groepen een bepaalde selectie omvatten. In paragraaf 6.3.1 worden de verschillende mogelijkheden uitgewerkt om met behulp van aselecte toewijzing goed vergelijkbare groepen te krijgen. Ad 3 Controle van irrelevante variabelen Voor de controle van irrelevante variabelen die mogelijk van invloed zijn, moet een gecontroleerde experimentele onderzoekssituatie worden gekozen. In een laboratorium is dat wat gemakkelijker te realiseren dan onder praktijkomstandigheden. In ons laboratoriumexperiment is het gelijkhouden van de omstandigheden gemakkelijk, omdat de experimentele behandeling kort duurt en eenvoudig van aard is. In ons praktijkexperiment ligt dat anders, omdat de behandelingen langdurig en complex zijn. Toch proberen wij ook hier de omstandigheden zo gelijk mogelijk te houden. De training en de voorlichting worden tegelijkertijd gegeven in vergelijkbare zalen in hetzelfde gebouw. Beide behandelingsvormen duren even lang en worden gegeven door ervaren, gemotiveerde trainers of docenten met een vergelijkbare vooropleiding, ervaring, betaling en dergelijke en die achter de te verzorgen behandelingswijzen staan. Alle trainers of docenten behandelen een gelijk aantal cliënten zowel in de controleconditie met equivalente behandeling als in de experimentele groep. In beide groepen worden soortgelijke sociale situaties behandeld. De controlegroep die geen behandeling ondergaat, krijgt geen training en daarbij zijn dus deze irrelevant geachte variabelen niet gecontroleerd: de behandelingsgroepen verschillen dus in meer dan één opzicht van de niet-behandelde controlegroep. Bij een effectverschil tussen de behandelingsgroep en de niet-behandelde controlegroep kun je er dus ook niet zeker van zijn dat alleen de behandeling de oorzaak is van dit verschil. Hiermee is het ook duidelijk waarom een controlegroep die een equivalente behandeling ondergaat feitelijk noodzakelijk is. Zie ook ‘De praktijk van de complexe behandeling’ hierna. Ad 4 Meting van het effect van de manipulaties Het effect wordt vastgesteld aan de hand van een of meer afhankelijke variabelen. Bij de afhankelijke variabele of verklaarde variabele gaat het om het aspect van het gedrag van een subject dat naar verwachting door de manipulatie aan verandering onderhevig is. In het laboratoriumexperiment is de meting van het effect betrekkelijk eenvoudig. Na een uur wordt aan de kinderen gevraagd welke woorden zij zich herinneren. In het praktijkexperiment is de meting wat ingewikkelder. De adolescenten krijgen een gestandaardiseerde vragenlijst voorgelegd met situaties die soortgelijk zijn aan de situaties die in de beide behandelingsgroepen aan de orde zijn gesteld. Op grond van de antwoorden worden twee scores vastgesteld: een assertiviteitsscore en een beleefdheidsscore. Een ander voorbeeld van een mogelijk onderzoeksinstrument is een gedragstest waarbij de adolescent een sociale situatie ondergaat in een rollenspel. Het gedrag van de adolescent wordt dan geobserveerd door getrainde observatoren. Bij dit soort onderzoek worden er vaak verschillende effectmetingen naast elkaar gebruikt en worden er vaak verschillende persoonskenmerken vastgesteld. In ons praktijkexperiment is de verwachting dat de groep die de assertiviteitstraining heeft ondergaan een hogere assertiviteitsscore zal behalen, terwijl de groep die de beleefdheidsvoorlichting ondergaat een ho144 6 Praktijkonderzoek naar causale relaties 1: het experiment
gere beleefdheidsscore zal behalen. Daarnaast is de verwachting dat de groep die de assertiviteitstraining ondergaat een aanmerkelijk hogere assertiviteitsscore zal behalen in vergelijking met de controlegroep zonder behandeling. Als dit niet het geval is, dan heeft de assertiviteitstraining blijkbaar geen effect. Hetzelfde geldt voor de beleefdheidsscore bij de vergelijking tussen de controle groep met equivalente behandeling (de voorlichtingsgroep) en de controlegroep zonder behandeling.
De praktijk van de complexe behandeling In de praktijk hebben wij meestal te maken met complexe behandelingen. Een assertiviteitstraining is daarvan een goed voorbeeld. De behandeling vindt plaats in verschillende achtereenvolgende sessies en beslaat meestal vier tot tien bijeenkomsten. De behandeling is mede afhankelijk van de therapeut die de behandeling uitvoert en kent verschillende elementen die bijdragen aan het totale effect. Bij een assertiviteitstraining komen er diverse gedragsvaardigheden en cognitieve vaardigheden aan de orde. Methodologisch gezien, maakt dit een aantal extra voorzieningen noodzakelijk. Je kunt niet volstaan met slechts één controlegroep die geen behandeling ondergaat. De vergelijking met een equivalente behandelingsgroep is nodig om bijvoorbeeld aan te kunnen tonen dat het de assertiviteitstraining op zich is die het effect veroorzaakt en niet een algemene aandachtsfactor die het welbevinden van de cliënten positief beïnvloedt. Om uit te kunnen sluiten dat er een proefleidereffect (in dit geval een trainereffect) is in plaats van of naast een effect van de inhoud van de behandeling moet er met verschillende trainers worden gewerkt die aselect aan de te behandelen cliënten gekoppeld worden. Als er slechts één trainer is, dan kun je slechts concluderen dat een eventueel gevonden effect toegekend moet worden aan de combinatie trainer/behandelingsmethode. Dat geldt ook als één trainer zowel de experimentele als de controlebehandeling uitvoert, omdat een trainer affiniteit kan hebben met bijvoorbeeld de experimentele behandeling en aanmerkelijk minder met de controlebehandeling. Bij complexe behandelingsvormen kan ook verwacht worden dat er verschillende effecten zijn. Het is daarom nuttig de behandelingen in verschillende opzichten te evalueren door verschillende afhankelijke metingen te gebruiken en verschillende persoonskenmerken vast te stellen. Vergelijk ook de multitrekmultimethodebenadering in hoofdstuk 5.
De vergelijkbaarheid van de groepen is een essentieel kenmerk van zuiver experimenteel onderzoek. In paragraaf 6.3.1 wordt behandeld hoe we de vergelijkbaarheid door de toepassing van aselecte toewijzing kunnen bewerkstelligen. In paragraaf 6.3.2 behandelen we de experimentele controle die nodig is om ervoor te zorgen dat de condities van de te vergelijken groepen gelijk zijn. In paragraaf 6.3.3 behandelen we het basisontwerp waarbij verschillende groepen worden vergeleken voor behandelingsevaluaties. 6.3.1
Toepassen van aselecte toewijzing
Om voor vergelijkbare groepen te zorgen, zijn er verschillende mogelijkheden. Wij behandelen er drie: · onbeperkte aselecte toewijzing; · gekoppelde aselecte toewijzing; · homogenisering. 6.3 Het experiment als ideaaltypische vorm 145
Onbeperkte aselecte toewijzing
Onbeperkte aselecte toewijzing of free random assignment van proefpersonen aan onderzoekscondities bestaat uit het op grond van een toevalsproces (bijvoorbeeld het gebruik van een dobbelsteen) toewijzen van proefpersonen aan onderzoeksgroepen. De belangrijkste functie van aselecte toewijzing is dat er op die manier voor gezorgd wordt dat de te vergelijken groepen niet per ongeluk een bepaalde selectie van personen bevat. Bij aselecte toewijzing van proefpersonen aan de verschillende onderzoeksgroepen heeft elke onderzochte persoon een even grote kans om aan de verschillende onderzoekscondities toegewezen te worden. In het laboratoriumexperiment wordt van een groep kinderen bij ieder kind met een generator van toevalsgetallen bepaald of het kind met de conditie met de gewone zinnen of met de rijmzinnen te maken krijgt. In het praktijkexperiment wordt op soortgelijke wijze bij elke adolescent met een generator van toevalsgetallen (bijvoorbeeld een dobbelsteen) bepaald of de adolescent in de trainingsgroep of in de voorlichtingsgroep geplaatst wordt. Levert de dobbelsteenworp een of twee dan gaat de adolescent naar de behandelingsgroep, bij drie of vier naar de controlegroep met equivalente behandeling en bij vijf of zes naar de controlegroep zonder behandeling. Voordelen aselecte toewijzing
Aselecte toewijzing heeft twee voordelen: · Systematische verschillen tussen de groepen worden voorkomen. · Als wij aannemen dat allerlei mogelijke invloeden op de afhankelijke variabele bij de verschillende proefpersonen in de populatie in uiteenlopende mate voorkomen, kan verondersteld worden dat in een groep het totaal van alle mogelijke invloeden op de afhankelijke variabele een constante waarde heeft. Als wij eerst een aselecte steekproef uit de populatie trekken en vervolgens de steekproef aselect toewijzen aan de onderzoeksgroepen, dan kan aangenomen worden dat in beide groepen dit totaal van invloeden gelijk is. Deze som van invloeden wordt als ruis of fouten beschouwd en wordt bij de statistische verwerking gerekend tot de foutencomponent. Bij aselecte toewijzing is er geen garantie dat de groepen in alle opzichten gelijkwaardig aan elkaar zijn. Wel is de kans groter dat de groepen statistisch gezien gelijk aan elkaar zijn, naarmate de onderzoeksgroepen groter zijn. Aselecte toewijzing is vooral zinvol als van tevoren niet bekend is welke mogelijke kenmerken van proefpersonen een verstorende rol zouden kunnen spelen. Omdat we nooit van tevoren kunnen weten welke van de ontelbare kenmerken van invloed zijn, is aselecte toewijzing altijd nodig. Gekoppelde aselecte toewijzing
Gekoppelde aselecte toewijzing of matched random assignment is een tweede mogelijkheid om systematische verschillen tussen de onderzoeksgroepen te voorkomen. Soms weet de onderzoeker van tevoren dat een variabele een storende invloed heeft. Het moet dan wel gaan om een invloed van enige betekenis. Een dergelijke variabele wordt wel een covariaat genoemd, omdat van deze variabele bekend is dat die covarieert met de afhankelijke variabele. Een voorbeeld van een dergelijke covariaat is bijvoorbeeld geslacht. Als we van tevoren weten dat het geslacht van de adolescent van invloed is op het assertieve gedrag, 146 6 Praktijkonderzoek naar causale relaties 1: het experiment
dan is het belangrijk om ervoor te zorgen dat in alle groepen evenveel jongens en meisjes voorkomen. Als een dergelijk kenmerk van tevoren bekend is, dan is het belangrijk ervoor te zorgen dat de invloed van een dergelijke variabele bij alle groepen gelijk is. Dat kan met gekoppelde toewijzing of matching. Je maakt eerst koppels van telkens twee jongens en twee meisjes. Je wijst aselect van elk koppel telkens één jongen toe aan de experimentele groep en de andere jongen toe aan de controlegroep. Hetzelfde doe je met de koppels van meisjes. Het eindresultaat is dat de experimentele groep en de controlegroep evenveel jongens en meisjes bevat.
Precisiekoppeling
Globale koppeling
Gekoppelde toewijzing is vrij gemakkelijk toe te passen als er maar één koppelingsvariabele is. Naarmate er meer variabelen zijn wordt het lastiger. Er zijn in dat geval twee vormen van koppeling: · Precisiekoppeling. Bij precisiekoppeling worden koppels van onderzochten samengesteld die zo gelijk mogelijk zijn op alle kenmerken waarvan je denkt dat ze invloed hebben op de afhankelijke variabele, zoals leeftijd, sekse en sociaal-economische status. Van ieder paar komt een persoon in de experimentele groep en de andere in de controlegroep, waarbij de toewijzing uiteraard op toevalsbasis plaatsvindt. Naarmate het aantal koppelingsvariabelen groter wordt is het lastiger om koppels te vormen die op alle variabelen gelijk zijn. Daarnaast is het een probleem dat de omvang van de verzameling van potentiële proefpersonen bepaald wordt door het aantal beschikbare koppels. Daardoor is er in het algemeen een grotere groep nodig dan wanneer er geen gekoppelde toewijzing wordt toegepast. · Globale koppeling. Bij globale koppeling wordt er slechts voor gezorgd dat beide groepen in bepaalde opzichten gelijkwaardig zijn. Bij globale koppeling wordt er alleen maar naar gestreefd dat de frequentieverdeling van een aantal kenmerken, zoals leeftijd en opleiding, in de experimentele groep en controlegroep gelijk is. Deze laatste methode is minder zuiver, maar wel veel gemakkelijker toe te passen. Homogenisering
Je kunt je experiment ook beperken tot een of meer homogene groepen, dus tot alleen mannen of alleen adolescenten. Dit heet homogeniseren. Uiteraard zijn dan de mogelijke conclusies beperkt tot de homogene groepen. Dus als je alleen mannen onderzoekt, dan kun je alleen uitspraken doen over mannen. In die zin speelt de variabele geslacht dan geen rol. 6.3.2
Experimentele controle
Bij experimenten is het eerste doel om vergelijkbare effectmetingen te verkrijgen. Bij een opzet met verschillende groepen moeten de effectmetingen van de diverse groepen goed met elkaar te vergelijken zijn. Bij herhaalde metingen bij dezelfde groep moeten de herhaalde metingen goed met elkaar vergeleken kunnen worden. Alleen in dat geval kunnen we vaststellen of er een effect is van de behandeling. Als onderzoeker moet je dus zo goed mogelijk controle hebben over allerlei omstandigheden van het onderzoek, zodat je er zeker van kunt zijn dat het gevonden effect is veroorzaakt door de onafhankelijke variabele en niet door een andere factor. 6.3 Het experiment als ideaaltypische vorm 147
Om ervoor te zorgen dat de metingen vergelijkbaar zijn, moet de onderzoeker ervoor zorgen dat alle omstandigheden van het onderzoek gelijk zijn, met als enige uitzondering het behandelingsverschil dat het object van onderzoek is. Hoewel dit doel van experimentele controle glashelder is, moet wel opgemerkt worden dat dit gemakkelijker gezegd is dan gedaan, zelfs wanneer het onderzoek in een goed uitgerust laboratorium plaatsvindt. Zodra er een aantoonbaar verschil is, naast het beoogde behandelingsverschil, dan is dit een mogelijke alternatieve verklaring voor een gevonden effectverschil. Het is dan niet mogelijk om te concluderen dat het gevonden effectverschil veroorzaakt is door het beoogde behandelingsverschil of de manipulatie van de onafhankelijke variabele. Als onderzoeker moet je zorgen voor: · gelijke omstandigheden; · gelijke proefleiders; · gelijke metingen; · gelijke behandelingen. Gelijke omstandigheden
Allereerst moeten alle condities gelijk zijn, zowel de externe als de interne. Het mag niet zo zijn dat bijvoorbeeld de controlegroep onder lawaaiige omstandigheden wordt onderzocht, terwijl de groep die aan de te onderzoeken behandeling wordt blootgesteld, juist onder stille omstandigheden wordt onderzocht. Belangrijke aandachtspunten zijn: gelijke ruimten, gelijke tijdstippen en gelijke perioden. Het is bijvoorbeeld niet correct om een experimentele groep in de zomer te onderzoeken en een controlegroep in de herfst. Sociaal-wetenschappelijke laboratoria zijn er speciaal op ingericht om de omstandigheden zo veel mogelijk gelijk te houden. Hoewel het in de praktijk vaak minder gemakkelijk is om volledig gelijke omstandigheden te realiseren, kunnen gelijke fysieke omstandigheden meestal wel gerealiseerd worden. Dat geldt ook als er sprake is van herhaalde metingen. Gelijke proefleiders
De verschillende behandelingen worden uitgevoerd door proefleiders die de onderzoeker assisteren bij de uitvoering van het onderzoek. Zo wordt bijvoorbeeld een socialevaardigheidstraining uitgevoerd door trainers en een experimentele psychotherapeutische behandeling door psychotherapeuten. De trainers en de psychotherapeuten zijn de proefleiders. Uiteraard zijn personen verschillend en is het mogelijk dat de proefleider op zichzelf een effect heeft. Dit effect heet het proefleidereffect. Zo kan het zijn dat de ene proefleider meer motiveert dan de ander. Als er een experimentele groep is en een controlegroep, dan is het belangrijk dat beide groepen te maken krijgen met dezelfde proefleider(s). Het heeft daarbij de voorkeur dat er verschillende proefleiders zijn die zowel de experimentele groepen als de controlegroepen leiden. Als er maar één proefleider is die zowel de controlegroep als de experimentele groep begeleidt, dan kan het zo zijn dat het effect afkomstig is van die ene specifieke proefleider die al dan niet de behandeling uitvoert en niet van de behandeling zelf. Bij verschillende proefleiders wordt het meer aannemelijk dat het de behandeling is die effect heeft. Soms is het bij praktijkonderzoek niet mogelijk om de proefleiders gelijk te houden, bijvoorbeeld omdat de experimentele behandeling een speciale deskundigheid vereist en deze proefleiders niet beschikbaar 148 6 Praktijkonderzoek naar causale relaties 1: het experiment
zijn voor het proefleiderschap bij de controlegroep. Dan ontstaat er een probleem, omdat de oorzaak van een gevonden behandelingsverschil niet zonder meer toegewezen kan worden aan de behandeling, maar ook veroorzaakt kan zijn door de verschillende proefleiders. Gelijke metingen
Hoewel het voor de hand ligt, wordt hier toch even genoemd dat bij alle groepen gemeten moet worden met dezelfde meetinstrumenten. Het mag dus niet zo zijn dat voor de effectmetingen bij de experimentele groep andere instrumenten gebruikt worden dan bij de controlegroep. Hetzelfde geldt uiteraard voor herhaalde metingen. Gelijke behandelingen
Placebo-effect
Hoewel dit juist wat minder voor de hand ligt, moeten ook de behandelingen die aan beide groepen gegeven worden zo veel mogelijk gelijk zijn, met als enige uitzondering het behandelingsverschil dat het object van onderzoek is. In veel gevallen zijn behandelingen complex. Zelfs het al dan niet geven van een pil aan respectievelijk de experimentele groep en controlegroep kan een oneigenlijk effect opleveren. Dit staat bekend als het placebo-effect.
Placebo-effecten Als je aan de experimentele groep een werkzame pil geeft en aan de controlegroep een niet-werkzame pil, dan is het mogelijk dat er bij deze laatste groep toch een effect ontstaat. Het verschijnsel dat een groep die een niet-werkend pilletje (een placebo) krijgt toch vaak een zeker verbeteringseffect te zien geeft, wordt een placebo-effect genoemd. Daarom wordt in onderzoek naar de effecten van medicijnen altijd een controlegroep opgenomen die een dergelijk nepmedicijn krijgt (de zogenaamde placebogroep). Dit zorgt ervoor dat het eventuele placebo-effect voor beide groepen gelijk is. Bij psychotherapieonderzoek kan de mate van aandacht die je binnen het onderzoek aan de cliënt besteedt een soortgelijke rol spelen. Een groep die geen gerichte behandeling ontvangt, maar wel dezelfde mate van persoonlijke aandacht ontvangt als bij een psychotherapie gangbaar is, kan in vergelijking met een groep die helemaal geen behandeling ondergaat enige vooruitgang op de afhankelijke variabele te zien geven. Dit wordt dan een aandachtsplacebo genoemd: ook ongerichte aandacht kan een gewenst effect hebben op de cliënten. Om een dergelijk aandachtseffect uit te schakelen wordt bij psychotherapieonderzoek vaak een aandachtsplacebo gebruikt, waarbij een controlegroep dezelfde mate van aandacht ontvangt als de groep die de gerichte psychotherapie ondergaat. Het gaat dan om een controlegroep met een equivalente behandeling. 6.3.3 Pretest-posttestontwerp met controlegroep
Basisontwerp voor behandelingseffecten
Een veelgebruikt ontwerp bij het evalueren van behandelingseffecten is het pretest-posttestontwerp met controlegroep. Er is bij deze opzet een aantal varianten mogelijk. Het is daarbij van belang of op grond van de voormeting gekoppelde toewijzing plaatsvindt of niet. Hierna staat in schema 1 de meting voor de gekoppelde toewijzing los van de voormeting. Bij elke persoon wordt bijvoorbeeld het geslacht bepaald, waarna gekoppelde toewijzing op geslacht plaatsvindt. In schema 2 vindt gekoppelde toewijzing plaats op grond van een variabele die wordt vastgesteld bij de voormeting. 6.3 Het experiment als ideaaltypische vorm 149
[1] [2]
(gt) (gt) O1 O2
at at (gt) (gt)
O1 O2 at at
X1 X2 X1 X2
O3 O4 O3 O4
gt = gekoppelde toewijzing at = aselecte toewijzing O1, O2, O3, O4 = metingen of ‘observations’. Daarbij zijn O1 en O2 de voormetingen en O3 en O4 de nametingen. X1, X2 = manipulatie van de onafhankelijke variabele. Vaak is X2 een nietbehandelde controlegroep.
In schema 1 kan er begonnen worden met gekoppelde toewijzing (‘matched random assignment’). De proefpersonen worden dan gekoppeld op grond van een reeds bekende variabele. Vervolgens worden de proefpersonen van elk koppel aselect aan de beide groepen toegewezen. Daarna vindt de voormeting plaats (O1 respectievelijk O2), de manipulatie en de nameting (O3 respectievelijk O4). In schema 2 vindt eerst de voormeting plaats. Op grond van de voormeting (O1 en O2) worden de proefpersonen gekoppeld en aselect toegewezen aan de beide onderzoeksgroepen. De ene groep ondergaat vervolgens de manipulatie en de andere niet. Tot slot volgen de nametingen (O3 respectievelijk O4). Er is slechts één voormeting: bij alle proefpersonen vindt de voormeting tegelijkertijd plaats (O1 = O2). Er is immers nog geen opdeling in groepen. Het voordeel van de benadering met voor- en nametingen is dat toevallige verschillen tussen beide groepen op de voormeting uitgesloten worden. De voormeting dient als referentie. De invloed van de manipulatie kan afgemeten worden aan de hand van de verschillen tussen voor- en nameting. Als X2 geen manipulatie omvat, dan spreken we van een controlegroep zonder behandeling (‘no-treatment controlgroup’). Geen behandeling verschilt meestal in meer dan een opzicht van wel een behandeling en is in dat geval niet zondermeer vergelijkbaar. Toch wordt dit wel toegepast en wel om een zo sterk mogelijke start met het onderzoek te maken. Als de behandeling effect heeft, dan moet de gemiddelde score op O3 immers verschillen van die op O4 (de meting bij de groep die geen enkele behandeling heeft ondergaan). In later onderzoek kan dan worden nagegaan of er ook behandelingsverschillen ontstaan als de controlegroep wel een (andere) vorm van behandeling heeft ondergaan. Een onderzoek met een extra controlegroep met een equivalente behandeling is dus een verfijning van een experiment met alleen een controlegroep zonder behandeling.
6.4
Interne en externe validiteit van het experiment
De eerste doelstelling van een experiment is het zo veel mogelijk garanderen dat er een geldige causale conclusie getrokken kan worden. Een experiment waarbij dit het geval is, heet intern valide. Daarvoor 150 6 Praktijkonderzoek naar causale relaties 1: het experiment
wordt zo veel mogelijk geprobeerd bij de opzet van het experiment fouten te voorkomen die van tevoren te voorzien zijn. Als het gaat om de bepaling of wat er in het experiment gevonden is ook geldig is onder andere omstandigheden, op andere tijden, op andere plaatsen en/of andere subjecten dan die van het onderzoek, dan gaat het om de externe validiteit. Interne validiteit
Bij experimentele ontwerpen is het mogelijk om, mede door gebruik te maken van aselecte toewijzing, eventueel aangevuld met gekoppelde toewijzing en homogenisering, storende factoren zo veel mogelijk uit te schakelen. Wij spreken dan van interne validiteit of interpretatie-exclusiviteit. Bij het gebruik van goede experimentele ontwerpen zijn er in principe geen andere interpretaties mogelijk dan dat de experimentele variabele al dan niet van invloed is op de afhankelijke variabele. Stel, je doet een experiment naar het effect van een voorlichtingsfilm op de attitude ten opzichte van gemengde scholen. Het experiment omvat aselecte toewijzing (at), voormetingen (O1 en O2) en nametingen (O3 en O4), een experimentele groep X1 die de film ziet en een controlegroep X2 die geen voorlichtingsfilm te zien krijgt. at at
O1 O2
X1 X2
O3 O4
Als je vindt dat de experimentele groep na het bekijken van de film gemiddeld een positievere mening over gemengde scholen heeft dan daarvoor en/of een positievere mening heeft in vergelijking tot de controlegroep, dan is de kans groot dat dit effect onder deze omstandigheden is toe te schrijven aan de invloed van de experimentele variabele (het zien van de film). Het is echter ook mogelijk dat na het vertonen van de film aan de experimentele groep, beide groepen - zowel de experimentele als de controlegroep bij de nameting een positievere mening over gemengde scholen hebben dan bij de voormeting. Deze verandering bij de controlegroep is dan in ieder geval niet toe te schrijven aan het zien van de voorlichtingsfilm. Kennelijk is dan iets aan de hand, anders dan de film, dat van invloed is op beide groepen. Er is dan een andere oorzaak dan de film van invloed. In dit voorbeeld hebben we te maken met een valide experiment, omdat we aan de hand van de resultaten kunnen bepalen of een eventueel gevonden effect al dan niet aan de voorlichtingsfilm kan worden toegewezen. Er is sprake van een niet-valide experiment als dat niet mogelijk is. Externe validiteit
Als je er min of meer zeker van bent dat een onafhankelijke variabele (het vertonen van een film) van invloed is op een afhankelijke variabele (de mening over gemengde scholen) en allerlei alternatieve verklaringen voor het gevonden verschil uitgesloten kunnen worden, dan kun je concluderen dat de experimentele variabele effect heeft op de afhankelijke variabele. Het is dan echter nog zeer de vraag of je de resultaten ook kunt generaliseren naar andere omstandigheden (ecologische validiteit). Dit geldt des te sterker voor laboratoriumexperimenten, waarbij de onderzoekseenheden (proefpersonen) in een sterk ge6.4 Interne en externe validiteit van het experiment 151
controleerde en daardoor ook kunstmatige situatie worden gebracht. In ons voorbeeld is dat ook enigszins het geval. Mensen worden immers uitgenodigd naar een schoolgebouw in stad A te komen om de film over gemengde scholen te komen bekijken, althans degenen die geselecteerd zijn voor de experimentele groep. Als een experiment in een bepaalde plaats, op een bepaald tijdstip of in bepaalde periode en onder bepaalde omstandigheden heeft plaatsgevonden, blijft het de vraag of de resultaten van een dergelijk experiment zonder meer gegeneraliseerd kunnen worden naar andere plaatsen, andere tijdstippen en andere omstandigheden. Als dat wel mogelijk is, dan zijn de resultaten van het experiment extern valide.
6.5
Alternatieve verklaringen
Heel in het algemeen is een onderzoek intern valide als het gevonden effect geïnterpreteerd kan worden als het oorzakelijke gevolg van de behandeling. Dat is pas mogelijk als het onderzoek zodanig is opgezet dat alternatieve verklaringen zo veel mogelijk uitgesloten kunnen worden. Een experiment wordt als intern valide beschouwd als overtuigend beargumenteerd is dat mogelijke alternatieve verklaringen uitgesloten kunnen worden. Er zijn drie mogelijkheden om dit te doen: · De alternatieve verklaringen van tevoren uitsluiten. · Achteraf beargumenteren dat de onderzoeksuitkomsten niet in overeenstemming kunnen zijn met de alternatieve verklaringen. · Achteraf beargumenteren dat de alternatieve verklaringen onwaarschijnlijk zijn. In deze paragraaf worden alternatieve verklaringen behandeld die vaak van toepassing zijn. In de rest van dit hoofdstuk en in hoofdstuk 7 worden onderzoeksmethoden behandeld die het mogelijk maken om te beargumenteren dat de alternatieve verklaringen niet van toepassing zijn. We behandelen de alternatieve verklaringen aan de hand van een voorbeeld. Stel dat je met een onderzoek naar het effect van een film op de attitude van ouders over gemengde scholen na wilt gaan of: · er een verschil bestaat tussen de attitude over witte en zwarte scholen vóór en na de film; · er verschillen zijn tussen ouders die de film gezien hebben en ouders die de film niet gezien hebben. De vraag is nu of een vastgestelde verandering van attitude tegenover zwarte scholen met veel allochtone leerlingen in de klassen het gevolg is van de getoonde film of niet. Campbell & Stanley (1966) hebben een aantal veel voorkomende alternatieve verklaringen voor een gevonden effect opgesteld. Een alternatieve verklaring is elke verklaring die naast de experimentele manipulatie mogelijk het effect veroorzaakt zou kunnen hebben. We zullen deze achtereenvolgens behandelen en bespreken in hoeverre deze op het voorbeeldonderzoek naar attitudes van toepassing zijn.
152 6 Praktijkonderzoek naar causale relaties 1: het experiment
In paragraaf 6.5.1 worden de meest toepasselijke alternatieve verklaringen behandeld die een rol spelen bij de vergelijking van herhaalde metingen bij dezelfde personen. In paragraaf 6.5.2 komen de alternatieve verklaringen aan de orde die van belang zijn bij het vergelijken van experimentele groepen en controlegroepen. In paragraaf 6.5.3 komen de mogelijkheden aan de orde die bij de verschillende experimentele ontwerpen gebruikt kunnen worden om alternatieve verklaringen uit te sluiten of te controleren. 6.5.1
Vergelijkingen bij dezelfde personen
Bij vergelijkingen bij dezelfde personen gaat het om verschillen tussen ten minste twee metingen, waarvan er tenminste één heeft plaatsgevonden voordat de behandeling (manipulatie X) toegepast werd. De volgende verschijnselen kunnen, als zij niet door middel van een slim onderzoeksontwerp worden uitgesloten, een alternatieve verklaring vormen voor de gevonden meetverschillen en daardoor de interne validiteit aantasten: 1 tussentijdse externe voorvallen 2 persoonsgebonden veranderingen, zoals groei en rijping 3 testeffecten 4 instrumentverval 5 regressie-effect 6 uitval. Ad 1 Tussentijdse externe voorvallen Er is sprake van een tussentijds extern voorval als er zich in de periode tussen voormeting en nameting een ander voorval voordoet, anders dan de onderzochte behandeling. In ons voorlichtingsvoorbeeld over witte en zwarte scholen kan het gebeuren dat tussen de voor- en de nameting iets gebeurd dat van invloed is op de attitude van ouders tegenover zwarte scholen met relatief veel allochtone leerlingen. Bijvoorbeeld: · Er wordt een spraakmakend radio- of tv-programma over dit onderwerp uitgezonden. · Er breekt een oorlog in het Midden-Oosten uit. In een periode van oorlog kan men wat minder genuanceerd gaan denken. · De grote vakantie valt tussen beide metingen. In een vakantieperiode is het niet ondenkbaar dat men wat meer ontspannen tegen een aantal problemen gaat aankijken. · Kerstmis valt tussen beide metingen. Kerstmis kan mogelijk de tolerantie bevorderen. Ad 2 Persoonsgebonden veranderingen, zoals groei en rijping Met persoonsgebonden veranderingen, zoals groei en rijping wordt een breed scala van verschijnselen aangeduid die gemeenschappelijk hebben dat zij met het verloop van tijd ontstaan en/of veranderen. Voorbeelden zijn: · geslachtsrijping; · menopauze; · vermoeidheid; · honger; · verveeldheid. 6.5 Alternatieve verklaringen 153
Bij korte experimenten van één dag, met ‘s morgens een voormeting en ‘s middags een nameting, kunnen deelnemers aan een experiment bij de nameting bijvoorbeeld vermoeider, hongeriger zijn. Dit kan van invloed zijn op de onderzoeksresultaten bij de nameting. Ook bij een langduriger experiment kunnen persoonsgebonden veranderingen optreden. De attitude over gemengde scholen kan bijvoorbeeld op langere termijn veranderen doordat de onderzochte personen ouder, wijzer, milder of meer ervaren geworden. Deze persoonsgebonden veranderingen worden waarschijnlijker als alternatieve verklaring als de tijd tussen de voormeting en de nameting langer is. Ad 3 Testeffecten De meetresultaten van een voormeting kunnen van invloed zijn op die van de nameting, bijvoorbeeld door een leereffect. De onderzochte kent de vragen al, of de onderzochte heeft er ondertussen over nagedacht en is van mening veranderd, omdat de vragen hem misschien aan het denken hebben gezet of gevoelig hebben gemaakt. Een dergelijke wijziging is systematisch. Dat wil zeggen dat de wijzigingen in dezelfde richting gaan. In ons voorbeeld zou een gewijzigde attitude dan niet zozeer door het kijken naar de film veroorzaakt zijn, maar doordat de proefpersonen bij de voormeting vóór de vertoning van de film vragen voorgelegd hebben gekregen die hun mening over gemengde scholen betreffen. Ad 4 Instrumentverval Bij instrumentverval gaat het om verandering van de meetresultaten doordat het instrument het na verloop van tijd slechter of juist beter gaat doen. Het kan bijvoorbeeld zijn dat de onderzochte personen dezelfde test slordiger gaan invullen, omdat zij alle vragen al eens gezien hebben. Door het slordiger invullen wordt de test minder betrouwbaar. Ad 5 Regressie-effect Bij metingen die in enige mate onbetrouwbaar zijn, hebben groepen met extreme scores een grote kans een volgende keer minder extreem te scoren. Het is niet ondenkbeeldig dat de groep ouders met kinderen in de leeftijd van 4 tot en met 12 jaar een uitgesproken negatieve mening over gemengde scholen hebben. De kans dat deze mensen bij de nameting een iets minder negatieve mening hebben in vergelijking tot de voormeting, is groter dan dat zij een nog negatievere mening hebben. In omgekeerde richting geldt hetzelfde voor mensen met een extreem positieve mening. Het regressie-effect wordt ook wel ‘statistische regressie naar het gemiddelde’ genoemd. De kans op dit effect is groter als: · de scores vooraf extremer zijn; · het gebruikte meetinstrument minder betrouwbaar is. Ad 6 Uitval Door uitval doen aan een experiment bij een nameting regelmatig minder mensen mee dan bij een voormeting, zeker als de tussenliggende periode lang is. Bij een zeer lange periode kan er zelfs sprake zijn van uitval door overlijden. Uitval wordt soms ook wel mortaliteit genoemd (Cook en Campbell, 1979). Bij een experiment vormen degenen die uitvallen vaak een selecte groep. In ons voorbeeld zouden juist de men154 6 Praktijkonderzoek naar causale relaties 1: het experiment
sen kunnen uitvallen die bij de voormeting een uitgesproken extreem negatieve mening over gemengde scholen hadden. Ze hebben zich echter nog wel laten overhalen om de vragen te beantwoorden bij de voormeting en om naar de film te kijken, maar daarna haken ze af. In de openingscasus is er sprake van een zeer kortdurend experiment, waardoor er geen sprake is van uitval. 6.5.2
Vergelijkingen tussen groepen
Ook bij vergelijkingen tussen groepen kan de interne validiteit aangetast worden. Het gaat daarbij om verschillen tussen metingen bij ten minste twee verschillende groepen personen, waar bij ten minste een groep de manipulatie toegepast werd. De openingscasus heeft een opzet waarbij groepen met elkaar vergeleken worden. De volgende verschijnselen kunnen, als zij niet door middel van een slim onderzoeksontwerp worden uitgesloten, een alternatieve verklaring vormen voor verschillen tussen de groepen: 1 selectie 2 differentiële uitval 3 overdracht van de ingreep 4 compensatie 5 compenserende rivaliteit 6 ontmoediging. Ad 1 Selectie Er worden verschillende mensen geselecteerd voor de verschillende groepen. Als de verschillen samenhangen met de afhankelijke variabele kan dat het onderzoek verstoren. In praktijksituaties is het niet altijd mogelijk om te garanderen dat de onderzoeksgroepen min of meer vergelijkbaar of uitwisselbaar zijn. Het kan bijvoorbeeld ethisch onverantwoord zijn om cliënten voor langere tijd een experimentele behandeling te onthouden door hen in de controlegroep te plaatsen. Als in ons voorlichtingsvoorbeeld in de experimentele groep hoogopgeleide ouders zijn oververtegenwoordigd en in de controlegroep laagopgeleide ouders, dan zou een positievere mening over gemengde scholen bij de experimentele groep wel eens het gevolg kunnen zijn van de factor selectie en niet van de experimentele variabele (het kijken naar de film). In de openingscasus is er gebruikgemaakt van aselecte toewijzing, waardoor aangenomen mag worden dat de groepen onderling goed met elkaar te vergelijken zijn. Bovendien zijn de groepen op enkele essentiële punten met elkaar vergeleken: geslacht, leeftijd en opleidingsniveau. Daarbij bleek dat de groepen op deze variabelen niet verschilden. Ad 2 Differentiële uitval Bij een of bij beide groepen vallen mensen uit, maar bij elke groep andere of een ander aantal. De mensen in de controlegroep, die geen behandeling ontvangen, houden het bijvoorbeeld vaker voor gezien. Het kan ook zijn dat bij een zware behandeling alleen de meest gemotiveerden overblijven, terwijl bij de controlegroep een dergelijke selectieve uitval niet plaatsvindt.
6.5 Alternatieve verklaringen 155
Ad 3 Overdracht van de ingreep Het feit dat bij een groep manipulatie wordt toegepast, beïnvloedt de resultaten bij de andere groep(en). Bij een experiment krijgt in de regel de experimentele groep een ingreep en de controlegroep(en) niet. Informatie over de ingreep of (onderdelen van) de experimentele ingreep kunnen zelfs worden doorgegeven (verspreid) naar de controlegroep. Deelnemers in de onderscheiden condities van een experiment kunnen met elkaar praten over het experiment en ervaringen uitwisselen en dergelijke. Zo is het bijvoorbeeld mogelijk dat bij de invoering van een nieuwe onderwijsmethode, docenten van scholen in de controlecondities de nieuwe methode en de daarbij behorende lesmaterialen krijgen toegespeeld van hun collega’s in de experimentele conditie. In dat geval wordt de ingreep (in dit geval de implementatie van een nieuwe onderwijsmethode) zowel in de experimentele als in de controleconditie gerealiseerd. Het onderscheid tussen de experimentele en de controlegroep vervaagt dan. Bij kortdurend onderzoek, zoals de openingscasus, is overdracht minder waarschijnlijk. Ad 4 Compensatie Leden van de controlegroep worden gecompenseerd voor het feit dat zij de ingreep niet mogen ondergaan. Dat gebeurt bijvoorbeeld als de groepen die de behandeling niet ondergaan, eisen dat zij de behandeling alsnog krijgen. Bij aids-onderzoek is het herhaaldelijk voorgekomen dat cliënten uit de controlegroep eisten dat ook zij het experimentele medicijn kregen toegediend. Compensatie kan ook op een andere manier plaatsvinden, bijvoorbeeld doordat de groep die geen behandeling ondergaat extra aandacht krijgt van de behandelende artsen. Het is duidelijk dat wanneer een controlegroep wordt gecompenseerd er strikt genomen niet langer sprake is van een zuivere controlegroep, dat wil zeggen: een ‘geen-ingreepconditie’. Als dan uiteindelijk blijkt dat er geen verschillen gevonden worden, is het niet mogelijk om een uitspraak te doen over de werkzaamheid van de experimentele behandeling. Ethisch gezien is dit een probleem. Als een medicijn werkelijk werkt, dan zou je alle cliënten er zo snel mogelijk mee willen behandelen. Als het medicijn niet werkt of juist veel nadelige bijwerkingen heeft, dan zou je dat graag met enige zekerheid willen weten, maar een conclusie uit een door compensatie verstoord experiment is meestal niet goed mogelijk. Wel wordt in de praktijk vaak besloten om de duur van het experiment te verkorten, tot het tijdstip waarop voldoende duidelijk is dat de behandeling werkzaam is. Bij kortdurend onderzoek kan compensatie gemakkelijker voorkomen worden dan bij onderzoek dat weken of zelfs maanden duurt. Ad 5 Compenserende rivaliteit Groepen die wel en niet de manipulatie ondergaan gaan met elkaar rivaliseren, waardoor de verschillen worden verdoezeld. Compenserende rivaliteit is mede afhankelijk van de mate waarin bij alle deelnemers in de andere condities bekend is dat er bij de experimentele groep of groepen een ingreep plaatsvindt en wat de aard van de ingreep is. Afhankelijk van de manier waarop de ingreep wordt geïnterpreteerd, kan er rivaliteit en concurrentie ontstaan tussen de deelnemers in de verschil156 6 Praktijkonderzoek naar causale relaties 1: het experiment
lende condities. Als het duidelijk is dat van de deelnemers in de controlegroep wordt verwacht dat zij het iets minder ‘goed’ doen dan de experimentele groep, bestaat de mogelijkheid dat zij extra hun best gaan doen om daarmee de hypothese van de onderzoeker te falsifiëren. Dit effect kan bijvoorbeeld gemakkelijk optreden als een andere onderwijsmethode of methode van hulpverlening wordt ingevoerd waarbij onderzoek wordt gedaan naar de effectiviteit van de nieuwe methode. Het is onwaarschijnlijk dat dit bij het onderzoek van de openingscasus een rol heeft gespeeld. Ad 6 Ontmoediging Een groep die de manipulatie niet ondergaat kan daardoor ontmoedigd raken. Dit kan bijvoorbeeld gebeuren bij placebocontrolegroepen, die ‘slechts’ een placebo krijgen. Als zij aan den lijve ervaren dat het niet helpt en zij er daardoor van overtuigd raken dat zij de placebo behandeling hebben gekregen, dan kan dit een verdere verslechtering teweegbrengen. Bij kortdurend onderzoek is het risico op ontmoediging geringer dan bij langdurend onderzoek. Controle op alternatieve verklaringen
6.5.3 Experimenteel ontwerp met vooren nameting
Stel, we hebben het volgende experimentele ontwerp met een voormeting en een nameting: at at
O1 O2
X1 X2
O3 O4
at = aselecte toewijzing O1, O2, O3, en O4 zijn de metingen of ‘observations’. Daarbij zijn O1 en O2 de voormetingen en O3 en O4 de nametingen. X1, X2 = manipulatie van de onafhankelijke variabele. Vaak is X2 een nietbehandelde controlegroep.
Welke alternatieve verklaringen kunnen een interpretatie van de resultaten in de weg staan, doordat zij kunnen fungeren als alternatieve verklaringen? · Selectieproblemen worden uitgeschakeld door de aselecte toewijzing. Alle verschillen tussen de groepen kunnen bij aselecte toewijzing als toevallig beschouwd worden en doen zich aselect voor. Deze verschillen worden daarom tot de toevallige fouten gerekend. · Externe voorvallen en rijping zijn gecontroleerd. Invloeden van deze aard zullen immers even grote verschillen teweegbrengen tussen O1 en O3 als tussen O2 en O4. · Ook testeffecten kunnen optreden, maar verwacht mag worden dat de invloed voor beide onderzoeksgroepen even groot is. · Om dezelfde reden controleert het experimentele ontwerp voor instrumentverval en voor regressie-effecten: er mag verwacht worden dat de invloed voor beide onderzoeksgroepen even groot is. De onderzoeker zal er echter ook voor moeten zorgen dat het instrumentarium van constante en van zo hoog mogelijke kwaliteit blijft. Deze effecten worden immers wel gecontroleerd, maar niet uitgeschakeld en kunnen tot gevolg hebben dat werkelijk bestaande effecten onderschat worden. 6.5 Alternatieve verklaringen 157
· ·
·
Experimenteel ontwerp met nameting
Differentiële uitval kan aan de hand van de gegevens nagegaan worden. Een verschillende uitval bij de groepen is duidelijk. De kans op overdrachtseffecten, compenserende invloeden en ontmoediging worden verminderd als de groepen niet weten welke manipulatie de andere groep krijgt en zij gescheiden van elkaar behandeld worden. Bij dit ontwerp kan de sterkte van de invloeden zoals rijping, externe voorvallen en testen geschat worden door het verschil tussen meting O2 en O4 te bekijken.
Stel, we hebben het volgende experimentele ontwerp met alleen een nameting: at at
X1 X2
O1 O2
at = aselecte toewijzing O1 en O2 zijn nametingen. X1, X2 = manipulatie van de onafhankelijke variabele. Vaak is X2 een nietbehandelde controlegroep.
Dit is feitelijk de opzet die gebruikt is bij de openingscasus. Ook hier wordt gecontroleerd voor een aantal mogelijke alternatieve verklaringen. De invloed van rijping, tussentijdse externe voorvallen kan niet nagegaan worden, maar dit is alleen relevant wanneer de behandeling langdurig is en dan is een opzet zonder voormeting af te raden. Bij de openingscasus is er geen sprake van langdurige behandeling. Van een testeffect kan bij dit ontwerp geen sprake zijn. Dit ontwerp staat alleen vergelijkingen tussen groepen toe, maar geen vergelijkingen bij dezelfde persoon. Voordelen voormeting
Een voormeting heeft verschillende voordelen, namelijk: · Er zijn ook bij dezelfde persoon vergelijkingen tussen voor- en nameting mogelijk. · Verschillen tussen de groepen die al op voorhand bestaan, worden vastgesteld en zo mogelijk met behulp van gekoppelde toewijzing weggewerkt. · Vastgestelde verschillen kunnen achteraf worden gecorrigeerd via statistische procedures.
Nadelen voormeting
Toch hebben voormetingen ook nadelen, namelijk: · Testeffecten worden bijvoorbeeld wel gecontroleerd, maar niet uitgeschakeld. Als er een testeffect optreedt, dan zal dit bij beide groepen gelijk zijn. · Het feit dat er gemeten wordt kan op zich zelf al effecten teweegbrengen (reactiviteit). Als bijvoorbeeld een observator bij een zebrapad gaat staan om het aantal mensen te tellen dat bij rood licht oversteekt, dan is de kans groot dat hij weinig overtreders zal kunnen observeren. Omdat hij staat te observeren zullen er minder mensen door het rode licht lopen. Dergelijke reactiviteitseffecten komen helaas vaker voor dan de onderzoeker zou willen. Hoe vaker gemeten wordt, hoe sterker de reactieve effecten zullen zijn. In dat geval leveren voormetingen dus extra problemen op.
158 6 Praktijkonderzoek naar causale relaties 1: het experiment
·
Er kan een gezamenlijk effect optreden tussen voormeting en manipulatie. Het kan zijn dat de voormeting invloed heeft op de afhankelijke variabele, bijvoorbeeld omdat dit de proefpersoon duidelijk maakt waar het bij de behandeling om gaat. Als de voormeting zou ontbreken, dan zou het resultaat bij de nameting minder zijn, omdat de proefpersonen dan minder alert zijn. Het wordt dan lastig om het effect van de voormeting te onderscheiden van dat van de feitelijke behandeling. Een van de mogelijkheden om dergelijke effecten van voormetingen te onderzoeken is Solomons four group design.
Voor de nadelen die verbonden zijn aan voormetingen zijn er verschillende oplossingen. De belangrijkste oplossing is om de voormeting te beschouwen als een onafhankelijke variabele die expliciet in het ontwerp wordt opgenomen. Als tweede variabele wordt dan voormeting of geen voormeting gevarieerd. We krijgen dan in totaal vier groepen. at at at at
O1 O2
X1 X1
O3 O4 O5 O6
at = aselecte toewijzing O1 tot en met O6 zijn de metingen of ‘observations’. Hier zijn O1 en O2 de voormetingen en O3 tot en met O6 de nametingen. X1 manipulatie van de onafhankelijke variabele. De controlegroepen ontvangen geen behandeling. Solomon four group design
Dit onderzoeksontwerp staat bekend als het ‘Solomon four group design’. Met dit onderzoeksontwerp wordt het mogelijk om: · de effecten van de voormeting apart van de effecten van de manipulatie vast te stellen; · de testeffecten te controleren; · onderzoek te doen naar reactiviteit. Als blijkt dat de voormeting zelf of in combinatie met de onafhankelijke variabele een sterke invloed heeft op de tweede meting, dan kan besloten worden om: · af te zien van verdere voormetingen en het risico van groepsverschillen voor lief nemen; · te zoeken naar een instrument dat geen testeffect geeft; · te zoeken naar twee gelijkwaardige instrumenten die elkaar niet beinvloeden. Er moet dan wel onderzocht worden of het gebruik van verschillende instrumenten ook werkelijk geen effect heeft op de tweede meting. Ook moet nagegaan worden of de twee instrumenten wel hetzelfde meten. Het daarvoor te gebruiken ontwerp is een uitbreiding van Solomons four group design. Testeffecten nemen overigens toe, als er gebruikt gemaakt wordt van meer herhaalde metingen. In bepaalde onderzoeksontwerpen (tijdreeksontwerpen) die dienen voor het volgen van verschijnselen gedurende een langere tijd, kunnen deze effecten nog sterker zijn.
6.5 Alternatieve verklaringen 159
6.6
Aantonen van een experimenteel effect
Stel, twee onderzoeksgroepen ondergaan ieder een verschillende manipulatie, terwijl de controlegroep zonder behandeling uiteraard geen behandeling ondergaat. Als de te vergelijken onderzoeksgroepen systematisch verschillen op de afhankelijke variabele, dan is er een experimenteel effect. De nulhypothese stelt dat er geen effect is. In paragraaf 6.6.1 wordt de statistische toetsing behandeld die wordt gebruikt om vast te stellen of de nulhypothese kan worden verworpen. In paragraaf 6.6.2 komt het vermogen van het experiment aan de orde om de nulhypothese te verwerpen. 6.6.1
Tussengroepse variantie
Binnengroepse variantie
Statistische toetsing
Door statistische toetsing (variantieanalyse) kan worden vastgesteld of de grootte van het effect significant is. Significant wil zeggen dat de H0 of nulhypothese dat er geen verschil is, kan worden verworpen. De systematische verschillen tussen de personen uit de te vergelijken groepen wordt de tussengroepse variantie genoemd. De verschillen tussen de groepen bestaan uit: · systematische verschillen; · toevallige verschillen (foutenvariantie). De systematische verschillen vormen de variantie die wij willen verklaren met onze manipulatie(s). Vanzelfsprekend zijn er ook verschillen tussen de verschillende personen binnen elke groep. Deze verschillen worden de binnengroepse variantie genoemd. Ze worden niet verklaard en vormen de foutenvariantie. Elke aselect gekozen groep zal enigszins verschillen van een andere aselect gekozen groep. De kans dat dergelijke toevallige verschillen worden gezien als werkelijk bestaande verschillen moet zo klein mogelijk gehouden worden (bijvoorbeeld 5% of minder of zelfs 1% of minder). De kans om ten onrechte de H0 (geen verschil) te verwerpen wordt in de statistiek aangegeven door de verwerpingskans alpha. We kunnen deze verschillen schatten door de verschillen tussen groepen te vergelijken met de verschillen binnen groepen. Het gaat daarbij om de variantie van de afhankelijke variabele. De variantie binnen groepen wordt de onverklaarde variantie, de toevallige variantie of de foutenvariantie genoemd. We doen immers geen poging deze met ons onderzoek te verklaren. De verschillen tussen de groepen wordt de tussengroepse variantie genoemd. De tussengroepse variantie is samengesteld uit de systematische variantie en de toevallige variantie. We proberen via ons experiment de systematische verschillen tussen de groepen te verklaren op grond van het al dan niet toepassen van de manipulatie (de onafhankelijke variabele). Bij een variantieanalyse wordt het effect getoetst met behulp van de F-toets. Bij deze toets wordt de tussengroepse variantie gedeeld door de binnengroepse variantie (de Fratio). In woorden: F = tussengroepse variantie / binnengroepse variantie = (systematische-variantie + toevallige variantie) / toevallige variantie
160 6 Praktijkonderzoek naar causale relaties 1: het experiment
Als formule: 2 2 2 F = (σ s + σ e) / σ e 2
σ s = systematische variantie 2 σ e = toevallige variantie F-ratio
Deze F-ratio wordt groter naarmate de systematische variantie door de manipulatie groter is. Als de systematische variantie 0 is, dan wordt de verhouding gelijk aan 1. Dit betekent dat de gevonden verschillen gelijk zijn aan de verschillen die op grond van toeval zijn te verwachten en dat is dus onze nulhypothese. Naarmate de verschillen tussen de groepen groter zijn, zal de F-ratio groter worden en zal dus de kans toenemen dat de H0 verworpen kan worden. 6.6.2
Experimenteel vermogen
Het vermogen of de kracht (‘power’) van een experiment is de mate waarin het experiment in staat is de werkelijke effecten van de gemanipuleerde variabelen vast te stellen. Het gaat daarbij om twee zaken: · het maximaliseren van de systematische variantie; · het minimaliseren van de foutenvariantie. Het maximaliseren van de systematische variantie
Bij het maximaliseren van de systematische variantie gaat het om de verschillen tussen de onderzoeksgroepen. Bij een geslaagd experiment wordt een zo groot mogelijk verschil tussen de groepen bewerkstelligd door de manipulatie van de onafhankelijke variabele. In een eerste experiment doet de onderzoeker er daarom goed aan het verschil tussen manipulatie en geen manipulatie zo groot mogelijk te maken. Als duidelijk is dat de krachtige manipulatie in ieder geval effect heeft, dan kunnen in een later stadium subtielere verschillen nader onderzocht worden. Het minimaliseren van de foutenvariantie
Bij het minimaliseren van de foutenvariantie gaat het erom de verschillen die binnen de onderzoeksgroepen bestaan, zo klein mogelijk te houden. Daar zijn vijf methoden voor. · Experimentele controle. Het gaat er hierbij om allerlei variabelen die mogelijke verschillen op de afhankelijke variabele teweeg zouden kunnen brengen zo veel mogelijk uit te sluiten. Het wezenlijke van experimentele controle is ervoor te zorgen dat alle onderzochten binnen een onderzoeksgroep een zo gelijk mogelijke behandeling krijgen, afgezien natuurlijk van de manipulatie van de onafhankelijke variabele. Door het uitsluiten van storende factoren wordt de binnengroepse variantie zo klein mogelijk gehouden. · Betrouwbare metingen. Elke meting omvat naast een ware score een foutencomponent. Hoe betrouwbaarder de meting hoe kleiner die foutencomponent. Deze foutencomponent representeert verschillen tussen personen, waar je als onderzoeker niet in geïnteresseerd bent en die er in werkelijkheid ook helemaal niet zijn, omdat zij een artefact zijn van de gebrekkige meting. Het is dus ook in experimenteel opzicht zuivere foutenvariantie. Hoe betrouwbaarder de metingen, hoe beter de werkelijke verschillen worden vastgesteld en hoe kleiner de binnengroepse variantie. 6.6 Aantonen van een experimenteel effect 161
·
·
·
Aggregatie van metingen. Het principe van aggregatie is dat het totaal van verschillende metingen betrouwbaarder meer representatief is dan één enkele meting. Hoe meer gelijkwaardige of parallelle metingen, hoe betrouwbaarder de schatting met behulp van het gemiddelde van al die metingen. Door betrouwbaardere metingen wordt de binnengroepse variantie verminderd. Homogene groepen. De bestaande verschillen tussen de proefpersonen worden tot de niet-verklaarde variantie of de foutenvariantie gerekend. Door de verschillen binnen de groepen zo klein mogelijk te houden wordt dus ook de foutenvariantie of binnengroepse variantie verkleind. Grote steekproeven (aggregatie van proefpersonen). In het algemeen geldt dat hoe meer proefpersonen er onderzocht worden, hoe beter de schatting van de populatiewaarden is. De kans dat invloeden van allerlei toevallige factoren resulteren in een steekproefverschil is bij een grotere steekproef kleiner.
6.7
Het blokontwerp
Bij zuivere experimentele ontwerpen wordt gebruik gemaakt van aselecte toewijzing van de proefpersonen aan de verschillende onderzoekscondities en ondergaan de verschillende groepen verschillende manipulaties. De proefpersonen komen allen uit dezelfde populatie. Bij blokontwerpen komen de proefpersonen uit twee of meer verschillende populaties. Voorbeelden hiervan zijn: · mannen versus vrouwen; · leeftijdsgroep 12- tot 14-jarigen versus leeftijdsgroep 15- tot 17-jarigen; · islamiet versus protestant. Classificerende variabele
Hoofdeffect Interactie-effect
Een blokontwerp kent naast een gemanipuleerde variabele een classificerende variabele, zoals geslacht, leeftijdsgroep en geloof. Proefpersonen uit de betreffende populaties worden gelijkelijk aan de verschillende manipulatiecondities toegewezen. Bij een blokontwerp is er altijd tenminste een classificerende variabele naast een gemanipuleerde variabele. Een voorbeeld: we onderzoeken een nieuwe lestechniek om leerlingen te leren rekenproblemen op te lossen, waarbij we de effectiviteit van de nieuwe lestechniek zowel bij jongens als bij meisjes onderzoeken. De classificerende variabele is geslacht. Bij zowel de jongens als de meisjes krijgt de halve groep de te onderzoeken lestechniek en vormt de andere helft de controlegroep die een standaard lestechniek krijgt. De classificerende variabele en de gemanipuleerde variabele kunnen beiden los van elkaar effect hebben of samen en tegelijkertijd een effect hebben. Een niet-gezamenlijk effect van een gemanipuleerde variabele of een classificatie variabele vormt een hoofdeffect van de betreffende variabele. Een gezamenlijk effect van een gemanipuleerde variabele en een classificatievariabele vormt een interactie-effect. Als er een interactie-effect is dan verschilt het effect van de manipulatie voor elk van de geclassificeerde groepen. Als de nieuwe lestechniek een groter effect heeft op meisjes dan op jongens dan is er een interactie-effect.
162 6 Praktijkonderzoek naar causale relaties 1: het experiment
In paragraaf 6.7.1 wordt het praktische nut van blokontwerpen behandeld. In paragraaf 6.7.2 wordt ingegaan op de interpretatiemogelijkheden van de uitkomsten van blokontwerpen. In paragraaf 6.7.3 worden verschillende mogelijkheden met hun voor- en nadelen besproken om groepen te selecteren voor een blokontwerp. 6.7.1 Effect classificerende variabele
Generaliseringsonderzoek
Vergroten gevoeligheid
Het praktische nut van blokontwerpen
Door een blokontwerp te gebruiken en dus een classificerende variabele in het onderzoek op te nemen, kan het effect van de classificerende variabele apart in ogenschouw genomen worden. Als je vermoedt dat een nieuwe lesmethode vooral bij meisjes aanslaat, dan is het zinvol om de effecten zowel bij meisjes als bij jongens te onderzoeken door de classificerende variabele geslacht in het onderzoek op te nemen. Dat is vooral interessant als je veronderstelt dat de classificerende variabele van invloed is op het vast te stellen behandelingseffect en je de mate van invloed van de classificerende variabele vast wilt stellen. Blokontwerpen worden vaak gebruikt om aan te tonen dat behandelingseffecten bij verschillende groepen kunnen worden teruggevonden. Blokontwerpen worden daarom gebruikt bij generaliseringsonderzoek. Stel dat je een bepaald behandelingseffect hebt aangetoond bij studenten en je wilt nagaan of de effecten ook bij oudere mensen kunnen worden teruggevonden of bij mensen met een andere vooropleiding. In dat geval kun je verschillende leeftijdsgroepen of juist verschillende opleidingsniveaus onderzoeken. Je gaat dan na of je kunt generaliseren over respectievelijk leeftijd en opleidingsniveau. Voor praktijkgestuurd onderzoek zijn blokontwerpen van bijzonder belang, omdat we bij praktijkgestuurd onderzoek meestal te maken hebben met selecte groepen. Met blokontwerpen kan nagegaan worden of de resultaten ook bij andere groepen kunnen worden teruggevonden. Een andere belangrijke functie van een blokontwerp is de gevoeligheid vergroten van een experiment. Door de proefpersonen te classificeren in verschillende groepen worden deze groepen homogener en wordt de variantie binnen groepen verkleind. De variantie van de afhankelijke variabele die samenhangt met de classificerende variabele kan dan benoemd worden en hoeft niet langer tot de foutenvariantie gerekend te worden. Hierbij zijn er twee mogelijkheden, er is: · een effect van de classificerende variabele naast het effect van de gemanipuleerde variabele; · een gezamenlijk effect van de classificerende variabele en een gemanipuleerde variabele. Effect van een classificerende variabele naast het effect van een gemanipuleerde variabele
Hierna volgt een voorbeeld van onderzoeksresultaten die een effect van een classificerende variabele laten zien, naast die van de gemanipuleerde variabele. Bij een grote groep studenten wordt op vrijwillige basis gevraagd om een lijst in te vullen die angst voor spreken in het openbaar meet. Vervolgens wordt hen de mogelijkheid geboden om aan een experiment deel te nemen om spreken in het openbaar te oefenen. Van de 48 vrijwilligers, 24 mannen en 24 vrouwen, krijgt de helft aselect de 6.7 Het blokontwerp 163
experimentele methode aangeboden, bestaande uit een video-opname van een korte spreekbeurt van drie minuten die zij moeten houden met de experimentator als publiek. Het onderwerp mogen de deelnemers zelf kiezen en zij krijgen drie minuten om zich voor te bereiden. Met de nieuwe methode worden de deelnemers, voordat ze de videoopname te zien krijgen, cognitief voorbereid. Deze cognitieve voorbereiding bestaat uit vier stappen: 1 De deelnemers wordt gevraagd waar zij hun aandacht op gericht hadden tijdens de spreekbeurt en er wordt een korte lijst van mogelijke aandachtspunten doorgelopen. 2 De deelnemers wordt gevraagd hoe zij denken over te komen op de video-opname. Daarbij wordt de lijst van aandachtspunten doorgenomen. 3 De deelnemers wordt gevraagd zich gedurende twee minuten met gesloten ogen een beeld te vormen van de video-opname. 4 Er wordt kort het verschil besproken tussen hoe je je voelt en hoe je overkomt. Daarna krijgen de deelnemers de opdracht om de video te bekijken als een buitenstaander. Zij krijgen daarbij de instructie om de video te bekijken op hoe hun spreekbeurt overkomt en niet op hoe zij zich voelden. Vervolgens wordt de video getoond en wordt opnieuw de vragenlijst afgenomen om de angst voor spreken in het openbaar vast te stellen. Daarna houdt de deelnemer weer een spreekbeurt van drie minuten tegenover de experimentator. Tot slot wordt de vragenlijst voor de derde maal afgenomen. De andere helft van de studenten krijgt alleen de video-opnames en de afname van de vragenlijsten, maar niet de cognitieve voorbereiding. Deze methode is onderzocht door Kim, Lundh en Harvey (2002). De hier gepresenteerde resultaten zijn echter gefingeerd voor het voorbeeld. Het ontwerp ziet er als volgt uit: O1 O2 O3 O4
at at at at
mannen vrouwen mannen vrouwen
X X
O5 O6 O7 O8
O9 O10 O11 O12
experimentele groep experimentele groep controlegroep controlegroep
Hierbij zijn de metingen O1 tot en met O4 de metingen die in de grote groep zijn afgenomen, waarbij uiteraard ook naar het geslacht is gevraagd. Aan de hand daarvan werden de vrijwilligers gesplitst in mannen en vrouwen en werden aselect uit zowel de groep mannen als vrouwen 24 vrijwilligers geselecteerd, waarvan telkens weer de helft aselect toegewezen wordt aan de experimentele conditie en aan de controleconditie. De gefingeerde resultaten om parallelle effecten te illustreren zijn afgebeeld in figuur 6.1. Voor het voorbeeld zijn grote verschillen gebruikt, die niet realistisch zijn. In dit gefingeerde voorbeeld zien we dat de methode om deelnemers cognitief voor te bereiden op het bekijken van de video-opname een lagere angstscore geeft dan bij de controlegroep en dat de methode even 164 6 Praktijkonderzoek naar causale relaties 1: het experiment
Figuur 6.1 Paralelle effecten: vergelijking van de werking van een experimentele methode Figuur 6.1–om de angst voor spreken in het openbaar te reduceren bij mannen en vrouwen Figuur 6.1–(fictieve resultaten) Angstscore
50 Vrouwen: experimentele groep Vrouwen: controle groep Mannen: experimentele groep Mannen: controle groep
40 30 20 10 0 Voormeting
Tussenmeting
Nameting
goed werkt bij mannen als bij vrouwen. Dat de effecten gelijk zijn voor de mannen en de vrouwen blijkt uit het parallel lopen van de lijnen van respectievelijk de experimentele groepen en de controlegroepen. Dat er een effect is van de experimentele methode blijkt uit: · de verschillen tussen de beide experimentele en de beide controlegroepen; · de sterkere daling bij de experimentele groepen dan bij de controlegroepen, in het bijzonder bij de derde meting. Bij reële resultaten is het onwaarschijnlijk dat de effectlijnen van de experimentele en de controlegroepen exact parallel lopen. Men besluit tot deze parallelliteit en dus tot de interpretatie dat de effecten bij mannen en vrouwen gelijk zijn, als bij de variantieanalyse blijkt dat het interactie-effect niet significant is.
Gevoeliger experiment
Blokontwerpen worden op deze manier gebruikt om de generaliseerbaarheid van een gevonden effect van een gemanipuleerde variabele na te gaan bij verschillende groepen proefpersonen. In dit geval is dus nagegaan of het effect van de experimentele methode even goed werkt bij mannen als bij vrouwen. Doordat een deel van de variantie nu verklaard wordt vanuit de geslachtsverschillen is het experiment gevoeliger geworden. Als mannen en vrouwen als één groep onderzocht zouden zijn, dan zouden de verschillen tussen mannen en vrouwen bijdragen tot de variantie binnen deze ene groep en zou dus tot de binnengroepse variantie of foutenvariantie gerekend worden. Door de verschillen tussen mannen en vrouwen bij het onderzoek te betrekken, wordt de foutenvariantie dus verkleind en is het experiment gevoeliger. Gezamenlijk effect van de classificerende variabele en de gemanipuleerde variabele
Interactie-effect
Een gezamenlijk effect wordt ook wel een interactie-effect genoemd. De volgende fictieve onderzoeksresultaten laten juist zien dat er een gezamenlijk effect is van de gemanipuleerde en de classificerende variabele. Figuur 6.2 laat een interactie-effect zien tussen beide variabelen. 6.7 Het blokontwerp 165
Niet-generaliseerbaar effect
We kunnen zien dat er een interactie-effect is, doordat de twee lijnen van de experimentele groepen niet parallel lopen en elkaar dus kruisen. Vooral bij de nameting is er een aanmerkelijk groter verschil tussen de experimentele groep en de controlegroep bij de vrouwen dan bij de mannen. In dit geval is de werking van de experimentele methode om angst voor het spreken in het openbaar te verminderen krachtiger werkzaam bij vrouwen en minder bij mannen. Met het blokontwerp is nu aangetoond dat het experimentele effect beperkt is en het beste werkt bij vrouwen. In dit geval concluderen we dat het effect van de behandeling verschillend is voor beide groepen. Het effect is dus niet generaliseerbaar over de beide geslachten: de populatie van mannen en vrouwen zijn in dit opzicht verschillend. Bij een variantieanalyse trekken we deze conclusie als het interactie-effect significant is.
Figuur 6.2 Interactie-effect: vergelijking van de werking van een experimentele methode Figuur 6.2–om de angst voor spreken in het openbaar te reduceren bij mannen en vrouwen Figuur 6.1–(fictieve resultaten) Angstscore
50 Vrouwen: experimentele groep Vrouwen: controle groep Mannen: experimentele groep Mannen: controle groep
40 30 20 10 0 Voormeting
Tussenmeting
Nameting
Een ander voorbeeld van een interactie-effect is een onderzoek naar de werking van een instructiesysteem dat erop gericht is om kinderen actiever met de tentoongestelde apparaten in een wetenschapsmuseum om te laten gaan. In figuur 6.3 zie je de resultaten van een onderzoek naar de audiopilot (Heard, Divall & Johnson, 2000). De audiopilot bestaat uit een koptelefoon en een toetsenbord, waarmee de kinderen door een nummer in te drukken informatie en instructies konden opvragen. Het doel van de audiopilot is te bevorderen dat de kinderen actief met de tentoongestelde apparaten omgaan. In dit geval is de audiopilot onderzocht om de werking van de slinger duidelijk te maken. De ene helft van de kinderen kreeg de audiopilot mee, de andere helft niet. De informatie en instructies waren erop gericht om het kind actief met het apparaat om te laten gaan. Het bleek dat de audiopilot veel meer effect had bij meisjes dan bij jongens. Er worden telkens twee jongens en twee meisjes met hetzelfde leervermogen aan elkaar gekoppeld en vervolgens aselect toegewezen aan de groep die wel of geen behandeling krijgt. Het leervermogen wordt ingeschat door de leerkracht van de kinderen. De behandeling X is het meekrijgen van de audiopilot. 166 6 Praktijkonderzoek naar causale relaties 1: het experiment
gt at gt at gt at gt at
jongens meisjes jongens X meisjes X
O1 O2 O3 O4
controlegroep controlegroep experimentele groep experimentele groep
gt = gekoppelde toewijzing at = aselecte toewijzing O1, O2, O3, O4 zijn de metingen of ‘observations’. X = manipulatie van de onafhankelijke variabele (meekrijgen van de audiopilot).
Figuur 6.3 Resultaten van een vergelijking tussen controlegroep en audiopilot groep bij Figuur 6.3–meisjes en jongens Aantal handelingen
10 Jongens Meisjes
8 6 4 2 0 Controlegroep
Audiopilot groep
De audiopilot helpt vooral meisjes om actief handelend met de tentoongestelde apparaten om te gaan. (Gebaseerd op: Heard, P.F., Divall, S.A. & Johnson, S.D. (2000). Can ‘ears-on’ help hands-on science learning - for girls and boys? International Journal of Sience Education, 22(11), 1133-1146.)
Bij de metingen O1 tot en met O4 wordt het aantal handelingen bij de tentoongestelde slinger geobserveerd. In figuur 6.3 zijn de resultaten afgebeeld. We zien dat de jongens in de controlegroep al veel actiever met het tentoongestelde apparaat omgaan, terwijl de meisjes in de controlegroep het apparaat nauwelijks aanraken. De audiopilot bevordert bij de jongens iets actiever gedrag, maar het grote verschil wordt bij de meisjes gevonden. Zij gaan nu veel actiever met de tentoongestelde slinger om. Een effect dat anders uitpakt voor de ene groep, dan voor de andere groep is een interactie-effect. Er is een interactie tussen geslacht en behandeling. In dit geval zijn de effecten bij meisjes anders dan die bij jongens. 6.7.2 Niet causaal
Interpretatie van resultaten
De relatie tussen een classificerende variabele en de afhankelijke variabele kan niet causaal geïnterpreteerd worden. Alleen als een variabele gemanipuleerd wordt, wordt er werkelijk een effect veroorzaakt. Als in een onderzoek het effect van verschillende onderwijsmethoden wordt 6.7 Het blokontwerp 167
Intermediërende variabele
nagegaan bij verschillende leeftijdsgroepen, dan kan ten aanzien van de gemanipuleerde variabele (de verschillende onderwijsmethoden) geconcludeerd worden of deze al dan niet de oorzaak is van de gevonden effecten. Dat kan echter niet ten aanzien van de classificerende variabele (leeftijd). Dat is ook wel logisch, omdat je niet kunt zeggen dat leeftijd de oorzaak is van een leereffect. Er zijn twee opties bij de interpretatie: · We kunnen het verband zien als een samenhang of een correlationeel verband. · We kunnen zoeken naar een meer wezenlijke verklaring, waarbij we de effecten van de classificerende variabele proberen te duiden aan de hand van intermediërende factoren. Dan kunnen we slechts theoretische causale verbanden leggen. Waarschijnlijk is bijvoorbeeld dat met leeftijd het abstractievermogen toeneemt en dat dat de oorzaak is van de verschillen in leereffecten bij verschillende leeftijdsgroepen. In dat geval zou de variabele abstractievermogen de intermediërende variabele zijn. Als we in staat zijn om het abstractievermogen te meten, zou het experiment verfijnd kunnen worden, door bij elke leeftijdsgroep onderscheid te maken tussen kinderen met een hoog en met een laag abstractievermogen. We komen dan in ieder geval theoretisch gezien dichter bij een mogelijke oorzakelijke verklaring, hoewel er ook in dit geval geen manipulatie plaatsvindt en er niet gesproken kan worden van een veroorzaakt effect. Vaak is een onderzoeker primair geïnteresseerd in de classificerende variabele. Als er een differentiatie in effecten bij de verschillende geclassificeerde groepen optreedt, dan is daarmee bevestigd dat de behandelingswijze vooral geschikt is voor de ene groep en niet voor de andere. Een dergelijk interactie-effect tussen behandeling en type cliënt is voor de praktijk van behandelaars een uiterst nuttig gegeven. Je zou immers zonder classificatie alleen maar naar het globale effect kijken en niet naar het specifieke effect voor een bepaalde type cliënt.
Geen interactie-effect
Hoofdeffect en interactie-effect
Als er alleen effecten zijn van de classificerende en de gemanipuleerde variabele en er dus geen interactie-effect is, dan kunnen de manipulatie-effecten worden geïnterpreteerd als gelijk voor de geclassificeerde populaties. Een interactie betekent dat het effect verschillend is voor de verschillende populaties. Hoofdeffecten en interactie-effecten kunnen naast elkaar gevonden worden en kunnen statistisch significant zijn en bij onderzoek vindt men vaak naast een interactie-effect ook nog een hoofdeffect van de gemanipuleerde variabele. Dit geeft een interpretatieprobleem, omdat het niet erg zinvol is om te concluderen dat het effect van de behandeling deels verschillend is voor beide populaties en ook deels gelijk is voor beide populaties. Er is slechts één effect, één relatie tussen afhankelijke en onafhankelijke variabele en dat men daarbinnen statistisch verschillende variantiecomponenten onderscheidt, is niet erg behulpzaam. De ingewikkelde statistische interpretatie van de verschillende effectcomponenten is op zichzelf ondubbelzinnig. Maar dat betekent niet dat aan de verschillende effectcomponenten eenvoudig een praktische betekenis toegekend kan worden. Er is discussie mogelijk over hoe de verschillende effecten geïnterpreteerd moeten worden en vooral of en hoe een hoofdeffect van één of
168 6 Praktijkonderzoek naar causale relaties 1: het experiment
beide variabelen die deel uitmaken van de interactie geïnterpreteerd kan worden. Soms volstaat men eenvoudig met de vaststelling dat hoofdeffecten niet eenvoudig te interpreteren zijn, als er ook een interactie-effect is (Neale en Liebert, 1986). Ons inziens gaat het altijd om het te onderzoeken verschijnsel (het effect van de behandeling) en als uit een significante interactie blijkt dat het effect van de manipulatie anders is voor de verschillende categorieën van de classificerende variabele, dan moet dit allereerst als een gezamenlijk effect van de gemanipuleerde en de classificerende variabele geïnterpreteerd worden. Daarbij moet echter wel in de gaten worden gehouden dat meestal niet alle variantie verklaard wordt vanuit het statistisch significante interactieeffect. Als daarnaast één of beide hoofdeffecten significant zijn, dan wordt statistisch gezien een deel van de variantie verklaard vanuit het significante hoofdeffect. Het meest praktische is om de effecten altijd te tekenen, zoals in de figuren 6.1, 6.2 en 6.3 is gebeurd en de figuur te interpreteren. Als je bij de figuur het effect van de behandeling in heldere taal weer kunt geven dan is dat zinvol. Daarbij is in ieder geval duidelijk dat een significant interactie-effect altijd geïnterpreteerd moet worden als een effect dat verschilt voor de onderzochte populaties. Is het interactie-effect niet significant, dan is de betekenis van de hoofdeffecten eenvoudig te verwoorden. Het is gebruikelijk om een eventueel significant hoofdeffect naast een significant interactie-effect te vermelden, ook al is het niet goed mogelijk om dit specifieke effectdeel te interpreteren vanuit de betreffende gemanipuleerde of classificerende variabele. 6.7.3 Nominaal meetniveau
Ordinaal meetniveau
Selecteren van groepen
In veel gevallen gaat het bij het classificeren van de groepen voor een blokontwerp om variabelen van nominaal meetniveau, zoals geslacht, geloof of geboorteland. In dat geval zijn de te onderscheiden populaties en dus ook de blokken duidelijk. Anders ligt het bij variabelen van ordinaal meetniveau of hoger, zoals angstscore, IQ en leeftijd. De indeling in groepen is dan arbitrair. In het algemeen is het aan te bevelen om een dergelijke variabele niet te categoriseren. Als er praktische redenen zijn om de te onderzoeken groep toch in verschillende categorieën te verdelen, dan zijn er verschillende mogelijkheden: 1 de methode van extreme groepen; 2 de mediaansplitmethode; 3 de methode van meervoudige niveauonderscheiding. Ad 1 De methode van extreme groepen Voorbeelden van extreme groepen zijn: · De 10% hoogste scoorders vergelijken met de 10% laagste scoorders. · Bij een groep middelbare scholieren alleen de 12-jarigen en de 16-jarigen met elkaar vergelijken.
Nadelen extreme groepen
Het gebruik van extreme groepen heeft echter een aantal nadelen: · Een deel van de populatie wordt uitgesloten van deelname. · De effecten worden uit elkaar getrokken, waardoor het mogelijk is statistisch significante verschillen te vinden die in de groep als geheel niet erg relevant zijn.
6.7 Het blokontwerp 169
·
Het risico van statistische regressie is bij extreme groepen het grootst. De kans is groot dat juist een extreme groep heel laag of heel hoog op de afhankelijke variabele scoort. In dat geval is bij een volgende meting bij dezelfde groepen de kans groot dat het verschil kleiner is en mogelijk niet significant is.
In het begin van een onderzoek kan het plezierig zijn om te weten dat in ieder geval de extreme groepen verschillen. Later moet dan wel uitgezocht worden in hoeverre dit verschil zich ook voordoet bij de vergelijking van minder extreme groepen. Ad 2 De mediaansplitmethode Een veel gebruikte en iets betere methode is de mediaansplitmethode. Daarbij worden eerst de scores van de proefpersonen op de classificerende variabele vastgesteld. De totale groep wordt daarmee opgesplitst in twee gelijke groepen. De mediaan is immers de score waarbinnen de 50%-grens valt. Bij mediaansplitsing wordt geen deel van de populatie uitgesloten en daarom is deze methode iets beter dan het gebruik van extreme groepen. Ad 3 De methode van meervoudige niveauonderscheiding Bij de methode van meervoudige niveauonderscheiding (‘multiple discrete leveling’) wordt de totale groep in meerdere groepen onderscheiden. Leerlingen worden bijvoorbeeld onderscheiden in drie groepen van een: · cijfer lager dan vijf; · cijfer tussen vijf en zes; · cijfer van zeven en hoger. Een dergelijk onderscheid dient bij voorkeur van tevoren en beargumenteerd te gebeuren. Als er toch arbitrair gecategoriseerd moet worden, dan verdient deze aanpak de voorkeur. Omdat er bij meervoudige niveauonderscheiding meer dan twee groepen worden onderscheiden is deze methode weer iets beter dan mediaansplitsing.
170 6 Praktijkonderzoek naar causale relaties 1: het experiment
Studie-eindvragen
Reproductieve vragen 6.1
6.2
6.3
6.4 6.5
6.6
6.7 6.8
Wat is het doel van een experiment? Komen causale vragen vaak voor in de praktijk? Waarom zijn verschillende manipulaties van belang bij causaliteitsonderzoek? Wat is een pre-experimenteel ontwerp? Waarom heet een onderzoek waarbij slechts een groep betrokken is (alleen de behandelde groep) pre-experimenteel? Welke principes zijn essentieel voor het trekken van causale conclusies uit onderzoeksresultaten? Geef bij elk principe een voorbeeld aan de hand van het onderzoek van Semmelweis. In hoeverre is het onderzoek van Semmelweis een echt experiment te noemen? Wat was uiteindelijk zijn verklaring? Hoe toonde hij aan dat zijn verklaring van toepassing was? Wanneer is er sprake van een zuiver experiment? Aan welke van die criteria voldoet het onderzoek van Semmelweis niet? Wat maakt een behandeling complex? Waarom is een complexe behandeling lastiger te onderzoeken dan een eenvoudige behandeling? Welke extra voorzieningen zijn er nodig bij complexe behandelingen? Wat wordt bedoelt met experimentele controle? Is dat bij praktijkonderzoek te realiseren? Noem vier belangrijke aandachtspunten voor experimentele controle. Wat wordt er precies bedoeld met ‘een gelijke behandeling van experimentele en controlegroep’? Wat is interne validiteit? Wat is externe validiteit? Welke van de twee is het eerste doel bij experimenteel onderzoek? Wat is een blokontwerp? Leg uit wat een classificerende variabele is. Is het mogelijk om een classificerende variabele te manipuleren? Wat is het praktische nut van blokontwerpen? Geef een aantal voorbeelden. Productieve vragen
6.9
6.10
6.11
6.12
In paragraaf 6.3 wordt een voorbeeld gegeven van een praktijkonderzoek (assertiviteit versus beleefdheidstraining). Maak een schematische weergave van het onderzoeksontwerp. Welke vergelijkingen zijn er allemaal mogelijk? Waarom is er een controlegroep zonder behandeling? Met welke maatregelen is het mogelijk om alternatieve verklaringen te controleren of uit te schakelen. Bespreek als voorbeeld met welke maatregelen er gecontroleerd kan worden voor externe gebeurtenissen. Wat is de aard van de relatie tussen een classificerende variabele en een afhankelijke variabele? Betekent dat dat er geen oorzakelijk verband mogelijk is tussen de classificerende variabele en de afhankelijke variabele? Lees de openingscasus door en beantwoord de volgende vragen Beoordeel de interne validiteit van dit experiment en geef aan hoe je tot dit oordeel komt.
171
6.13 6.14
Beoordeel de externe validiteit van dit experiment en geef aan hoe je tot dit oordeel komt. Bespreek de selectie die bij dit experiment is gebruikt. Is het op grond van dit experiment mogelijk om te generaliseren naar de hele Amerikaanse en Nederlandse populatie? Is het mogelijk om te generaliseren naar de populatie van patiënten met een schildklierontsteking? Welke gevolgen heeft dit voor de externe validiteit? Zelftoetsvragen
6.15
Welke van deze stellingen is/zijn juist? I Het is niet nodig om bij een zuiver experimenteel ontwerp alle proefpersonen aselect (at random) aan alle condities toe te wijzen. II In een zuiver experimenteel ontwerp vergelijkt men verschillende groepen proefpersonen. a b c d
6.16
alleen I alleen II I en II I noch II
Welk van deze stellingen is/zijn juist? I Een blokontwerp biedt de mogelijkheid om het effect van een gemanipuleerde onafhankelijke variabele vast te stellen bij verschillende groepen. II Bij een blokontwerp worden proefpersonen uit twee of meer afzonderlijke populaties aselect aan de gemanipuleerde onderzoekscondities toegewezen. a b c d
alleen I alleen II I en II I noch II
172 6 Praktijkonderzoek naar causale relaties 1: het experiment