6 8 d e p s yc h o lo o g / d e c e M B e R 2 0 1 3
FOTO: SHUTTERSTOCK
s p e l R e g e l s i n d e p s yc h o lo g i e
Ook psychologen zijn gevoelig voor cognitieve vertekeningen als confirmation bias en hindsight bias. Helaas leggen psychologen in hun onderzoek zelden vooraf precies vast hoe ze hun data gaan analyseren. Daardoor bestaat het risico dat psychologen hun statistische analyses aanpassen. Marjan Bakker en collega’s laten met een simulatiestudie zien dat het gebruik van kleine studies en betwistbare onderzoeksmethoden strategisch gezien de meest ‘efficiënte’ middelen zijn om significante en dus publicabele resultaten te vinden.
d e p s yc h o lo o g / d DECE e c e mb MBe Er R 2013 69 s p e l r e g e l s i n d e p s yc h o lo g i e m a r j a n b a k k e r , e r i c- j a n wag e n m a k e r s , d e n n y b o r s b o o m , j e lt e w i c h e rt s & h a n va n d e r m a a s
Over eerlijk en goed onderzoek
Spelregels in de psychologie
1
B
evindt de psychologie zich in een crisis? Om die vraag draait een volledig special issue van het tijdschrift Perspectives on Psychological Science (Pashler & Wagenmakers, 2012; vrij toegankelijk op http://pps. sagepub.com/content/7/6.toc). Een aantal recente gebeurtenissen doet het vermoeden rijzen dat er iets niet helemaal pluis is in het psychologisch onderzoek van vandaag de dag. Allereerst was er natuurlijk de fraude van Diederik Stapel, die toptijdschriften als Science haalde met gegevens die hij achter zijn laptop verzon. Maar ook zonder fraude blijkt er nogal wat aanleiding voor zorg. De bekende psycholoog Daryl Bem publiceerde in 2011 bijvoorbeeld een artikel in het Journal of Personality and Social Psychology, het belangrijkste tijdschrift van de sociale psychologie, waarin hij een negental experimenten rapporteerde die volgens hem het bestaan van precognitie of helderziendheid aantoonden. Dit artikel werd vrijwel direct in brede kring bekritiseerd – niet zozeer vanwege de inhoud als wel vanwege de bijzonder frivole wijze waarmee met de data werd omgesprongen. Zoals methodologen – overigens zonder helderziendheid – al voorspelden, zijn de pogingen om het effect te repliceren tot
nu toe mislukt (Galak, LeBoeuf, Nelson & Simmons, 2012). Het publiceren van deze replicatiepogingen bleek echter een heidens karwei, zoals de auteurs later getuigden. Hetzelfde tijdschrift dat bereid was om het discutabele onderzoek van Bem te publiceren bleek in eerste instantie niet van zins om ook ruimte te geven aan replicatiestudies – die zijn immers niet innovatief. De Bem-affaire bood een ontluisterend inzicht in de huidige publicatiepraktijk in de psychologie (Yong, 2012). Gelukkig worden er tegenwoordig steeds meer replicatiestudies gepubliceerd; deze replicaties tonen vervolgens wel aan dat een aantal bekende effecten in de psychologie waarschijnlijk gewoon niet bestaat. Zo werd jarenlang in brede kring aangenomen dat mensen langzamer gaan bewegen als ze onbewust beïnvloed worden met aan ouderdom gelieerde woorden als ‘bingo’ en ‘rollator’. In replicatieonderzoek bleef van dit effect vooralsnog weinig over (Doyen, Klein, Pichon & Cleeremans, 2012). Deze en andere non-replicaties werpen de vraag op hoeveel van de gepubliceerde bevindingen in de psychologie we nu eigenlijk kunnen vertrouwen; op dit moment is dat niet duidelijk, maar in ieder geval weten we wel dat zelfs standaardbevin-
7 0 d e p s yc h o lo o g / DECE M B E R 2 0 1 3 s p e l r e g e l s i n d e p s yc h o lo g i e marjan bakker E.A.
Pre-registratie zal ertoe leiden dat een aanzienlijk deel van het psychologisch onderzoek niet het label ‘confirmatief’ kan krijgen dingen vaak onvoldoende in replicatieonderzoek zijn geverifieerd (Bakker et al., 2013). Ioannidis (2005) beargumenteerde aan de hand van een statistische redenering dat de meeste gepubliceerde medische onderzoeksresultaten onjuist zijn. Recente resultaten uit het biomedische onderzoek en het kankeronderzoek suggereren inderdaad dat in die vakgebieden minder dan vijftig procent van de resultaten succesvol gerepliceerd kan worden (Begley & Ellis, 2012; Osherovich, 2011; Prinz, Schlange & Asadullah, 2011). Als voor de psychologie hetzelfde geldt – en er is weinig reden om aan te nemen dat dat niet zo is – dan is dat een levensgroot probleem. Als de helft van onze gepubliceerde bevindingen daadwerkelijk onjuist is, dan is het wel erg moeilijk om het kaf van het koren te scheiden en zo werkelijke wetenschappelijke vooruitgang te boeken. Wanneer we gepubliceerd onderzoek nauwkeuriger bezien, dan lijken veel psychologische wetenschappelijke uitkomsten te vaak te mooi om waar te zijn. In de meeste experimentele studies worden bijvoorbeeld gemiddeld maar 20 tot 24 proefpersonen per groep meegenomen, terwijl de geschatte effectgrootte (gebaseerd op een groot aantal meta-analyses) in de psychologie niet groter is dan d = 0.50 (een halve standaarddeviatie). Met de gebruikelijke grenswaarde van α=.05 leidt dit, gemiddeld genomen, tot een situatie waarin het onderscheidingsvermogen (power) van de gebruikte toetsen ongeveer gelijk is aan 1-β=0.35 (Bakker, Van Dijk & Wicherts, 2012). Oftewel, op basis van de standaardsituatie in psychologisch onderzoek verwachten we in 35% van de studies een effect als dat effect inderdaad bestaat. Het is dan ook opmerkelijk dat in niet minder dan 96% van de gepubliceerde psychologische studies de nulhypothese verworpen wordt (Sterling, Rosenbaum & Weinkam, 1995; zie ook Fanelli, 2011). Wat is hier aan de hand? Misschien zijn psychologen gewoon onderzoekers met meer ‘geluk’. Een meer realistische verklaring is dat onderzoekers gebruikmaken van de verborgen vrijheidsgraden in
de analyses en in het design van de studie (bijv. bij het selecteren van de beste uitkomsten, bij het wel of niet verwijderen van uitbijters, door de steekproefgrootte te laten afhangen van de uitkomst van de nulhypothesetoets; Simmons, Nelson, & Simonsohn, 2011). Desgevraagd geven psychologen toe dat zulke praktijken aan de orde van de dag zijn. John, Loewenstein en Prelec (2012) vroegen bijvoorbeeld aan ruim tweeduizend onderzoekers in de psychologie of ze weleens gebruik hadden gemaakt van deze twijfelachtige onderzoeksmethoden (Questionable Research Practices (qrp’s)). De meerderheid erkende niet altijd alle afhankelijke variabelen te vermelden. Verder gaf 48% toe alleen significante studies te rapporteren, en zei 57% extra proefpersonen te werven wanneer met de oorspronkelijke steekproef geen significant resultaat werd behaald. Merk op dat zulke beslissingen niet per se fout zijn, als de onderzoeker ze eerlijk rapporteert, maar wel tot grote problemen kunnen leiden als ze verzwegen worden. Hoewel deze praktijken misschien niet frauduleus zijn, is er statistisch gezien sprake van een sterke sturing van de resultaten. Het is duidelijk dat de psychologische wetenschappelijke literatuur in enige mate vertekend is. Over de ernst van deze vertekening is op dit moment helaas nauwelijks iets verstandigs te zeggen.
Strategische wetenschap Wat zegt de psychologie eigenlijk over de psychologische wetenschapper? Onderzoek suggereert dat mensen over het algemeen meer zoeken naar bevestiging dan weerlegging van hun overtuigingen. Dit fenomeen staat bekend als confirmation bias (Nickerson, 1998). Confirmation bias kan op drie manieren optreden. Allereerst kan ambigue informatie zo geïnterpreteerd worden dat deze consistent is met iemands eerdere overtuigingen. Ten tweede kunnen mensen geneigd zijn om informatie te zoeken die hun hypothese bevestigt in plaats van informatie die hun hypothese weerlegt. Ten derde herinneren mensen zich makkelijker informatie die hun positie ondersteunt.
d e p s yc h o lo o g / DECE M B E R 2 0 1 3 7 1 s p e l r e g e l s i n d e p s yc h o lo g i e
worden uitgevoerd en alleen de studies met een significant resultaat worden gepubliceerd. Strategie 2 en 4 gaan over het gebruik van qrp’s en dus over de vraag hoe de data geanalyseerd worden. In figuur 1 zien we de proportie significante resultaten (y-as) voor de verschillende strategieën (de verschillende lijnen) uitgezet tegen verschillende onderliggende effectgroottes (x-as). Voor een onderzoeker die graag een significant resultaat wil (of het effect nu bestaat of niet), blijkt Strategie 4 het meest efficiënt: deze geeft voor elke onderliggende effectgrootte de grootste kans op een significant resultaat. Helaas toont deze figuur ook meteen de nadelen van de Strategieën 2, 3 en 4: de kans op het maken van een Type I fout, oftewel het vinden van een significant resultaat terwijl het effect niet bestaat (ES=0), is een stuk groter dan de afgesproken 5%. Voor Strategie 4 loopt deze zelfs op tot 40%!
0.2
0.4
0.6
0.8
1.0
Kans op tenminste 1 significant resultaat Klein N= 20: Grote N=100
Proportie
____ 1 grote studie ____ 1 grote studie met gebruik QRPs ––– 5 kleine studies ––– 5 kleine studies met gebruik QRPs
0.0
Daarnaast is ook bekend dat mensen ten prooi kunnen vallen aan hindsight bias, oftewel de neiging om een gebeurtenis als meer voorspelbaar te beoordelen nadat deze al heeft plaatsgevonden (Roese & Vohs, 2012). Het is naïef om te denken dat het wetenschappelijke onderzoeksproces is uitgesloten van deze systematische imperfecties van de menselijke geest. De invloed van deze vertekeningen wordt nog vergroot door een omgeving die vooral aantallen publicaties beloont: Wanneer de academische overlevingskans afhangt van de hoeveelheid gepubliceerde artikelen, worden onderzoekers aangetrokken tot manieren die de kans op een publicatie maximaliseren. In een academische werkomgeving van publish or perish is het uitvoeren van kleine studies het meest efficiënt, in de zin dat er gemakkelijker een significant resultaat gevonden wordt en daarmee de kans op een publicatie stijgt. Hierbij maakt het dus niet uit of het een Type I fout betreft, of dat het effect echt bestaat: het is in deze analyse de publicatie die telt, niet ‘de waarheid’. Om te onderzoeken welke factoren verder bijdragen aan het gemak waarmee publicabele resultaten worden verkregen, hebben we een simulatiestudie (zie Bakker et al., 2012 voor uitgebreidere resultaten) uitgevoerd waarbij we vier verschillende strategieën hebben vergeleken: Strategie 1: Voer één grote studie uit (N proefpersonen) Strategie 2: Voer één grote studie uit en maak gebruik van enkele gebruikelijke qrp’s. De volgende qrp’s werden achtereenvolgens gebruikt totdat een significant resultaat werd gevonden: a) Test een tweede afhankelijke variabele die gecorreleerd is met de eerste afhankelijke variabele (toegegeven door 65% van de psychologen in de studie van John et al., 2012). b) Test 10 extra proefpersonen (door 57% toegegeven). c) Verwijder uitbijters (|Z > 2|) en doe de analyse nog een keer (door 41% toegegeven). Strategie 3: Voer, ten hoogste, vijf kleine studies uit met elk N/5 proefpersonen. Deelnemers stoppen met data verzamelen zodra zij een significant effect vinden in de gewenste richting en ‘publiceren’ alleen de significante studie (de andere studies zijn ‘mislukt’). Strategie 4: Voer, ten hoogste, vijf kleine studies uit en maak daarbij gebruik van de qrp’s zoals beschreven bij Strategie 2. Hierbij is Strategie 1 de ideale strategie vanuit het oogpunt van de wetenschap. In grote studies is de kans om een bestaand effect aan te tonen immers maximaal; bovendien worden in deze strategie alle studies gepubliceerd, onafhankelijk van de uitkomst. Bij Strategie 3 en 4 gaat het om de traditionele publicatiebias. Oftewel, meerdere studies
0.0
0.2
0.4
0.6
0.8
1.0
Effectgrootte
Figuur 1: De simulatiestudie laat de optimale strategie voor onderzoekers zien (de kans op het vinden van op zijn minst één significant resultaat) voor de verschillende strategieën zoals beschreven in de tekst voor verschillende onderliggende effectgroottes (d=0 tot 1).
7 2 d e p s yc h o lo o g / DECE M B E R 2 0 1 3 s p e l r e g e l s i n d e p s yc h o lo g i e marjan bakker E.A.
Vertekende uitkomsten Niet alleen hebben dit soort strategieën gevolgen voor het aantal gemaakte Type I fouten, ook in het geval dat er wel een echt onderliggend effect is, zal dit effect vaak overschat worden. Ook in meta-analyses zal de geaggregeerde effectgrootte daardoor vaak een overschatting geven die moeilijk te corrigeren is. Dit kan worden geïllustreerd met studies naar de (positieve) relatie tussen de gewenning aan een bepaalde stimulus bij jonge kinderen en hun latere intelligentie (iq). Een veel geciteerde meta-analyse (McCall & Carriger, 1993) beschouwt twaalf studies waarin de correlatie tussen de mate van gewenning (of habituatie-snelheid, zoals in het eerste jaar gemeten) en iq (gemeten tussen het tweede en achtste jaar) gerapporteerd wordt. In het trechterplaatje (figuur 2) staan de twaalf Fisher getransformeerde (genormaliseerde)
p>.05
p<.05 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Geïmpliceerd onderscheidingsvermogen
p<.05
4
Inverse van de standaardfout 6 8
10
McCall and Carriger 1993
-1.0
-0.5
0.0
0.5
1.0
Fisher getransformeerde correlaties
Figuur 2: Een trechterplot met twaalf studies van de metaanalyse van McCall en Carriger (1993) naar de relatie tussen de habituatie-snelheid van jonge kinderen en hun latere iq. Het witte gebied is het 95% betrouwbaarheidsinterval bij H0=0. Daarom zijn de studies die in het grijze gebied liggen significant met α=.05. De schattingen van het onderscheidend vermogen (power) aan de rechterkant zijn gebaseerd op de geschatte effectgrootte, die is weergegeven met de gestippelde rechte lijn (Zr=.41).
correlaties afgezet tegen de inverse van de standaardfout voor elke studie. Deze standaardfout hangt af van de 1 steekproefgrootte en is gelijk aan /(N – 3) . Aan de linkerkant van de grafiek staat het onderscheidingsvermogen gebaseerd op de geschatte effectgrootte, bij α =.05 en de steekproefgrootte N. Het witte gebied geeft het 95% betrouwbaarheidsinterval onder H0=0 weer, en de studies die in het grijze gebied liggen zijn significant bij een α van .05 (tweezijdig). De rechte gestippelde lijn geeft de geschatte onderliggende effectgrootte weer van een meta-analyse met een fixed effect (Zr=.41, wat overeenkomt met r=.39 en d=.85). De gebogen gestippelde lijnen geven het 95% betrouwbaarheidsinterval weer onder de alternatieve hypothese. Alle studies horen gelijkmatig verdeeld te zijn over het gebied tussen de twee gebogen gestippelde lijnen wanneer er geen sprake is van publicatiebias en onderzoekers geen gebruik maken van qrp’s om tot gewenste resultaten te komen. In deze grafiek is dit niet het geval en valt een aantal zaken op: (a) negen van de twaalf studies hebben een onderscheidingsvermogen onder de 0.80, (b) de onderzochte correlatie verschilt in alle studies, op één na, significant van nul, en (c) de studies zijn duidelijk niet gelijk verdeeld over het linker en rechter gedeelte van de trechter die hoort bij Ha. De twee grootste studies (bovenin) schatten de correlatie tussen gewenning en iq het laagste, terwijl de kleinere studies (onderaan) allemaal nét in het grijze gebied liggen (p<.05). Deze meta-analyses heeft hiermee tekenen van publicatiebias en van resultaten die te mooi zijn om waar te zijn (Francis, 2012; zie Bakker et al. (2012) voor andere voorbeelden van meta-analyses). Een verklaring is dat de studies met niet-significante of lagere correlaties in de meta-analyse ontbreken, omdat die simpelweg niet gepubliceerd zijn. Daarnaast is onderzoek met jonge kinderen niet eenvoudig, en liggen de analyses vaak niet van tevoren vast. Statistische keuzes betreffen het verwijderen van data, uitbijters, en de operationalisatie van de afhankelijke variabele. Ze vereisen keuzes die vaak arbitrair zijn en die daarmee zorgen voor ‘vrijheidsgraden’ in de zin van keuzes die niet van tevoren zijn vastgelegd (De Groot, 1961; Simmons, Nelson en Simonsohn, 2011). Het is op zichzelf natuurlijk niet verkeerd om deze vrijheidsgraden of qrp’s te gebruiken, zolang maar erkend wordt dat de data exploratief zijn geanalyseerd en het onderzoek niet als een zuiver confirmatieve studie beschreven wordt. Zoals figuur 3 laat zien, kunnen psychologische studies op een continuüm geplaatst worden van puur exploratief, waarbij de hypothese in de data gevonden wordt, tot puur
d e p s yc h o lo o g / DECE M B E R 2 0 1 3 7 3 s p e l r e g e l s i n d e p s yc h o lo g i e
Figuur 3. Een continuüm van experimenteel onderzoek (en het bijbehorende continuüm van statistische krakkemikkigheid). Aan de linkerkant van het continuüm bedenken onderzoekers verklaringen voor patronen in hun data achteraf. De bijbehorende statistische toetsingsresultaten kunnen dan wonky (krakkemikkig) uitpakken, en geven doorgaans een dramatische overschatting van het bewijs voor de experimentele hypothese. Aan de rechterkant van het continuüm registreren onderzoekers vooraf hun hypotheses, zodat dataverzameling en -analyse geen ruimte bieden aan post hocverklaringen; de bijbehorende statistische toetsingsresultaten zijn dan goed te interpreteren. Veel empirisch onderzoek zal ergens tussen deze twee extremen vallen. In dat grijze gebied van exploratie en qrp’s kunnen de gegevens in meer of mindere mate ‘gemarteld’ worden, tot zij uiteindelijk toegeven de theorie van de onderzoeker te ondersteunen; in dit geval is de kwaliteit van de bewijsvoering nauwelijks te bepalen. (Deze figuur is gedownload van Flickr, met dank aan Dirk-Jan Hoek.)
confirmatief, waarbij het hele analyseplan is uitgeschreven nog voordat de eerste deelnemer getest is. De precieze locatie van een studie kan verschillen van geval tot geval; deze kan bijvoorbeeld afhankelijk zijn van de oorspronkelijke uitkomst (slechte oorspronkelijke resultaten kunnen exploratie aanmoedigen), de helderheid van de onderzoeksvraag (vage vragen geven meer ruimte om te exploreren), de hoeveelheid data die verzameld is (meer afhankelijke variabelen moedigen exploratie aan), de oorspronkelijke overtuiging van de onderzoeker (een sterk geloof in het bestaan van een effect moedigt exploratie aan, wanneer het eerste analyseresultaat ambigu is). De mate van exploratie verschilt dus over studies en daardoor verschilt ook de betrouwbaarheid van de statistische resultaten. Het is nogmaals belangrijk om te benadrukken dat we exploratief onderzoek niet afkeuren of minder belangrijk vinden. Waar het ons om gaat, is dat onderzoekers de
exploratieve elementen in hun data-analyse eerlijk rapporteren, zodat de lezer de aangevoerde evidentie naar waarde kan schatten. Want wanneer men uitgebreid gaat vissen naar een significant resultaat, dat vervolgens als strikt confirmatieve hypothesetoets wordt verkocht, wordt het onmogelijk om de overtuigingskracht van de gerapporteerde empirische redenering te beoordelen.
preregistratie van confirmatieve studies Goede wetenschap kan op verschillende manieren gerealiseerd worden, maar een absolute voorwaarde is dat de onderzoeker eerlijk rapporteert (Wigboldus, 2013). Helaas zal een algemene oproep tot meer eerlijkheid ook in de wetenschap weinig uithalen. Daarom willen we ons richten op een concreet doel: het scheiden van exploratieve en confirmatieve studies (De Groot, 1956; 1961).
74 d e p s yc h o lo o g / DECE M B E R 2 0 1 3 s p e l r e g e l s i n d e p s yc h o lo g i e marjan bakker E.A.
Veel psychologische wetenschappelijke uitkomsten zijn te mooi om waar te zijn In zijn fascinerende boek Wetenschap of kwakzalverij bediscussieert Ben Goldacre (2011) verschillende sprookjesfactoren in de gezondheidswetenschap en de geneeskunde. Hij concludeert: ‘Het is werkelijk vreemd dat bijna al deze problemen – negatieve resultaten verdonkeremanen, met gegevens knoeien, gegevens die niet van pas komen verborgen houden enzovoort – grotendeels zouden kunnen worden opgelost met maar één bijzonder simpele maatregel die bijna niets kost: een verplicht, openbaar en voor iedereen toegankelijk register van klinische tests. ( … ) Voor je met je onderzoek begint, publiceer je het draaiboek en de methoden. Dat betekent dat iedereen, voordat je begint, kan nagaan wat je in je test gaat doen, wat je gaat meten, hoe en bij hoeveel mensen je dat gaat doen enzovoort. Aan de problemen van publicatiebias, meerdere publicaties van dezelfde gegevens en het verborgen houden van gegevens over bijwerkingen – die allemaal onnodige sterfgevallen en lijden veroorzaken – zou in één klap een einde komen. Als je een test registreert en uitvoert, maar hem niet publiceert, zou dat sterk opvallen’ (Goldacre, 2011, p.272). Wij denken dat dit idee ook in de psychologie aanknopingspunten biedt. Door het vooraf registreren van het onderzoeksdesign en analyseplan, wordt de belangrijkste sprookjesfactor in de psychologie (het presenteren en analyseren van exploratieve resultaten als confirmatief) volledig geëlimineerd. Voor sommigen zal het pre-registreren van een experiment misschien klinken als een draconische maatregel. Maar dat laat in onze ogen dan toch vooral zien hoe uitzonderlijk het voor psychologen is om zich te committeren aan een specifieke methode van analyseren, nog voordat de data verzameld zijn. Het verdient verder nog vermelding dat Adriaan de Groot (1914-2006), een van Nederlands meest beroemde psychologen, meer dan een halve eeuw geleden al een vurig pleidooi hield voor pre-registratie als middel om exploratieve en confirmatieve analyses van elkaar te scheiden (De Groot, 1956; 1961).
Wij verwachten dat een brede invoering van pre-registratie ertoe zal leiden dat een aanzienlijk deel van het psychologisch onderzoek niet het label ‘confirmatief’ kan krijgen. Dat geeft niets. Exploratief onderzoek is buitengewoon belangrijk. Soms kan confirmatief onderzoek tot een revolutie leiden, maar veel vaker biedt juist exploratief werk de sleutel tot nieuwe ontdekkingen en wetenschappelijke vooruitgang. Zonder exploratieve studies zou het wetenschappelijke landschap er bovendien saai en ongeïnspireerd uitzien. Aan de andere kant zijn we er ook van overtuigd dat het belangrijk is om exploratief van confirmatief werk te scheiden. Daarom zouden onderzoekers in de eerste fase van een onderzoeksprogramma vrij moeten zijn om exploratieve studies te doen en daarin te doen wat ze maar willen: keer de data binnenstebuiten, verwijder deelnemers en sessies en geniet van de visexpeditie. Maar deze exploratieve studies kunnen níet worden gepresenteerd als een sterk bewijs ten gunste van een specifieke theorie. De focus van deze exploratieve studies zou juist moeten liggen op het beschrijven van interessante eigenschappen van de data, op het bepalen welke voorlopige bevindingen interessant zijn, om experimenten te schetsen waarmee in een volgende fase de opgedane hypothesen getoetst kunnen worden. In de tweede fase van een onderzoeksprogramma is dan een puur confirmatieve benadering gewenst. Dit vereist dat de psychologische wetenschappelijke gemeenschap een begin maakt met het gebruik maken van online dataopslag zoals deze bijvoorbeeld recentelijk is opgezet door het Open Science Framework (http://openscienceframework.org/). In deze benadering legt de onderzoeker, nog voordat er ook maar één proefpersoon getest is, in een online document vast welke afhankelijke variabelen worden verzameld en hoe de data worden geanalyseerd. Denk hierbij aan de specifieke hypothesen die getest gaan worden, de precieze statistische toetsen die gebruikt zullen worden en de criteria die voor het detecteren van uitbijters zullen worden aangewend. Wanneer standaard nulhypothesetoetsen worden gebruikt, moet de onderzoeker daarnaast exact vastleggen hoeveel deelnemers getest zullen worden. Naast dat hiermee een duidelijke stopregel wordt vastgelegd, dwingt het onderzoekers om na te denken over de verwachte grootte van het effect en het gewenste onderscheidingsvermogen van de test, waarna een steekproefgrootte gekozen kan worden die leidt tot een realistische kans om een eventueel effect aan te tonen indien dat effect bestaat. Wagenmakers et al. (2012) geven een uitgebreid voorbeeld van een vooraf vastgelegde replicatiepoging van het onderzoek van Bem (2011) naar
d e p s yc h o lo o g / DECE M B E R 2 0 1 3 7 5 s p e l r e g e l s i n d e p s yc h o lo g i e
precognitie. Dit preregistratie-document kan vervolgens gebruikt worden tijdens de reviewprocedure; namelijk als garantie dat het onderzoek inderdaad confirmatief van aard is (zie ook De Groot, 1956; 1961). Halen wij met deze voorstellen niet juist de verantwoordelijkheid voor wetenschappelijk deugdelijke analyses weg waar die hoort? Is het niet juist de onderzoeker die de strengheid moet bewaken? Misschien wel. Het is in het huidige systeem echter naïef om aan te nemen dat onderzoekers deze scheiding zelf kunnen maken, zeker wanneer er in de vorm van onderzoekssubsidies en universitair aanstellingsbeleid grote financiële gevolgen aan hun onderzoeksresultaten verbonden zijn. In het huidige systeem leidt het gebruik van qrp’s tot meer publicaties, die de kans op subsidies en dus op een vaste aanstelling aanzienlijk verhogen, en uiteindelijk dus bepalen of een onderzoeker wel of niet in aanmerking komt voor een hypotheek. De kat zit met andere woorden stevig op het spek gebonden. Qrp’s vervullen op dit moment een rol die vergelijkbaar is met die van epo in het wielrennen van de jaren negentig: qrp’s zijn gemakkelijk uit te voeren, niet op te sporen, en buitengewoon prestatieverhogend. Het zal natuurlijk altijd mogelijk blijven voor onderzoekers om op een of andere manier vals te spelen. Maar preregistratie zorgt er wel voor dat de gevolgen van confirmation bias en hindsight bias zullen verdwijnen (al is een gepreregistreerde studie naar het bestaan van deze vormen van bias gewenst). Ook kunnen onderzoekers binnen zo’n systeem minder ‘strategisch’ werken, in de zin dat kleine studies waarbij qrp’s worden gebruikt niet langer lonend zullen zijn. Daarnaast zijn onderzoekers die vals spelen met preregistratie zich er ten volle van bewust dat zij een ernstige academische overtreding begaan. Verder kan preregistratie er ook toe leiden dat alle gedane studies bekend zijn, waardoor minder publicatiebias in meta-analyses zal optreden. Ten slotte is voor het doen van een goede replicatiestudie een preregistratie vereist (Asendorpf et al., 2013). Eigenlijk is ons voorstel een kwestie van gezond verstand. We ontmoeten dan ook weinig collega’s die het niet met ons eens zijn. Het komt er nu dus op aan de weerbarstige publicatiepraktijk aan te pakken en te hervormen. Toptijdschriften zouden de transitie naar de preregistratie van confirmatief onderzoek kunnen vergemakkelijken door een beleid te implementeren dat empirische manuscripten die tenminste één gepreregistreerde studie bevatten beloont. Enkele tijdschriften, zoals Cortex (Chambers, 2013), hebben al een procedure in werking gezet, waarbij zij manuscripten
accepteren zuiver en alleen op basis van het preregistratiedocument, dus onafhankelijk van de uiteindelijke uitkomst. Een andere mogelijkheid om eerlijk en goed onderzoek te belonen, is de preregistratie van onderzoek te publiceren in een speciale sectie die alleen maar confirmatief onderzoek bevat. We hopen dat ons voorstel in ieder geval de transparantie van het wetenschappelijke proces zal vergroten, het aantal gepubliceerde Type I fouten zal terugdringen, en de status van psychologie als een serieuze wetenschappelijke discipline zal verbeteren.
Over de auteurs Marjan Bakker MSc is als promovendus verbonden aan de afdeling psychologische methodenleer van de Universiteit van Amsterdam. E-mail:
[email protected]. Prof. dr. Eric-Jan Wagenmakers (e-mail:
[email protected]), prof. dr. Denny Borsboom (e-mail:
[email protected]) en prof. dr. Han L. J. van der Maas (e-mail:
[email protected]) zijn als hoogleraar verbonden aan diezelfde afdeling en universiteit. Dr. Jelte M. Wicherts is universitair hoofddocent aan Tilburg University (afdeling Methoden en Technieken van Onderzoek). E-mail:
[email protected]. Correspondentie aangaande dit artikel kan worden gericht aan Marjan Bakker.
Zonder exploratieve studies zou het wetenschappelijke landschap er saai en ongeïnspireerd uitzien
7 6 d e p s yc h o lo o g / d e c e M B e R 2 0 1 3 s p e l R e g e l s i n d e p s yc h o lo g i e MaRjan BakkeR e.a.
Noten 1 Dit artikel is een vertaling en samenvatting van (een selectie uit) de volgende artikelen: Bakker, M., Van Dijk, A., & Wicherts, J. M., (2012). The rules of the game called psychological science. Perspectives on Psychological Science, 7, 345-551. doi: 10.1177/1745691612459060; Wagenmakers, E.-J., Wetzels, R., Borsboom, D., Van der Maas, H. L. J., Kievit, R. A. (2012). An agenda for purely confirmatory research. Perspectives on Psychological Science, 7, 632-638. doi: 10.1177/1745691612463078
Literatuur
Asendorpf, J.B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J.J.A. et al. (2013). Recommendations for increasing replicability in psychology. European Journal of Personality, 27, 108–119. Bakker, M., Cramer, A.O.J., Matzke, D., Kievit, R.A., Van der Maas, H.L.J., Wagenmakers, E.J. & Borsboom, D. (2013). Dwelling on the past. The European Journal of Personality, 27, 120-121. doi: 10.1002/per.1920. Bakker, M., van Dijk, A. & Wicherts, J.M. (2012). The rules of the game called psychological science. Perspectives on Psychological Science, 7, 543–554. Begley, C.G. & Ellis, L.M. (2012). Raise standards for preclinical cancer research. Nature, 483, 531–533. Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407–425. Chambers, C.D. (2013). Registered Reports: A new publishing initiative at Cortex. Cortex, 49, 609-610. De Groot, A.D. (1956). De betekenis van “significantie” bij verschillende typen onderzoek. Nederlands Tijdschrift voor de Psychologie, 11, 398-409. De Groot, A.D. (1961). Methodologie: grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag, Mouton. Doyen, S., Klein, O., Pichon, C.-L. & Cleeremans, A. (2012). Behavioral priming: It’s all in the mind, but whose mind? PLoS ONE, 7, e29081. doi:10.1371/journal.pone.0029081 Fanelli, D. (2011). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891-904. Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151–156. doi:10.3758/s13423-012-0227-9 Galak, J., LeBoeuf, R.A., Nelson, L.D. & Simmons, J.P. (2012). Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103, 933–948. doi: 10.1037/a0029709 Goldacre, B. (2011). Wetenschap of Kwakzalverij. (Vertaling van Bad Science door Marjolijn Stoltenkamp). Breda: De Geus.
Summary The rules of the game called psychological science M. BAKKER, E.J. WAGENMAKERS, D. BORSBOOM, J.M. WICHERTS & H.L.J. VAN DER MAAS Psychologists are just like humans: they suffer from confirmation and hindsight bias. Unfortunately, psychologists do not commit themselves to a method of data analysis before they see the actual data. It then becomes possible that researchers, conscious or unconsciously, fine-tune the analysis in order to obtain a desired result. Researchers can do this strategically, and we show that the use of several small underpowered samples and the use of questionable research practices often represents a more efficient research strategy (in terms of finding a publishable p < .05) than does the use of one larger (more powerful) sample. The adaptation of the analysis plan invalidates the interpretation of the common statistical tests. The extent of the fine-tuning varies widely across experiments but is almost impossible for reviewers and readers to gauge. To remedy the situation, we propose that researchers preregister their study in which they (for confirmative studies) specify the hypotheses and analyses. Exploratory research is important, but should be labeled as such.
Ioannidis, J.P.A. (2005). Why most published research findings are false. PLoS Medicine, 2, 696–701. John, L.K., Loewenstein, G. & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth–telling. Psychological Science, 23, 524–532. McCall, R.B. & Carriger, M.S. (1993). A meta-analysis of infant habituation and recognition memory performance as predictors of later iq. Child Development, 64, 57–79. Nickerson, R.S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2, 175–220. Osherovich, L. (2011). Hedging against academic risk. Science–Business eXchange, 4. doi:10.1038/scibx.2011.416 Prinz, F., Schlange, T. & Asadullah, K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712–713. Roese, N. & Vohs, K. (2012). Hindsight bias. Perspectives on Psychological Science, 7, 411–426. Simmons, J.P., Nelson, L.D., & Simonsohn, U. (2011). False–positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359–1366. Sterling, T.D., Rosenbaum, W.L. & Weinkam, J.J. (1995). Publication decisions revisited: The effect of the outcome of statistical tests on the decision to publish and vice versa. The American Statistician, 49, 108–112. Pashler, H. & Wagenmakers, E.-J. (2012). Editors’ introduction to the special section on replicability in psychological science: A crisis of confidence? Perspectives on Psychological Science, 7, 528-530. doi:10.1177/1745691612465253 Wagenmakers, E.-J., Wetzels, R., Borsboom, D., Van der Maas, H.L.J., Kievit, R.A. (2012). An agenda for purely confirmatory reseach. Perspectives on Psychological Science, 7, 632-638. doi: 10.1177/1745691612463078 Wigboldus, D. (2013). De vijftig tinten wit van wetenschappelijke integriteit. De Psycholoog, mei, 44. Yong, E. (2012). Replication studies: Bad copy. Nature, 485(7398), 298.