Hoe niet met fraude om te gaan Lezing voor ACRON, symposium 'Fraude versus integriteit in klinisch onderzoek', 19 juni 2014 Maarten Derksen Theorie & Geschiedenis van de Psychologie Rijksuniversteit Groningen
Ik ga proberen wat verstandige dingen te zeggen over fraude in de wetenschap, maar dat doe ik via een omweg: ik bespreek eerst een aantal onverstandige dingen die over fraude in de wetenschap zijn gezegd, een paar manieren waarop we niet met fraude om moeten gaan. Gaandeweg zal duidelijk worden dat het aanzienlijk gemakkelijker en ook prettiger is om onverstandige dingen over fraude te zeggen, dan verstandige. Ik heb veel meer te zeggen over hoe we niet met fraude om moeten gaan, dan over hoe het wel moet. Waar ik helemaal niets over te zeggen heb is klinisch onderzoek, want daar heb ik geen verstand van.
1. Eerste misverstand. Toen de affaire Stapel net begonnen was, zei Willem Koops, voormalig decaan van de Faculteit Sociale Wetenschappen in Utrecht: “Dat zelfs een uiterst creatieve en intelligente en van bestuurlijke macht voorziene hoogleraar als Diederik Stapel tegen de lamp liep, demonstreert mijns inziens hoeveel beter het gesteld is in de wetenschap dan in de ‘gewone’ wereld: de pakkans is naar mijn overtuiging in de wetenschap ongeveer 100 procent.” Dus: fraude komt altijd uit, of in ieder geval bijna altijd. De rector van mijn eigen universiteit, Elmer Sterken, werd vorig geïnterviewd door het Dagblad van het Noorden. Het ging over fraude. Fraude, zei Sterken, is natuurlijk heel erg, maar, zei hij erbij, het wordt gelukkig bijna altijd ontdekt. Ongeveer 100%, bijna altijd: het klinkt misschien genuanceerd, maar het is onzin. Waarom is dit onzin? Het is ten eerste een oncontroleerbare bewering. Hoe zouden we kunnen weten dat alle fraude ontdekt wordt? Dan zouden we al
moeten weten hoeveel er gefraudeerd is, en zouden we alle fraude dus al ontdekt moeten hebben. Wat Koops en Sterken misschien bedoelen is zoiets: in de wetenschap hebben we zulke goede controlemechanismen, dat een fraudeur daar niet langs kan komen. Replicatie wordt vaak genoemd als zo'n mechanisme. Alleen: replicatie werkt helemaal niet als fraude-detector. Het is ook helemaal geen controle-mechanisme. Ten eerste worden er maar weinig replicaties gedaan. (U bent ongetwijfeld bekend met het artikel in Nature van Begley & Ellis, waarin ze rapporteren dat onderzoekers van Amgen slechts in 11% van de gevallen de resultaten van eerdere studies konden reproduceren. Sommige van die niet-reproduceerbare pre-klinische studies hadden een heel nieuw onderzoeksveld voortgebracht, waarin voortbouwd werd op die studies, blijkbaar zonder eerst te proberen ze te bevestigen.) Replicatie gebeurt wel, maar het meeste replicatie-onderzoek betreft zogenaamde “conceptuele replicaties”, die op een of andere manier variëren op het oorspronkelijke onderzoek. “Directe replicaties”, die de oorspronkelijke onderzoeksopzet zo nauwkeurig mogelijk volgen, zijn zeldzamer, want minder interessant voor onderzoekers. Het onderscheid tussen directe en conceptuele replicaties is natuurlijk gradueel, maar hoe dan ook geldt dat voor het controleren van onderzoeksresultaten een zo direct mogelijke replicatie gewenst is, en die worden niet zo vaak uitgevoerd. Als ze al gedaan worden, zijn ze bovendien nauwelijks publiceerbaar. Tijdschriften publiceren liever origineel onderzoek. Eventuele negatieve resultaten, “non-replicaties”, worden dus hoogstens via de wandelgangen bekend. (Dit begint nu, in ieder geval in de psychologie, langzaam te veranderen.) Maar stel: onderzoeker B doet een directe replicatie van het onderzoek van onderzoeker A, en zijn resultaten zijn anders dan die van A. Wat nu? Heeft A gefraudeerd? Misschien, maar het zou ook kunnen dat B een fout heeft gemaakt, of dat een van de twee resultaten een statistische toevalstreffer was. Het zou zelfs kunnen dat B heeft gefraudeerd, of misschien een van haar onderzoeksassistenten. De meeste onderzoekers laten het er maar bij. Waarom zou je je tijd verdoen met onderzoek dat je niet kunt repliceren? Je waarschuwt je studenten en je collega's, en gaat verder met je eigen onderzoek.
En stel: B krijgt wel hetzelfde resultaat als A. Betekent dat dat A niet heeft gefraudeerd? Nee, want verzonnen data kunnen prima met de werkelijkheid overeenkomen. Een fraudeur zou het liefst de waarheid verzinnen. Diederik wist hoe de wereld in elkaar zit, hij hoefde alleen nog de data erbij te fabriceren. Sommige van zijn verzonnen onderzoeksresultaten zijn ook inderdaad bevestigd in ander onderzoek. Kortom: replicatie is geen fraude-detector. Als een replicatie niet lukt betekent dat niet dat er in het originele onderzoek gefraudeerd is, als ze wel lukt betekent dat niet dat er in het originele onderzoek niet gefraudeerd is. Ik kom straks terug op de vraag wat dan wel het belang van replicatie-onderzoek is.
2. 'Fraude komt altijd uit' is dus een onzinnige bewering, maar het klinkt heel geruststellend. Dat is ook het doel ervan: mensen gerust stellen, door een onderscheid te maken tussen het frauderende individu (de rotte appel) en het feilloos opererende systeem, de wetenschap. (Wanneer academische bestuurders gevraagd wordt om een reactie op een fraude-geval, nemen ze nogal eens hun toevlucht tot deze bewering, want het beschermen van de wetenschap is een van hun taken.) Ook geruststellend is het idee dat er een helder onderscheid bestaat tussen goed en fout, en dat dus, als iets niet 100% goed is, het fout moet zijn. Je bent of helemaal integer, of je bent een fraudeur. (Het zit ook een beetje in de titel van dit symposium: “Fraude versus integriteit in het klinisch onderzoek”.) Dat is een prettig idee, want het impliceert dat de wetenschap, op die paar fraudeurs na, uit allemaal 100% integere mensen bestaat. Dat goed/fout onderscheid heeft als gevolg dat een groot grijs gebied van min of meer problematische praktijken onderbelicht blijft. Neem het geval van het zogenaamde 'zelfplagiaat' van hoogleraar economie Peter Nijkamp. Begin dit jaar hebben we met z'n allen een maand lang gediscussieerd over de vraag 'is dit nu fraude?' De gemoederen liepen hoog op, want het is nogal wat, iemand beschuldigen van fraude. Dat is op zich al een probleem: als iedere discussie over wetenschappelijke integriteit beheerst wordt door het beladen
woord 'fraude', dan is het heel moeilijk om niet te verzanden in geschreeuw. Maar bovendien is het onmogelijk een goede discussie over wetenschappelijke integriteit te voeren als je alleen de categorieën “goed” en “fout” tot je beschikking hebt. “Nijkamp is geen Stapel”, werd er bijvoorbeeld in zijn verdediging gezegd, en daar kun je het alleen maar mee eens zijn, maar het zegt niet zo veel. Als de keus is tussen “Nijkamp is een fraudeur” of “Nijkamp is een super-productieve topwetenschapper” (zoals Nijkamp en zijn medestanders beweren), dan komen we er niet uit. Als we daarentegen accepteren dat er tussen wit en zwart nog een groot grijs gebied ligt, dan kunnen (en moeten) we het hebben over de praktijken die in dat gebied liggen. In het geval van Nijkamp moeten we ons dan bijvoorbeeld afvragen: is het eigenlijk wel goed om zoveel te publiceren als Nijkamp doet? Is zo'n “productiviteitsperformance” (zoals hij het zelf noemt) wel zinvol? En is het recyclen van je eigen werk een acceptabele manier om zo'n hoge productie te realiseren? Dan hebben we een discussie over wat mijn collega Ruud Abma “de publicatiefabriek” heeft genoemd, en over hoe wetenschappers functioneren in zo'n op output gerichte universiteit. Dat lijkt mij een zinvoller discussie dan of er wel of niet sprake is van fraude.
3. Een andere misleidende dichotomie (naast goed/fout, frauduleus/integer) is weten/niet weten. Bijvoorbeeld: in de zaak Stapel ging het niet alleen om de vraag hoeveel Stapel gefraudeerd had, en hoe het zover gekomen was, maar ook over hoe het zo lang onopgemerkt had kunnen blijven. Zagen zijn co-auteurs dan niets vreemds, of zijn collega's? De verleiding is om nu te denken: je ziet het, of je ziet het niet. En als je weet dat er gefraudeerd wordt, en je zegt er niks van, dan ben je mede-schuldig. Ook hier geldt volgens mij: tussen weten en niet-weten zit een groot grijs gebied, en het is juist dat grijze gebied dat we goed moeten bekijken om iets te doen aan de problemen in de wetenschap. De commissie-Levelt concludeerde in haar eindrapport over de zaak Stapel dat de wetenschappelijke kritiek in zijn vakgebied te wensen overlaat. Men is meer geïnteresseerd in mooie, aansprekende resultaten dan in solide
onderzoek. (Een aantal sociaal psychologen heeft daar op hoge toon tegen geprotesteerd, maar andere sociaal psychologen hadden zelf ook al geconstateerd dat er het een en ander mis is. Er is nu een bloeiende hervormingsbeweging in de sociale psychologie.) We moeten ons wel afvragen: hoe gaat dat in zijn werk, dat “falen van de wetenschappelijke kritiek”? Het is geen kwestie van het bewust door de vingers zien van fraude. Het is, anderzijds, ook geen probleem waar sociaal psychologen zich geheel onbewust van waren. Uit de discussie die sociaal psychologen nu voeren over de problemen in hun vakgebied rijst eerder het beeld op van een soort 'conspiracy of silence', die nu eindelijk doorbroken wordt. Er was al jarenlang een gevoel van onbehagen, maar er werd niet of nauwelijks openlijk over gesproken. De problemen bleven grotendeels onbenoemd, en daardoor vielen ze ook minder op. Het onbehagen had een condensatiekern nodig voor het tot uitdrukking kon komen, en die functie werd onder andere vervuld door de fraude van Diederik Stapel. Sinds september 2011 zijn fraude en “questionable research practices”, zoals dat heet, “bespreekbaar” geworden. Mijn punt is: wetenschappers hebben, net als andere mensen, een groot vermogen om problemen actief niet te zien, te weten wanneer ze iets niet ter discussie moeten stellen, wanneer ze niet “moeilijk moeten doen”. Dat is een normaal, misschien zelfs gezond proces in sociale verbanden, maar het kan ook een bron zijn van ellende. 4. Het is dus goed dat, in de psychologie althans, de problemen met wetenschappelijke integriteit onder ogen worden gezien, dat fraude en questionable research practices bespreekbaar zijn geworden. Maar het is wel heel moeilijk. Telkens weer blijkt dat het bijna onmogelijk is om op een beschaafde manier over onderzoek te discussiëren, als in de discussie expliciet of zelfs impliciet de mogelijkheid van fraude wordt opengelaten. Als tussen onderzoekers het vertrouwen op dit punt niet honderd procent is, dan lopen de gemoederen bij het minste of geringste hoog op. Bij voorbeeld: een maand geleden publiceerde het tijdschrift Social Psychology een special issue met replicatiestudies. Een aantal veelbesproken sociaal psychologische experimenten, klassieke, maar ook recente, was overgedaan, om te kijken of de resultaten reproduceerbaar waren. Dat viel
tegen: in veel gevallen vielen de resultaten anders uit dan in het oorspronkelijke onderzoek. Eén van de niet-gerepliceerde onderzoekers is daar heel erg boos over geworden. Ze vond dat ze de mogelijkheid had moeten krijgen om de replicatie-studie niet alleen vooraf, maar ook achteraf te reviewen. Dat haar resultaten niet waren gereproduceerd lag aan fouten van de replicerende onderzoekers, die zij er gemakkelijk uit had kunnen halen. Nu was de non-replicatie gepubliceerd, en werd haar goede naam aangetast, want iedereen zou denken dat ze in haar eigen studie had gesjoemeld. Andere sociaal psychologen gingen zich ermee bemoeien, en in blogs en op Facebook en Twitter ontwikkelde zich binnen de kortste keren een hoog oplopende ruzie waarin de beschuldigingen over en weer vlogen. Het probleem is dat replicatie geassocieerd is geraakt met de problemen die de laatste jaren de discussie onder psychologen beheersen, en wetenschappelijke integriteit is één van die kwesties. Replicatie-onderzoek wordt impliciet vaak opgevat als een controle-instrument, een fraude-detector zoals ik het eerder noemde, of in ieder geval als toets van de deugdelijkheid van het oorspronkelijke onderzoek. Zo zag de onderzoekster die ik net noemde het, en zo zagen de replicatie-onderzoekers het ook een beetje. Als het over de noodzaak van meer replicatie-onderzoek gaat, dan spreken psychologen bijvoorbeeld over 'opruimen', 'cleaning up'. De wetenschappelijke literatuur is vervuild geraakt met ondeugdelijk onderzoek, grotendeels het resultaat van questionable research practices, en dat moet nu allemaal worden opgeruimd door de studies stuk voor stuk aan een replicatie-check te onderwerpen. Psychologen weten ook wel dat het eigenlijk niet zo simpel ligt, dat één non-replicatie niet betekent dat het oorspronkelijke onderzoek ontkracht is, en al helemaal niet dat het op fraude berust, maar toch is het idee dat replicatie op een of andere manier een controle-mechanisme is, hardnekkig. Er blijft zo een sfeer van wantrouwen en polemiek om replicatie-onderzoek heen hangen, die maakt dat discussie snel ontaarden in geschreeuw. Dat is contra-productief.
5. Ik kom aan het eind van mijn omweg, maar ik kan helaas geen eenduidige conclusie trekken. Enerzijds is het goed dat fraude nu op de agenda staat,
bespreekbaar is. Om fraude te bestrijden is het noodzakelijk dat we onder ogen zien dat het voorkomt, en als reviewers, als lezers, als collega's, altijd rekening houden met de mogelijkheid van fraude. Zoals een Californiër “earthquake-aware” moet zijn, zo moet een wetenschapper “fraude-bewust” zijn. Symposia zoals dit zijn belangrijk om dat bewustzijn op peil te houden. Anderzijds heeft teveel nadruk op fraude de vervelende consequentie dat de sfeer vergiftigd raakt. Waakzaamheid is goed, maar wantrouwen is geen goede basis voor wetenschap. Als het fenomeen fraude voortdurend als een schaduw over het werk van onderzoekers hangt, dan zal dat het opsporen van fraude eerder belemmeren dan vergemakkelijken. In een klimaat waarin kritiek snel opgevat wordt als een aantijging van fraude, zullen mensen alleen maar voorzichtiger worden met het geven van kritiek. Fraude kan naar mijn mening het best indirect aangepakt worden. Ik kom nog een keer terug op replicatie. Replicatie-onderzoek moet niet worden ingezet als fraude-detector, heb ik gezegd: zo werkt het niet, en het is contra-productief. Het repliceren van eigen onderzoek of dat van anderen is simpelweg een essentieel onderdeel van het wetenschappelijk proces. Al replicerend worden technieken verfijnd en randvoorwaarden bepaald. Het opsporen van problemen is dus niet het doel van replicatie-onderzoek, maar fraude kan wel bijvangst zijn. Als een studie herhaaldelijk niet repliceerbaar blijkt, is dat reden om eens goed naar de ruwe data te kijken, bijvoorbeeld. In het algemeen dwingt het doen van directe replicaties om de aandacht te verleggen van de resultaten van onderzoek naar de wijze waarop die resultaten tot stand zijn gekomen: de experimentele protocollen, de gebruikte instrumenten en technieken, en de stimuli (in het geval van psychologisch onderzoek). Als we daarop focussen, komt eventuele fraude ook gemakkelijker in beeld. Indirect is het doen van replicatie-onderzoek dus essentieel in de bewaking van wetenschappelijke integriteit, maar het moet niet het doel zijn.