Het zelfreinigend vermogen van de wetenschap: Parapsychologie en peer review 2.0. Rogier A. Kievit

Het zelfreinigend vermogen van de wetenschap: Parapsychologie en peer review 2.0 Rogier A. Kievit Lead Het toonaangevende tijdschrift “Journal of Personality and Social Psychology” publiceerde onlangs een paper waarin evidentie voor parapsychologische fenomenen werd geclaimd. Bij nadere bestudering bleken de claims, volgens vele critici, te berusten op twijfelachtige statistische methodologie. Op het internet werd de affaire breed uitgemeten, met discussies op toonaangevende wetenschappelijke weblogs en publicaties als de New York Times als gevolg. De casus illustreert zowel enkele problemen in de psychologie als het vermogen van de discipline om op een wetenschappelijk vruchtbare wijze de dialoog te zoeken. Engelse samenvatting The authoritative journal “Journal of Personality and Social Psychology” recently published a paper purportedly showing evidence for parapsychological phenomena. In nine experiments, based on modified formats of conventional psychological paradigms, Daryl Bem aimed to study phenomenon of PSI. Based on a series of statistical results deviating slightly from chance, the author concluded that people possess parapsychological abilities such as precognition. The core claims of the paper are that performance in, say, a memory test can be influenced by training on the task after the experimental measurement. Far before publication, the parapsychological claims and statistical methodology caused widespread controversy and discussion in the scientific community, leading to heated debates on weblogs, and publications in outlets such as Science and the New York Times. The case of PSI both illustrates certain problems in psychological research and highlights the dynamic and interactive state of the field.

Helderziendheid bestaat. Dat concludeert de invloedrijke sociaal psycholoog Daryl Bem in een recent issue van het toonaangevende “Journal of Personality and Social Psychology”. Volgens Bem kan bijvoorbeeld het feit dat iemand morgen de woorden “koe”, “paard”, en “huis” zal leren, de mate waarin iemand nu die woorden onthoudt beïnvloeden: “The results show that practicing a set of words after the recall test does, in fact, reach back in time to facilitate the recall of those words” (pagina 419). Een opzienbarende conclusie die, indien waar, tot een grondige herziening van de hedendaagse wetenschap zou leiden. Het paper is, buiten de extreme claims, om meerdere redenen interessant. Zo circuleerde het paper ver voor publicatie op het internet. Dat leidde tot de nodige discussie, onder andere in de New York Times (0601-2011), Science (21-01-2011), Der Spiegel (8-1-2011) en The New Scientist (1111-2010). Er volgden zelfs openbare discussies tussen critici en Bem (bv. Csicop, 2112-2010). De gebeurtenissen passen in een bredere trend waar de toenemende invloed van de (vakinhoudelijk) dialoog op het internet een steeds grotere invloed op de wetenschappelijke literatuur krijgt. Genoeg redenen om de claims en de discussie over het paper nader te bestuderen. Parapsychologie Parapsychologische (ook wel PSI) fenomenen zijn fenomenen die, indien waar, niet door huidige natuurkundige of biologische theorieën verklaard kunnen worden. Voorbeelden van parapsychologische fenomenen zijn precognitie (het voelen van informatie of stimuli die in de toekomst zullen worden aangeboden), psychokinese (het fysiek beïnvloeden van materie door middel van gedachten), en helderziendheid (het kunnen waarnemen van stimuli vanuit een andere plek). Om op een nieuwe wijze het mogelijke bestaan van PSI te bestuderen voerde Bem een serie experimenten uit, over een periode van enkele jaren, waar hij

conventionele psychologische paradigma’s (priming, geheugentaken) testte, maar de volgorde van de manipulatie en het te meten effect omdraaide. Waar in conventionele psychologische experimenten de invloed van, bijvoorbeeld, priming of geheugentraining ‘vooruit’ gaat, is het de hypothese van Bem dat een psychologische interventie ook met terugwerkende kracht prestatie kan beïnvloeden. Kortom, het leren van een set woorden na afloop van een geheugentaak zal de prestatie op die geheugentaak positief beïnvloeden. Het volledig beschrijven van de 9 experimenten zou teveel plek innemen, maar het is de moeite waard experiment 1 in meer detail te bestuderen, om te zien of de methoden en resultaten dergelijke radicale conclusies rechtvaardigen. In experiment 1 moesten 100 proefpersonen (50 vrouwen en 50 mannen) een computerscherm met twee ‘gordijnen’ bekijken. Achter een van de twee gordijnen zou, na de keus van de proefpersoon, gerandomiseerd een plaatje verschijnen. Proefpersonen moesten raden achter welk van de twee gordijnen het plaatje zou verschijnen. Het goede antwoord (achter welk gordijn een plaatje zou verschijnen) werd pas na afloop van de keuze van de proefpersoon door een random getallen generator bepaald, waarna het plaatje werd gepresenteerd. De aard van de plaatjes varieerde, het betrof onder andere neutrale, romantische en erotische plaatjes. De verwachting onder de nulhypothese (geen precognitie) is dat proefpersonen in gemiddeld 50% van de gevallen de ‘juiste’ optie zullen kiezen (het gordijn waarachter een plaatje zou komen te verschijnen). Echter, als ze tot precognitie in staat zijn, is het de verwachting dat de hitrate afwijkt van 50%. Uiteindelijk vond Bem dat proefpersonen in de conditie met erotische plaatjes in 53.1% van de gevallen het juiste gordijntje kozen, tegenover 49.8% in de overige condities (niet-erotische

plaatjes). Hij concludeert dat dit evidentie is voor zijn parapsychologische hypothese. Die conclusie lijkt echter op zijn zachtst gezegd voorbarig. Methoden Bem gebruikt in het paper (nonparametrische) t-toetsen, een gangbaar statistisch gereedschap. Hiermee vergelijkt hij de geobserveerde percentages juiste antwoorden in de parapsychologische condities met het verwachte percentage onder de nulhypothese. Echter, net als ieder stuk methodologische gereedschap kan de t-toets eenvoudig verkeerd gebruikt worden. Een van de meest fundamentele problemen van het paper is het multiple comparison probleem. Wanneer we goed kijken naar de precieze vergelijkingen die, bijvoorbeeld, in experiment 1 worden gemaakt lijkt de conclusie dat de natuurwetten overboord kunnen wat al te snel getrokken. Zoals gezegd rapporteert Bem een verschil tussen erotische en niet-erotische plaatjes, en vergelijkt en bespreekt hij diverse constellaties van vergelijkingen. In de twee versies van het experiment worden in totaal 4 soorten plaatjes vergeleken: erotische plaatjes, romantische niet-erotische plaatjes, neutrale plaatjes en negatieve plaatjes. Ook werd gekeken naar sekseverschillen, verschillen in boredom proneness (high/low), en de High/Low arousal versies van de verschillende soorten plaatjes. Dit betekent dat er in experiment 1, in de analyse, 4 (stimulustype)* 2 (sekse)* 2 (hoog/laag stimulus seeking) * 2 (hoog/ laag arousal)= minstens 32 vergelijkingen significant hadden kunnen zijn.1 Deze vergelijkingen werden, zo lijkt op te maken uit het paper, vervolgens eenzijdig, en zonder correctie uitgevoerd, en de significante verschillende worden gerapporteerd als bewijs voor de PSI-hypothese. Iedere student leert dat je, in het geval van meerdere toetsen, dient te corrigeren voor het aantal toetsen dat je doet. De meest gangbare correctie hiervoor is de bonferroni correctie, waar de alpha wordt gedeeld door het aantal toetsen (al zijn er

diverse andere methodes, zie Benyamini en Hochberg, 1995). Wanneer we het gerapporteerde hoofdeffect corrigeren voor het aantal mogelijk uitgevoerde toetsen (32) om nominaal op een alpha van 0.05 te toetsen blijft de gerapporteerde significantie niet overeind: De bonferroni gecorrigeerde alpha waarop getoetst moet worden is dan 0.05/32=0.00156, tegenover de geobserveerde p-waarde van 0.01 (voor het resultaat van 53.1%). Kortom, na het uitvoeren van een zeer gangbare en weinig controversiële correctie blijft het belangrijkste effect niet overeind. Het grote aantal statistische toetsen, de fragiele aard van de effecten en de liberale interpretatie ervan sluiten aan bij eerdere uitlatingen van Bem. In een boekhoofdstuk ‘Writing an empirical journal article’ (2003) betoogt Bem het volgende: “If you see dim traces of interesting patterns, try to reorganize the data to bring them into bolder relief. If there are participants you don’t like, or trials, observers, or interviewers who gave you anomalous results, drop them (temporarily). Go on a fishing expedition for something—anything interesting.” (pp. 3) Deze insteek suggereert dat Bem de vrijheid nam de hypotheses en onderzoeksdesigns aan te passen naar aanleiding van interesante exploratieve resultaten. Zo stelt hij op pagina 421 van het PSI paper het volgende: “like most social-psychological experiments, the experiments reported here required extensive pilot testing”. Dit suggereert dat de uiteindelijke gerapporteerde experimenten slechts de ‘succesvolle’ zijn, na diverse onsuccesvolle pogingen. Over de precieze interpretatie en uitvoering van de statistische analyses is uiteraard nog een heleboel meer te zeggen, maar uiteindelijk gaat het vooral om of parapsychologische fenomenen bestaan. Bem had de exploratieve bevindingen in het

paper op een zeer eenvoudige manier kunnen valideren met een vervolgonderzoek waarin hij de ‘beste’ proefpersonen nogmaals test. Bem betoogt in het paper, onder andere door naar individuele verschillen van proefpersonen te kijken, dat hij vermoedt dat niet iedereen dezelfde PSI vaardigheden heeft. Dat zou impliceren dat in de bestudeerde steekproef sommige proefpersonen, die weinig tot geen parapsychologische vaardigheden hebben, rond de 50% schommelen, terwijl anderen, die de vaardigheid wel bezitten daar ver boven of onder zitten (bv. 60% goed). Die hypothese is eenvoudig te toetsen: Je onderzoekt een relatief grote steekproef (bijvoorbeeld 200 proefpersonen) op dezelfde wijze als in het paper, en selecteert de 10% die het ‘best’ (het ‘meest parapsychologisch’) presteren. Stel dat de beste 20 proefpersonen in een sample van 200 gemiddeld rond de 60% goed scoorden bij het raden van plaatjes. Deze kleinere groep test je vervolgens nog een keer. Wanneer ze wederom rond de 60% scoren, zou dat bijzonder sterk bewijs zijn voor de PSIhypothese. Wanneer deze groep proefpersonen in de hertest echter juist weer rond de 50% scoort zou dit eerder wijzen op toevallige fluctuaties in het eerste onderzoek (Dat wil zeggen, het lijkt dan aannemelijk dat er regressie naar het gemiddelde is opgetreden). Het feit dat deze, uiterst simpele, validatie niet is uitgevoerd of gerapporteerd lijkt te suggereren dat het antwoord het tweede zou zijn. Wanneer Bem in zijn duizend proefpersonen zelfs maar één iemand had gevonden die herhaaldelijk ver boven (of onder) kansniveau scoort zou dat groot nieuws zijn, en misschien zelfs reden om kans te maken op de befaamde prijs van een miljoen dollar van de James Randi.2 Er is nog een aanwijzing dat de bevindingen vermoedelijk random fluctuaties zijn en geen ‘waar’ effect. Bem rapporteert voor de 9 experimenten, met verschillende sample sizes, effectgroottes. Stel nu dat er sprake is van een ‘waar’ effect (dus een

repliceerbare afwijking van kansniveau, bijvoorbeeld 55%), dan zouden we verwachten dat de resultaten met grote sample sizes (meer power en betrouwbaardere schattingen) convergeren op die ‘ware’ waarde. Kortom, de effectsize van grotere samples (bijvoorbeeld N=200 in experiment 7) zullen, gemiddelde genomen, een betere reflectie van de ware waarde zijn dan de kleinere samples (N=50 in experiment 9). In het paper van Bem vinden we echter een sterke negatieve relatie tussen de sample size en de grootte van het PSI effect: Hoe meer mensen er getest werden, hoe kleiner het door Bem gevonden effect. De correlatie tussen de effectgrootte en de sample size is, zoals Figuur 1 laat zien, -.87, en het grootste (dus statistisch meest betrouwbare) experiment, met 200 proefpersonen, wijkt niet significant af van kansniveau. Zelfs met maar 9 datapunten is deze negatieve relatie significant (r=-.87, p<0.01, tweezijdig getoetst). Dit betekent dat de grootste effecten in de studie van Bem gevonden zijn bij de kleinste sample sizes, die nu juist de meeste fluctuatie zullen laten zien. Al is het geen onomstotelijk bewijs, het is een patroon wat veel beter aansluit bij de nulhypothese (geen PSI) dan bij de hypothese dat er een structurele afwijking van kansniveau is gevonden.

Figure 1: De negatieve relatie tussen sample size en effectgrootte

De bekende problemen met herhaalde toetsing (bv. Gigerenzer, 2004) en diverse andere punten van kritiek vormden de kern voor een commentaar (Wagenmakers, Wetzels, Borsboom & van der Maas, 2011) wat tegelijkertijd met het artikel van Bem gepubliceerd werd. Wagenmakers en collega’s stippen enkele fundamentele punten van kritiek aan, waaronder de hierboven besproken problemen met exploratieve en confirmatieve hypotheses, en de problemen met (vele) p-waardes en inferenties over de nulhypothese. Ook bespreken ze het probleem van de transposed conditional: Het probleem is dat p-waardes vaak worden geïnterpreteerd als de kans op de hypothese gegeven de data p(H|D), terwijl de correcte interpretatie de kans op de data gegeven de (nul)hypothese p(D|H) betreft. Deze inferentie omdraaien zorgt voor een grote overschatting van de evidentiële kracht van de data voor de (PSI) hypothese in de studie, en ligt vermoedelijk ten grondslag aan claims van Bem zoals “Across all nine experiments, the combined odds against the findings being due to chance are greater than 70 billion to 1” (Bem, Csicop). Uiteindelijk laten Wagenmakers en collega’s zien dat in een heranalyse met behulp van Bayesiaanse statistiek (waar, in tegenstelling tot nulhypothesetoetsing, de waarschijnlijkheid van de alternatieve hypothese ten opzichte van de nulhypothese wordt gekwantificeerd) de 9 studies samen weinig tot geen evidentie voor de parapsychologische hypothese opleveren. Kortom, op de methode en de interpretatie van de data is het nodige aan te merken. Ook blijkt dat niet één van de reviewers, ondanks het feit dat de buitengewone claims volledig rusten op inferentiële statistiek, een statisticus was (New York Times, 2011). Dit is opmerkelijk, aangezien de methodologische problemen in het paper van Bem na online publicatie niet lang onopgemerkt bleven.

De snelheid en breedte van de discussie die naar aanleiding van het paper van Bem losbarstte laat zien hoe het internet ten grondslag ligt aan een nieuwe fase in de wetenschappelijke publicatiecultuur, waar peer review een continuer, sneller en vermoedelijk grondiger proces kan worden. Het internet als peer review mechanisme Zoals gezegd was het onderzoek zowel opmerkelijk vanwege de conclusies, maar eveneens voor de snelheid waarmee het bekritiseerd werd, in de vorm van onsuccesvolle replicaties (Galak & Nelson, 2010; Rabeyron en Watt, 2010), en het verschijnen van twee kritische commentaren (Rouder & Morey, 2011; Wagenmakers, Wetzels, Borsboom & van der Maas, 2011), allemaal maanden voor publicatie van het paper. Ook werd het onderzoek op diverse (wetenschappelijke) weblogs besproken. Hoewel weblogs het standaardmechanisme van wetenschappelijke kwaliteitsbewaking, namelijk peer review, ontberen lijkt dat in de praktijk de kwaliteit niet ten nadele te komen. Op diverse plekken werd, door praktiserend hoogleraren met diverse achtergronden, vrijwel alle aspecten van het onderzoek besproken, bediscussieerd en bekritiseerd. Juist de interactiviteit van deze weblogs, waar in de commentaarsecties vaak diverse andere academici te vinden zijn, en het feit dat academici op zulke fora evenzeer hun reputatie riskeren als in papers maken deze weblogs vaak tot kwalitatief hoogstaand discussieplatforms. Kritiek richtte zich op diverse facetten van het onderzoek, variërend van de statistische technieken (Alcock, Gelman, Hawes) onderzoeksdesign (Wiseman), interpretatie van de data (Coyne, Novella) en replicatieproblematiek (Wilson). De razendsnelle en heftige discussie die ontstond vertaalde zich uiteindelijk zelfs naar artikelen in de New York Times, Science en Der Spiegel.

Eenzelfde snelle response van wetenschappers op het internet kwam onlangs los toen NASA een persconferentie gaf over een aanstaande publicatie in Science. Hierin werd geclaimd dat bepaalde bacteriën een deel van hun DNA hadden vervangen door arseen, een stof die voor alle andere levensvormen giftig is. Deze conclusies werden al binnen enkele dagen, op vakinhoudelijke gronden, door diverse critici in twijfel getrokken (het meest invloedrijke commentaar kwam van een vakgenoot, Rosie Redfield). Ook hier bleek het internet in de vorm van weblogs een goed functionerend kwaliteitsbewakingsorgaan te zijn. Uiteraard zijn niet alle weblogs gelijk, maar het is relatief eenvoudig om de ‘goede’ weblogs te vinden. Een uitstekende verzamelplaats is bijvoorbeeld ‘Scienceblogs’, dat de weblogs van 60 experts uit diverse gebieden bij elkaar verzamelt, en maandelijks ruim 3 miljoen unieke bezoekers trekt. Een nog eenvoudiger richtlijn is simpelweg de wetenschappelijke achtergrond van de schrijver van het blog: Het overgrote deel van de blogs zijn op persoonlijke titel geschreven, wat het nazoeken van de wetenschappelijke ‘credentials’ van de persoon eenvoudig maakt. Uiteraard kan niet het gehele peer review process vervangen worden door blogs, en zijn er ook mogelijke nadelen ten opzichte van traditionele peer review. De anonimiteit van reviews in het peer review systeem kan bijvoorbeeld een voordeel zijn ten opzichte van reacties en commentaar op persoonlijke titel. In het huidige peer review systeem kan iemand, of die persoon nu AiO of gevierd hoogleraar is, zijn of haar eerlijke mening geven over een manuscript, of elementen van een manuscript. Echter, op wetenschappelijke blogs, die vaak op persoonlijke titel zijn geschreven, zal het voor een gearriveerde hoogleraar vermoedelijk een stuk eenvoudiger zijn om ‘te zeggen wat hij denkt’ dan voor minder bekende of beginnende wetenschappers, vooral wanneer het commentaar negatief over het werk van anderen is. Ook bestaat

het gevaar van ‘groupthink’ op blogs: Mensen die herhaaldelijk een weblog van een bepaalde wetenschapper bezoeken zijn mogelijk meer geneigd het bij voorbaat met hem/haar eens te zijn, wat kritieke reflectie mogelijk in de weg staat. Ook bestaat er het risico dat blogs meer focusen op extremere stukken (waar ze het erg mee eens of oneens zijn) dan op de meer ‘mainstream’ wetenschap van degelijke, doch weinig spectaculaire bevindingen. Toch hoeft ook dit niet noodzakelijk een nadeel te zijn, omdat blogs naast het traditionele peer review systeem kunnen opereren. Wetenschappelijke blogs van experts zijn bij uitstek geschikt om exceptioneel goed of interessant onderzoek extra te belichten, of zoals in dit geval, de problemen met bepaalde onderzoeken aan te kaarten. Beide vormen van extra aandacht zijn uiteindelijk gunstig voor de wetenschappelijke psychologie. Gezien de omvang en impact van bovenstaande voorbeelden is het geen overdrijving om te concluderen dat een nieuwe fase in de wetenschappelijke publicatiecultuur is aangebroken. De invloed van het internet op het proces van wetenschappelijke publicaties is al groot, en zal alleen nog maar groter worden. Vooralsnog lijkt dat de wetenschappelijke praktijk, in deze gevallen, ten goede te komen. Door de interactie van vakgenoten, die met commentaar op blogs net zo zeer hun reputatie op het spel zetten als in papers, zijn de mogelijkheden voor een goed functionerende wetenschappelijke dialoog zowel in de breedte (het aantal en de verscheidenheid van de commentaren) als in de diepte (lopend commentaar kan op ieder moment plaatsvinden) aanzienlijk toegenomen. De invloed van dynamische, continue peer review zal vermoedelijk alleen maar groter worden, getuige het succes van enkele open access journals. Sommige wetenschappers betogen nu al dat peer review niet langer een ‘horde’ zou moeten zijn waar je ‘overheen springt’ ter publicatie, maar juist een doorlopend dynamisch

proces. Het journal ‘Frontiers in Computational Neuroscience’ wijdt zelfs een special issue aan vernieuwende suggesties voor peer review en open access publicatie, gebaseerd op enkele initiële ideeën (Kriegeskorte, 2009). Conclusie Betekent al deze kritiek dat het ondenkbaar is dat PSI bestaat? Zeker niet. Maar de evidentie die in het paper van Bem aangedragen wordt is simpelweg niet sterk genoeg om de conclusies te rechtvaardigen, zeker wanneer we de wijze les van Carl Sagan, “Extraordinary claims require extraordinary evidence” in ons achterhoofd houden. Uit de affaire rond het paper van Bem zijn diverse dingen te concluderen, zowel positief als negatief. In negatieve zin lijkt de acceptatie van het paper van Bem te suggereren dat er te weinig kritisch wordt gekeken naar de interpretatie en uitvoering van inferentïele statistiek in sommige psychologische papers, en dat dat de reputatie van het veld niet noodzakelijk ten goede komt. De positieve ontwikkeling is echt dat er tegenwoordig zeer goed functionerende mechanismes zijn om deze ‘fouten’ snel te herstellen. De razendsnelle response van academische bloggers over de hele wereld laat zien wat de kracht van een toegankelijke, laagdrempelige forum voor discussie kan zijn. Een ding staat vast: de psychologische wetenschap mag blij zijn met de aandacht en de toegenomen cultuur van doorzichtigheid, opbouwende kritiek, snelle replicatie en brede wetenschappelijke discussie.

Referenties Alcock, J. (2010). Response to Bem’s Comments http://www.csicop.org/specialarticles/show/response_to_bems_comments Bem, D. (In press.). Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect. Journal of Personality and Social Psychology, 100, 407– 425. Bem, D. J. (2003). Writing the empirical journal article. In J. M. Darley, M. P. Zanna, & H. L. Roediger III (Eds.), The compleat academic: A career guide (pp. 171– 201). Washington, DC: American Psychological Association. Benjamini, Y., Hochberg, Y. (1995). Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B, 57, 289–300. Coyne, J. Scientific evidence for psychic powers? http://whyevolutionistrue.wordpress.com/2010/10/31/scientific-evidence-for-psychicpowers/ Der Spiegel. Forscher empören sich über Hellseherei-Studie. x http://www.spiegel.de/wissenschaft/mensch/0,1518,738163,00.html Galak, J. & Nelson, L. D. (October 29, 2010). A Replication of the Procedures from Bem (2010, Study 8) and a Failure to Replicate the Same Results Available at SSRN: http://ssrn.com/abstract=1699970 Gelman, A. That silly ESP paper and some silliness in a rebuttal as well http://www.stat.columbia.edu/~gelman/blog/ Gigerenzer, G. (2004). Mindless Statistics. Journal of Socio-Economics, 33, 587–606.

Hawes, D. R. PSI research: What do these Numbers Really Mean? http://www.psychologytoday.com/blog/evolved-primate/201010/psi-research-whatdo-these-numbers-really-mean Miller, G. (2011). ESP Paper Rekindles Discussion About Statistics. Science, 331, 272-273. New Scientist, 2010. Is this evidence that we can see the future? http://www.newscientist.com/article/dn19712-is-this-evidence-that-we-can-see-thefuture.html Novella, S. Bem’s Psi Research. http://theness.com/neurologicablog/?p=2701 Kriegeskorte, N. The future of scientific publishing: Open post-publication peer review http://futureofscipub.wordpress.com/ Rabeyron, T. & Watt, C. (2010). Paranormal experiences, mental health and mental boundaries, and psi. Personality and Individual Differences, 48, 487-492. Redfield, R. Arsenic-associated bacteria (NASA's claims) http://rrresearch.blogspot.com/2010/12/arsenic-associated-bacteria-nasas.html Rouder, J. N. & Morey, R. D. (In press, 2011). A Bayes-Factor Meta Analysis of Bem’s ESP Claim. Psychonomic Bulletin & Review. Scienceblogs. http://scienceblogs.com/ Wagenmakers, E. J., Wetzels, R., Borsboom, D. & van der Maas, H. (In press, 2011) Why Psychologists Must Change the Way They Analyze Their Data: The Case of Psi. Journal of Personality and Social Psychology, 100, 426 – 432. Wilson, A. D. Brief Note: Daryl Bem and Precognition. http://psychsciencenotes.blogspot.com/2010/11/brief-note-daryl-bem-andprecognition.html

Wiseman, R. Bem’s ESP research…… http://richardwiseman.wordpress.com/2010/11/18/bems-esp-research/

Voetnoten 1

Zelfs dit is een conservatieve schatting: aangezien Bem erotische met ‘overige

plaatjes’ vergelijkt, en er 4 typen plaatjes zijn, zijn er strikt genomen 19 verschillende partities van stimuli (bijvoorbeeld ‘hoog arousal (erotische, negatief) versus de rest) die je met elkaar kunnen vergelijken, wat potentieel 152 verschillende t-toetsen inhoudt 2

In 1964 loonde skepticus, schrijver en goochelaar James Randi een prijs van 1.000

dollar uit aan iemand die paranormale gaven onder gecontroleerde, repliceerbare condities kon aantonen. De prijs, de zogeheten ‘JREF challenge’, is inmiddels gegroeid tot een miljoen dollar. Ondanks vele honderden aanmeldingen is er nog niet één succesvol geweest.

Het zelfreinigend vermogen van de wetenschap: Parapsychologie en peer review 2.0. Rogier A. Kievit

Recommend Documents