Enkele determinanten van peer review

Enkele determinanten van peer review

Geert Wissink

Doctoraalwerkstuk Psychologische Methodenleer

Afdeling Psychologie Faculteit der Maatschappij en Gedragswetenschappen Universiteit van Amsterdam Amsterdam, december 2003 Studentnummer: 9341781 Supervisie Drs. Maarten Speekenbrink Prof. Dr. Johan Hoogstraten


-2-

december 2003

Inhoudsopgave SAMENVATTING ............................................................................................................................. 4 1

2

INLEIDING ................................................................................................................................. 5

1.1

DE CONTROLE VAN DE POORTWACHTER.............................................................................5

1.2

VAN MANUSCRIPT TOT PUBLICATIE ..................................................................................6

1.3

DE WETENSCHAPPELIJKE WAARDE VAN EEN ARTIKEL .............................................................7

1.4

FACTOREN DIE EEN ROL SPELEN BIJ DE BEOORDELING .............................................................8

1.5

PERCEPTIE VAN ANDEREN ..............................................................................................8

1.6

VRAAGSTELLING.........................................................................................................9

METHODE................................................................................................................................ 10

2.1

ONAFHANKELIJKE VARIABELE .......................................................................................10

2.2

AFHANKELIJKE VARIABELEN .........................................................................................11

2.2.1

Eerste afhankelijke variabele: Waardering voor manuscript................................................................11

2.2.2

Tweede afhankelijke variabele: Mate van publiceerbaarheid ...............................................................12

2.2.3

Derde afhankelijke variabele: Perceptie van het oordeel van anderen ...................................................12

2.2.4

Exit vragen.................................................................................................................................12

2.3

2.3.1

Studenten ..................................................................................................................................13

2.3.2

Wetenschappers .........................................................................................................................13

2.4 3

PROCEDURE ............................................................................................................12

HYPOTHESES EN EXPLORATIES ......................................................................................14

RESULTATEN .......................................................................................................................... 15

3.1

PROEFPERSONEN ......................................................................................................15

3.2

PSYCHOMETRISCHE ANALYSE VRAGENLIJST ......................................................................16

3.2.1

Betrouwbaarheden itemverzamelingen ............................................................................................17

3.2.2

Spreiding van de afhankelijke variabelen .........................................................................................19

3.3

HYPOTHESE 1: EFFECT VAN EXPERIMENTELE UITKOMST OP BEOORDELING .................................20

3.3.1

Verschil condities op itemniveau....................................................................................................21

3.3.2

Verschil tussen groepen ...............................................................................................................21

HYPOTHESE 2: VERSCHILLEN TUSSEN EIGEN BEOORDELING EN DE PERCEPTIE VAN HET OORDEEL VAN ANDEREN23 WELKE EIGENSCHAPPEN VAN HET MANUSCRIPT ZIJN VAN INVLOED OP DE UITEINDELIJKE BEOORDELING? ......26

4

3.3.3

Structuur vragenlijst over groepen en condities ................................................................................26

3.3.4

Regressie analyse........................................................................................................................27

3.3.5

Studenten: Eigenschappen die van invloed zijn op de beoordeling .......................................................27

3.3.6

Wetenschappers: Eigenschappen die van invloed zijn op de beoordeling ..............................................28

3.3.7

Invloed van sexe, conditie en leeftijd ..............................................................................................30

DISCUSSIE............................................................................................................................... 31

4.1

CONCLUSIES ...........................................................................................................31

Samenvatting 4.1.1

4.2

Geert Wissink

De twee groepen.........................................................................................................................32

METHODOLOGISCHE ASPECTEN .....................................................................................32

4.2.1

Manuscript.................................................................................................................................32

4.2.2

Vragenlijst..................................................................................................................................33

4.2.3

Manipulatie ................................................................................................................................33

4.2.4

Proefpersonen en procedure..........................................................................................................34

4.3 5

-3-

CONSEQUENTIES ONDERZOEK .......................................................................................34

LITERATUUR ........................................................................................................................... 36

BIJLAGEN ...................................................................................................................................... 38


-4-

december 2003

Samenvatting De meest gebruikelijke manier van het beoordelen van wetenschappelijke manuscripten is peer review. Verschillende zaken kunnen echter een invloed uitoefenen op het uiteindelijke oordeel over een manuscript. In dit onderzoek is getoetst of de experimentele uitkomst van invloed is op de beoordeling. Wordt een manuscript met significante resultaten als beter beoordeeld dan een manuscript zonder significante resultaten? Daarvoor is een manuscript in twee versies, één met significante resultaten en één zonder significante resultaten voorgelegd aan twee groepen proefpersonen, wetenschappers en studenten. Voor beide groepen geldt dat het niet-significante en het significante manuscript niet anders zijn beoordeeld op kwaliteit en publiceerbaarheid. Er is wel een verschil gevonden in beoordeling tussen de groep studenten en wetenschappers. Bij studenten lijkt bij afwezigheid van significante resultaten algemene eigenschappen als schrijfstijl en originaliteit van belang worden voor de uiteindelijke beoordeling op kwaliteit en publiceerbaarheid. Bij een manuscript met significante resultaten is de uiteindelijke beoordeling meer afhankelijk van de beschrijving van het onderzoeksdesign. Het patroon dat naar bovenkomt wat betreft de kwaliteit bij de groep wetenschappers is dat de theoretische inbedding van het manuscript en de mate van originaliteit voor een groot deel de uiteindelijke beoordeling op wetenschappelijke waarde bepalen. Daarnaast lijkt schrijfstijl lijkt van invloed te zijn op de publiceerbaarheid, niet op de kwaliteit. Het onderzoek laat hiermee zien dat er meer onderzoek nodig is naar de subjectieve hantering van wetenschappelijke criteria die de waarde bepalen van een wetenschappelijk manuscript.

Inleiding

1

-5-

Geert Wissink

Inleiding

Het belang van publiceren binnen de wetenschap is anno 2003 onverminderd groot. Het is moeilijk zich het beoefenen van de wetenschap voor te stellen zonder het verschijnen van publicaties, reacties, weerwoorden en verhitte discussies in een van de duizenden tijdschriften die de wetenschap rijk is. Publiceren dient vooral eerst een duidelijk doel: communicatie tussen wetenschappers. Door artikelen van vakgenoten te lezen weten onderzoekers waar anderen in het veld mee bezig zijn en kunnen zij zich laten inspireren door de onderzoeksresultaten. De laatste paar decennia dient publiceren nog een tweede doel: het bewaken van de wetenschappelijke kwaliteit en vooruitgang binnen de wetenschap. Ten slotte dient publiceren nog een derde doel: het behouden van de wetenschappelijke aanstelling. In Nederland hanteren het NWO en het KNAW strenge eisen aan het aantal publicaties in internationale tijdschriften dat hun leden moet halen. De meeste onderzoeksscholen in de psychologie vragen van hun leden gemiddeld één internationale tijdschriftpublicatie per jaar in een aaneengesloten periode van 3 tot 5 jaar (Ellemers, Németh & de Gilder, 1998). De tijdschriftredacties vormen de huidige poortwachters van de wetenschap. Zij filteren de enorme hoop onderzoeksverslagen die wekelijks op hun bord verschijnen, eisen revisies ten opzichte van leesbaarheid en argumentatie, of sturen een onderzoeker naar huis om de verslaggeving grondig te herzien. De tijdschriftredacties zorgen ervoor dat alleen goed en gedegen onderzoek een plek verdient in de dikke jaargangen vol kennis die digitaal en via bibliotheken ontsloten wordt. Wie controleert echter de poortwachter? Hoe gaan ze te werk? En wat is goed en gedegen onderzoek?

1.1

De controle van de poortwachter

Om te zien of tijdschriftredacties hun werk goed doen zijn verschillende maten ontwikkeld. De belangrijkste vormt de impactfactor, die door velen wordt gezien als een maat van de kwaliteit van een tijdschrift (Campanario, 1996; Rushton & Roediger, 1978). De impactfactor is het aantal citaties dat de artikelen van een tijdschrift in een bepaalde jaar halen gedeeld door het totaal aantal artikelen dat in dat jaar in het tijdschrift verschijnt. Voor de sociale wetenschappen wordt dit alles bijgehouden voor meer dan 1500 internationale tijdschriften in de Social Science Citation Index (http://jcrweb.com). Zie het als een jaarlijks rapportcijfer voor het tijdschrift. Andere maten die gehanteerd worden zijn de zelfcitaties van tijdschriften, het percentage referenties dat verwijst naar artikelen die oorspronkelijk in het tijdschrift zijn verschenen, en de immediacy index. De laatste maat geeft aan hoe snel de artikelen in een tijdschrift worden gelezen en geciteerd. De samenhang tussen de wetenschappelijke kwaliteit van de afzonderlijke artikelen die verschijnen en de impactfactor wordt echter wel in twijfel getrokken door sommige onderzoekers (Hoogstraten en van Wijck, 1998). In het onderzoek van Hoogstraten en Van Wijk kregen de proefpersonen zes verschillende artikelen te lezen afkomstig uit tijdschriften met een hoge, gemiddelde en lage impactfactor. Met een vragenlijst werd naar een oordeel over de wetenschappelijke kwaliteit van het artikel gevraagd. Er bleek geen enkel verband naar boven te komen tussen de impactfactor en het oordeel over wetenschappelijke kwaliteit. Toch bestaat er binnen de wetenschappelijke wereld een consensus over de hoogte van de impactfactor en de status van de onderzoeker. Publiceren in ‘The Journal of Social and Personal Psychology’ (impact-factor


-6-

december 2003

3.661, http://jcrweb.com, 2002) is beter voor carrière en aanzien dan publiceren in het tijdschrift “Motivation and Emotion” (impact-factor 0.538, http://jcrweb.com, 2002).

1.2

Van manuscript tot publicatie

De weg van manuscript naar artikel begint in de meeste gevallen met het doornemen van de richtlijnen van de American Psychological Association (APA). Verreweg het merendeel van de tijdschriften in de psychologie hanteert de richtlijnen van deze organisatie. De APA-manual (APA Manual, 2001) geeft zeer gedetailleerde informatie voor de auteur over de opbouw, taalgebruik, structuur en zelfs het lettertype van een manuscript. Het beoordelen van de wetenschappelijke waarde van de inhoud wordt aan de tijdschriftredacties voorbehouden. Deze kiest meestal voor een systeem van “peer review”. Een editor ontvangt het manuscript, en stuurt deze na een voorlopige inspectie op algemene punten (zoals paragraaf- en hoofdlettergebruik) door naar één of meerdere reviewers, meestal zijn dit er twee (APA manual, 2001). Het review proces verloopt veelal gestructureerd. De reviewer wordt geïnformeerd over de criteria (schrijfstijl, theoretische ontwikkeling, onderzoek design, meten, etc.) die gehanteerd moeten worden bij het beoordelen van een artikel. Uiteindelijk wordt hun gevraagd een oordeel te vellen over het wel of niet publiceren van een artikel. De editor neemt weer contact op met auteur en geeft aan wat er besloten is over het manuscript. Nieuwenhuis en Hoogstraten (1998) hebben dit proces voor Nederlandse tijdschriften in de Psychologie in kaart gebracht, waarbij de bovengenoemde procedure als standaard kan worden beschouwd. Ondanks het feit dat het merendeel van de psychologen het systeem van peer review goedkeurt, zijn hun ervaringen daarmee toch van een hele andere orde. Bradley (1980) publiceert nogal schokkende resultaten, gebaseerd op een vragenlijst verstuurd naar ettelijke honderden leden van de APA. De vragenlijst behelsde de ervaringen met het laatst gereviewde artikel van de respondenten, en dan natuurlijk vooral de aard en soort van de wijzigingen. Schokkend kan genoemd worden dat 8% van de respondenten aangaven zaken veranderd te hebben in hun manuscript naar de aanwijzingen van de reviewer hoewel ze wisten dat deze wijzigingen fout waren. Hiermee hangt waarschijnlijk de hoge percentages ervaringen met druk om iets te wijzigen (76%), foute kritiek (73%), kennis beneden de maat (67%), behandeld worden als minderwaardig (43%) en slordig lezen (40%). Al met al geen pleidooi voor de objectiviteit van het peer review proces. Nader onderzoek werd ook uitgevoerd door Coles & Coles (1981). Coles en Coles waren aangesteld om het toekennen van fondsen door de National Science Foundation nader onder de loep te leggen. Een van de studies behelsde het onderzoeken van peer review. Om dit te meten, lieten ze 150 voorstellen nog een keer beoordelen door andere reviewers, en ze lieten deze reviewers tevens beslissen over het wel of niet toekennen van een fonds. De tweede ronde beoordelaars waren iets strenger, wat een test artefact geweest kan zijn aangezien deze beoordelaars wisten dat ze niet echt over de carrière van een wetenschapper hoefden te beslissen. Maar aangezien er een groep voorstellen bestond die een score behaalde rondom de beslissende waarde, en dat die plek verantwoordelijk was voor de toekenning van een fonds (wel of niet), bleek uiteindelijk in 25% van de gevallen sprake van willekeur. Vertaald naar het toekennen van een voorstel, blijkt dat de helft wordt bepaald door de eigenschappen van het voorstel en de beoordelaar, en de andere helft wordt bepaald door ‘geluk’ bij de keuze van een beoordelaar. Aan de ene kant is dit misschien niet goed voor de enkele wetenschapper, die gefrustreerd moet toezien dat zijn voorstel sneuvelt door hele andere oorzaken

Inleiding

-7-

Geert Wissink

dan de interne kwaliteit. Zie bijvoorbeeld ook het onderzoek van Fiske en Fogg (1990) naar de lage interbetrouwbaarheid tussen reviewers met de sprekende titel ”But the Reviewers are Making Different Criticisms of My Paper!”. Of het de voortgang van de wetenschap ten nadele beïnvloedt is de vraag, een bepaalde mate van willekeurigheid kan juist leiden tot bijzondere en onverwachte ontdekkingen. Is er eigenlijk wel consensus over welke onderdelen van een artikel van belang zijn voor de wetenschappelijke waarde?

1.3

De wetenschappelijke waarde van een artikel

De meeste onderzoekspublicaties bestaan uit vier verschillende onderdelen: Een inleiding, een beschrijving van de gebruikte methoden en technieken, een samenvatting van de resultaten en een interpretatie of discussie van de data (Mahoney, 1977). Bij een blind-review procedure (waarbij de naam van de auteur en het instituut waar de auteur werkzaam is niet wordt getoond aan de reviewer) zijn deze vier onderdelen, aangevuld met een abstract en een bibliografie, de elementen waarop een reviewer zijn oordeel moet baseren. Vanuit een epistemologisch oogpunt mag men hopen dat de inleiding en de beschrijving van de methoden en technieken als belangrijkste determinanten worden gezien bij het beoordelen van de kwaliteit van een artikel (Popper, 1972). Als de onderzoeksvraag relevant is voor de wetenschap en de gebruikte methoden in orde zijn, dan is de uitkomst ongeacht van wat zij is belangrijk voor de wetenschap. Elke bevinding voegt dan iets toe aan de kennis over een bepaald onderwerp, mits de gehanteerde methoden geschikt zijn. Mahoney (1977) stelt dat factoren als schrijfstijl en aangedragen conclusies best een rol mogen spelen in het beoordelingsproces, maar dat deze duidelijk ondergeschikt moeten zijn aan de relevantie en de geschiktheid van de methoden. De praktijk wijst uit dat verschillende eigenschappen belangrijk worden gevonden bij het bepalen van de wetenschappelijke waarde van een artikel. Gilliland & Cortina (1997) namen 823 originele manuscripten die waren ingediend bij het Journal of Applied Psychology grondig onder de loep. Ze keken hierbij naar verschillende eigenschappen van de auteur, het artikel, het commentaar van de reviewers en de beslissingen van de editor. Het bleek dat de reviewers vooral de geschiktheid van het research design, de operationalisatie van de constructen en de theoretische ontwikkeling van belang vonden. Deze drie dimensies zijn ook naar boven gekomen in eerder onderzoek (Wolf, 1970; Gottfredson, 1977). Hoogstraten en Jacobs (1981) kwamen met vergelijkbare dimensies die belangrijk worden geacht bij het reviewen van een manuscript. Ten eerste gaan redacties en beoordelaars na of het manuscript betrekking heeft op het specialisme dat bestreken wordt door het tijdschrift. Ten tweede wordt de wetenschappelijke waarde als essentieel gezien. Ten slotte komen criteria die betrekking hebben op het onderzoeksdesign, de geschiktheid van de statistische methoden en de mate waarin het manuscript bijdraagt aan de wetenschap als geheel naar boven. Chase (1970) merkte op dat de technische aspecten van een publicatie (stijl en dergelijke) net zo zwaar wegen als het belang van de publicatie voor de toenemende kennis binnen de wetenschap. De “zachte wetenschappers “, waar ook de psychologen tot behoren volgens Chase, leggen de nadruk op interne logica, theoretisch belang en toegepast belang. De meest gedetailleerde opsomming van belangrijke eigenschappen komt voort uit de bevindingen van Gottfredson (1978). Om te bepalen wat reviewers belangrijk vinden stuurde Gottfredson een vragenlijst met 83 waarderingsaspecten naar 545 editors en reviewers van negen grote psychologische tijdschriften. Met een factoranalyse wist hij uiteindelijk 9 componenten te destilleren uit de vragenlijsten:


-8-

december 2003

1. De Don’ts: fouten die een auteur moet zien te vermijden 2. Inhoudelijke Do’s: vereisten van wetenschappelijke aard 3. Stylistische Do’s: vereisten ten opzichte van taalgebruik en stijl 4. Originaliteit: Het onderzoek moet iets nieuws laten zien 5. Trivialiteit: De auteur moet geen open deuren intrappen 6. Suggesties voor verder onderzoek 7. Beschrijving van de data: De ruwe data moet niet in zijn geheel worden gepresenteerd, maar op een slimme wijze worden weergegeven 8. Aha-onderzoek: Geen onderzoek naar wat we al weten 9. Grootte van het probleem: Het te onderzoeken probleem mag niet een te klein gebied bestrijken. Deze complete lijst onderschrijft goed wat de objectieve criteria zijn van een manuscript. Over veel criteria zal overeenstemming bestaan tussen wetenschappers. Toch zijn deze criteria wel degelijk vatbaar voor een subjectieve hantering. Wat bijvoorbeeld voor de één een origineel en oorspronkelijk onderzoek is, is voor de ander een triviaal werk. Daarnaast zijn er nog andere factoren die een rol kunnen spelen bij het beoordelen van andermans werk.

1.4

Factoren die een rol spelen bij de beoordeling

Eerder onderzoek wijst uit dat een andere weergave van de resultaten van invloed is op de waardering van de proefpersonen voor andere onderdelen van het manuscript (Mahoney, 1978). Ook blijkt uit ander onderzoek dat men eerder geïnteresseerd is in significante resultaten dan in niet-significante resultaten (Van Heerden & Hoogstraten, 1978; Rowney, 1978). Mahoney (1977) vroeg aan 75 tijdschrift reviewers om manuscripten te beoordelen die dezelfde experimentele procedures volgden. Centraal bij het onderzoek stond de inhoud van de gerapporteerde data en de daarop volgende interpretatie. Hij voerde verschillende manipulaties uit op de gerapporteerde data. De inleiding en methodensectie bleef overal gelijk, maar de resultaten- en de discussiesectie werden veranderd of weggelaten. Twee belangrijke conclusies kunnen worden getrokken uit zijn experiment. Ten eerste wordt de waardering van een reviewer in belangrijke mate beïnvloed door factoren als de experimentele uitkomst en 2) de overeenstemming tussen de verschillende beoordelaars is erg laag. De lage betrouwbaarheid tussen beoordelaars is een herhaaldelijk geobserveerd verschijnsel (Hargens, 1988; Cichetti, 1991; Fiske & Fogg, 1990). Ook Rowney en Zenisek (1980) vonden dat naast de reputatie van de auteur de significantie van de resultaten een belangrijke rol speelt bij de mate van waardering. Daarnaast werd replicatie onderzoek en onderzoek wat eerder was gepresenteerd op een congres of seminar als minder waardevol beschouwd.

1.5

Perceptie van anderen

Inleiding

-9-

Geert Wissink

We kunnen de wetenschap wel enigszins vangen in objectieve criteria, maar het toepassen van deze criteria op andermans werk blijkt niet zonder gevaren. Dit brengt ons op een volgende interessante veronderstelling. Is een beoordeling beter als we niet zelf deze criteria toepassen, maar ons proberen voor te stellen hoe andere wetenschappers een artikel zouden beoordelen? Neemt de interbetrouwbaarheid tussen wetenschappers toe wanneer we ze vragen naar hun perceptie van de gemiddelde mening van andere wetenschappers? Verschillende aspecten van de perceptie over meningen van anderen spelen hierbij een rol. Het is niet altijd bekend wat anderen vinden van een bepaald onderwerp, of in dit geval een manuscript. Men zal een schatting geven van hetgeen men denkt dat de gemiddelde waardering van de groep zal zijn. In eerder onderzoek komt naar voren dat er een normalisatie effect optreedt. De verdelingen van percepties lijken meer op normale verdelingen (Den Boon, 1989). Ook zal de item non-response groter zijn bij perceptievragen dan bij eigen oordelen omdat de respondenten vaak moeite hebben met zich te verplaatsen in een ander. Deze eigenschappen van perceptie gelden voor de groep als geheel. Op individueel niveau komen andere eigenschappen naar boven. Ten eerste blijkt er vaak een sterk verband te zijn tussen eigen oordelen en de perceptie. Bij het beantwoorden van individuele percepties over de groep treedt er vaak een false consensus effect op waarbij de eigen mening als typerend voor de groep wordt gezien. Ten tweede zullen perceptievragen conservatiever beantwoord worden ten opzichte van de eigen mening (men ziet zichzelf als beter dan het gemiddelde, de groep presteert volgens het voorgestelde gemiddelde).

1.6

Vraagstelling

Uit het bovenstaande is naar voren gekomen dat het belang van het geplaatst krijgen van manuscripten groot is voor zowel de auteur als voor de wetenschap. De weg van manuscript naar publicatie is echter lang en niet zonder gevaar. De meest gehanteerde methode bij het beoordeling van een manuscript is peer review waarop verschillende factoren een invloed kunnen uitoefenen. Een van die factoren die een rol kunnen spelen is het belang van de experimentele uitkomst voor de uiteindelijke beoordeling. In dit onderzoek gaan we in navolging van Mahoney (1977) onderzoeken in hoeverre de resultaten van invloed zijn op de beoordeling van het manuscript. Dit doen we door éénzelfde manuscript in twee versies, met significante resultaten en zonder significante resultaten, voor te leggen aan twee groepen proefpersonen, studenten en wetenschappers. Eerder onderzoek beperkte zich voornamelijk tot de groep wetenschappers, in dit onderzoek nemen we ook een groep studenten mee om te kijken in hoeverre zij gevoelig zijn voor het effect van significante of niet-significante resultaten. Ook proberen we iets meer over het lees en beoordeel gedrag van studenten te kunnen achterhalen met dit onderzoek. Wat betreft de groep wetenschappers gaan we bekijken of we de resultaten van Mahoney kunnen repliceren. Uiteindelijk kan zo ook gekeken worden naar het verschil in beoordeling tussen de groep wetenschappers en de groep studenten. Daarnaast willen we kijken welke eigenschappen van een manuscript belangrijk gevonden voor de uiteindelijke beoordeling van de kwaliteit en publiceerbaarheid van een manuscript. Tot slot kijken we naar de perceptie van het oordeel van anderen binnen de wetenschap. Mogelijk zijn vragen naar de perceptie van het oordeel van anderen een betere voorspeller van het gemiddelde totale oordeel dan vragen naar het eigen oordeel.


2

- 10 -

december 2003

Methode

2.1 Onafhankelijke variabele Er is gezocht naar een kort, algemeen, niet al te bekend artikel om te dienen als het te beoordelen manuscript. Het artikel moest een algemeen psychologisch onderwerp behandelen om te voorkomen dat er effecten ontstaan tussen reviewers met meer of minder kennis van een specialistisch onderwerp. Het artikel moest ook niet al te lang zijn om de proefpersonen niet al te veel werk te bezorgen bij het beoordelen van het manuscript. Tevens is ook gezocht naar een manuscript met een duidelijke experimentele opzet waarvan de resultaten op een eenvoudige wijze zijn te manipuleren. Uiteindelijk is gekozen voor het artikel “Pretesting as Determinant of Attitude Change in Evaluation Research” van J. Hoogstraten, verschenen in het tijdschrift “Applied Psychological Measurement” in 1979 . Om een idee te geven van de inhoud van het artikel is hieronder de Nederlandse vertaling van de samenvatting opgenomen: “ Twee experimenten zijn uitgevoerd om de bias effecten van een voormeting op daarop volgende nametingen te onderzoeken. De taak van het eerste experiment was het beoordelen van een lesboek statistiek dat eerstejaars psychologen gebruiken. Het experiment maakte gebruik van een separate sample pretest-posttest design en liet zien dat een pretest met overwegend negatieve stellingen over het gebruikte lesmateriaal de resultaten van de posttest beïnvloedde. Het tweede experiment, waarin een andere behandeling werd gebruikt, onderzocht de pretest effecten van positieve en negatieve stellingen. De positieve versie werkte contra de ontwikkeling van negatieve gevoelens over de behandeling. De negatieve versie liet hetzelfde effect op de ontstane gevoelens niet zien. De laatste uitkomst werd als een gevolg gezien van het nogal omstreden karakter van de behandeling en de verplichte deelname van de proefpersonen. De negatieve stellingen bevestigden misschien reeds bestaande attitudes. Drie suggesties om de sensibiliserende werking van de pretest te voorkomen werden genoemd: 1) maak gebruik van onderzoek-designs met controle groepen; (2) scheidt de pretest fase van de posttest fase; en (3) leg meer de nadruk op designs zonder pretests. “ De naam van de auteur en de literatuurlijst zijn weggelaten. Bij de verwijzingen in de tekst van het artikel zijn de namen van de auteurs vervangen door xxx en is het jaartal van publicatie met 20 verhoogd. Het laatste is gedaan om te suggereren dat het om een recent onderzoek gaat om eventuele effecten van de leeftijd van het artikel te voorkomen. Ook zijn verwijzingen naar de naam van de universiteit (Universiteit van Amsterdam) en specifieke herkenbare namen van de onderzoekssetting (testweek) weggehaald. Dit resulteerde uiteindelijk in een manuscript van zes pagina’s dat verder bewerkt is. Er zijn twee verschillende versies van het manuscript gemaakt. De eerste versie bestond uit het originele manuscript met significante resultaten waarin de hypotheses bevestigd worden. In de tweede versie zijn enkele resultaten aangepast waardoor de resultaten niet meer significant waren en de hypothesen niet bevestigd worden. In deze niet-significante versie zijn daarop volgend de samenvatting, een vooruitwijzende zin in de inleiding, onderdelen van de resultaten en de discussie herschreven zodat de tekst de nietsignificante bevindingen weerspiegelden. De twee manuscripten zijn opgenomen in bijlage 5 en 6.

Methode

2.2

- 11 -

Geert Wissink

Afhankelijke variabelen

Hoogstraten en Jacobs (1981) hebben op basis van de componenten van Gottfredson (1978) een lijst met 22 stellingen opgesteld waarvan de proefpersoon kon aangeven in hoeverre zij het eens was met de stelling. Om het experiment niet te lang te laten duren is een selectie gemaakt uit de 22 stellingen. De verkozen stellingen zijn geselecteerd op basis van onderscheidingsvermogen, er is met zo min mogelijk stellingen gepoogd zoveel mogelijk aspecten van het manuscript te vatten. Dit resulteerde in 10 stellingen die gebruikt zijn in deze vragenlijst. Vervolgens zijn ook 4 vragen opgenomen over kwaliteit, publiceerbaarheid, bekendheid met het manuscript en interesse in het onderwerp. In tabel 2.1 staan alle 14 stellingen en vragen genoemd. Tabel 2-1 De 14 items van de vragenlijst A.Betreffende de inleiding van het manuscript 1. Het verband tussen de probleemstelling en de theoretische achtergrond is in voldoende mate aangegeven. 2. De probleemstelling wordt op juiste wijze vertaald in een onderzoekbare vraagstelling.

B. Betreffende de gebruikte methoden in het manuscript 3. De onderzoeksopzet (design) geeft in voldoende mate de mogelijkheid tot beantwoording van de vraagstelling. 4. De beschrijving van de onderzoeksprocedure is duidelijk en volledig.

C. Betreffende de beschreven resultaten in het manuscript 5. De statistische verwerking van de gegevens is op controleerbare wijze weergegeven 6. De onderzoeksresultaten zijn duidelijk -in tekst, tabellen of figuren- weergegeven

D.Betreffende de discussie van het manuscript 7. In de discussie zijn in voldoende mate aanwijzingen gegeven voor vervolgonderzoek. 8. In de discussie worden de gestelde hypothesen en theoretische implicaties in voldoende mate behandeld.

E. Algemene vragen betreffende het manuscript 9. De schrijfstijl is duidelijk en helder 10. Het manuscript is in voldoende mate origineel 11. Wat is uw algemene oordeel over de wetenschappelijke kwaliteit? 12. Stel u bent redacteur van een wetenschappelijk tijdschrift. Wanneer u een aanbeveling zou moeten doen voor publicatie van dit manuscript wat zou uw oordeel dan zijn? 13. Was u reeds bekend met het betreffende manuscript? 14. In hoeverre sluit het onderwerp aan bij uw interessegebied?

2.2.1

Eerste afhankelijke variabele: Waardering voor manuscript

De eerste afhankelijke variabele in dit onderzoek is de waardering die de proefpersonen hebben voor het manuscript. Deze waardering is uitgewerkt op drie manieren:


•

- 12 -

december 2003

Item 1 tot en met 8: De waardering voor de inleiding, methoden, resultaten en discussie van het manuscript werd door middel van 2 stellingen per onderdeel onderzocht (in totaal 8 stellingen, zie tabel 2.1). De proefpersoon kon op een vijf-punts Likert schaal aangeven in hoeverre zij of hij het eens was met de stelling.

•

Item 9 en 10: De schrijfstijl en mate van originaliteit werden gemeten met stellingen die op een vijf-punts Likert schaal gescoord werden.

•

Item 11: Een vraag over de waardering op kwaliteit, in een vijf-punts keuze schaal.

Bij de vragenlijst voor de groep wetenschappers zijn nog vijf open vragen opgenomen waarin de wetenschapper respectievelijk opmerkingen over de inleiding, methoden, resultaten, discussie en het manuscript in het algemeen kwijt kon. 2.2.2

Tweede afhankelijke variabele: Mate van publiceerbaarheid

De tweede afhankelijke variabele is de vraag over de publiceerbaarheid van het manuscript (item 12). Deze vraag wordt vaak gesteld aan reviewers van een tijdschrift. Exploratief werd de proefpersoon gevraagd of deze reeds bekend was met het artikel en of het artikel aansloot bij het interessegebied van de proefpersoon (item 13 en 14). 2.2.3

Derde afhankelijke variabele: Perceptie van het oordeel van anderen

De derde afhankelijke variabele is de perceptie die de proefpersoon heeft over hoe anderen het manuscript zouden beoordelen. Deze perceptie is met de review vragenlijst uit tabel 2.1 onderzocht, waarbij gevraagd werd hoe andere proefpersonen / wetenschappers de vragen zouden beantwoorden. Aangezien we ook willen meten met deze vragenlijst in hoeverre er overeenkomst is tussen de oordelen van de proefpersonen wordt deze lijst hierna aangeduid als de perceptie vragenlijst (item 15 t/m 28). 2.2.4

Exit vragen

In de exitvragenlijst werd eerst naar de leeftijd en de sexe van de proefpersoon gevraagd. Vervolgens werd gevraagd wat volgens de proefpersoon de bedoeling van het onderzoek is, wat de wetenschappelijke waarde van het onderzoek is en of de proefpersoon nog opmerkingen naar aanleiding van het onderzoek heeft. Dit alles werd gevraagd met open vragen. De groep wetenschappers werd nog gevraagd naar het soort aanstelling, aan welke universiteit de wetenschapper verbonden was en hoeveel ervaring de wetenschapper met het reviewen van manuscripten had. Tenslotte werd de proefpersoon hartelijk bedankt voor de medewerking, en als de proefpersoon interesse stelde in de resultaten van het onderzoek kon de proefpersoon zijn of haar emailadres invullen. In bijlage 1 staan alle vragen en alle antwoordcategorieën vermeld.

2.3

Procedure

Methode

- 13 -

Geert Wissink

Het onderzoek is uitgevoerd onder twee groepen. De eerste groep bestond uit eerstejaars psychologie studenten en de tweede groep uit wetenschappers werkzaam in de psychologie bij een universiteit in Nederland. 2.3.1

Studenten

De eerste groep bestond uit 65 eerstejaars psychologie studenten. Deze studenten kregen in ruil voor deelname aan het onderzoek studiepunten die ze nodig hadden om een verplicht onderdeel van de propedeuse te behalen. De studenten zijn geworven door een inschrijflijst op te hangen op de Universiteit van Amsterdam. De naam van het onderzoek was ‘Kritisch lezen”. Bij de instructie werd de studenten verteld dat het onderzoek ging over ‘kritisch lezen’, en of ze het manuscript grondig wilden doorlezen. De studenten zijn in groepen van 1 tot 8 personen getest in een klassikale opstelling onder toezicht van een proefleider. Ze werden op volgorde van binnenkomst toegekend aan conditie 1 of aan conditie 2. In conditie 1, de significante conditie, kregen ze het originele manuscript te lezen. In conditie 2, de niet-significante conditie, kregen ze het bewerkte manuscript voorgelegd. De studenten kregen eerst het manuscript overhandigd. Er werd hen gevraagd het manuscript rustig en grondig door te lezen, er mochten aantekeningen gemaakt worden op het manuscript. Als ze dit hadden gelezen, kregen ze de eerste vragenlijst bestaande uit de review-stellingen overhandigd. Na het invullen van vragenlijst 1, kregen ze van de proefleider de perceptievragenlijst en exitvragenlijst overhandigd. In tabel 3.1 staat de verdeling van de studenten over de twee condities. De studenten hebben 20 minuten tot een uur over het experiment gedaan.

2.3.2

Wetenschappers

De tweede groep bestond uit 33 wetenschappers. Bij de review vragen zijn vijf open vragen opgenomen waar eventuele opmerkingen over de verschillende onderdelen van het manuscript vermeld konden worden (zie bijlage 1 voor een overzicht van de vragen en de uitkomstmaten). In de exit vragenlijst werd nog gevraagd naar het vakgebied, de ervaring met reviewen, de soort aanstelling en de naam van de universiteit waaraan de wetenschapper verbonden was. Om het invullen van de vragenlijst zo eenvoudig mogelijk te maken is er een website opgezet waarop de vragenlijst ingevuld kon worden. Na het invullen van alle verplichte items en het emailadres werden de gegevens van de vragenlijst verstuurd naar het mailadres van de proefleider. Vier AIO’s (assistenten in opleiding) van de Universiteit van Amsterdam hebben de vragenlijst in een pilotexperiment ingevuld, waarbij getest werd of de online vragenlijst goed werkte en het onderzoek duidelijk was voor de deelnemers. Dit bleek het geval te zijn. Voor het experiment zijn 851 wetenschappers werkzaam op een psychologie faculteit in Nederland benaderd via e-mail. Hun e-mail adressen zijn gevonden op de websites van de zeven universiteiten met een afdeling of faculteit Psychologie in Nederland. De persoon werd geclassificeerd als wetenschapper als er drs, dr of prof. voor de naam stond en het duidelijk was dat de persoon niet behoorde tot het ondersteunend personeel. De email-adressen zijn willekeurig toegewezen aan de condities waarna ze een e-mail werd gestuurd met een verzoek om mee te doen aan een onderzoek. De naam van het experiment was “Onderzoek naar het beoordelen van wetenschappelijke manuscripten”. In de bijbehorende instructie werd verteld dat het doel van het experiment was om een review-vragenlijst te valideren, en dat het onderzoek ongeveer een uur in beslag zou nemen. Het manuscript was bijgevoegd als pdf document, en de wetenschappers konden de


- 14 -

december 2003

vragenlijst online invullen op de website. Hier konden ze ook een pdf-versie van de vragenlijst downloaden die ze per email of uitgeprint per post terug konden sturen. Na twee weken kregen de wetenschappers die nog niet hadden meegewerkt aan het onderzoek een herhalingsmail. In totaal leverde deze twee mailings na een maand 34 afwijzingen, en 20 ingevulde vragenlijsten op. Hiervan zijn 18 vragenlijsten via de website ingevuld en 2 kwamen uitgeprint binnen per post. Om toch nog wat meer respondenten te krijgen zijn alle personen aan de afdeling Psychologie van de Universiteit van Amsterdam die nog niet gereageerd hadden en waar drs. voor de naam stond ook telefonisch benaderd. In twee weken zijn 81 personen telefonisch benaderd, waarvan 26 personen afzagen van deelname, 21 personen na 3 keer bellen niet zijn bereikt, 8 personen uit dienst bleken te zijn en 26 personen toezegden mee te werken aan het onderzoek. In totaal leverde dit 13 extra reacties op waardoor experiment uiteindelijk 33 proefpersonen telde. Bijna alle personen die afzagen van deelname gaven als argument dat ze geen tijd hadden aan een onderzoek dat een uur duurt. De overige personen die afzagen van deelname gaven aan dat ze geen affiniteit hadden met het onderwerp van het manuscript.

2.4

Hypotheses en exploraties

De hoofdvraag is of er een verschil is van experimentele uitkomst op de beoordeling van het manuscript. Dat meten we voor de drie afhankelijke variabelen. We verwachten dat de niet-significante versie van het manuscript slechter zal worden beoordeeld dan de significante versie van het manuscript. We kijken ook op itemniveau of er verschillen zijn. De tweede vraag is of er een verschil is in het eigen oordeel en de perceptie van het oordeel van anderen. We verwachten dat de perceptie van het oordeel van anderen minder streng zal zijn en ook minder spreiding zal vertonen. Dit meten we door de eerste twee afhankelijke variabelen voor de twee groepen met elkaar te vergelijken tussen de review en perceptie items. Daarna kijken we met een MANOVA herhaalde metingen naar de verschillen binnen de proefpersoon. Als laatste bekijken we welke eigenschappen van het manuscript van invloed zijn op de uiteindelijke beoordeling. Dit meten we met een regressie analyse van de gemiddelde somscores van de review en perceptie-items op de items kwaliteit en publiceerbaarheid. We zullen hierbij ook op itemniveau kijken welke items het sterkste verband vertonen met de afhankelijke variabelen.

Resultaten

3 3.1

- 15 -

Geert Wissink

Resultaten Proefpersonen

In tabel 3.1 staat de verdeling van de proefpersonen over de condities en geslacht en de gemiddelde leeftijd. Bij de groep studenten is er een verschil in sexe tussen de twee condities (χ2 = 5.55, p=.02). Geslacht zal meegenomen worden in de analyses als covariaat om te corrigeren voor eventuele sexe-verschillen.

Tabel 3-1 Verdeling leeftijd en geslacht proefpersonen over condities Gemiddelde leeftijd M (sd) Sexe % (aantal) vrouw Studenten

Sexe % (aantal) man

Niet-significante conditie (n=32 ) 20.77 (0.49)

62.5 % (20)

37.5 % (12)

20.50 (0.61)

87.9 % (29)

12.1 % (4)

60 % (9)

40 % (6)

27.8 % (5)

72.2 % (13)

Significante conditie (n= 33 )

Wetenschappers Niet-significante conditie (n=15 ) 34.26 (13.78) Significante conditie (n= 18 )

37.78 (14.48)

We hebben de groep wetenschappers ook gevraagd naar de aanstelling, ervaring en vakgebied (zie bijlage 2). Hieruit komt naar voren dat meer dan de helft van de deelnemende wetenschappers de positie bekleedt van Assistent in Opleiding. Hierop sluit aan dat bijna de helft nog nooit een manuscript gereviewd heeft, maar toch een kwart van de respondenten 10 of meer manuscripten heeft gereviewd. Opvallend is verder dat bijna de helft van de groep wetenschappers de cognitieve psychologie als vakgebied heeft, terwijl deze groep over het algemeen 20% van de totale populatie wetenschappers werkzaam in de psychologie inneemt.


3.2

- 16 -

december 2003

Psychometrische analyse vragenlijst

Alvorens de hoofdvragen te beantwoorden kijken we eerst naar de psychometrische eigenschappen van de vragenlijst. Hiervoor kijken we naar de spreiding van de items, betrouwbaarheid, en de spreiding van de afhankelijke variabelen.

Tabel 3-2 Gemiddelden en standaardeviaties alle items Studenten (n=65) niet-significant review items

M

SD

Wetenschappers (n=33) significant M

niet-significant

significant

SD

M

SD

M

SD

1 inleiding (theoretische achtergrond) *

3.41

0.91

3.48

0.87

2.93

1.16

3.28

0.96

2 inleiding (vraagstelling) *

2.91

0.96

3.09

0.84

2.80

0.86

3.00

1.14

3 methoden (onderzoeksdesign) *

3.09

0.89

3.36

0.86

3.13

0.83

2.94

1.03

4 methoden (beschrijving procedure) *

3.16

1.08

3.24

0.94

2.67

1.05

2.53

1.01

5 resultaten (beschrijving statistiek) *

3.42

0.96

3.61

0.86

3.40

0.91

3.44

0.98

6 resultaten (weergave resultaten) *

3.72

0.89

3.94

0.66

3.47

0.99

3.22

1.00

7 discussie (vervolgonderzoek) *

3.53

0.92

3.48

0.87

3.47

0.74

3.11

1.18

8 discussie (theoretische implicaties) *

3.41

0.91

3.58

0.83

3.13

0.99

3.17

0.99

9 algemeen (schrijfstijl) *

2.81

1.12

2.76

0.79

2.40

1.12

3.17

1.20

10 algemeen (originaliteit) *

2.84

0.92

3.15

0.67

2.60

0.63

3.00

0.84

11 kwaliteit ***

3.16

0.81

3.27

0.63

2.27

0.88

2.22

0.81

12 publiceerbaarheid **

2.66

0.79

2.79

0.55

1.93

0.88

2.22

0.65

13 bekendheid ****

2.00

0.00

2.00

0.00

2.00

0.00

2.00

0.00

14 interesse *****

2.31

0.82

2.03

0.77

2.00

1.00

2.29

0.99

perceptie items 15 inleiding (theoretische achtergrond) *

M

SD

M

SD

M

SD

M

SD

3.34

0.94

3.36

0.70

3.07

1.07

2.81

0.91

16 inleiding (vraagstelling) *

3.13

0.83

3.27

0.67

3.07

0.92

2.75

0.93

17 methoden (onderzoeksdesign) *

3.34

0.83

3.45

0.79

3.07

1.00

3.13

0.96

18 methoden (beschrijving procedure) *

3.25

0.92

3.15

0.83

3.07

0.92

2.69

1.01

19 resultaten (beschrijving statistiek) *

3.41

0.91

3.48

0.67

3.29

1.14

3.50

0.97

20 resultaten (weergave resultaten) *

3.75

0.80

4.00

0.56

3.50

0.85

3.44

0.63

21 discussie (vervolgonderzoek) *

3.52

0.89

3.36

0.93

3.50

0.76

2.94

1.12

22 discussie (theoretische implicaties) *

3.45

0.57

3.50

0.76

3.00

0.88

2.88

0.89

23 algemeen (schrijfstijl) *

3.16

0.99

2.85

0.87

2.64

1.08

3.19

1.11

24 algemeen (originaliteit) *

2.94

0.84

3.09

0.77

2.79

0.70

3.25

0.86

25 kwaliteit ***

3.09

0.64

3.55

0.67

2.36

0.93

2.44

0.81

26 publiceerbaarheid **

2.06

0.56

2.00

0.66

2.21

0.58

2.25

0.68

27 bekendheid ****

1.97

0.18

1.94

0.24

1.86

0.36

1.88

0.34

28 interesse ***** 2.81 0.69 * scores liggen tussen 1 (zeer oneens) en 5 (zeer eens)

2.79

0.60

3.21

0.89

2.81

0.75

** scores liggen tussen 1 (definitief afwijzen) en 4 (in deze vorm accepteren) *** scores liggen tussen 1 (slecht) en 5 (uitstekend) **** scores zijn 1 (bekend) en 2 (onbekend) ***** scores liggen tussen 1 (slecht) en 5 (heel veel)

Resultaten

- 17 -

Geert Wissink

Op itemniveau kijken we eerst naar de antwoorden voor de groep studenten (tabel 3.2). Iedereen geeft aan bij item 13 (bekendheid met het manuscript) het manuscript niet te kennen. Bij het bekijken van de verdeling van de antwoorden van de groep wetenschappers zien we dat niemand aangeeft bekend te zijn met het manuscript, net zoals dat het geval is binnen de groep studenten. Gevraagd naar de mening van andere wetenschappers denken drie proefpersonen dat andere wetenschappers het manuscript wel kennen. In de niet-significante conditie vertoonden item 2 (vraagstelling), 3 (design), 5 (statistiek), 7 (vervolgonderzoek), 10 (originaliteit) een geringe spreiding, slechts 3 antwoordcategorieën werden hierbij gekozen. In de significante conditie gaat dit op voor item 14 (publiceerbaarheid). Drie respondenten gaven in de exitvragen aan de perceptie vragen niet in te kunnen vullen en daarom neutrale antwoorden gegeven te hebben. Ze gaven aan in de exitvragen zich geen oordeel over de mening van anderen te kunnen vormen. Eén respondent antwoordde: ” Als ik in de hoofden van andere mensen kon kijken dan had mijn leven er heel anders uitgezien.“ De antwoorden van deze respondenten op de perceptie items zijn uit de verdere analyses gehaald. Verder vinden we met een principale componenten analyse zowel binnen en over de groepen zeven of meer factoren met een eigenwaarde groter dan 1. Dit ondersteunt de veronderstelling dat meerdere eigenschappen van het manuscript verantwoordelijk zijn voor de beoordeling. Ook blijkt dat de vragenlijsten overwegend normaal verdeeld zijn, zowel voor de groep studenten als de groep wetenschappers (zie bijlage 3). 3.2.1

Betrouwbaarheden itemverzamelingen

De betrouwbaarheden van de gebruikte vragenlijst is goed te noemen (zie tabel 3.3). Wat opvalt is dat de betrouwbaarheden hoger zijn voor de groep wetenschappers.

Tabel 3-3 Betrouwbaarheden afhankelijke variabelen

item(s) studenten

wetenschappers

niet-significant

significant

Cronbachs alpha

Cronbachs alpha

waardering

item 1-11

0.69

met publiceerbaarheid

item 1-12

0.74

0.60 0.63

perceptie

item 1-11 (perceptie)

0.60

0.70

waardering

item 1-11

0.80

0.79

publiceerbaarheid

item 1-12

0.82

0.81

perceptie

item 1-11 (perceptie)

0.83

0.81

We kijken ook op item niveau naar de correlatie tussen de items en de gehele test, aangezien deze maat een goede maat vormt voor het discriminerend vermogen van het item. In het algemeen wordt een item die lager scoort dan .20 als een slecht item beschouwd (Van den Brink & Mellenbergh, 1998, p. 350). Wat betreft de groep studenten zou dit betekenen dat in beide condities item 5 (resultaten: statistische verwerking) een slecht item is (zie tabel 3.4). Ook voldoet item 10 (algemeen: originaliteit) in de significante conditie niet bij de review vragen en item 11 (kwaliteit) niet bij de perceptie vragen in de significante conditie van de perceptievragen.


- 18 -

december 2003

Tabel 3-4 Betrouwbaarheden itemverzamelingen studenten REVIEW

PERCEPTIE

niet-significant

significant

niet-significant

significant

Rc*

α-I**

Rc*

α-I**

Rc*

α-I**

Rc*

α-I**

1 inleiding 1

0.47

0.71

0.19

0.63

0.27

0.62

0.36

0.71

2 inleiding 2

0.31

0.73

0.51

0.56

0.42

0.59

0.63

0.67

3 methoden 1

0.22

0.73

0.28

0.61

0.12

0.65

0.51

0.68

4 methoden 2

0.41 0.12

0.71 0.75

0.35 0.03

0.60 0.66

0.49 0.06

0.58 0.66

0.38 0.09

0.70 0.74

5 resultaten 1 6 resultaten 2

0.32

0.72

0.16

0.63

0.10

0.65

0.31

0.71

7 discussie 1

0.39

0.71

0.16

0.64

0.51

0.57

0.28

0.72

8 discussie 2

0.20

0.74

0.50

0.57

0.16

0.64

0.47

0.69

9 algemeen 1

0.59

0.68

0.57 0.65

0.34

0.61

0.45

0.69

10 algemeen 2

0.38

0.72

0.47 0.01

0.29

0.62

11 kwaliteit

0.43

0.71

0.38

0.60

0.30

0.62

0.28 0.18

0.72 0.73

12 publiceerbaarheid

0.62

0.69

0.40

0.60

0.43

0.60

0.38

0.70

Cronbachs’ α = 0.74 * Rc = Item-test correlatie

Cronbachs’ α = 0.63

Cronbachs’ α = 0.64 Cronbachs’ α = 0.72

** α test bij verwijdering item *** vet gedrukt: Rc<0.20

De betrouwbaarheden van de itemverzamelingen voor de groep wetenschappers laten een wat verspreider beeld zien (tabel 3.5). Item 10 (originaliteit) voldoet niet in de niet-significante conditie voor zowel de review als perceptievragen. Tabel 3-5 Betrouwbaarheden itemverzamelingen wetenschappers REVIEW

PERCEPTIE

niet-significant

1 inleiding 1

significant

niet-significant

significant

Rc*

α-I**

Rc*

α-I**

Rc*

α-I**

Rc*

α-I**

0.71

0.79

0.49

0.79

0.67

0.82

0.64

0.78

2 inleiding 2

0.51

0.81

0.57

0.78

0.57

0.83

0.72

0.78

3 methoden 1

0.30

0.82

0.31

0.81

0.30

0.85

0.28

0.82

4 methoden 2

0.33

0.82

0.39

0.80

0.69

0.82

0.30

0.82

5 resultaten 1

0.35

0.82

0.37

0.80

0.26

0.86

0.44

0.80

6 resultaten 2

0.35

0.82

0.46

0.79

0.27

0.85

0.07

0.82

7 discussie 1

0.60

0.80

0.08

0.83

0.75

0.82

0.64

0.78

8 discussie 2

0.64

0.80

0.61

0.78

0.58

0.83

0.66

0.78

9 algemeen 1

0.65

0.79

0.60

0.78

0.61

0.83

0.54

0.79

10 algemeen 2

-0.02

0.84

0.45

0.79

0.02

0.86

0.40

0.80

11 kwaliteit

0.71

0.79

0.76

0.77

0.89

0.81

0.54

0.79


0.56

0.80

0.60

0.79

0.76

0.83

0.29

0.81

Cronbachs α = 0.81 * Item-test correlatie ** α test bij verwijdering item *** vet gedrukt: Rc<0.20

Cronbachs α = 0.81

Cronbach’s α = 0.84

Cronbach’s α = 0.81

Resultaten

3.2.2

- 19 -

Geert Wissink

Spreiding van de afhankelijke variabelen

Bij het bekijken van de gemiddelden valt op dat deze tussen de beide condities weinig uiteen lopen. De scores op de eerste en de derde afhankelijke variabele liggen rond het midden van de schaal (3), wat een neutrale mening over de stellingen inhoudt. Bij de tweede afhankelijke variabele over de publiceerbaarheid liggen de scores tussen ‘afwijzen, aanmoedigen tot ingrijpende revisies’ (score 2) en ‘accepteren met wijzigingen’ (score 3). Verder liggen de scores van de groep wetenschappers in beide condities lager. De scores voor de eigen waardering en de perceptie van het oordeel van anderen liggen weinig uit elkaar (zie tabel 3.6).

Tabel 3-6 Gemiddelden en standaarddeviaties afhankelijke variabelen Niet-significant Studenten (n=65)

Significant

M

SD

M

SD

Waardering voor manuscript (gem. somscore item 1-11)*

3.24

0.47

3.36

0.36

Mate van publiceerbaarheid (item 12)**

2.66

0.79

2.79

0.55

Perceptie van het oordeel van anderen (gem. somscore

3.30

0.38

3.38

0.38

item 1-11) * Wetenschappers (n=33) Waardering voor manuscript (gem. somscore item 1-11)

M

SD

M

SD

2.93

0.54

3.02

0.59

Mate van publiceerbaarheid (item 12)

1.93

0.88

2.22

0.65

Perceptie van het oordeel van anderen (gem. somscore

3.03

0.57

3.00

0.55

item 1-11) * scores liggen tussen 1 (zeer oneens) en 5 (zeer eens) ** scores liggen tussen 1 (definitief afwijzen) en 4 (in deze vorm accepteren)


3.3

- 20 -

december 2003

Hypothese 1: Effect van experimentele uitkomst op beoordeling

De eerste hypothese van dit onderzoek is dat een manuscript met significante resultaten een hogere wetenschappelijke kwaliteit toegedicht zal krijgen dan een manuscript zonder significante resultaten. In tabel 3.7 staan de gemiddelden en standaarddeviaties van de drie afhankelijke variabelen. Voor beide groepen geldt dat de gemiddelden in de significante conditie hoger liggen dan in de niet-significante conditie (behalve voor de somscores van item 1-11 van de perceptievragenlijst bij de groep wetenschappers). Het verschil is over het algemeen echter klein en blijkt ook niet significant. Met een ANOVA (groep x conditie) gecorrigeerd voor geslacht zijn er geen significante verschillen gevonden binnen de groep studenten in waardering (F=1.97, p=0.17), en perceptie van waardering (F=0.68, p=0.41). Er is ook geen verschil gevonden binnen de groep wetenschappers in waardering (F=1.94, p=0.66) en perceptie van waardering (F=0.03, p=0.88). We vinden ook geen verschillen tussen de condities voor de items over publiceerbaarheid als we deze vergelijken met een chi-kwadraat toets (zie tabel 3.8). We kunnen stellen dat de manuscripten met niet-significante en significante resultaten niet anders zijn beoordeeld in beide groepen.

Tabel 3-7 Gemiddelden, standaarddeviaties afhankelijke variabelen

item(s) studenten

wetenschappers

niet-significant

significant

Mean

Mean

SD

SD

waardering

gemiddelde somscore item 1-11

3.54

0.52

3.70

0.40

perceptie

gemiddelde somscore item 1-11 (perceptie)

3.63

0.42

3.72

0.42

waardering


3.23

0.60

3.32

0.64

perceptie


3.34

0.62

3.30

0.61

Tabel 3-8 Chi-kwadraat toets item 11 en 26 Studenten (n=65)

Value

df

Item 12 (publiceerbaarheid)

3.411

3

0.33

5.86

3

0.12

4.58

3

0.21

0.662

2

0.72

Item 26 (perceptie publiceerbaarheid)

Sig. (2-sided)

Wetenschappers (n=33) Item 12 (publiceerbaarheid) Item 26 (perceptie publiceerbaarheid) * Significant bij α = 0.05

Resultaten 3.3.1

- 21 -

Geert Wissink

Verschil condities op itemniveau

We vergelijken de verschillende groepen met elkaar met een MANOVA op alle items. Aangezien bij de studenten sexe scheef verdeeld is over de condities nemen we sexe voor deze groep mee als covariaat. We vinden geen verschillen binnen de items tussen de twee condities, zowel voor de groep studenten als de groep wetenschappers (ziet tabel 3.9). Item 4 (methoden 2) (F=2.61, p=0.08) en item 10 (algemeen: originaliteit) (F=2.40, p=0.10) bij de groep studenten en item 9 (algemeen schrijfstijl) (F=3.81, p=0.06) bij de groep wetenschappers vertonen een neiging tot verschil waarbij het significante manuscript beter wordt beoordeeld.

Tabel 3-9 Multivariate Tests Groep x Conditie Effect Intercept

Value

F

Hypothesis df

Wilks' Lambda Hotelling's Trace

Error df

p-waarde

0.05

40.00

27

61

0.00

17.71

40.00

27

61

0.00

0.72

0.89

27

61

0.62

E_SEXNUM

Wilks' Lambda Hotelling's Trace

0.39

0.89

27

61

0.62

CON_NUM

Wilks' Lambda

0.70

0.98

27

61

0.51

Hotelling's Trace

0.43

0.98

27

61

0.51 0.00

GROEP CON_NUM * GROEP

3.3.2

Wilks' Lambda

0.49

2.35

27

61

Hotelling's Trace

1.04

2.35

27

61

0.00

Wilks' Lambda

0.74

0.80

27

61

0.74

Hotelling's Trace

0.35

0.80

27

61

0.74

Verschil tussen groepen

Er is met een MANOVA wel een verschil gevonden tussen de groepen (zie tabel 3.10) op alle drie de afhankelijke variabelen. Aangezien sexe scheef verdeeld is tussen de condities is deze meegenomen als covariaat. Op itemniveau zien we dat dit groepsverschil naar voren komt in de items 4 (methoden 2), 6 (resultaten 2) en item 11 (kwaliteit). Wat betreft de perceptie-items komt het verschil naar voren op de items 20 (perceptie, resultaten 2), 22 (perceptie, discussie 2), 25 (perceptie, kwaliteit) en 26 (perceptie, publiceerbaarheid). In alle gevallen beoordelen de wetenschappers de manuscripten negatiever dan de studenten.

Tabel 3-10 Univariate verschillen tussen groepen variabele Waardering voor manuscript (gem. somscore item 1-11)

F

a

Studenten M (SD)

Wetenschappers M (SD)

8.89

0.00

3.29 (0.42)

2.98 (0.56)

Mate van publiceerbaarheid (item 12)

16.32

0.00

2.72 (0.62)

2.09 (0.77)

Perceptie van het oordeel van anderen (gem. somscore item 1-11)

10.74

0.00

3.34 (0.38)

3.02 (0.55)

4 methoden 2

8.33

0.00

3.20 (1.00)

2.59 (1.01)

6 resultaten 2

5.75

0.02

3.83 (0.78)

3.33 (0.99)

26.22

0.00

3.22 (0.72)

2.24 (0.83)

Item niveau

11 kwaliteit


- 22 -

december 2003

20 resultaten 2 (perceptie)

7.50

0.01

3.88 (0.70)

3.47 (0.73)

22 discussie 2 (perceptie)

10.73

0.00

3.48 (0.67)

2.93 (0.87)

25 kwaliteit (perceptie)

28.38

0.00

3.32 (0.69)

2.40 (0.86)

26 publiceerbaarheid (perceptie)

26.91

0.00

2.97 (0.61)

2.23 (0.63)

Resultaten

3.4

- 23 -

Geert Wissink

Hypothese 2: Verschillen tussen eigen beoordeling en de perceptie van het oordeel van anderen

De gemiddelde beoordeling van de manuscripten is vrij laag. Dit betekent dat de proefpersonen vrij negatief oordelen over het manuscript. Bij het verwachte oordeel van anderen (perceptie items) verwachten we dat de proefpersonen minder negatief zullen antwoorden. Voor de groep studenten en wetenschappers worden er kleine verschillen gevonden in eigen waardering en perceptie van de waardering van anderen. Deze verschillen zijn groter in de niet-significante conditie dan in de significante conditie. Beide groepen zijn ook van mening dat andere proefpersonen de manuscripten een hoger cijfer voor publiceerbaarheid zouden geven dan zijzelf. De standaardafwijkingen laten geen eenduidig patroon zien, in de helft van de gevallen neemt de standaardafwijking bij de perceptievragen af, bij de andere helft van de gevallen neemt deze toe (zie tabel 3.11). Met een t-toets voor paired samples is gekeken of deze verschillen significant waren, dit bleek alleen zo te zijn bij de groep studenten voor de variabelen publiceerbaarheid in de niet-significante conditie (t= -2.601, p=0.05) en de significante conditie (t= -2.514, p=0.02).

Tabel 3-11 Verschil tussen review en perceptie vragen waardering en publiceerbaarheid Mr

STUDENTEN

a

Mc

b

Mc-Mr

SDr

c

SDc

d

SDr-SDc

Niet-significante conditie waardering

gem. somscore item 1-11

3.21 3.30 0.09

0.47 0.38

-0.09

publiceerbaarheid

item 12

2.66 2.94 0.28

0.79 0.56

-0.23

waardering


3.36 3.38 0.02

0.36 0.38

0.02

publiceerbaarheid

item 12

2.79 3.00 0.21

0.55 0.66

0.11

Significante conditie

WETENSCHAPPERS Niet-significante conditie waardering


2.93 3.03 0.10

0.55 0.57

0.02

publiceerbaarheid

item 12

1.93 2.21 0.28

0.88 0.58

-0.30

waardering


3.02 3.00 -0.02

0.58 0.55

-0.03

publiceerbaarheid

item 12

2.22 2.25 0.03

0.65 0.68

0.03

Significante conditie

a= Gemiddelde review vragen b= Gemiddelde consensus vragen c= Standaarddeviatie review vragen d= Standaarddeviate consensus vragen


- 24 -

december 2003

Als we een paired samples t-test uitvoeren (zie tabel 3.12) zien we dat item 14 (interesse) binnen de studenten en binnen de wetenschappers voor de significante conditie verschillend wordt gescoord. De proefpersonen geven aan dat andere proefpersonen het manuscript interessanter zouden vinden dan zijzelf. De studenten geven verder aan dat andere studenten item 9 (algemeen: schrijfstijl) en item 11 (kwaliteit) hoger zouden beoordelen dan eigenlijk het geval is. Ze verwachten ook dat andere studenten de publiceerbaarheid beter zouden beoordelen. De wetenschappers in de significante conditie verwachten dat andere wetenschappers de schrijfstijl van het manuscript als beter zouden beoordelen.

Tabel 3-12 Paired samples t-test verschillen review-perceptie items STUDENTEN

t

df

Sig. (2-tailed)

niet-significante conditie Pair 9

9 algemeen 1 - 23 perceptie algemeen 1

-2.47

31

0.02

Pair 12

12 publiceerbaarheid - 26 perceptie publiceerbaarheid

-2.06

31

0.05

Pair 13

14 interesse - 28 perceptie interesse

-3.21

31

0.00

t

df

Sig. (2-tailed)

Significante conditie Pair 11

11 kwaliteit - 25 perceptie kwaliteit

-2.73

32

0.01

Pair 12

12 publiceerbaarheid - 26 perceptie publiceerbaarheid

-2.51

32

0.02

Pair 14


-4.49

32

0.00

t

df

Sig. (2-tailed)

WETENSCHAPPERS niet-significante conditie Pair 9

9 algemeen 1 - 23 perceptie algemeen 1

-2.69

13.00

0.02

Pair 14


-3.08

13.00

0.01

Significante conditie geen significante verschillen

Verder blijkt uit de correlatiematrices dat de paarsgewijze correlaties voor de paren items die niet verschillen voor beide groepen erg hoog liggen. De score op de perceptie-items hangt dus voor een groot deel samen met het gegeven antwoord op de review vragen. Aangezien op groepsniveau uitschieters uitgemiddeld kunnen worden waardoor de invloed van soort vraag niet duidelijk naar voren komt is er ook gekeken naar de verschillen op individueel niveau tussen de review en perceptie vragen. We hebben daarvoor een ANOVA herhaalde metingen uitgevoerd. We vatten de perceptie items op als een meting op een tweede tijdstip van de beoordeling. Binnen de groep studenten zijn er drie hoofdeffecten van soort vraag zijn (review of perceptie) op de items 10 (algemeen 2) (F=4.61, p=0.04) en 14 (interesse) (F=29.94, p=0.00) waarbij de perceptie vragen hoger worden gescoord. Daarnaast vinden we een interactie-effect tussen conditie en soort vraag binnen de studenten op item 11 (kwaliteit) (F=4.35, p=0.04). De kwaliteit wordt in de niet-significante conditie hoger gescoord bij de perceptie items dan bij de review items. In de significante conditie verwacht men dat andere studenten de kwaliteit negatiever beoordelen.

Resultaten

- 25 -

Geert Wissink

Wat betreft de wetenschappers zien we een hoofdeffect voor item 4 (methoden 2) (F=5.24, p=0.03), 10 (algemeen 2) (F=67.74, p=0.02) en item 14 (interesse) (F=10.90, p=0.00), waarbij de perceptie items hoger gescoord worden dan de review items. Daarnaast vinden we een interactie-effect tussen conditie en soort vraag bij item 1 (inleiding 1) (F=5.24, p=0.03). In de niet-significante conditie is de perceptie van het oordeel van anderen over de inleiding hoger dan het eigen oordeel. In de significante conditie vindt men juist dat de perceptie over het oordeel over de inleiding lager is dan het eigen oordeel.


3.5

- 26 -

december 2003

Welke eigenschappen van het manuscript zijn van invloed op de uiteindelijke beoordeling?

3.5.1

Structuur vragenlijst over groepen en condities

Idealiter zouden we een multi-groep analyse uitvoeren om de verschillen tussen condities en groepen wat betreft de structuur van de vragenlijst te bepalen. We hebben echter niet genoeg proefpersonen in de afzonderlijke cellen om deze analyse uit te voeren. Wat we wel kunnen doen is eerst kijken naar de correlaties tussen de afhankelijke variabelen (tabel 3.13). We verwachten een sterke samenhang tussen de eerste twee afhankelijke variabelen, kwaliteit en publiceerbaarheid omdat we veronderstellen dat de publiceerbaarheid van een manuscript wordt bepaald door de wetenschappelijke kwaliteit van een manuscript. Item 11 (kwaliteit) is hier ook afzonderlijk opgenomen om te kijken hoe de correlatie verloopt met item 12 (publiceerbaarheid). Daarnaast verwachten we ook een hoge correlatie tussen de perceptie variabelen en de review variabelen. Deze correlaties worden in de meeste gevallen gevonden, wat wel opvalt is dat er voor beide groepen in de significante conditie minder correlaties worden gevonden dan in de niet-significante conditie.

Tabel 3-13 Correlaties afhankelijke variabelen STUDENTEN

niet-significant

gem. somscore 1-11

corr. cov.

0.27


corr.

0.62

1.00

0.40 1.00

cov.

0.26

0.62

0.09 0.30

gem. somscore 1-11 (perceptie) corr.

0.72

0.38

1.00

12

1 11

1 11

WETENSCHAPPERS

12

1 11

1 11

1.00

12 1 11

1.00 0.16

niet-significant 1 11

gem. somscore 1-11

significant

0.71 0.40 1.00

significant 1 11

12 1 11

corr.

1.00

cov.

0.36

corr.

0.56

1.00

cov.

0.29

0.78

gem. somscore 1-11 (perceptie) corr.

0.90

0.52

1.00

0.72 0.23 1.00

cov.

0.35

0.30

0.39

0.29 0.09 0.37


1.00 0.41 0.60 1.00 0.26 0.42

vet gedrukt; correlatie is significant met α ≤ .05 (2-tailed)

Wat betreft de correlaties op item niveau zijn we vooral benieuwd naar de samenhang tussen de gepaarde items over een onderdeel van het manuscript en de samenhang tussen de eerste 10 items met de items over kwaliteit en publiceerbaarheid. Verder is enige voorzichtigheid bij het interpreteren gewenst, aangezien we 78 correlaties toetsen bij een significantieniveau van 0.05. Dat betekent dat we 5% foute beslissingen toekennen en we dus vier significante correlaties kunnen verwachten terwijl er eigenlijk geen samenhang is. Als we de correlatiematrices globaal bekijken zien we geen eenduidig beeld. Wat betreft de gepaarde items worden weinig tot geen correlaties gevonden. Item 11 (kwaliteit) en 12 (publiceerbaarheid) correleren in vier gevallen, en voornamelijk binnen de groep wetenschappers. Wat betreft de correlaties

Resultaten

- 27 -

Geert Wissink

tussen de eerste tien items en de items over kwaliteit en publiceerbaarheid kijken we alleen naar die correlaties die drie keer of vaker voorkomen. Item 11 (kwaliteit) correleert vaak met item 2 (vraagstelling), met item 9 (schrijfstijl) en met item 12 (publiceerbaarheid). Het item over publiceerbaarheid correleert verder vaak met item 4 (beschrijving procedure) en item 6 (weergave resultaten). Zie bijlage 4 voor alle correlatie en covariantie matrices. 3.5.2

Regressie analyse

Om te bekijken welke onderdelen van het manuscript samenhangen met de totale beoordeling van het manuscript voeren we een multipele regressie analyse uit van de eerste 10 items op de items 11 (kwaliteit) en 12 (publiceerbaarheid). We doen dit eerst voor de gemiddelde somscores van de eerste tien review items op item 11 (kwaliteit) en item 12 (publiceerbaarheid) en de invloed van item 11 op item 12. Uit tabel 3.14 blijkt dat er sprake is van samenhang tussen de verschillende maten. Bij de studenten wordt er meer variantie verklaard in de niet-significante conditie dan in de significante conditie. Item 11 zou een grote invloed op item 12 moeten hebben maar dat is niet het geval. Bij de wetenschappers wordt er meer variantie verklaard dan bij de studenten, en hier zien we wel een sterk verband tussen item 11 (kwaliteit) en item 12 (publiceerbaarheid).

Tabel 3-14 Regressie-analyse (significant met α = 0.05) STUDENTEN

conditie = niet-significant B

Beta

conditie = significant R

B

Beta

R

gem. somscore 1-10 op item 11

0.68

0.40 0.40

0.64

0.38

0.37


0.97

0.58 0.58

0.59

0.40

0.40

11 op 12

0.48

0.49 0.49

0.15

0.17

0.18

WETENSCHAPPERS

conditie = niet-significant B


1.03

Beta


B

Beta

R

0.63 0.63

1.06

0.73

0.73


0.78

0.48 0.48

0.66

0.57

0.57

11 op 12

0.85

0.85 0.85

0.55

0.69

0.69

* vet gedrukt; niet significant

3.5.3

Studenten: Eigenschappen die van invloed zijn op de beoordeling

Als we op itemniveau een regressie analyse uitvoeren met alle 10 items op de vraag over kwaliteit vinden we alleen een significant verband tussen vraag 5 (resultaten; weergave statistiek) en vraag 11 (kwaliteit) bij de studenten in de significante conditie bij de review items. Wat betreft de publiceerbaarheid vinden we een significant verband bij de groep studenten tussen item 4 (methoden; beschrijving procedure) en item 12 (publiceerbaarheid) (zie bijlage 5). Verder inzicht verkrijgen we als we een regressie analyse uitvoeren waarbij de items stapsgewijs worden opgenomen. Welke predictoren worden toegevoegd wordt vastgesteld wanneer de opname van een nieuwe predictor niet meer leidt tot een significante toename van de multipele correlatie (zie tabel 3.15). Wat betreft de review items vinden we in de niet-significante conditie een verband tussen item 9 (algemeen: schrijfstijl) en item 11 (kwaliteit). In de significante conditie laten beide items over de resultaten sectie een verband zien met item 11. Wat betreft de perceptie items laat alleen item 7 (discussie: vervolgonderzoek) een verband zien met


- 28 -

december 2003

item 11 in de niet-significante conditie. Wat het item over publiceerbaarheid betreft komt een verband naar boven tussen de twee algemene items over originaliteit en schrijfstijl in de niet-significante conditie, en een verband tussen item 4 over de methoden (onderzoeksprocedure) met item 12 in de significante conditie. Wat betreft de perceptie items zien we alleen een verband in de significante conditie tussen item 6 (weergave resultaten) en item 12. Samengevat kunnen we zeggen dat bij afwezigheid van significante resultaten de algemene eigenschappen schrijfstijl en originaliteit en van belang worden voor de uiteindelijke beoordeling op kwaliteit en publiceerbaarheid. Bij significante resultaten is de uiteindelijke beoordeling meer afhankelijk van de beschrijving van het onderzoeksdesign.

Tabel 3-15 Multipele lineaire regressie (STEPWISE) studenten regressie op item 11 (kwaliteit)

regressie op item 12 (publiceerbaarheid)

REVIEW-items

REVIEW-items

conditie = niet-significant Model

conditie = niet-significant R

1 9 algemeen 1

B

Beta

Model

0.46 0.33 0.46

conditie = significant Model

R

B

Beta

1 5 resultaten 1

0.44 0.32 0.44

2

0.56

R

0.27 0.37

6 resultaten 2

0.34 0.35

2

0.73 0.40

0.46

9 algemeen 1

0.32

0.45

Model

R 1 4 methoden 2

PERCEPTIE-items

conditie = niet-significant


1 21 discussie 1 conditie = significant geen significant model

B

Beta

B

0.47 0.27

Beta 0.47

geen significant model

0.42 0.29 0.42 conditie = significant Model

R 1 20 resultaten 2

3.5.4

0.59

10 algemeen 2

PERCEPTIE-items R

Beta

0.59 1.21

conditie = significant

5 resultaten 1

Model

B

1 10 algemeen 2

B

0.36 0.45

Beta 0.36

Wetenschappers: Eigenschappen die van invloed zijn op de beoordeling

Als we op itemniveau een regressie uitvoeren met alle 10 items op item 11 (kwaliteit) vinden we geen significante verbanden. Verder zien we een verband binnen de perceptie items tussen de eerste twee items (inleiding) en item 6 (resultaten) met item 12 (publiceerbaarheid (zie bijlage 5). We voeren een stepwise multipele regressie uit om de verbanden nader te onderzoeken (zie tabel 3.16). Wat betreft de regressie op item 11 (kwaliteit) komt in de niet-significante conditie een verband naar boven tussen item 1 (inleiding: theorie) en item 11 voor de review items. In de significante conditie zien we een

Resultaten

- 29 -

Geert Wissink

verband tussen item 10 (algemeen: originaliteit) en item 2 (inleiding: vraagstelling) met item 11. Wat betreft de perceptie items zien we in de niet-significante conditie een verband tussen item 2 (inleiding: vraagstelling), item 8 (resultaten: theoretische implicatie) en item 9 (algemeen: schrijfstijl) met item 11. In de niet-significante conditie zien we een verband tussen item 2 (inleiding: vraagstelling) en item 11. Wat betreft de regressie op item 12 (publiceerbaarheid) zien we alleen een verband tussen het item 9 (schrijfstijl) en item 12 in de significante conditie. Er is geen verband gevonden in de niet-significante conditie. Bij de perceptievragen komen veel verbanden naar boven in de niet-significante conditie, waarbij de opname van een vierde predictor slechts weinig extra variantie verklaart. Het model met een verband van de twee items over de inleiding en het tweede item over de resultaten verklaart 92 % van de variantie. Als de wetenschappers worden gevraagd naar hun perceptie van het oordeel van andere wetenschappers dan geven ze aan te verwachten dat de vraagstelling, de weergave van de resultaten en de schrijfstijl een belangrijke rol spelen bij het beoordelen van de wetenschappelijke kwaliteit. Bij publiceerbaarheid wordt schrijfstijl belangrijk gevonden voor het significante manuscript. Het patroon dat naar bovenkomt wat betreft de kwaliteit bij de groep wetenschappers is dat de theoretische inbedding van het manuscript en de mate van originaliteit voor een groot deel de uiteindelijke beoordeling op wetenschappelijke waarde bepalen. Daarnaast lijkt schrijfstijl ook een rol te spelen in de publiceerbaarheid.

Tabel 3-16 Multipele lineaire regressie (STEPWISE) wetenschappers regressie op item 11 (kwaliteit)

regressie op item 12 (publiceerbaarheid)

REVIEW-items

REVIEW-items



Model

R 1 1 inleiding 1

B

Beta

0.64 0.49 0.64

conditie = significant Model


B

Beta

1 10 algemeen 2

0.61 0.58 0.61

2

0.73 10 algemeen 2

Model

R 1 9 algemeen 1

Beta 0.30

0.56

0.41

PERCEPTIE-items

PERCEPTIE-items


conditie = niet-significant R

B

Beta

Model

R

1 16 inleiding 2

0.69 0.70 0.69

1 16 inleiding 2

0.69

2

0.80

2

0.86

3

B

0.56

0.51 0.53

2 inleiding 2

Model

geen significant model

B

Beta 0.44

0.69

16 inleiding 2

0.68 0.67

16 inleiding 2

0.42

0.67

20 resultaten 2

0.44 0.40

20 resultaten 2

0.35

0.51

0.88

3

0.93


16 inleiding 2

- 30 -

0.47 0.46

december 2003

16 inleiding 2

0.35

0.56

20 resultaten 2

0.43 0.40

20 resultaten 2

0.32

0.47

23 algemeen 1

0.37 0.43

15 inleiding 1

0.20

0.36

4 conditie = significant Model

R 1 inleiding 2

B

Beta

0.51 0.44 0.51

0.97 16 inleiding 2

0.40

0.64

20 resultaten 2

0.38

0.56

15 inleiding 1

0.34

0.62

21 discussie 1

-0.32 -0.41

conditie = significant geen significant model

3.5.5

Invloed van sexe, conditie en leeftijd

We voeren ook een regressie analyse uit met sexe, conditie en leeftijd als onafhankelijke variabelen. Er blijkt een invloed te zijn van leeftijd op de uiteindelijke beoordeling, zowel voor de groep studenten als de groep wetenschappers. Daarbij geldt bij de studenten hoe ouder de proefpersoon des te negatiever het oordeel. Bij de wetenschappers geldt juist hoe ouder hoe milder (zie tabel 3.17).

Tabel 3-17 Regressie-analyse op waardering (somscores 11) R

B

Beta

studenten

leeftijd op gemiddelde somscore item 1-11

0.33

-0.04

-0.33

wetenschappers

leeftijd op gemiddelde somscore item 1-11

0.46

0.02

0.46

Verder is ook bekeken voor de groep wetenschappers of er nog een verband was van mate van interesse, soort aanstelling, hoeveelheid reeds gereviewde manuscripten en universiteit met de kwaliteit van het manuscript. Er zijn geen verbanden gevonden.

Discussie

- 31 -

4

Discussie

4.1

Conclusies

Geert Wissink

Dit onderzoek is opgezet om te onderzoeken of de experimentele uitkomst van invloed is op de beoordeling van de wetenschappelijke kwaliteit van een manuscript. We hebben hiervoor een manuscript in twee verschillende versies, een versie met significante resultaten en een versie zonder significante resultaten, voorgelegd aan twee groepen proefpersonen, studenten en wetenschappers. Op basis van eerder onderzoek werd verwacht dat manuscripten waarin verslag wordt gedaan van een onderzoek met significante resultaten positiever worden beoordeeld dan manuscripten zonder significante resultaten (Mahoney, 1977). Daarnaast hebben we exploratief gekeken welke eigenschappen van het manuscript van invloed zijn op de uiteindelijke beoordeling. Ook hebben we onderzocht of de perceptie van het oordeel van anderen verschilt van het eigen oordeel en of deze vragen meer inzicht geven dan gewone review vragen. Er is geen verschil gevonden in de beoordeling van beide manuscripten. Voor beide groepen geldt dat het niet-significante en het significante manuscript niet anders zijn beoordeeld op de afhankelijke variabelen kwaliteit en publiceerbaarheid. Omdat het mogelijk is dat er toch verschillen zijn op itemniveau die niet naar voren komen in de samengestelde maat over kwaliteit zijn de groepen ook op itemniveau met elkaar vergeleken. Hierbij kwamen geen significante verschillen naar boven. Er is een groepsverschil gevonden op kwaliteit, publiceerbaarheid en perceptie van het oordeel van anderen. Op itemniveau blijkt dat het tweede item over de methoden en het tweede item over de resultaten slechter werden beoordeeld. Het tweede item over de methoden gaat over de beschrijving van de methoden, het tweede item over de resultaten handelt over de beschrijving van de onderzoeksresultaten. De groep wetenschappers is hier dus van mening dat de beschrijving van de onderzoeksprocedure en de resultaten beter had gekund. De ervaring van de groep wetenschappers met het doen van onderzoek en het beschrijven van resultaten zal hierbij een belangrijke rol spelen. Eerstejaars studenten missen waarschijnlijk nog de essentiële kennis die noodzakelijk is om een goed oordeel te geven over de weergave van resultaten, en zullen daarom milder zijn in hun oordelen. Deze bevinding wordt nog ondersteund door een gevonden leeftijdseffect, waarbij oudere studenten het manuscript negatiever beoordelen dan jongere studenten. Het zou kunnen dat deze studenten eerder een andere studie gedaan hebben en daarom meer ervaring met het lezen van artikelen. Wellicht kijken ze daardoor met een kritischere blik naar het manuscript. Wat betreft de perceptie van het oordeel van anderen gaven enkele wetenschappers aan zich geen voorstelling te kunnen maken van het oordeel van anderen over het manuscript. Dit komt overeen met bevindingen uit eerder perceptie onderzoek, waar een hogere uitval gevonden werd bij het vragen naar het oordeel van anderen (Boon, 1987). We verwachten verder dat de gemiddelde antwoorden op de perceptie items hoger zullen liggen en dat er minder spreiding is. De perceptie items blijken inderdaad hoger gescoord te worden voor beide groepen. Het verschil met de review items is echter niet significant, behalve voor de publiceerbaarheid. De groep studenten geeft aan dat het manuscript als meer publicabel zou worden beoordeeld door anderen. Op itemniveau wordt een verschil gevonden op schrijfstijl. Voor beide groepen geldt


- 32 -

december 2003

dat de perceptie van het oordeel over schrijfstijl hoger ligt dan het groepsgemiddelde. Behalve voor de items die verschillen is er verder sprake van een sterke samenhang tussen de antwoorden op de review en de perceptie vragen. Opvallend is verder dat beide groepen proefpersonen in beide condities aangeven dat andere proefpersonen het manuscript als meer interessant zouden beoordelen. Er zijn verschillende eigenschappen van het manuscript naar boven gekomen die van invloed zijn op de uiteindelijke beoordeling op kwaliteit en publiceerbaarheid. Bij de groep studenten kwam naar boven dat bij afwezigheid van significante resultaten de algemene eigenschappen schrijfstijl en originaliteit van belang zijn voor de uiteindelijke beoordeling op kwaliteit en publiceerbaarheid. Bij significante resultaten is de uiteindelijke beoordeling voor een deel afhankelijk van het oordeel over de geschiktheid van het onderzoeksdesign. Het patroon dat naar boven komt wat betreft de kwaliteit bij de groep wetenschappers is dat de theoretische inbedding van het manuscript en de mate van originaliteit voor een groot deel de uiteindelijke beoordeling op wetenschappelijke waarde bepalen. Schrijfstijl lijkt van invloed te zijn op de publiceerbaarheid, niet op de kwaliteit. Er is ook een effect gevonden voor leeftijd waarbij voor de groep studenten geldt hoe ouder de proefpersoon des te negatiever het oordeel. Bij de wetenschappers geldt juist hoe ouder hoe milder het oordeel. 4.1.1

De twee groepen

Er zijn enkele opmerkingen te maken over het vermogen van de studenten als het gaat om het beoordelen van kwaliteit en publiceerbaarheid. Men kan zich afvragen of studenten de wetenschappelijke kwaliteit van een manuscript als leidraad nemen bij het beoordelen van publiceerbaarheid. Publiceerbaarheid kan een heel andere lading hebben bij de studenten, waarbij ze zich vooral laten leiden door algemene eigenschappen zoals schrijfstijl. Voor beide items geldt dat de studenten zich niet laten leiden door hun oordeel over de eigenschappen van de inleiding en de methoden. Hierop sluit aan dat de correlatie tussen item 11 (kwaliteit) en item 12 (publiceerbaarheid) voor de groep studenten laag is voor de niet-significante conditie (r=0.49) en significante conditie (r=0.19). Bij de groep wetenschappers wordt wel een hoge correlatie gevonden tussen publiceerbaarheid en kwaliteit in de nietsignificante conditie (r=0.85) en de significante conditie (r=0.69). Uit de regressie analyse en correlatie matrix blijkt dat item vier (methoden; beschrijving procedure) het meest van invloed is op de mate van publiceerbaarheid bij de groep studenten.

4.2

Methodologische aspecten

4.2.1

Manuscript

De meeste studenten en enkele wetenschappers gaven aan het een moeilijk te lezen manuscript te vinden. De scores op de vraag naar schrijfstijl behoren voor beide groepen en condities verder tot de laagste die gegeven worden (ze liggen tussen matig en neutraal in). De keuze van het manuscript is ingegeven door de eenvoudige, helder omschreven experimenten die makkelijk waren te manipuleren. Enkele nadelen waar geen rekening mee is gehouden bij de selectie werden door de proefpersonen genoemd: de niet heel erg eenvoudige schrijf en betoogstijl en het ontbreken van grafieken. Misschien is in vervolgonderzoek zaak om

Discussie

- 33 -

Geert Wissink

een (recenter) artikel te gebruiken dat geschreven is in een lossere stijl die tegenwoordig in tijdschriften wordt gehanteerd. Daarbij zal waarschijnlijk een grotere groep proefpersonen kunnen worden aangesproken. 4.2.2

Vragenlijst

De betrouwbaarheid van de vragenlijst loopt van 0.60 en 0.83 en is hiermee voldoende te noemen. De betrouwbaarheid is hoger voor de groep wetenschappers dan voor de groep studenten voor beide condities. Het verschil tussen de groep studenten en wetenschappers kan liggen in het feit dat wetenschappers meer kunde in huis hebben om een manuscript aan een goede beoordeling te onderwerpen. Op itemniveau blijkt uit de item-test correlaties dat de betrouwbaarheid omhoog gaat wat betreft de groep studenten als item 5 (resultaten; statistische verwerking) uit de lijst gehaald wordt. Item 5 stelt dat de statistische verwerking van de gegevens op controleerbare wijze is weergegeven. Waarschijnlijk kunnen eerstejaars studenten zich nog geen goed oordeel vormen over wat een controleerbare wijze van weergave is. Bij de groep wetenschappers viel deze vraag niet op in negatieve zin. Daarnaast voldeed item 10 (originaliteit) niet in de significante conditie wat betreft de studenten en in geen van de condities wat de wetenschappers betref. Item 10 vraagt naar de mate van originaliteit van het onderzoek. Het gebruikte manuscript doet verslag van onderzoek naar een algemeen psychologisch verschijnsel, de invloed van een pretest op latere test afnamen. Dit was eind jaren 70, toen het artikel werd geschreven, een actueel onderwerp waar de nodige publicaties over verschenen. In het laatste decennium heeft de discussie over de pretests zich meer verplaatst naar de kolommen van methodologische tijdschriften. Het zou kunnen dat de huidige generatie wetenschappers zich een minder goed beeld kan vormen van de originaliteit van het onderzoek aangezien het minder in de belangstelling staat en eerder als een methodologisch onderwerp wordt beschouwd dan als een algemeen psychologisch onderwerp. Enkele wetenschappers geven ook aan in de exit vragen deze vraag niet goed te kunnen beantwoorden omdat ze zich niet thuis voelen in het onderzoeksveld. Van de eerstejaars studenten kan niet verwacht worden dat ze zich een goed oordeel kunnen vormen over originaliteit aangezien ze nog noodzakelijke basiskennis ontberen. We zagen verder bij het bekijken van de correlaties geen samenhang tussen de items die over hetzelfde onderdeel van het manuscript gingen. De items zijn uitgekozen op onderscheidbaarheid en om zoveel mogelijk eigenschappen van het manuscript in zo min mogelijk items te vangen. Dit lijkt te zijn gelukt. 4.2.3

Manipulatie

De bedoeling voor het onderzoek wat betreft de invloed van experimentele uitkomst op het oordeel is voor alle proefpersonen verborgen gebleven. De meeste studenten dachten dat het onderzoek over de verschillen en overeenkomsten tussen de eigen mening en de perceptie van de mening van anderen ging. De meeste wetenschappers hielden het bij een onderzoek naar inter-reviewer betrouwbaarheid. In de nietsignificante conditie had geen enkele proefpersoon het idee een herschreven manuscript te lezen. De manipulatie is dus in die zin geslaagd dat zij niet is opgevallen. Misschien had de manipulatie wel nog sterker aangezet moeten worden om van invloed te zijn op de beoordeling. Er zijn echter in het geheel weinig verbanden gevonden tussen de resultaten en de uiteindelijke beoordeling. Het is wat de groep wetenschappers betreft vooral de theoretische inbedding van het manuscript en de mate van originaliteit die van invloed zijn op de uiteindelijke beoordeling op wetenschappelijke waard. Dit is een heuglijke bevinding waaruit voorzichtig kan worden opgemaakt dat wetenschappers oog hebben voor objectieve wetenschappelijke criteria die een rol spelen bij het beoordelen van wetenschappelijk onderzoek.


4.2.4

- 34 -

december 2003

Proefpersonen en procedure

Er was een schril contrast tussen het gemak waarmee eerstejaars studenten als proefpersoon werden gevonden en de moeite die het kostte om wetenschappers mee te laten doen aan het onderzoek. Binnen 3 weken hebben 65 studenten meegedaan aan het onderzoek. De studenten moeten verplicht deel nemen aan een aantal onderzoeken in hun eerste jaar om door te mogen gaan met tweedejaars vakken. Dit heeft tot gevolg dat de studenten niet altijd even gemotiveerd waren om mee te doen aan dit onderzoek. Soms kwamen studenten binnen vol van verhalen over andere onderzoeken waarbij videofilmpjes en interactieve games werden ingezet om bepaalde psychologische gedragingen te meten. Het gezucht en gesteun was dan duidelijk te horen als ze te horen kregen dat ze in dit onderzoek 6 pagina’s engelse tekst moesten lezen en daarna met potlood of pen drie vragenlijsten moesten invullen. Het ging sommige studenten ook verbazingwekkend snel af, zo snel zelfs (binnen 20 minuten) dat men zich af kan vragen of de student in kwestie wel serieus meedeed aan het onderzoek. Aan de andere kant nam het merendeel van de studenten wel ruim de tijd om het stuk goed te lezen en de vragenlijsten te beantwoorden. De gemiddelde testafname lag rond de 45 minuten. Van de 850 aangeschreven wetenschappers zijn uiteindelijk 33 personen bereid gevonden om deel te nemen aan het onderzoek. De bereidwilligheid van de wetenschappers om deel te nemen aan het onderzoek bleek dus niet bijzonder groot. Misschien heeft het iets te maken met status, en vindt de wetenschapper het niet zo’n fijn idee om zelf proefpersoon te zijn in een onderzoek. Aangezien de meeste psychologische wetenschappers zelf de proefpersoon voortdurend om de tuin leiden is de angst misschien groot om zelf gemanipuleerd te worden (die angst was trouwens gerechtvaardigd). De meest genoemde reden was echter een gebrek aan tijd. De toegenomen druk om te publiceren in toonaangevende tijdschriften is hier misschien voor een deel debet aan. Status en carrière staan op het spel als er niet met de regelmaat van de klok wordt gepubliceerd. Het kan een idee zijn om naar analogie van de eerstejaars studenten de wetenschapper te belonen voor deelname aan andermans onderzoek. Als het deelnemen aan een x-aantal onderzoeken gelijk zou staan aan één internationale publicatie was de respons waarschijnlijk overweldigend geweest. Er zijn geen tot weinig problemen ondervonden bij het verloop van het onderzoek per e-mail en internet. De meeste proefpersonen hebben het manuscript wel eerst uitgeprint om te beoordelen, om daarna via het internet de vragen te beantwoorden. Uiteindelijk zijn er slechts vier vragenlijsten uitgeprint per post ingeleverd, de rest is via de mail binnengekomen, waarbij dus toch een hoop hout bespaard is. Uiteindelijk bleek het wel nodig om de respondenten na te bellen, waardoor eerder gewonnen tijdswinst met het versturen van e-mail nu te niet werd gedaan door de extra handelingen die nodig waren om de wetenschappers te werven.

4.3

Consequenties onderzoek

De verrassende bevinding van dit onderzoek is dat we geen effect vinden voor de experimentele uitkomst in de beoordeling van het manuscript. Dit gaat tegen bevindingen in van bijvoorbeeld Mahoney (1977). Het is misschien wat voorbarig om te zeggen dat de experimentele uitkomst in het geheel geen invloed heeft op de uiteindelijke beoordeling van een manuscript. Daarvoor zou eerst nog meer onderzoek moeten worden uitgevoerd met meer items en meer proefpersonen. Dit onderzoek laat toch zien dat het

Discussie

- 35 -

Geert Wissink

laatste woord nog niet is gezegd over de eigenschappen van een manuscript die van invloed zijn op peer review. De wetenschapper lijkt er in dit onderzoek ook beter vanaf te komen dan in veel ander onderzoek. Die richten zich dan wel meestal op inter review betrouwbaarheid en minder op de verschillende invloeden van eigenschappen van een manuscript op een beoordeling. Uitsluitsel geven over de validiteit van de peer review methode als meest gebruikte maat bij het handhaven van een wetenschappelijke standaard kan dit onderzoek niet geven. Het onderzoek laat wel zien dat er meer onderzoek nodig is naar de subjectieve hantering van wetenschappelijke criteria.


5 •

- 36 -

december 2003

Literatuur

Benjamin, L.T. (2001). American Psychology's Struggle with its Curriculum: Should a Thousand Flowers Bloom? American Psychologist, 56 (9), 735-742.

•

Boon, A.K. (1987). De perceptie van anderen. Proefschrift Universiteit van Amsterdam.

•

Bradley, J.V. (1981). Pernicious publication practices. Bulletin of the Psychonomic Society 18 (1), 3134.

•

Van den Brink, W.P. en Mellenbergh, G.J. (1998). Testleer en testconstructie. Amsterdam: Boom.

•

Chase, J.M. (1970). Normative Criteria for Scientific Publication. The American Sociologist, 262-265

•

Cichetti, D.C. (1991). The reliability of peer review for manuscript and grant submissions: A crossdisciplinary investigation. Behavioral and Brain Sciences, 14, 119-186.

•

Cole, S., Simon, G., & Cole, J. R. (1988). Do journal rejection rates index consensus. American Sociological Review, 53, 152-156.

•

Cole, S., Cole, J.R., Simon, G.A. (1981). Chance and Consensus in Peer Review, Science, New Series, 214, 881-886

•

comment, 1998, Nederlands Tijdschrift voor de Psychologie, 53, 235-254

•

Ellemers, N., Nemeth, E. & De Gilder, D. (1998). Publiceren in de psychologie: publicatiegewoonten van Nederlandse psychologen in de afgelopen 25 jaar. Nederlands Tijdschrift voor de Psychologie, 53, 208-218.

•

Fiske, D.W., Fogg, L. (1990). But the Reviewers are Making Different Criticisms of My Paper! American Psychologist, 45, 5, 591-598

•

Gilliland S.W. & Cortina, J.S. (1997). Reviewer and editor decision making in the journal review process. Personnel Psychology, 50, 427-452.

•

Gottfredson, S.D. (1978). Evaluating Psychological Research Reports. Dimensions, Reliability, and Correlates of Quality Judgements. American Psychologist, 920-934

•

Hargens, L. L. (1988). Further evidence on field differences in consensus from the NSF peer review studies. American Sociological Review, 53, 157-160.

•

Hargens, L.L (1988). Scholarly consensus and journal rejection rates. American Sociological Review, 53, 139-151.

•

Hoogstraten, J. & Jacobs, M. (1981). Publicatiegewoonten in Nederland. Determinanten van de Waardering van Manuscripten : Een Experiment. Tijdschrift voor Onderwijsresearch, 6, 2, 66-81.

•

Hoogstraten, J. & Van Wijk, J. (1998). De validiteit van de impact factor. Nederlands Tijdschrift voor de Psychologie, 53, 229-234

•

Marsh, H.W. & Ball, S. (1989). The Peer Review Process Used to Evaluate Manuscripts Submitted to Academic Journals: Interjudgemental Reliability. Journal of Experimental Education, 57 (2), 151-169.

•

Nieuwenhuis, E.H. & Hoogstraten, J. (1998). Publiceren in Nederland: Het redactionele beleid. Nederlands Tijdschrift voor de Psychologie, 53, 219-228

•

Peters, D.P. & Ceci, S.C. (1982). Peer-review practices of psychological journals: The fate of published articles, submitted again. The Behavioral and Brain Sciences, 5, 187-255

Literatuur

- 37 -

Geert Wissink

•

Popper, K.R. (1972). Objective Knowledge: An evaluative approach. London; Oxford University Press.

•

Pfeffer, J., Leong, A. & Strehl, K. (1977) Paradigm Development and Particularism: Journal Publication in Three Scientific Disciplines. Social Forces, 55, 938-951.

•

Rowney, J.A. & Zenisek, T.J. (1980). Manuscript Characteristics Influencing Reviewers' Decisions. Canadian Psychology, 21 (1), 17-21.

•

Rushton, J.P., & Roediger, H.L. (1978). An analysis of 80 psychology journals based on the Science Citation Index. American Psychologist, 33, 520-523.

•

Scott, W.A. (1974). Interreferee Agreement on Some Characteristics of Manuscripts Submitted to the Journal of Personality and Social Psychology. American Psychologist, 698-702

•

Sternberg, R.J. & Grigorenko, E.L. (2001). Unified Psychology. American Psychologist, 56, 12, 10691079.

•

Sternberg, R.J., Hoijat, M., Brigockas, M.G. & Grigorenko, E.L. (1997). Getting in: Criteria for Acceptance of Manuscripts in Psychological Bulletin, 1993-1996. Psychological Bulletin, 121, 2, 321323.

•

Strayhorn, J., McDermott, J.F. & Tanguay, P. (1993). An Intervention to Improve the Reliability of Manuscript Reviews for the Journal of the American Child and Adolescent Psychiatry. American Journal of Psychiatry, 150, 6, 947-952.

•

Wolff, W.M. (1970). A Study of Criteria for Journal Manuscripts. American Psychologist, 25, 636-639.

•

Wolff, W.M. (1973). Publication Problems in Psychology and an Explicit Evaluation Schema for Manuscripts, American Psychologist


BIJLAGEN

- 38 -

december 2003

Enkele determinanten van peer review

Recommend Documents