Testevaluatie-onderzoek in de voortplantingsgeneeskunde: gebruik van STARD (standards for the reporting of diagnostic accuracy)

Testevaluatie-onderzoek in de voortplantingsgeneeskunde: gebruik van STARD (standards for the reporting of diagnostic accuracy) S.F.P.J. Coppus, anios gynaecologie*/**, prof. dr. F. van der Veen, gynaecoloog***, prof. dr. P.M.M. Bossuyt, epidemioloog** en dr. B.W.J. Mol, gynaecoloog, epidemioloog*/***

Inleiding Diagnostiek is volop in beweging: nieuwe testen worden geïntroduceerd en bestaande testen worden voortdurend aangepast en verbeterd. Evaluatie van de diagnostische accuratesse van deze testen in het aantonen dan wel uitsluiten van ziekte is daarom van groot belang, omdat op basis van deze resultaten een beslissing genomen kan worden welke testen zinvol zijn om uit te voeren en welke niet. Een probleem bij diagnostisch evaluatieonderzoek is dat methodologische richtlijnen voor het verrichten van dergelijk onderzoek langzamer tot stand zijn gekomen dan die voor evaluatie van therapeutische interventies. Dit komt mede door het feit dat diagnostisch evaluatieonderzoek minder rechttoe rechtaan is dan therapeutisch onderzoek, waar onderzoek door middel van gerandomiseerde, gecontroleerde studies de standaardmethode voor het evalueren van effectiviteit geworden is. In de laatste tien jaar is echter meer empirisch bewijs beschikbaar gekomen dat laat zien dat specifieke studiekenmerken van diagnostische studies geassocieerd zijn met bias. En die bias leidt tot een verminderde toepasbaarheid van de studieresultaten in de dagelijkse praktijk. Er zijn verschillende bedreigingen voor de interne en externe validiteit van diagnostisch evaluatieonderzoek. Een onderzoek naar diagnostische artikelen gepubliceerd in vier grote medische tijdschriften tussen 1978 en 1993 liet zien dat de methodologische kwaliteit van dergelijk onderzoek matig was. Informatie over essentiële onderdelen wat betreft de opzet, uitvoering en analyse van deze studies werd vaak niet voldoende gerapporteerd1. In 1999 lieten Lijmer en collegae zien dat veel diagnostische accuratessestudies methodologische tekortkomingen bevatten, die leidden tot een overschatting van de accuratesse van de diagnostische test2. Daarnaast kunnen veel onderdelen in opzet en uitvoering van dergelijke studies tot bias en variatie leiden. De best gedocumenteerde effecten zijn gevonden voor demografische karakteristieken, ziekteprevalentie en ziekte-ernst, partiële verificatiebias, blindering, en waarnemer- en testvariatie en -reproduceerbaarheid3. * Máxima Medisch Centrum, locatie Veldhoven ** Klinische Epidemiologie en Biostatistiek, Academisch Medisch Centrum Amsterdam *** Center for Reproductive Medicine, Academisch Medisch Centrum Amsterdam Medisch Journaal, jaargang 35, no. 1

In de voortplantingsgeneeskunde worden testen uitgevoerd met als doel het aantonen of uitsluiten van ziekte, zoals bijvoorbeeld tubapathologie of endometriose, of met het doel een bepaalde klinische uitkomst als ovariële respons of zwangerschap te voorspellen. In het diagnostische accuratessedesign in engere zin wordt een test die potentieel beter is dan de referentiestandaard vergeleken met deze referentiestandaard wat betreft zijn prestatie om de aan- of afwezigheid van ziekte aan te tonen. Deze vergelijking gebeurt mede in de zin van minder bijwerkingen, minder kosten of minder belasting voor de patiënt. In predictieve studies worden testresultaten gecombineerd met een klinisch relevante uitkomstmaat en worden parameters berekend ten aanzien van het predictieve vermogen van de test. Bij gebruik van een test in een prognostische setting kunnen de data ook in een 2x2 tabel geplaatst worden. Hieruit kunnen dan accuratesseparameters zoals sensitiviteit, specificiteit, likelyhood-ratio’s, oppervlak onder de receiver operating characteristic (ROC) curve, diagnostische oddsratio’s en voorspellende waarden worden berekend. In een dergelijke situatie is het beter te spreken van prognostische accuratesse in plaats van diagnostische accuratesse, omdat op het moment van testen de ziekte nog niet aanwezig is, maar de uitkomst nog moet worden geobserveerd. Om de resultaten van diagnostisch evaluatieonderzoek goed te kunnen interpreteren moeten de opzet, uitvoering en data-analyse helder zijn beschreven, zodat de lezer de interne validiteit en de generaliseerbaarheid van de resultaten kan beoordelen. Dit kan alleen als een manuscript deze zaken duidelijk en helder formuleert. In de laatste jaren zijn hiervoor op andere onderzoeksterreinen al richtlijnen voor gepubliceerd. Voor gerandomiseerde studies is in 1996 het CONSORT (Consolidated Standards of Reporting Trials) gepubliceerd4 en in gereviseerde vorm in 2001 nogmaals verschenen. Voor meta-analyses zijn QUOROM (Quality of Reporting of Meta-analysis) en MOOSE (Meta-analysis of Observational Studies in Epidemiology) beschikbaar6-7. Voor diagnostisch evaluatieonderzoek is door een groep van internationale wetenschappers en uitgevers het STARD (Standards for Reporting of Diagnostic Accuracy) -initiatief ontwikkeld met als doel de kwaliteit van rapportage van diagnostisch evaluatieonderzoek te verbeteren. STARD bevat een checklist met 25 items en een prototypisch stroomdiagram dat lezers 17

in staat stelt om het potentieel aan bias en de generaliseerbaarheid van de gerapporteerde studie te beoordelen. In januari 2003 werden de STARD-criteria voor het eerst simultaan in acht medische tijdschriften gepubliceerd (American Journal of Clinical Pathology, Annals of Internal Medicine, British Medical Journal, Clinical Chemistry, Clinical Biochemistry, Clinical Chemistry and Laboratory Medicine, The Lancet and Radiology) samen met een begeleidend artikel in Clinical Chemistry dat uitleg bevatte over de betreffende items en de achterliggende rationale. Sindsdien is het gepubliceerd in verschillende andere tijdschriften en het gebruik ervan aangemoedigd door onder andere American Radiology, Britisch Journal of Obstetrics and Gynaecology, Clinical Radiology, Nederlands Tijdschrift voor Geneeskunde, Gynecologic Oncology, JAMA, Annals of Clinical Microbiology10-15. Het is onbekend hoe auteurs van diagnostisch en prognostisch evaluatieonderzoek in de voortplantingsgeneeskunde zich houden aan de STARD-criteria en of de invoering ervan in ons vakgebied heeft geleid tot een verbetering van de kwaliteit van rapportage. Daarom verrichtten wij een systematische literatuurstudie waarin de kwaliteit van rapportage van dergelijke studies gepubliceerd in 1999 en 2004 in Fertility and Sterility en Human Reproduction werd beoordeeld.

sche accuratesse’. Een getrainde reviewer beoordeelde alle artikelen, waarvan een tweede reviewer een onafhankelijke steekproef van twintig procent scoorde om accuratesse van de beoordeling te waarborgen. De 25 items van STARD kunnen worden onderverdeeld in items betreffende formulering van de onderzoeksvraag, geïncludeerde patiënten, testmethoden, referentiestandaard, statistische methoden en de rapportage van resultaten en conclusies (tabel 1). Voor elk item van STARD werd het totaal aantal artikelen dat alle criteria van een bepaald item rapporteerde opgeteld. Aan ieder item werd een gelijk gewicht toebedeeld. Het totaal aantal gerapporteerde STARDitems werd berekend door het aantal gerapporteerde items bij elkaar op te tellen (0-25 punten mogelijk). Een hoger aantal betekent dus een betere kwaliteit van rapportage en visa versa. Zes items werden onderverdeeld in zowel de index- als referentietest. Derhalve werd een onderscheid tussen deze categorieën gemaakt en voor adequate rapportage van beiden werd een half punt toegekend. Het gemiddelde, de spreiding, en de standaarddeviatie van het totale aantal gerapporteerde STARD-items werd berekend. Met een ongepaarde tweezijdige t-test voor onafhankelijke steekproeven werd getest voor een significante verbetering van rapportage, waarbij een p<0,05 als significant werd gezien.

Materialen en methoden Wij verrichtten een systematische literatuurstudie in alle edities van Fertility and Sterility en Human Reproduction gepubliceerd in 1999 en 2004 naar studies die rapporteerden over diagnostische of prognostische testevaluatie. In Pubmed werd geselecteerd op tijdschrift en op publicatiejaar. Deze search werd vervolgens teruggebracht tot menselijk onderzoek en artikelen met een beschikbare samenvatting. Hierna werden alle gerandomiseerde klinische studies, metaanalyses, brieven, redactionele commentaren, richtlijnen en reviews geëxcludeerd met de ‘search limit options’ van Pubmed. Hierna werden alle overgebleven artikelen gescreend voor inclusie aan de hand van titel en samenvatting. Uiteindelijk werden alleen studies geïncludeerd die rapporteerden over primair diagnostisch of prognostisch evaluatieonderzoek. Diagnostische accuratesse studies werden gedefinieerd als studies waarin de performance van een test in het aantonen dan wel uitsluiten van ziekte werd vergeleken met een referentietest. Prognostische accuratesse studies werden gedefinieerd als studies waarin een test werd verricht om een uitkomst in kunstmatige voortplanting (zoals het ovarieel hyperstimulatie syndroom, ovariële respons of zwangerschap) te voorspellen. Alle studies werden beoordeeld op hun kwaliteit van rapportage volgens de STARD-criteria. Een gestandaardiseerd scoringsformulier werd gebruikt dat was ontwikkeld bij de afdeling Klinische Epidemiologie en Biostatistiek in het Academisch Medisch Centrum te Amsterdam voor gebruik in een systematisch onderzoek naar de kwaliteit van rapportage van diagnostische accuratessestudies in de grote klinische tijdschriften16. Voor het doel van onze studie werden de woorden ‘diagnostische accuratesse’ breder toegepast en derhalve gelezen als ‘diagnostische/prognosti-

Resultaten In totaal werden 2.127 artikelen in 1999 en 2004 gepubliceerd in bovengenoemde bladen. Na beperken van het aantal ‘hits’ zoals beschreven in de methodesectie, werden de resterende 1.457 artikelen beoordeeld voor inclusie. Hiervan waren 51 studies (3,5%) prognostisch of diagnostisch evaluatieonderzoek17-67. Achtentwintig studies verschenen in Fertility and Sterility en drieëntwintig in Human Reproduction. In 1999 verschenen 24 studies en bedroeg het gemiddelde aantal gerapporteerde items 12,1 (SD 3,3), range 6,5-20. In 2004 waren deze waarden 12,4 (SD 3,2) met een range van 7-17,5 (figuur 1). Het gemiddelde

18

Figuur 1. Mediaan, interkwartielen en de spreiding van accuraat gerapporteerde STARD-items in 1999 en 2004. Medisch Journaal, jaargang 35, no. 1

Tabel 1. Rapportage van STARD-items in 51 publicaties van diagnostisch en prognostisch evaluatieonderzoek, gepubliceerd in 1999 en 2004. Categorie en Itemnummer Titel/samenvatting 1. Maak het artikel herkenbaar als een verslag van een onderzoek naar diagnostische accuratesse (gebruik bij voorkeur de MESH-term ‘sensitiviteit en specificiteit’) Inleiding 2. Omschrijf het doel van het onderzoek en benoem de onderzoeksvragen, zoals het bepalen van de diagnostische accuratesse of het vergelijken van de diagnostische accuratesse tussen tests of tussen groepen patiënten Methode 3. Beschrijf de onderzoeksgroep: geef de in- en exclusiecriteria, en locatie waar de gegevens verzameld werden. 4. Beschrijf de manier waarop patiënten werden ingesloten: werden deelnemers ingesloten op basis van bepaalde klachten of op grond van eerdere testuitslagen of op basis van het feit dat zij de indextest en/of referentiestandaard hadden ondergaan? 5. Beschrijf eventuele verdere vormen van selectie: vormden de deelnemers een aaneengesloten reeks van personen zoals gedefiniëerd item 3 en 4? Zo niet, hoe werd er verder geselecteerd? 6. Beschrijf het proces van dataverzameling: werd de verzameling van gegevens voorbereid voordat de indextest en de referentiestandaard werden uitgevoerd (prospectieve studie) of daarna (retrospectieve studie)? 7. Omschrijf de referentiestandaard en motiveer deze keuze. 8. Beschrijf technische specificaties voor de gebruikte tests, zoals wanneer en hoe tests werden uitgevoerd, of geef referenties voor de indextest en referentiestandaard. a) voor de indextest b) voor de referentiestandaard 9. Beschrijf de definitie en motivering voor de eenheden, afkapwaarden en en categorieën voor de resultaten van de indextest en de referentiestandaard. a) voor de indextest b) voor de referentiestandaard 10. Beschrijf het aantal, de achtergrond en ervaring van de personen die de indextest en de referentiestandaard uitvoerden en beoordeelden. a) voor de indextest b) voor de referentiestandaard 11. Geef informatie over blindering van de beoordelaars van de indextest en de referentiestandaard voor de uitslag van de andere tests; geef aan welke andere klinische informatie zij tot hun beschikking hadden bij de beoordeling. a) voor de indextest b) voor de referentiestandaard 12. Beschrijf statistische methoden voor het uitrekenen en vergelijken van maten van diagnostische accuratesse en de methoden om statistische onzerkerheid aan te geven (bijv. 95% betrouwbaarheidsintervallen) 13. Beschrijf de methoden voor het berekenen van de reproduceerbaarheid van de indextest en referentiestandaard. a) voor de indextest b) voor de referentiestandaard Resultaten 14. Beschrijf de studieperiode, met de datum van insluiten van de eerste en laatste deelnemer. 15. Beschrijf de demografische en klinische kenmerken van de onderzoeksgroep (waaronder leeftijd, geslacht, ernst van de symptomen, comorbiditeit, huidige behandelingen, verwijscentra) 16. Geef aan of alle deelnemers die konden worden geïncludeerd ook de indextest en de referentiestandaard hebben ondergaan. Noem de eventuele redenen waarom deelnemers niet de indextest, niet de referentiestandaard of geen van beiden hebben ondergaan (een stroomdiagram wordt sterk aanbevolen). 17. Geef het tijdsinterval tussen de indextest en de referentiestandaard en de eventuele daarbinnen toegepaste behandelingen. 18. Beschrijf de ernst van de ziekte bij personen met de ziekte; beschrijf andere diagnosen in de groep zonder die ziekte. 19. Geef een kruistabel met de resultaten van de indextest (inclusief onduidelijke en ontbrekende uitslagen) en die van de referentiestandaard; geef voor tests met een continue uitslag de respectievelijke verdelingen, opgesplitst naar de uitslag van de referentiestandaard. 20. Beschrijf eventuele bijwerkingen van de indextest en de referentiestandaard. 21. Geef schattingen van de maten van diagnostische accuratesse en hun statistische onzekerheid (bijvoorbeeld 95% betrouwbaarheidsintervallen) 22. Geef aan hoe onduidelijke testuitslagen, ontbrekende uitslagen en uitbijters werden behandeld in de analyse. 23. Geef aan of en hoe maten van diagnostische accuratesse varieerden tussen groepen van deelnemers, tussen beoordelaars of tussen centra, indien van toepassing. 24. Geef schattingen van de reproduceerbaarheid van indextest en referentiestandaard, indien van toepassing. a) voor de indextest b) voor de referentiestandaard Beschouwing 25. Bediscussieer de klinische toepasbaarheid van de resultaten van het onderzoek.

1999 (n=24)

2004 (n=27)

7 (29)

5 (19)*

21 (88)

22 (81)

17 (71)

17 (63)

20 (83)

26 (96)

15 (63)

21 (78)

(79) 10 (42)

23 (85) 14 (52)

23 (96) 16 (67)

24 (89) 15 (59)

16 (67) 16 (67)

25 (93) 21 (78)

6 (25) 2 ( 8)

5 (19) 2 ( 7)

10 (42) 4 (17)

7 (26) 6 (22)

2 ( 8)

3 (11)

14 (62) 5 (27)

13 (48) 1 ( 4)

14 (58)

22 (81)

16 (67)

19 (70)

19 (89)

19 (70)

16 (67)

17 (63)

9 (38)

9 (33)

16 (67) 0 ( 0)

12 (44) 1 ( 4)

2 ( 8)

6 (22)

1 ( 4)

4 (15)

4 (17)

6 (22)

8 (33) 0

6 (22) 0

22 (92)

26 (96)

*Getallen zijn aantal artikelen. Percentages zijn vermeld tussen haakjes. 1999: gemiddelde STARD score, 12,0 ± 3,3; spreiding 6,5-20. 2004: gemiddelde STARD score, 12,4 ± 3,2; spreiding 7-17,5 Medisch Journaal, jaargang 35, no. 1

19

verschil tussen beide jaren was een niet statistisch significant 0,3 punten (p=0,7). Analyse op het niveau van de individueel items werd niet verricht. In beide jaren rapporteerde minder dan de helft van de studies (11/24 en 13/27) adequaat meer dan 50% van de items (STARD score ≥ 12,5), terwijl het best rapporterende artikel 80% (1999) en 70% (2004) van de items rapporteerde (STARD scores van 20 en 17,5). Rapportage van individuele items toonde een brede spreiding (0-96%), zoals te zien in tabel 1. Hoewel we item 1 breder interpreteerden (waarbij ‘diagnostisch’ ook als ‘prognostisch’ kon worden gelezen), was de herkenbaarheid van diagnostisch en prognostisch evaluatieonderzoek zeer matig; slechts 29% en 19% van de auteurs maakte hun studie ook als zodanig herkenbaar op de manier zoals die door de STARD-commissie wordt aanbevolen. De onderzoeksvraag werd duidelijk aangegeven in meer dan 80% van de studies, met een duidelijke beschrijving van de test, referentiestandaard en ziektebeeld of uitkomst van interesse. De methodeparagraaf miste een gedetailleerde beschrijving van de patiëntpopulatie in 30-40% van de studies. Van de 16 items in de methodeparagraaf item 8, 9, 10, 11 en 13 tweemaal geteld, voor de index -en referentietest afzonderlijk- werden er in 1999 slechts drie in meer dan 75% van de artikelen gerapporteerd, een aantal dat toenam tot zes in 2004. De betreffende items beslaan rekrutering van de deelnemers, selectie van deelnemers, data verzameling, beschrijving van de indextest en definiëring van eenheden en afkapwaarden van de indextest en referentiestandaard (items 4, 5, 6, 8a, 9a en 9b). De referentiestandaard of uitkomst van interesse en de achtergrond hiervoor werden in 52% gerapporteerd. Informatie over de indextest werd in het algemeen beter gerapporteerd dan die over de referentiestandaard (items 813 en 24). In het bijzonder informatie over de training van en het aantal waarnemers die index- en referentiestandaard evalueerden werd slechts in een minderheid van de studies vermeld. Dit gold tevens voor blindering. In 2004 werden methoden voor het berekenen van indices van accuratesse, zoals sensitiviteit, specificiteit, likelihoodratio’s, voorspellende waardes en ROC-curves in slechts 3 studies vermeld. Dit waren tevens de studies die een statistische methode gebruikten om onzekerheid te kwantificeren, in alle gevallen 95% betrouwbaarheidsintervallen. Accuratesse parameters en de bijbehorende betrouwbaarheidsintervallen werden gerapporteerd in nog eens drie artikelen. Studies uit 1999 rapporteerden vaker waarden als sensitiviteit en specificiteit, echter, omdat STARD ook betrouwbaarheidsintervallen noodzakelijk acht, voldeden niet meer dan 2 artikelen in dat jaar aan item 12. De studiepopulatie waarin testen werden uitgevoerd werd in 1999 adequaat opgeschreven in 71% en in 2004 in 63% van de rapporten. Van de 11 items in de resultatensectie werden de klinische en demografische kenmerken van de studiepopulatie en het tijdsinterval tussen index- en referentietest in meer dan 60% van de studies vermeld. Een stroomdiagram, dat sterk wordt aanbevolen door de STARD-commissie, werd in slechts drie van de 51 artikelen gebruikt.

20

Discussie De resultaten van deze studie laten zien dat de kwaliteit van rapportage in diagnostisch en prognostisch evaluatieonderzoek slecht tot matig is. Voor beide publicatiejaren rapporteerde meer dan 50% van de studies minder dan de helft van de STARD-items. Beschrijving van de studiepopulatie vindt plaats in 60-70% van de studies. Hoewel dit een redelijk percentage lijkt, is dit naar onze mening zorgwekkend, daar een gebrek aan volledige beschrijving hiervan de generaliseerbaarheid van de resultaten benadeeld. Er bestaat empirisch bewijs dat dit manco de test accuratesse overschat2. Indexering van artikelen als diagnostische studies voldeed in slechts een minderheid van de gevallen aan STARD. Dit vormt een probleem om de volgende reden: met de toename van diagnostische metaanalyses zijn elektronische databases een onmisbaar instrument geworden om dergelijke studies te achterhalen. Om de vondst van hun diagnostische studie te bevorderen, wordt auteurs aangeraden om hun studie ook als zodanig herkenbaar te maken. STARD adviseert het gebruik van de term ‘diagnostische accuratesse’ in de titel of samenvatting van een dergelijke studie. De MESH term ‘Sensitivity and Specificity’ wordt ook aangeraden. Verschillende studies hebben echter laten zien dat een zoekactie met deze term niet alle accuratesse studies achterhaalt, en gelijktijdig vele studies ten onrechte als zodanig aanmerkt68-69. Identificatie in de titel of samenvatting valt daarom te prefereren. In deze studie beoordeelden we alleen de kwaliteit van rapportage, niet de methodologische kwaliteit of de mate van bias in een studie. Bijvoorbeeld, als een studie rapporteerde dat de index- en referentietest niet geblindeerd beoordeeld werden, dan voldeed de studie aan item 11 van de STARD lijst. Echter, dit is een mogelijke methodologische tekortkoming, afhankelijk van de mate van subjectiviteit bij het interpreteren van beide testen. Goede rapportage echter geeft de lezer de mogelijkheid om de mate van bias in een studie juist te kunnen beoordelen. De QUADAS lijst, welke items betreffende bias in diagnostische accuratesse studies bevat, is de specifieke checklist die kan worden gebruikt om de mate van bias in te schatten. QUADAS werd ontwikkeld voor gebruik in metaanalyses van diagnostisch evaluatieonderzoek70. Betrouwbaarheidheidsintervallen, welke van belang zijn om de betrouwbaarheid van de schattingen van accuratesse te kunnen inzien, werden slechts in acht studies gerapporteerd. Het is opmerkelijk dat in onderzoek naar effectiviteit van therapie betrouwbaarheidsintervallen gemeengoed zijn geworden, terwijl deze vele malen minder worden gerapporteerd in diagnostisch onderzoek. Een review toonde aan dat deze in slechts 50% van de zestien onderzochte diagnostische studies, gepubliceerd in de BMJ in de tweejarige periode van 1996-1997, werden gebruikt71. In onze studie was dit percentage veel lager met een gebruik van betrouwbaarheidsintervallen in slechts 16% van de studies. Als we deze resultaten afzetten tegen data over de kwaliteit van rapportage in andere takken van de geneeskunde, dan blijkt dat in de voortplantingsgenees-

Medisch Journaal, jaargang 35, no. 1

kunde de standaard zeer vergelijkbaar is. Recent werd een studie verricht naar de kwaliteit van rapportage van diagnostisch evaluatieonderzoek gepubliceerd in het jaar 2000 in tijdschriften die dergelijk onderzoek regelmatig publiceren en een impactfactor van 4 of hoger hadden. Hieruit bleek dat gemiddeld 11,9 STARD items per studie werden gerapporteerd. Slechts 41% van de studies rapporteerde meer dan 50% van de items16. In de oogheelkunde voldeed 44% van de 16 diagnostische studies gepubliceerd in de vijf toonaangevende bladen in 2002 aan meer dan de helft van de STARD-criteria72. Voor gerandomiseerde studies is het aangetoond dat de introductie van een richtlijn hoe deze studies te rapporteren heeft geleid tot een verbeterde rapportage. Studies gepubliceerd in tijdschriften die het gebruik van CONSORT stimuleerden toonden een grotere vooruitgang in kwaliteit van rapportage dan tijdschriften die dat niet deden73. Een recente studie leverde extra bewijs voor het nut van het gebruik van checklists. Zo ging de rapportage in artikelen gepubliceerd in Clinical Chemistry - een tijdschrift dat een voorloper van STARD al sinds 1996 gebruikt - sterker vooruit tussen 1996 en 2002 dan Clinical Chemistry and Laboratory Medicine- een tijdschrift dat het gebruik van een dergelijke lijst niet gebruikte74. Onze studie kon een significante verbetering in de 1999-2004 vóór-en-ná-meting niet aantonen. Een mogelijke verklaring hiervoor kan zijn dat de zogenaamde ‘peer-review-tijd’ -de tijd die verstrijkt tussen het versturen van een artikel en de uiteindelijke acceptatie voor publicatie- auteurs nog niet toestond om hun rapport aan de hand van de STARD-richtlijn te schrijven. Een andere mogelijkheid hiervoor kan zijn dat auteurs, reviewers en uitgevers minder bekend zijn met deze checklist dan met andere zoals CONSORT. Mogelijke beperkingen van onze studie zijn het beperkte aantal artikelen dat kon worden geïncludeerd, en het feit dat we STARD ook op prognostisch eva-

Medisch Journaal, jaargang 35, no. 1

luatieonderzoek hebben toegepast. Wat betreft de eerste beperking besloten we alleen studies vanaf januari 2004 te bekijken en geen studies uit 2003, juist om het effect van de bovengenoemde ‘peer-review-time’ te beperken. Dit beperkte uiteraard het aantal studies. Ten aanzien van de tweede beperking denken we dat het gerechtvaardigd is om STARD ook voor prognostische studies toe te passen, omdat in de voortplantingsgeneeskunde deze studies een opmerkelijke gelijkenis met diagnostisch evaluatieonderzoek vertonen. Voor de evaluatie van een prognostische test is het net zo belangrijk als voor een diagnostische test om de studieopzet, deelnemers, stroom van patiënten door het onderzoek, statistische onzekerheid, definitie van uitkomst en de achtergrond hiervan, reproduceerbaarheid van testresultaten e.d. te rapporteren. Concluderend laat deze studie zien dat de kwaliteit van diagnostisch en prognostisch evaluatieonderzoek in de voortplantingsgeneeskunde vergelijkbaar is met die in andere takken van de geneeskunde. Er kan echter, ook binnen de voortplantingsgeneeskunde, nog veel worden verbeterd. Auteurs, reviewers, uitgevers en lezers dienen op de hoogte te zijn van de STARDcriteria voor diagnostisch evaluatieonderzoek. Wij zouden er dan ook voor willen pleiten dat STARD strikt wordt nageleefd. Dankbetuiging De auteurs bedanken dr. Nynke Smidt, van het Instituut voor onderzoek in Extramurale Geneeskunde van het Universitair Medisch Centrum VU Amsterdam, en dr. Anne Rutjes, van de afdeling Klinische Epidemiologie en Biostatistiek van het Academisch Medisch Centrum Amsterdam, voor het beschikbaar stellen van het STARD-scoringsformulier. Vermelding Dit artikel is geaccepteerd voor publicatie in Fertility and Sterility Literatuur Een lijst met referenties kan op verzoek elektronisch beschikbaar worden gesteld; [email protected]

21

Testevaluatie-onderzoek in de voortplantingsgeneeskunde: gebruik van STARD (standards for the reporting of diagnostic accuracy)

Recommend Documents