Verklarend, pragmatisch en economisch onderzoek Wilbert van den Hout Medische Besliskunde, LUMC
Het werkt!
Helpt het ook?
Spectrum van onderzoek Verklarend pathofysiologisch
Pre-klinisch
Laboratorium
Fase I veiligheid farmacokinetiek
Fase II
Patiënt
dosering
Fase III Efficacy
Pragmatisch & Economisch
Fase IV Postmarketing
Maatschappij
Spectrum van onderzoek Verklarend onderzoek
Hoe werkt het? Pragmatisch onderzoek
Helpt het?
Spectrum van onderzoek Verklarend onderzoek
Hoe werkt het? Pragmatisch onderzoek
Helpt het? Gezondheidseconomisch onderzoek
Helpt het genoeg om de kosten te rechtvaardigen?
Bijvoorbeeld: Probiotica Lange onderzoekscascade • Wat doen bacteriën in de darmen? • Hangt darmflora samen met gezondheid? ... • Zijn probiotica met ‘goede bacteriën’ te produceren? • Wat doen probiotica in de darmen? ... • Helpt het slikken van probiotica? Verhoogde sterfte bij patiënten met ernstige alvleesklierontsteking
Interne en externe validiteit Interne validiteit = interpreteerbaarheid van de resultaten binnen het onderzoek • • • •
Aantoonbare causaliteit Geen alternatieve verklaringen Geen toeval: voldoende steekproefomvang …
Externe validiteit = generaliseerbaarheid van de resultaten naar de dagelijkse praktijk • • • •
Alleen relevant indien intern valide Onderzoek zoveel mogelijk conform dagelijkse praktijk Effectiveness ipv efficacy (doeltreffendheid ipv werkzaamheid) …
Statistische efficiëntie Als de uitkomst in groepen meer overlapt (ceteris paribus), dan is een grotere steekproefomvang nodig om een statistisch significant verschil te kunnen aantonen: • Als de groepen gemiddeld minder van elkaar verschillen (kleinere ) • Als de groepen een grotere spreiding hebben (grotere )
Meer overlap is dus slecht voor de interne validiteit: • Er kunnen minder significante conclusies worden getrokken • Hier is wel voor te corrigeren door grotere steekproef te nemen ← Effectiviteit →
Verklarend versus pragmatisch onderzoeksdesign Zeven aspecten van onderzoeksdesign: 1. 2. 3. 4. 5. 6. 7.
Keuze van behandelingen Keuze van patiëntengroep Blindering Controlegroep Analyse Uitkomstmaten Meetmomenten
1. Keuze van behandelingen Verklarend onderzoek 1. Nieuwe behandeling ↔ placebo of niets doen 2. Controle op correcte uitvoering arts en compliance patiënt
Pragmatisch onderzoek 1. Nieuw beleid ↔ usual care 2. Geen controle op uitvoering en compliance
(dus minder verschil) (dus meer spreiding)
– Meer overlap, dus slechtere interne validiteit – Meer dagelijkse praktijk, dus betere externe validiteit Placebo
Usual care
Nieuw beleid
← Effectiviteit →
Nieuwe behandeling
2. Keuze van patiëntengroep Verklarend onderzoek: nadruk op interne validiteit • Homogene populatie met grootst verwachte effect – Strikte inclusiecriteria – ‘Gezonde niet-rokende 35 jarige mannen’
• Elimineert alternatieve verklaring voor eventueel verschil • Minder variatie, dus grotere statistische efficiëntie
Pragmatisch onderzoek: ook externe validiteit • Dagelijkse heterogene patiënten populatie – ‘75 jarigen met medicatie en co-morbiditeit’
3. Blindering Verklarend onderzoek: nadruk op interne validiteit • Idealiter dubbelblind – Effect niet beïnvloed door kennis van de behandeling – Elimineert alternatieve verklaring voor eventueel verschil
Pragmatisch onderzoek: ook externe validiteit • Meestal niet blind – Vaak onmogelijk voor niet-medicamenteuze behandeling – Vaak onwenselijk voor pragmatische vraagstelling • In de praktijk hebben patiënt en arts ook kennis van behandeling • Aversie, belasting, compliance, placebo effect, … zijn allemaal onderdeel van het behandeleffect
• Soms metingen door geblindeerde waarnemer
4. Controlegroep Nieuwe behandeling
Controlegroep
4. Controlegroep Manieren om groepen te selecteren • Cohorten, cross-sectioneel, case-control , voor-na meting, cross-over design, om-en-om, randomisatie, ...
Groepen vergelijkbaar? • Cross-sectioneel, cohorten, case-control designs – De gekozen behandeling is bewust geselecteerd
• Voor-na meting design – Met de tijd kan er meer veranderd zijn
• Cross-over design – Volgorde kan effectiviteit beïnvloeden – Alleen voor chronische aandoening met kortwerkende behandeling
• Toewijzing om-en-om – Behandeling voorspelbaar: mogelijk verschillende inclusiecriteria
• Randomisatie
4. Controlegroep Nieuwe behandeling
Controlegroep
Inclusie in de studie
4. Controlegroep Randomisatie • Eerst inclusie, daarna toewijzing van behandeling • Groepen komen uit dezelfde bronpopulatie → causaliteit
Essentieel voor interne validiteit • Doorbreekt de link met alle confounders – Beter voorkómen van confounding dan corrigeren in de analyse
• Causaal verband met de randomisatie – Niet per se direct effect van de primaire behandeling
• Belangrijk voor verklarend én pragmatisch onderzoek Inkomen Randomisatie Probiotica
?
Gezondheid
4. Controlegroep Randomisatie heeft ook nadelen • Geen garantie tegen toevalsverschillen – Maar toeval wel analyseerbaar met standaard statistiek
• Traag en duur – Beschikbare retrospectieve data niet randomiseerbaar
Kan slecht zijn voor externe validiteit • ???
4. Controlegroep Randomisatie heeft ook nadelen • Geen garantie tegen toevalsverschillen – Maar toeval wel analyseerbaar met standaard statistiek
• Traag en duur – Beschikbare retrospectieve data niet randomiseerbaar
Kan slecht zijn voor externe validiteit • Informed consent nodig
→ mogelijk selectieve inclusie
• Meer bewust van onderzoek → invloed op compliance • Meer bewust van alternatief
→ invloed op rapportage
• ‘Vervuiling’ behandelingen
→ behandelaar neemt elementen van de experimentele behandeling op in de controlegroep
4. Controlegroep Verschillende vormen van randomisatie: 1. Individueel Groepsgroottes kunnen toevallig verschillen Groepseigenschappen kunnen toevallig verschillen
2. In ‘gepermuteerde blokken’ Bijvoorbeeld in blokken van 2: 0,1, 1, 0, 1, 0, 0, 1, … Grotere blokken om voorspelbaarheid te voorkomen
3. Gestratificeerde blokrandomisatie Aparte randomisatielijst, afhankelijk van prognostische factoren Bijvoorbeeld voor mannen/vrouwen, hoog/laag risico
4. Minimisatie Grotere kans voor toewijzing die de groepen vergelijkbaarder maakt Bijvoorbeeld man toewijzen aan de groep met de minste mannen
5. Clusterrandomisatie
4. Controlegroep Pragmatisch alternatief: cluster-randomisatie • Randomisatie aan het begin van de studie • Per arts, per huisartsenpraktijk, per regio, per ... • Alle patiënten binnen een cluster hetzelfde beleid
Goed voor externe validiteit • Voorkomt ‘vervuiling’ van behandelingen van patiënten binnen eenzelfde cluster
Slecht voor interne validiteit • ???
Interventie n=50
Controle n=50
Arts 1 Arts 3 n=9 n=11
Arts 2 Arts 5 n=12 n=6
Arts 4 Arts 8 n=20 n=10
Arts 6 Arts 7 n=24 n=8
4. Controlegroep Pragmatisch alternatief: cluster-randomisatie • Randomisatie aan het begin van de studie • Per arts, per huisartsenpraktijk, per regio, per ... • Alle patiënten binnen een cluster hetzelfde beleid
Goed voor externe validiteit • Voorkomt ‘vervuiling’ van behandelingen van patiënten binnen eenzelfde cluster
Slecht voor interne validiteit
Interventie n=50
Controle n=50
Arts 1 Arts 3 n=9 n=11
Arts 2 Arts 5 n=12 n=6
Arts 4 Arts 8 n=20 n=10
Arts 6 Arts 7 n=24 n=8
• Meer clusters nodig door variatie tussen artsen die niet uit middelt • Voorspelbaarheid als de loting bekend is vóór inclusie: mogelijk verschillende inclusiecriteria per cluster – Terwijl vergelijkbaarheid juist de reden is voor randomisatie
5. Analyse: PP, AT en ITT Verklarend onderzoek: PP en AT Evaluatie van behandeling, met correcte uitvoering en compliance • PP = Per-Protocol analyse – Exclusie van ‘protocol violations’ (behandeling of inclusie criteria)
• AT = As-Treated analyse – Groepering volgens behandeling, ongeacht randomisatie – Minder exclusies dan bij PP analyse
Pragmatisch onderzoek: ITT Evaluatie van beleid, inclusief alle fouten en variatie • ITT = Intention-To-Treat analyse – Evaluatie volgens randomisatiegroep, zonder exclusies
5. Analyse: PP, AT en ITT Gerandomiseerde behandeling Daadwerkelijke behandeling • Conform randomisatie • De alternatieve behandeling • Geen van beide Intention-To-Treat analyse: Per-Protocol analyse: As-treated analyse:
A
B
A1 A2 A3
B1 B2 B3
A1 & A2 & A3
versus
B1 & B2 & B3
A1
versus
B1
A1 & B2
versus
B1 & A2
5. Analyse: PP, AT en ITT ITT beter voor externe validiteit • Evaluatie van beleid • Inclusief alle fouten en variatie
Maar gemengd effect op interne validiteit Groepen blijven vergelijkbaar samengesteld • Essentieel voor interne validiteit
Discrepantie tussen randomisatie en primaire behandeling Minder verschil tussen de groepen, met meer variatie • Door vermenging met onduidelijke groep • Verlies aan statistische efficiëntie
6. Uitkomstmaten: pragmatisch Helpt het? → Uitkomstmaten voor ziektelast 1. 2. 3. 4. 5.
Ongemak Beperkingen Bijwerkingen Sterfte Kosten
Kwaliteit van Leven
Lichamelijk Psychisch Sociaal
Meten van ziektelast • •
Bij patiënten, subjectief, langere termijn Veelal met vragenlijsten: – –
Ziektespecifieke vragenlijsten Generieke kwaliteit-van-leven vragenlijsten (zoals SF-36)
6. Uitkomstmaten: verklarend Intermediaire (surrogaat, proxy, biomarker) uitkomstmaten • Cholesterol, hormonen, bloeddruk, botdichtheid, aantal met screening gevonden tumoren, … • Vooral relevant in vroege stadia van onderzoek • Veronderstelde relatie met ziektelast
Voordelen • Gevoeliger voor verschil tussen behandelingen – Sluit aan bij aangrijpingspunt van behandeling – Minder beïnvloed door allerlei (subjectieve) factoren
• Statistisch efficiënter, makkelijker, objectiever, korte termijn, …
Nadeel • Gevaar dat relatie met ziektelast toch ontbreekt (HDL, hormonen,…) • Gevaar onverwachte (nadelige) effecten te missen
Verklarend onderzoek • • • • • • • • • • • • • •
Hoe werkt het? Interne validiteit Experimentele setting Werkzaamheid (efficacy) Evaluatie van behandeling Vergeleken met placebo Controle op correcte uitvoering Controle op compliance Homogene patiëntengroep Blindering Experimenteel of randomisatie Per-protocol, As-Treated Kortere termijn Intermediaire uitkomstmaten
Pragmatisch onderzoek • • • • • • • • • • • • • •
Helpt het de patiënt? Interne & externe validiteit Dagelijkse praktijk Doeltreffendheid (effectiveness) Evaluatie van beleid Vergeleken met usual care Geen controle op correctheid Geen controle op compliance Heterogene patiëntengroep Geen blindering (Cluster) Randomisatie Intention-to-treat analyse Langere termijn Ziektelast
6. Uitkomstmaten: economisch Economisch onderzoek is pragmatisch onderzoek • Helpt het genoeg om de kosten te rechtvaardigen? • Kwantificeren van maatschappelijke ziektelast • Kosten per QALY
Kosten: perspectief bepaalt welke kosten meetellen • Medisch perspectief – Primaire interventie – Korte en lange termijn effect op andere medische zorg
• Maatschappelijk perspectief – Omvat medisch perspectief – Patiëntkosten, reis- en tijdkosten, mantelzorg, … – Arbeidskosten: verzuim, arbeidsongeschiktheid, ...
• Ziekenhuisperspectief, afdelingsperspectief, verzekeraar, …
6. Uitkomstmaten: economisch Effectiviteit: idealiter gemeten met QALYs • Utiliteit = waardering voor kwaliteit van leven (0% tot 100%) • QALYs = oppervlakte onder de utiliteitscurve = waarde van kwaliteit van leven & lengte van leven
100%
Utiliteit
- 5 QALYs
- 10 QALYs
80 - 5 - 10 = 65 QALYs
0% 0
20
40
60
80
6. Uitkomstmaten: economisch ‘Kosten per QALY’ meet ziektelast:
1. Ongemak 2. Beperkingen 3. Bijwerkingen 4. Sterfte 5. Kosten
KvL & Utiliteit
QALYs Kosten per QALY
7. Meetmomenten Verklarend onderzoek • Meten op moment van maximaal verwacht verschil in effect • Intermediaire uitkomstmaten: kortere termijn • Meten is weten → veel meten
Pragmatisch niet-economisch onderzoek • Meten op moment van maximaal verwacht verschil in effect • Ziektelast uitkomstmaten: langere termijn • Meten is beïnvloeden → niet te vaak meten
7. Meetmomenten Economisch onderzoek Langer baat = meer waard Winst = oppervlakte tussen de curves Analyse niet op één bepaald moment maar over hele periode Niet te vaak meten, maar wel vaak genoeg
Nieuw beleid
100% 80%
Utiliteit
• • • •
Usual care
60% 40% 20% 0%
0
13
26
Weken
39
52
SCIATICA trial Pragmatische onderzoeksvragen • Klinisch: wat is beste moment van opereren? • Economisch: is vroeg opereren z’n geld waard?
Keuze van behandeling • Beleid nu opereren ↔ operatie 6 maanden uitstellen – dus niet: wel opereren ↔ niet opereren
• Mogelijkheid van operatie bij ernstige/toenemende pijn
SCIATICA trial Patiëntengroep • 6 tot 12 weken rugklachten • door MRI bevestigde hernia
Randomisatie van patiënten Ongeblindeerd • Beoordeling van MRI wel ‘geblindeerd’
Intention-to-treat • Ondanks operaties in conservatieve groep • Pragmatisch gezien geen probleem – Verklarend gezien zijn het ‘cross-overs’
Meetmomenten • In begin vaker, vanwege effect operatie • Na 0, 2, 4, 8, 12, 26, 39, 52 weken
SCIATICA trial Intermediaire uitkomstmaten • MRI bij baseline: nodig voor zorg, dus ook pragmatisch • MRI na een jaar: niet nodig voor zorg, dus enkel verklarend
Ziektelast • Roland Disability Schaal (vragenlijst) • Beenpijn en Rugpijn (VAS) • Ervaren herstel (Likert schaal)
Economische evaluatie • Maatschappelijke utiliteit: EuroQol en SF-36 • Individuele utiliteit: VAS • Kostendagboek: zorggebruik en arbeidsverzuim
SCIATICA trial 100%
0,77 QALYs EuroQol Utiliteit
80%
0,73 QALYs
60%
40%
20%
Vroege operatie Afwachtend beleid
0% 0
13
26 Weken sinds randomisatie
39
52
SCIATICA trial Resultaten ziektelast • Operatie geeft sneller herstel, maar na een jaar geen verschil • 96% versus 40% geopereerd
Economische evaluatie • QALY verschil 0,04 • Kostenverschil vanuit medisch perspectief – Vooral verschil operatiekosten: € 1800 – € 1800 / 0,04 = € 41.000 per QALY
• Kostenverschil vanuit maatschappelijk perspectief – Kostenbesparend, door minder ziekteverzuim
Verklarende vragen blijven • Interpretatie van MRI onduidelijk
Samengevat Het optimale design hangt af van de onderzoeksvraag Hoe werkt het? • Verklarend onderzoek • Intermediaire uitkomstmaten met gecontroleerde omstandigheden • Interne validiteit
Helpt het de patiënt? • Pragmatisch onderzoek • Ziektelast uitkomstmaten in de dagelijkse praktijk • Balans tussen interne en externe validiteit
Is het z’n geld waard? • Economisch onderzoek (is ook pragmatisch) • Kosten per QALY