mlw stroom 2.2: Biostatistiek en Epidemiologie Hoorcollege 1: Onderzoeksopzet en risikomaten Rosner 13.1 - 13.4
Capaciteitsgroep Methodologie en Statistiek tUL / UM 10 januari 2006
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet (Epidemiologisch) onderzoek naar risikofactoren: vraag naar samenhang tussen blootstelling (exposure) aan een risikofactor en de uitkomst ziekte (disease). Disease Exposure Yes No Yes a b a + b = n1 No c d c + d = n2 a + c = m1 b + d = m 2
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 1
Arnold Kester 10 januari 2006
• Prospectief (Cohort) Nu Toekomst Blootstelling −→ Ziekte Gerandomiseerd onderzoek valt hier ook onder. • Retrospectief (Case-controle) Verleden Nu Blootstelling ←− Ziekte • Cross-sectional (Prevalentie) Nu Blootstelling Ziekte
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 2 Arnold Kester 10 januari 2006
Cohort Intake Exp N −→ E+ n1 E− n2
follow-up −→
D+ D− a b c d
+ Deeln. vrij van ziekte en “blootstelbaar”, ongeselecteerd (?) + Onvertekende waarneming van risikofactor(en) + Meerdere ziekten en meerdere risikofactoren tegelijk − Grote aantallen nodig om voldoende cases te hebben: kosten − Lange tijd wachten: kosten − Kans op (selectieve) uitval door lange follow-up
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 3 Arnold Kester 10 januari 2006
Gerandomiseerd onderzoek Cohort onderzoek waarin de behandeling (= risikofactor) random wordt toegewezen. De uitkomst wordt aan het einde van de follow-up vergeleken tussen de behandelingsgroepen. Extra eigenschappen: + harde conclusies m.b.t. oorzaak van verschil tussen behandelingsgroepen − ethische beperkingen − ´e´en “risikofactor”
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 4 Arnold Kester 10 januari 2006
Case-controle E+ E− a c terugkijken ←− b d
m1 m2
Disease D+ D−
+ Kleinere aantallen controles nodig: goedkoop + Wachten niet nodig: goedkoop − Selectie van controles moeilijk − Risikofactoren worden selectief herinnerd − Selectie van cases die nog in leven zijn
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 5
Arnold Kester 10 januari 2006
Cross-sectioneel Van een groep personen wordt zowel de ziekte-status als de huidige blootstelling waargenomen. Dit wordt ook wel een prevalentie-onderzoek genoemd. - Nadelen als case-controle, maar niet het voordeel van relatief klein onderzoek. - Volledige onduidelijkheid over de tijdsvolgorde van risikofactor en uitkomst; oorzakelijkheid van verband?
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 6 Arnold Kester 10 januari 2006
Effectmaten Disease Exposure Yes No
Yes No a b a + b = n1 c d c + d = n2 a + c = m1 b + d = m2
• Geschatte kansen: pˆ1 = a/n1, pˆ2 = c/n2. • Varianties: var pˆi = pi(1 − pi)/ni,
i = 1, 2.
• Geschatte varianties door geschatte kansen in te vullen: var ˆ pˆi = pˆi(1 − pˆi)/ni.
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 7
Arnold Kester 10 januari 2006
ˆ = pˆ1 − pˆ2 = a/n1 − c/n2 Risiko verschil: RD De (geschatte) variantie van dit verschil is pˆ1(1 − pˆ1) pˆ2(1 − pˆ2) var(ˆ ˆ p1 − pˆ2) = + n1 n2 Betrouwbaarheidsinterval is (EQ. 13.1) √ pˆ1 − pˆ2 ± [1/(2n1) + 1/(2n2)] ± z1−α/2 var ˆ Voorwaarde: nˆ p1(1 − pˆ1) ≥ 5 en nˆ p2(1 − pˆ2) ≥ 5. Opm. Het eerste ± is − als pˆ1 > pˆ2, anders +. (het geschatte verschil wordt iets verkleind; deze continu¨ıteitscorrectie is wat ongebruikelijk en wordt meestal weggelaten.)
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 8 Arnold Kester 10 januari 2006
ˆ = pˆ1/ˆ Relatief risiko (risk ratio) RR p2 Het betrouwbaarheidsinterval voor RR wordt berekend op grond van ln(RR): ln(RR) = ln(p1) − ln(p2) , Omdat de kansen onafhankelijk zijn is de variantie: ˆ = var ln(ˆ var ln(RR) p1) + var ln(ˆ p2 ) . Gebruik makend van de delta methode geldt 1 1 pˆ(1 − pˆ) 1 − pˆ var ln pˆ ≈ 2 var pˆ = 2 = pˆ pˆ n nˆ p
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 9 Arnold Kester 10 januari 2006
Relatief risiko (risk ratio) (2) Samen krijgen we 1 − pˆ1 1 − pˆ2 ˆ var ˆ ln RR ≈ + n1pˆ1 n2pˆ2 en dus
s
1 − pˆ1 1 − pˆ2 + . n1pˆ1 n2pˆ2 ˆ ± z1−α/2 s.e.[ln RR]. ˆ Betrouwbaarheidsinterval voor ln RR: ln RR Dan nog terugtransformeren; het interval voor RR is ˆ = s.e.[ln RR]
ˆ ˆ ln RR−z 1−α/2 s.e.[ln RR]
[e
,e
ˆ ˆ ln RR+z 1−α/2 s.e.[ln RR]
]
Voorwaarde: nˆ p1(1 − pˆ1) ≥ 5 en nˆ p2(1 − pˆ2) ≥ 5.
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 10
Arnold Kester 10 januari 2006
De Delta methode 2
var[f (x)] ≈ (f 0(x)) var[x] Toepassing: de afgeleide van f (x) = ln x is f 0(x) = 1/x, dus 2 1 var pˆ var[ln pˆ] ≈ pˆ
Afleiding Eerste orde Taylor benadering.
f (x) = f (E(x))+f (x)−f (E(x)) ≈ f (E(x))+(x−E(x))f 0(E(x))
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 11
Arnold Kester 10 januari 2006
ˆ = (ad)/(bc) Odds ratio OR • Odds = p/(1 − p). • Odds ratio is odds bij blootstelling gedeeld door odds in controlegroep: p1/(1 − p1) p1(1 − p2) OR = = p2/(1 − p2) p2(1 − p1) ˆ = pˆ1(1 − pˆ2)/(ˆ • OR p2(1 − pˆ1)) = ad/(bc) ˆ • var OR?
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 12
Arnold Kester 10 januari 2006
Odds ratio in Case-controle onderzoek Table 13.3 (cohort onderzoek) Longkanker Ja Nee Zware drinker 33 1667 1700 Geen alcohol 27 2273 2300 60 3940 4000
Als case-controle: Longkanker Ja Nee 33 167 200 27 227 254 60 394 454
Cohort onderzoek: bereken kans op ziekte, RR, odds en OR Case-controle: kans op ziekte kan niet, RR kan niet. W´el: kans op exposure, exposure odds en exposure OR. a/c ad exposure OR = = = OR b/d bc Voorwaarde: Gelijke selectie-kans voor “exposed” en “unexposed” controles.
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 13
Arnold Kester 10 januari 2006
Odds ratio, interpretatie als RR p1/(1 − p1) p1(1 − p2) OR = = p2/(1 − p2) p2(1 − p1) Als p1 < 0.1 en p2 < 0.1, dan is 1 − p2 < 1.11 0.9 < 1 − p1 en dus
µσ
Methodologie en Statistiek | Universiteit Maastricht
p1 OR ≈ = RR p2
Onderzoeksopzet en risikomaten: 14
Arnold Kester 10 januari 2006
Odds ratio, variantie (Woolf) pˆ1 pˆ2 ˆ ln(OR) = ln( ) − ln( ), 1 − pˆ1 1 − pˆ2 dus
pˆ1 pˆ2 ˆ var ln(OR) = var ln( ) + var ln( ). 1 − pˆ1 1 − pˆ2
Delta methode: f (x) = ln(x/(1 − x)), f 0(x) = 1/(x(1 − x)) (!)
1 pˆ1 )≈ var ˆ ln( 1 − pˆ1 pˆ1(1 − pˆ1)
.
µσ
2
pˆ1(1 − pˆ1) 1 = n1 n1pˆ1(1 − pˆ1)
(1 − pˆ1) + pˆ1 1 1 1 1 = = + = + . n1pˆ1(1 − pˆ1) n1pˆ1 n1(1 − pˆ1) a b
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 15
Arnold Kester 10 januari 2006
Odds ratio, betrouwbaarheidsinterval
dus
1 1 1 1 ˆ var ˆ ln(OR) ≈ + + + a b c d r 1 1 1 1 ˆ s.e. ln(OR) ≈ + + + . a b c d
Het betrouwbaarheidsinterval voor ln(OR) is ˆ ± z1−α/2 s.e. ln(OR) ˆ , ln(OR) we krijgen het betrouwbaarheidsinterval voor OR door terugtransformeren. (voorwaarde: n1 en n2 groot genoeg, als bij RR)
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 16
Arnold Kester 10 januari 2006
Voorbeeld table 10.1
Case Control
≥ 30 ≤ 29 683 2537 1498 8747 2181 11284
3220 10245 13465
OR = 683 ∗ 8747/(2537 ∗ 1498) = 1.57. ln OR = 0.452. var ln OR = 1/683 √ + 1/2537 + 1/1498 + 1/8747 = 0.00264, dus s.e.(ln OR) = 0.00264 = 0.0514. Betrouwbaarheidsinterval voor ln OR is 0.452 ± 1.96(0.0514) = (0.352, 0.553). Met de exp functie krijgen we het betrouwbaarheidsinterval voor OR: (1.42, 1.74).
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 17
Arnold Kester 10 januari 2006
Confounding 1 (table 13.3) Longkanker Ja Nee Zware drinker 33 1667 1700 Geen alcohol 27 2273 2300 60 3940 4000 Rokers Longkanker Ja Nee Zware drinker 24 776 800 Geen alcohol 6 194 200 30 970 1000 OR=1.0
µσ
Methodologie en Statistiek | Universiteit Maastricht
OR=1.67
Niet-rokers Longkanker Ja Nee 9 891 900 21 2079 2100 30 2970 3000 OR=1.0
Onderzoeksopzet en risikomaten: 18
Arnold Kester 10 januari 2006
Confounding 2 • Schijnbaar verband tussen drinken en longkanker door confounding met roken: drinkers roken meer, rokers krijgen longkanker. • Variabele is confounder als OR verschilt bij analyse per groep v.d. variabele (of met correctie voor die variabele). • Klassieke eigenschap van confounder: – relatie met exposure, ´en relatie met disease • Klopt hier? – OR(roken, drinken)= – OR(roken, longkanker)=
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 19
Arnold Kester 10 januari 2006
Confounding 3 Wanneer is een derde variabele C die met zowel risikofactor R als met uitkomst D samenhangt, een confounder? • “Oorzakelijke keten”: als R −→ C −→ D, dan wordt C door R veroorzaakt, en hoort dus bij het effect van R. C is dan geen confounder. • “D −→ C”. D is longziekte, C is hoesten. C hangt ook samen met R, roken. C is geen confounder. • BMI −→ CHD? BMI is ook positief gecorreleerd met diabetes en hypertensie. Gecorrigeerd voor diabetes en hypertensie is de relatie van BMI en CHD veel minder sterk. Zijn diabetes en hypertensie confounders?
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 20
Arnold Kester 10 januari 2006
Welke situatie is confounding?
E
D
E
C
D C
E
D
E
C
µσ
Methodologie en Statistiek | Universiteit Maastricht
D C
Onderzoeksopzet en risikomaten: 21
Arnold Kester 10 januari 2006
Standaardisatie, vb: % met bacteriurie leefijd 16-19 20-29 30-39 40-49 Allen
Pil % n 1.2 84 5.6 284 6.3 96 22.2 18 5.6 482
geen Pil % n 3.2 281 4.0 552 5.5 623 2.7 482 4.0 1938
totaal n 365 836 719 500 2420
Vergelijken van percentages 5.6 en 4.0 is ongeldig door verschillende leeftijdsopbouw (leeftijd is een confounder), bereken percentage bij gelijke leeftijdsverdeling. Dit is een manier om te corrigeren voor confounding door leeftijd, want het verband tussen leeftijd en groep wordt weggenomen. Later doen we dit met logistische regressie.
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 22
Arnold Kester 10 januari 2006
We gebruiken de overall (totaal) leeftijdsverdeling als standaard leeftijdsverdeling; aantal in categorie i is ni. We berekenen het aantal met bacteriurie in de “exposed” groep als die volgens de standaard zou zijn samengesteld: leeft.gestand.aantal =
X
percini
= (1.2 ∗ 365 + · · · + 22.2 ∗ 500) = 207.5 , op een totaal van 2420 is dat 8.57% In de “not exposed” (geen Pil) groep krijgen we zo een gestandaardiseerd percentage van 4.06%. Gestandaardiseerd relatief risiko: 8.57/4.06 = 2.11.
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 23
Arnold Kester 10 januari 2006
Samenvatting • Verschillende onderzoeksdesigns met voor- en nadelen • Hoe druk je de uitkomsten uit? Risikomaten • Klopt het wel? Confounding • Corrigeren voor confounding. bv. door standaardiseren
µσ
Methodologie en Statistiek | Universiteit Maastricht
Onderzoeksopzet en risikomaten: 24
Arnold Kester 10 januari 2006