Overzicht
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.
- diagnostische en ziektebeschrijvende kansen - ROC curve
Doel: Informeren over statistiek in klinisch onderzoek. Tijd:
- eenvoudig voorbeeld in SPSS
Derde woensdag in de maand, 12-13 uur
19 maart: “ROC curve en diagnostische nauwkeurigheid” 16 april: “Hoe moeten we toetsresultaten interpreteren?” 21 mei: “Multiple testing” Sprekers:
- ROC curve en Odds Ratio’s
Václav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie 2
Hoe goed is leverscan (“test T”) voor het diagnostiseren van leverpathologie (“ziekte Z”)?
Wat gebeurt er als de prevalentie lager wordt?
pathologie Z leverscan T
+ + -
-
325
75
400
25
75
100
350
150
500
prevalentie vd ziekte: P(Z+)=350/500=0,70
nauwkeurigheid bekeken vanuit de werkelijke situatie Z: - sensitiviteit = P(T+|Z+)=325/350=0,93 - specificiteit = P(T- |Z- )=75/150 =0,50
(T+)=325
(T+)=75
(T-)=25
nauwkeurigheid bekeken vanuit de testuitslag T: - pos.predict.waarde = PPV = P(Z+|T+)=325/400= 0,81 - neg.pred.waarde = NPV = P(Z- |T- )=75/100 = 0,75
(T-)=75
(Z+)=350
3
(Z-)=150
prevalentie 70% PPV=325/400=81% NPV=75%
Wat gebeurt er als de prevalentie hoger wordt?
(T+)=65
(T+)=215
(T-)=5
(Z+)=70
(T-)=215
(Z-)=430
prevalentie 14% PPV=65/280=23% NPV=215/220=98%
4
Stelling van Bayes Omzetten van a priori kansen in a posteriori kansen:
(T+)=325
(T+)=75
(T+)=442
(T+)=12
sens ⋅ prev sens ⋅ prev + (1 − spec) ⋅ (1 − prev) spec ⋅ (1 − prev) P ( Z − | T −) = spec ⋅ (1 − prev) + (1 − sens) ⋅ prev
P (Z + | T +) =
(T-)=25
(Z+)=350 prevalentie 70% PPV=325/400=81% NPV=75/100=75%
(T-)=75
(Z-)=150
(T-)=34
(Z+)=476 prevalentie 95% PPV=442/454=97% NPV=12/42=26%
(T-)=12
(Z-)=24
P ( Z + | T +) P( Z +) P(T + | Z + ) = × P ( Z − | T + ) P ( Z −) P (T + | Z −) a posteriori odds = a priori odds x likelihood-ratio
5
6
1
Predictieve waarde en prevalentie
predictieve waarde
1.0
Predictieve waarde en prevalentie
negatieve predictieve waarde
We zijn er vanuit gegaan dat sensitiviteit en specificiteit dezelfde blijven, ongeacht de prevalentie. Dit hoeft niet altijd het geval te zijn: b.v. omdat de populatie verandert.
positieve predictieve waarde
0.5
Voorbeeld: Z = geslacht, T = haarlengte P(T=lang haar|Z=man) is nu anders dan 40 jaar geleden … sensitiviteit = 93% specificiteit = 50%
0.0 0.0
0.5
1.0 7
prevalentie
Design en analyse aspecten
8
Testuitslag als een continue variabele Z-
Prevalentie, specificiteit, sensitiviteit, PPV en NPV worden in de praktijk uit een steekproef geschat. Bij een simpele aselecte steekproef zijn de berekeningen heel eenvoudig (percentages, de bijbehorende standaardfouten en betrouwbaarheidsintervallen).
Z+
Threshold
In de praktijk wordt er vaak met aparte steekproeven van zieken en van controles gewerkt. Hier moeten de predictieve kansen via de Bayes formule berekend worden; berekening van de SE’s en CI’s is dan iets ingewikkelder.
Testuitslag (objectieve meting of een subjectieve score) Perfecte scheiding: 100% sensitiviteit en specificiteit 9
Z+
Threshold
Z+
sensitiviteit, “True Positive“
Z-
In de praktijk is er meestal overlap: Z-
10
“voorzichtig”
Testuitslag 1-specificiteit, “False Positive” P(T+|Z-)
Sensitiviteit en specificiteit hangen af van de gebruikte drempelwaarde. 11
12
2
Threshold
Z+
sensitiviteit, “True Positive“
Zsensitiviteit, “True Positive“
Z-
“neutraal”
Threshold
Z+
“agressief”
1-specificiteit, “False Positive”
1-specificiteit, “False Positive”
13
14
Threshold
Z+
sensitiviteit, “True Positive“
sensitiviteit, “True Positive“
Z-
De ROC curve
De ROC curve e oz el rd a wa nut van de test
1-specificiteit, “False Positive”
1-specificiteit, “False Positive”
15
16
Mammogram, keuze tussen BIRADS score 4 en 3 (wel/geen biopsie)
ROC curve
0.0
108 US radiologoen 79 mammograms
0.9
0.1
(Beam ea, 1996)
0.8
0.2
True Positive Fraction
• in theorie prachtig, de praktijk is soms weerbarstig mammogram thorax foto
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.7
0.3
0.6
0.4
0.5
0.5
0.4
0.6
0.3
0.7
0.2
0.8
0.1
0.9
0.0
1.0 0.0
17
False Negative Fraction
1.0
• Receiver-Operating-Characteristic oorspronkelijke context (±1950): herkennen van vliegtuigen als bewegende stippen op radarscherm
-
1.0
True Negative Fraction
• geeft de sensitiviteit en specificiteit weer voor verschillende drempelwaarden
• Voorbelden:
st te
0.1
0.2
0.3
0.4
0.5
0.6
0.7
False Positive Fraction
0.8
0.9
1.0
18
3
Dilemma: Welke test is beter?
True Positive Fraction = Sensitivity
1.0
Modality B Modality A
0.0 0.0
( Chest film study by E. James Potchen, M.D., 1999 )
False Positive Fraction = 1.0 − Specificity
1.0
19
Dilemma verdwijnt na de bepaling van ROCs (scenario 1):
20
Een andere scenario: Dezelfde ROC
Conclusie: B is beter dan A
Modality B Modality A
hogere TPF bij dezelfde FPF, of lagere FPF bij dezelfde TPF
0.0 0.0
False Positive Fraction = 1.0 − Specificity
True Positive Fraction = Sensitivity
1.0
True Positive Fraction = Sensitivity
1.0
Modality B Modality A
0.0 0.0
1.0
1.0
False Positive Fraction = 1.0 − Specificity 21
22
Vergelijking van ROCs m.b.v. Area Under the Curve
. . . nog een andere scenario:
True Positive Fraction = Sensitivity
1.0
Conclusie: Modality B
A is beter dan B
Modality A
0.0 0.0
False Positive Fraction = 1.0 − Specificity
1.0
AUC=0,89 23
AUC=0,50 24
4
AUC: interpretatie
AUC: berekening
Er wordt aselect een patient (Z+) en een gezonde persoon (Z-) gekozen. Bij beide wordt de testuitslag genoteerd: TZ+ en TZ-; hoge T wijst op ziekte.
AUC kan geschat worden onder een parametrische veronderstelling, of niet-parametrisch. De meest gebruikte niet-parametrische toets van de nulhypothese AUC=0,5 is identiek aan de toets van Wilcoxon voor twee onafhankelijke steekproeven (Mann-Whitney U-test).
De AUC is gelijk aan de kans dat TZ+ groter is dan TZ-. Als beide personen uit dezelfde populatie komen dan is die kans 50%. De (nul)hypothese van een waardeloze test komt dus overeen met AUC=0,5.
25
26
Eenvoudig voorbeeld in SPSS
AUC: kritiek
steekproef van n = 4.000 Groningers, 50% mannen Z : het geslacht ( m / v) test variabele T: a) lengte b) gewicht c) beide
AUC is een zeer compacte samenvatting van informatie over de nauwkeurigheid van een diagnostische test. Het lijkt aantrekkelijk om diagnostische tests op basis van hun AUC te vergelijken.
AUC ? PPV / NPV bij 173 cm?
- In de praktijk wordt echter met één drempelwaard gewerkt en dan kan de vergelijking misleidend zijn.
Verbetert het gewicht de AUC van de lengte?
- Elkaar kruisende ROC curves veroorzaken problemen. - AUC houdt geen rekening met verschillende consequenties van foutieve beslissingen.
27
ROC: geslacht / lengte, gewicht
28
OR en overlap tussen Z+ en ZOR van X=1 t.o.v. X=-1 (P84 t.o.v. P16) bij controles
AUC (SE) lengte 0,89 (0,003) gewicht 0,77 (0,005) beide 0,90 (0,003) grens 173cm: PPV=NPV=81% (thuis: P(Z=m)=25% … ???) Odds Ratio “lang” versus “kort”: OR(+1SD vs. -1SD) ~ 30 (!)
29
30
Pepe et al, Am J Epi, 2004)
5
ROC en Odds Ratio
Samenvatting • diagnostische versus ziektebeschrijvende kansen
OR(P84 vs. P16) dwz +1SD vs. -1SD
• rol van de prevalentie • sampling design: rol van de stratificatie • ROC en AUC, relatie tot Odds Ratio
Voor een redelijke AUC is een heel hoge OR nodig!
• er is meer … (rekening houden met verklarende variabelen, nauwkeurigheid van prognose – tijdsaspect…)
31
32
Volgende Help! Statistiek! lezing:
woensdag 16 april 2008, 12-13 uur
“Hoe moeten we toetsresultaten interpreteren? ”
Handouts van deze presentatie komen te staan op http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie 33
6