Overzicht. Help! Statistiek! Stelling van Bayes. Hoe goed is leverscan ( test T ) voor het diagnostiseren van leverpathologie ( ziekte Z )?

Overzicht

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

- diagnostische en ziektebeschrijvende kansen - ROC curve

Doel: Informeren over statistiek in klinisch onderzoek. Tijd:

- eenvoudig voorbeeld in SPSS

Derde woensdag in de maand, 12-13 uur

19 maart: “ROC curve en diagnostische nauwkeurigheid” 16 april: “Hoe moeten we toetsresultaten interpreteren?” 21 mei: “Multiple testing” Sprekers:

- ROC curve en Odds Ratio’s

Václav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie 2

Hoe goed is leverscan (“test T”) voor het diagnostiseren van leverpathologie (“ziekte Z”)?

Wat gebeurt er als de prevalentie lager wordt?

pathologie Z leverscan T

+ + -

-

325

75

400

25

75

100

350

150

500

prevalentie vd ziekte: P(Z+)=350/500=0,70

nauwkeurigheid bekeken vanuit de werkelijke situatie Z: - sensitiviteit = P(T+|Z+)=325/350=0,93 - specificiteit = P(T- |Z- )=75/150 =0,50

(T+)=325

(T+)=75

(T-)=25

nauwkeurigheid bekeken vanuit de testuitslag T: - pos.predict.waarde = PPV = P(Z+|T+)=325/400= 0,81 - neg.pred.waarde = NPV = P(Z- |T- )=75/100 = 0,75

(T-)=75

(Z+)=350

3

(Z-)=150

prevalentie 70% PPV=325/400=81% NPV=75%

Wat gebeurt er als de prevalentie hoger wordt?

(T+)=65

(T+)=215

(T-)=5

(Z+)=70

(T-)=215

(Z-)=430

prevalentie 14% PPV=65/280=23% NPV=215/220=98%

4

Stelling van Bayes Omzetten van a priori kansen in a posteriori kansen:

(T+)=325

(T+)=75

(T+)=442

(T+)=12

sens ⋅ prev sens ⋅ prev + (1 − spec) ⋅ (1 − prev) spec ⋅ (1 − prev) P ( Z − | T −) = spec ⋅ (1 − prev) + (1 − sens) ⋅ prev

P (Z + | T +) =

(T-)=25

(Z+)=350 prevalentie 70% PPV=325/400=81% NPV=75/100=75%

(T-)=75

(Z-)=150

(T-)=34

(Z+)=476 prevalentie 95% PPV=442/454=97% NPV=12/42=26%

(T-)=12

(Z-)=24

P ( Z + | T +) P( Z +) P(T + | Z + ) = × P ( Z − | T + ) P ( Z −) P (T + | Z −) a posteriori odds = a priori odds x likelihood-ratio

5

6

1

Predictieve waarde en prevalentie

predictieve waarde

1.0

Predictieve waarde en prevalentie

negatieve predictieve waarde

We zijn er vanuit gegaan dat sensitiviteit en specificiteit dezelfde blijven, ongeacht de prevalentie. Dit hoeft niet altijd het geval te zijn: b.v. omdat de populatie verandert.

positieve predictieve waarde

0.5

Voorbeeld: Z = geslacht, T = haarlengte P(T=lang haar|Z=man) is nu anders dan 40 jaar geleden … sensitiviteit = 93% specificiteit = 50%

0.0 0.0

0.5

1.0 7

prevalentie

Design en analyse aspecten

8

Testuitslag als een continue variabele Z-

Prevalentie, specificiteit, sensitiviteit, PPV en NPV worden in de praktijk uit een steekproef geschat. Bij een simpele aselecte steekproef zijn de berekeningen heel eenvoudig (percentages, de bijbehorende standaardfouten en betrouwbaarheidsintervallen).

Z+

Threshold

In de praktijk wordt er vaak met aparte steekproeven van zieken en van controles gewerkt. Hier moeten de predictieve kansen via de Bayes formule berekend worden; berekening van de SE’s en CI’s is dan iets ingewikkelder.

Testuitslag (objectieve meting of een subjectieve score) Perfecte scheiding: 100% sensitiviteit en specificiteit 9

Z+

Threshold

Z+

sensitiviteit, “True Positive“

Z-

In de praktijk is er meestal overlap: Z-

10

“voorzichtig”

Testuitslag 1-specificiteit, “False Positive” P(T+|Z-)

Sensitiviteit en specificiteit hangen af van de gebruikte drempelwaarde. 11

12

2

Threshold

Z+


Zsensitiviteit, “True Positive“

Z-

“neutraal”

Threshold

Z+

“agressief”

1-specificiteit, “False Positive”


13

14

Threshold

Z+



Z-

De ROC curve

De ROC curve e oz el rd a wa nut van de test



15

16

Mammogram, keuze tussen BIRADS score 4 en 3 (wel/geen biopsie)

ROC curve

0.0

108 US radiologoen 79 mammograms

0.9

0.1

(Beam ea, 1996)

0.8

0.2

True Positive Fraction

• in theorie prachtig, de praktijk is soms weerbarstig mammogram thorax foto

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

0.7

0.3

0.6

0.4

0.5

0.5

0.4

0.6

0.3

0.7

0.2

0.8

0.1

0.9

0.0

1.0 0.0

17

False Negative Fraction

1.0

• Receiver-Operating-Characteristic oorspronkelijke context (±1950): herkennen van vliegtuigen als bewegende stippen op radarscherm

-

1.0

True Negative Fraction

• geeft de sensitiviteit en specificiteit weer voor verschillende drempelwaarden

• Voorbelden:

st te

0.1

0.2

0.3

0.4

0.5

0.6

0.7

False Positive Fraction

0.8

0.9

1.0

18

3

Dilemma: Welke test is beter?

True Positive Fraction = Sensitivity

1.0

Modality B Modality A

0.0 0.0

( Chest film study by E. James Potchen, M.D., 1999 )

False Positive Fraction = 1.0 − Specificity

1.0

19

Dilemma verdwijnt na de bepaling van ROCs (scenario 1):

20

Een andere scenario: Dezelfde ROC

Conclusie: B is beter dan A


hogere TPF bij dezelfde FPF, of lagere FPF bij dezelfde TPF

0.0 0.0



1.0


1.0


0.0 0.0

1.0

1.0

False Positive Fraction = 1.0 − Specificity 21

22

Vergelijking van ROCs m.b.v. Area Under the Curve

. . . nog een andere scenario:


1.0

Conclusie: Modality B

A is beter dan B

Modality A

0.0 0.0


1.0

AUC=0,89 23

AUC=0,50 24

4

AUC: interpretatie

AUC: berekening

Er wordt aselect een patient (Z+) en een gezonde persoon (Z-) gekozen. Bij beide wordt de testuitslag genoteerd: TZ+ en TZ-; hoge T wijst op ziekte.

AUC kan geschat worden onder een parametrische veronderstelling, of niet-parametrisch. De meest gebruikte niet-parametrische toets van de nulhypothese AUC=0,5 is identiek aan de toets van Wilcoxon voor twee onafhankelijke steekproeven (Mann-Whitney U-test).

De AUC is gelijk aan de kans dat TZ+ groter is dan TZ-. Als beide personen uit dezelfde populatie komen dan is die kans 50%. De (nul)hypothese van een waardeloze test komt dus overeen met AUC=0,5.

25

26

Eenvoudig voorbeeld in SPSS

AUC: kritiek

steekproef van n = 4.000 Groningers, 50% mannen Z : het geslacht ( m / v) test variabele T: a) lengte b) gewicht c) beide

AUC is een zeer compacte samenvatting van informatie over de nauwkeurigheid van een diagnostische test. Het lijkt aantrekkelijk om diagnostische tests op basis van hun AUC te vergelijken.

AUC ? PPV / NPV bij 173 cm?

- In de praktijk wordt echter met één drempelwaard gewerkt en dan kan de vergelijking misleidend zijn.

Verbetert het gewicht de AUC van de lengte?

- Elkaar kruisende ROC curves veroorzaken problemen. - AUC houdt geen rekening met verschillende consequenties van foutieve beslissingen.

27

ROC: geslacht / lengte, gewicht

28

OR en overlap tussen Z+ en ZOR van X=1 t.o.v. X=-1 (P84 t.o.v. P16) bij controles

AUC (SE) lengte 0,89 (0,003) gewicht 0,77 (0,005) beide 0,90 (0,003) grens 173cm: PPV=NPV=81% (thuis: P(Z=m)=25% … ???) Odds Ratio “lang” versus “kort”: OR(+1SD vs. -1SD) ~ 30 (!)

29

30

Pepe et al, Am J Epi, 2004)

5

ROC en Odds Ratio

Samenvatting • diagnostische versus ziektebeschrijvende kansen

OR(P84 vs. P16) dwz +1SD vs. -1SD

• rol van de prevalentie • sampling design: rol van de stratificatie • ROC en AUC, relatie tot Odds Ratio

Voor een redelijke AUC is een heel hoge OR nodig!

• er is meer … (rekening houden met verklarende variabelen, nauwkeurigheid van prognose – tijdsaspect…)

31

32

Volgende Help! Statistiek! lezing:

woensdag 16 april 2008, 12-13 uur

“Hoe moeten we toetsresultaten interpreteren? ”

Handouts van deze presentatie komen te staan op http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie 33

6

Overzicht. Help! Statistiek! Stelling van Bayes. Hoe goed is leverscan ( test T ) voor het diagnostiseren van leverpathologie ( ziekte Z )?

Recommend Documents