3
Validiteit 1.1
Kenmerken – 4
1.1.1 1.1.2 1.1.3
Content validity (inhoudsvaliditeit) – 4 Construct validity (begripsvaliditeit) – 5 Criterion validity (criteriumvaliditeit) – 5
1.2
Sensitiviteit/specificiteit – 6
1.2.1 1.2.2 1.2.3
Sensitiviteit – 6 Specificiteit – 6 Interpretatie – 7
1.3
Voorspellende waarde – 8
1.3.1
Interpretatie – 9
1.4
Likelihood ratio – 9
1.4.1
Interpretatie – 10
1.5
Diagnostische odds ratio – 10
1.5.1
Interpretatie – 10
1.6
ROC-curves – 11
1.6.1
Interpretatie – 12
1.7
Conclusie – 12 Referenties – 13
1
4
1
Hoofdstuk 1 • Validiteit
Er komt een man van 24 jaar bij de fysiotherapeute: ‘Ik ben gisteravond tijdens een wedstrijd door mijn enkel gegaan. Ik kan er niet goed mee lopen, zou je mijn enkel misschien willen tapen?’ Tijdens een volleybalwedstrijd, bij het neerkomen na een blok, landde hij op de voet van een tegenstander en sloeg zijn enkel om. Het was een amateurwedstrijd en er was geen sportarts of fysiotherapeut aanwezig. De fysiotherapeute besluit om eerst maar eens uit te sluiten dat er sprake is van een fractuur door de Ottawa Ankle Rules af te nemen. Deze kent zij niet uit haar hoofd, maar het was gemakkelijk te vinden op internet. Op basis van de score besluit de fysiotherapeute dat er geen reden is om te denken aan een fractuur. Daarna besloot ze de ernst van het letsel vast te stellen door de functiescore af te nemen. Op deze functiescore haalde de patiënt een score van 60, wat betekent dat de kans groot is dat hij binnen 14 dagen vanzelf zal genezen. Bij een score kleiner dan 40 zou de kans om binnen 14 dagen te herstellen klein zijn en zou de patiënt in aanmerking komen voor fysiotherapeutische behandeling.
Kenmerken
1.1
Patiënten die met een klacht bij de huisarts of fysiotherapeut komen willen graag weten: ‘Wat heb ik?’ Het stellen van een diagnose is een essentiële stap in het handelen van clinici. Een goed begrip van de validiteit van diagnostische tests is een eerste vereiste voor een fysiotherapeut om evidence based te kunnen werken [Davidson, 2002]. Beschrijving van de validiteit en betrouwbaarheid van de diagnostiek is rond de jaren ’50 van de vorige eeuw begonnen, voornamelijk met de validiteit en reproduceerbaarheid van psychologische tests (meetinstrumenten) [Cronbach & Gleser, 1953; Cronbach & Meehl, 1955]. Onder validiteit wordt verstaan: meet men wat men wil meten? Zowel elementen uit de anamnese als de verschillende handelingen van het lichamelijk onderzoek en het gebruik van vragenlijsten (meetinstrumenten) kunnen worden opgevat als diagnostische tests. Bij een aantal tests is de validiteit duidelijk: als de fysiotherapeut wil weten hoe lang iemand is, is het meetlint daarvoor een valide instrument. Hetzelfde geldt voor de bloeddrukmeter bij het bepalen van de bloeddruk. Ingewikkelder wordt het wanneer de fysiotherapeut wil bepalen of een enkelletsel ernstig genoeg is om te behandelen of dat dit vanzelf zal genezen. Men onderscheidt verschillende soorten validiteit.
1.1.1
Content validity (inhoudsvaliditeit)
Bij de content validity wordt gekeken naar de mate waarin de test inhoudelijk het hele construct meet dat men beoogt te meten. Bijvoorbeeld, bestaat de functiescore uit een set vragen die een representatieve afspiegeling zijn van de verschillende domeinen die te maken hebben met de ernst van een enkelletsel? Gaan alle vragen wel over een enkelletsel, of zitten er ook vragen in die meer te maken hebben met knieklachten? z
Face validity (indruksvaliditeit)
Hiermee probeert men aan te geven in welke mate men vindt dat een test op het eerste gezicht datgene lijkt te meten wat men wil weten. Met andere woorden: lijkt
1.1 • Kenmerken
de test op het oog valide? Face validity wordt vaak bepaald door mensen die niet echt een expert zijn op het betreffende vakgebied. Bijvoorbeeld, als fysiotherapeuten aan patiënten (of hun familie) vragen of ze denken dat de Ottawa Ankle Rules een goede test zijn om een fractuur uit te sluiten, dan test men de face validity. Deze validiteit vertrouwt op het intuïtieve vermogen van mensen om aan te voelen of een test wel of niet meet wat hij moet meten. z
Expert validity (expertvaliditeit)
Expert validity is vergelijkbaar met face validity, maar nu laat men experts op het betreffende gebied bepalen of een test of meetinstrument naar hun inzicht valide is. Bijvoorbeeld, men vraagt aan experts op het gebied van anatomie, fysiologie of traumatologie of de Ottawa Ankle Rules een goed instrument zijn om te screenen of een patiënt een röntgenfoto nodig heeft omdat er een verdenking is op een fractuur.
1.1.2
Construct validity (begripsvaliditeit)
De construct validity gaat over de vraag of de test past in het achterliggende theoretische construct of theoretisch kader. Met andere woorden, zijn de uitkomsten van een test (of meetinstrument) wel werkelijk een indicatie voor datgene waarover men iets wil weten? In dit geval gaat het om de samenhang tussen de uitkomsten van de ene test (bijvoorbeeld de functiescore) en de uitkomsten van een gelijksoortige test die hetzelfde concept beoogt te meten (bijvoorbeeld de Karlsson-score of de Kaikkonenscale) [De Bie et al., 1997; Kaikkonen et al., 1994; Karlsson & Peterson, 1991]. Hoe hoger de correlatie, hoe gelijkwaardiger de validiteit van beide tests. Dit wordt ook wel eens ‘convergent validity’ genoemd, in tegenstelling tot ‘divergent validity’. Bij deze laatste vergelijkt men de uitkomsten van de ene test (bijvoorbeeld de functiescore) met de uitkomsten van een andere test (of meetinstrument) dat een ander concept (bijvoorbeeld pijn) beoogt te meten, en in dat geval moet de correlatie zo laag mogelijk zijn. Van constructvaliditeit spreekt men meestal in het geval van meetinstrumenten (vragenlijsten), maar men kan zich voorstellen dat twee valide tests voor het diagnosticeren van een meniscusletsel hetzelfde construct meten en dus een hoge samenhang moeten hebben wat betreft hun positieve of negatieve scores.
1.1.3
Criterion validity (criteriumvaliditeit)
De beste manier om de validiteit van een diagnostische test (indextest) te bepalen, en de uitkomsten hiervan te vergelijken met de uitkomsten van een erkende en valide test, is de ‘criterion validity’, en wordt daarom ook wel gewoon validiteit genoemd. Deze criterion validity kent twee vormen: 1. Wanneer men de uitkomsten van een indextest vergelijkt met de uitkomst van een referentiestandaard (vroeger noemde men dat een gouden standaard), dan heet het ‘concurrent validity’. Bijvoorbeeld, de referentiestandaard voor het vaststellen van een fractuur bij een enkelletsel is een röntgenfoto. In het geval van de Ottawa Ankle Rules kan de criterion validity worden vastgesteld door de scores op de Ottawa Ankle Rules te vergelijken met de uitkomst van een
5
1
6
1
Hoofdstuk 1 • Validiteit
röntgenfoto [Bachman et al., 2003]. Er is lang niet altijd een referentiestandaard beschikbaar. In die situaties kan men in plaats daarvan een extern criterium gebruiken, zoals bijvoorbeeld de diagnose door een expert. 2. Een andere vorm van criterion validity gaat over de mate waarin een diagnostische test in staat is een uitkomst te voorspellen: ‘predictive validity’. Kan een test voorspellen of de patiënt binnen 14 dagen herstelt? Bij de functiescore gaat men ervan uit dat een score boven de 40 (max is 75 voor niet-sporters en 100 voor sporters) voorspellend is voor een gunstig natuurlijk beloop en dat die patiënt binnen 14 dagen weer normaal functioneert [De Bie et al., 1997]. De criterion validity van de functiescore kan men bepalen door de uitkomsten ervan af te zetten tegen de patiëntenuitkomst (herstel of niet-herstel) na 14 dagen. Diagnostische tests zijn zelden tot nooit 100% accuraat en fout-positieven en foutnegatieven horen bij elke test [Davidson, 2002]. Wat betreft de criterion validity zijn er een aantal begrippen die worden gehanteerd om maat en getal te geven aan de (criterium)validiteit van een diagnostische of indextest. Voor al deze begrippen geldt dat zowel de indextest (bijvoorbeeld de Ottawa Ankle Rules) als de referentiestandaard (bijvoorbeeld de röntgenfoto) patiënten verdeelt in wel/niet ‘ziek’ (ofwel, wel/ niet een fractuur). In dat geval kan er een vierveldentabel (ook wel 2 × 2-tabel of een ‘cross-classification table’) worden gemaakt, . Tabel 1.1. Aan de hand van deze tabel kunnen een heel aantal begrippen die maat en getal geven aan het concept validiteit worden berekend.
1.2
Sensitiviteit/specificiteit
De sensitiviteit en specificiteit zijn maten die gerelateerd zijn aan de ziektestatus zoals die wordt vastgesteld door de referentiestandaard, bijvoorbeeld wel/niet een fractuur van de enkel, of wel/niet hersteld in 14 dagen. Het zijn maten die iets zeggen over de (criterium)validiteit van de indextest.
1.2.1
Sensitiviteit
De sensitiviteit geeft aan hoe groot de kans is dat de indextest positief is bij een patient die ‘ziek’ is; dus de kans dat de Ottawa Ankle Rules positief zijn als de patiënt ook daadwerkelijk een fractuur heeft. In . Tabel 1.1 is de sensitiviteit te berekenen door: a/(a+c), en kan worden uitgedrukt als een percentage of proportie. De sensitiviteit geeft als het ware de ‘gevoeligheid’ van de indextest aan: welk percentage van de personen met een bepaalde aandoening wordt door de indextest ook als ‘ziek’ (bijvoorbeeld een fractuur) geclassificeerd? Synoniemen van sensitiviteit zijn: detection rate, true positive rate of true positive fraction [Cochrane glossary].
1.2.2
Specificiteit
De specificiteit geeft aan hoe groot de kans is dat de indextest negatief is bij een patient die ‘niet ziek’ is, in ons voorbeeld dus de kans dat de Ottawa Ankle Rules negatief
7
1.2 • Sensitiviteit/specificiteit
. Tabel 1.1 Vierveldentabel Ziek / fractuur
Niet ziek / geen fractuur
Ottawa Ankle Rules Pos
Echt-positieven (a)
Fout-positieven (b)
Test-positieven (a+b)
Ottawa Ankle Rules Neg
Fout-negatieven (c)
Echt-negatieven (d)
Test-negatieven (c+d)
Ziekte-positieven (a+c)
Ziekte-negatieven (b+d)
Totaal
zijn als de patiënt ook op de röntgenfoto geen fractuur laat zien. In . Tabel 1.1 is de specificiteit te berekenen door: d/(b+d), en kan worden uitgedrukt als een percentage of proportie. Een ideale test heeft een sensitiviteit van 100% (bij alle ziektegevallen is de test positief) en ook een specificiteit van 100% (als de ziekte afwezig is, is de test negatief), maar dit soort testen bestaan helaas niet.
1.2.3
Interpretatie
Hoe moet een fysiotherapeut nu de gevonden waarden interpreteren? Allereerst hangt de interpretatie af van de ernst van de ziekte. Het spreekt voor zich dat de kans op fout-positieve en fout-negatieve uitslagen zo klein mogelijk moet zijn bij zeer ernstige aandoeningen. Bijvoorbeeld, bij een test op de aanwezigheid van het hiv-virus heeft men het liefst geen of zo min mogelijk fout-negatieven. Een foutnegatieve uitslag wil zeggen dat iemand die hiv-besmet is, de uitslag krijgt dat hij/ zij gezond is. In dat geval zal de betreffende persoon anderen kunnen besmetten. Bij minder ernstige ziekten of ziekten die niet levensbedreigend zijn en waarbij de behandeling van gezonde personen (fout-positieven) risico’s met zich meebrengt, moet de specificiteit heel hoog zijn en mag de sensitiviteit best wat lager zijn (iets meer fout-negatieven). Heel vaak komen fout-negatieve uitslagen pas later aan het licht als de klachten ernstiger worden. Gezonde mensen een risicovolle behandeling geven (bijvoorbeeld een operatie) maakt mensen minder gezond. Wat betekent nu een hoge sensitiviteit van bijvoorbeeld 96%? Om deze vraag te beantwoorden zijn begin jaren ’90 de termen SpPIn en SnNOut geïntroduceerd [Davidson, 2002; Hegedus & Stern, 2009]. Bij een sensitiviteit van 96% zijn bijna alle mensen die een fractuur hebben ook door de Ottawa Ankle Rules positief gevonden. Dit betekent ook dat er erg weinig mensen fout-negatief zijn (cel c in . Tabel 1.1 is bijna leeg). Men kan dan concluderen dat bij een hele hoge sensitiviteit (bijvoorbeeld 96%) mensen met een negatieve testuitslag van de Ottawa Ankle Rules in ieder geval geen fractuur hebben (SnNOut = Sensitivity high and test Negative rules disease Out). Men zegt dan dat de indextest heel goed is in het uitsluiten van de ziekte. Meestal is het dan ook zo dat veel mensen fout-positief zijn bevonden (cel b), wat inhoudt dat de indextest niet zo goed mensen zonder de ziekte kan identificeren. Een hoge sensitiviteit kan maatschappelijk en emotioneel kostbaar zijn als veel mensen die fout-positief zijn voor vervolgdiagnostiek naar het ziekenhuis moeten.
1
8
1
Hoofdstuk 1 • Validiteit
Het omgekeerde geldt voor een hele hoge specificiteit (SpPIn = Specificity high and test Positive rules disease In): een test met een hoge specificiteit is goed in het insluiten van de aandoening. Waarden van de sensitiviteit en specificiteit die als ‘hoog’ worden gezien, in ieder geval als voldoende hoog voor de SpPIn- en SnNOut-regels, kunnen niet algemeen geldend gegeven worden aangezien ze afhangen van de klinische consequenties. Voor het bewegingsapparaat worden waarden van 90-95% of hoger gezien als voldoende hoog [Hegedus & Stern, 2009]. Belangrijk blijft om ook het 95% betrouwbaarheidsinterval rondom de sensitiviteit en specificiteit mee te nemen in een beslissing over de validiteit van een test. Bij een groot betrouwbaarheidsinterval, bijvoorbeeld van 80-99%, rondom een hoge sensitiviteit of specificiteit is de test toch niet zo heel goed in het in- of uitsluiten van een aandoening. Beide maten zeggen iets over de kans dat een diagnostische test positief of negatief is bij patiënten waarvan we al weten of ze de aandoening hebben. Ze zijn populair in publicaties van diagnostisch onderzoek omdat tot voor kort altijd is gedacht dat ze constanten van een indextest zijn. Helaas blijken de sensitiviteit en specificiteit afhankelijk te zijn van een aantal zaken. Allereerst blijken ze sterk afhankelijk van patientkarakteristieken (populaties) en de prevalentie van de ziekte (prevalentie = (a+c)/ (a+b+c+d)). Veel subgroepen (bijvoorbeeld jongeren/ouderen of mannen/vrouwen) blijken een andere sensitiviteit en specificiteit van dezelfde indextest te hebben. Verder geldt ook dat hoe hoger de prevalentie van een ‘ziekte’ is, hoe hoger vaak de sensitiviteit en specificiteit [Fritz & Wainner, 2001]. Dit komt doordat in een populatie met hoge prevalentie (bijvoorbeeld een ziekenhuispopulatie) er al een voorselectie van patiënten heeft plaatsgevonden of de ziekte is vaak in een verder gevorderd stadium aanwezig en kan dan gemakkelijker aan te tonen zijn [Bhandari & Guatt, 2005]. Ook zijn de sensitiviteit en specificiteit afhankelijk van het afkappunt wanneer een indextest positief is, namelijk wanneer bepaalt men dat er sprake is van een positieve indextest? Wanneer men een ruim afkappunt neemt, waarbij de test al snel positief is, zal de sensitiviteit hoog zijn, maar de specificiteit lager. De keuze van een afkappunt is in veel gevallen arbitrair. Bijvoorbeeld, bij de functiescore ligt het afkappunt op 40, maar wanneer het op 30 of 50 wordt gelegd levert dat andere sensitiviteit en specificiteit op. Tot slot zijn de vaardigheden van de beoordelaar belangrijk. Een stagiaire fysiotherapie die het scoren van de Ottawa Ankle Rules nog netjes volgens de regels doet, zal misschien een hogere sensitiviteit halen dan de fysiotherapeut, maar dat zegt natuurlijk niets over de validiteit van de indextest als zodanig.
1.3
Voorspellende waarde
Van veel tests worden met name de sensitiviteit en specificiteit gepubliceerd. Dit is historisch zo gegroeid. De sensitiviteit en specificiteit zijn testeigenschappen, gegeven een bepaalde populatie en setting, terwijl het in praktijk als de patiënt op consult komt, nog onbekend is of de patiënt de ziekte of aandoening heeft of niet. Voor de fysiotherapeut die maar één patiënt ziet, hebben de sensitiviteit en specificiteit van een diagnostische test weinig directe betekenis. De vraag in de praktijk is namelijk: wat is de kans dat deze patiënt met deze testuitslag de ziekte of aandoening al dan niet heeft? Een antwoord op deze vraag wordt gegeven door de voorspellende waarden van een testuitslag.
1.4 • Likelihood ratio
Positief voorspellende waarde: als de indextest bij een patiënt positief is, hoe groot is dan de kans dat deze patiënt inderdaad de ziekte of aandoening heeft? Vanuit . Tabel 1.1 is dit te berekenen door: a/(a+b), en kan worden uitgedrukt als een percentage of proportie. Daarnaast bestaat er ook een negatief voorspellende waarde, namelijk de voorspellende waarde van een negatieve testuitslag (in . Tabel 1.1: d/(c+d)). Voor de fysiotherapeut in de dagelijkse praktijk geeft kennis van de voorspellende waarde van de indextest andere informatie dan kennis van de sensitiviteit en specificiteit. De voorspellende waarde zegt namelijk iets over de zekerheid waarmee men de diagnose kan stellen of uitsluiten. Een positieve voorspellende waarde van 65% wil zeggen dat 65% van de patiënten met een positieve testuitslag de ziekte daadwerkelijk heeft. De overige 35% heeft ook een positieve testuitslag, maar de ziekte niet. Dat zijn de mensen met een fout-positieve testuitslag. Idealiter is de positief en negatief voorspellende waarde 100%, maar net als bij de sensitiviteit en specificiteit komt dit nooit voor.
1.3.1
Interpretatie
De voorspellende waarden zijn specifiek voor de onderzochte populatie en zijn geen algemeen kenmerk van een indextest zelf. Ze zijn sterk afhankelijk van de prevalentie van de ziekte in de bestudeerde populatie. Bij een (zeer) lage prevalentie zal zelfs een heel goede test (dus met hoge sensitiviteit en specificiteit) zelden een hoge positieve voorspellende waarde opleveren, maar wel een hoge negatieve voorspellende waarde. Bij een (zeer) hoge prevalentie geldt dit andersom. Dit betekent dat, aangezien er in de dagelijkse praktijk normaliter een lage prevalentie van bijvoorbeeld een enkelfractuur is, er een hoge kans is dat bij een negatieve testuitslag op de Ottawa Ankle Rules de patiënt inderdaad geen fractuur heeft (hoge negatief voorspellende waarde). Een positieve testuitslag betekent dan niet zo veel, vandaar ook dat de Ottawa Ankle Rules dan voorschrijven om een röntgenfoto te laten maken om die positieve testuitslag te verifiëren. Op de spoedeisende hulp van een ziekenhuis is de prevalentie van een enkelfractuur waarschijnlijk (iets) hoger. Wanneer de methode van uitvoeren van de indextest anders is of de kenmerken van de betreffende patiënt sterk verschillen van de patiëntenpopulatie waarin de studie is uitgevoerd, dan zijn de voorspellende waarden die in de onderzochte populatie zijn gevonden voor die patiënt niet geldig. Om die reden zijn de voorspellende waarden die zijn berekend in een groep patiënten die de orthopeed consulteren niet te gebruiken in een eerstelijns fysiotherapiepraktijk. De Ottawa Ankle Rules worden als een screeningstest gezien; namelijk bij een negatieve testuitslag kan men er goed op vertrouwen dat er inderdaad geen fractuur is, maar bij een positieve uitslag is bevestiging van een referentiestandaard noodzakelijk. Hiermee voorkom je onnodig gebruik van de referentiestandaard, de röntgenfoto.
1.4
Likelihood ratio
De likelihood ratio (LR) is een maat voor de kracht waarmee de indextest, bij positief resultaat, de kans op het daadwerkelijk hebben van ziekte verhoogt (LR+) of de kracht waarmee de indextest bij negatief resultaat de kans op het inderdaad niet
9
1
10
1
Hoofdstuk 1 • Validiteit
hebben van ziekte aangeeft (LR-). Op basis van . Tabel 1.1 kan men de LR uitrekenen: LR+ = sensitiviteit / (1 – specificiteit); LR- = (1 - sensitiviteit) / specificiteit. De LR+ is altijd groter dan 1 en de LR- altijd kleiner dan 1 (en groter dan 0). Hoe dichter de LR bij 1 is, hoe minder krachtig de test is. Omgekeerd, hoe groter de LR+, hoe groter de kans dat de onderzochte patiënt inderdaad de aandoening heeft en hoe kleiner de LR-, hoe groter de kans dat de patiënt de aandoening niet heeft.
1.4.1
Interpretatie
De likelihood ratio wordt vaak gebruikt om op basis van de voorafkans op de ziekte (ook wel de prevalentie), te berekenen wat de kans op de ziekte is nadat men de indextest heeft ondergaan (de post-testkans) [Hegedus & Stern, 2009]. Sommige onderzoekers geven om die reden de voorkeur aan het publiceren van een LR. Het spreekt voor zich dat de post-testkans hoger moet zijn dan de voorafkans op de ziekte, wil de indextest zinnig zijn of iets toevoegen. Als regel wordt wel gehanteerd dat als de voorafkans op een aandoening hoog is, een negatieve test die kans nauwelijks verkleint, en meestal fout-negatief is. Omgekeerd, als de voorafkans op een aandoening laag is (wat meestal het geval is binnen de eerstelijnszorg) is een positieve test veelal fout-positief [Davidson, 2002]. In de literatuur hanteert men wel als regel dat een positieve likelihood ratio van minder dan 5 (en een negatieve LR groter dan 0,2) klein zijn, LR+ tussen 5 en 10 (en LR- tussen 0,1 en 0,2) matig en een LR+ groter dan 10 (LR- kleiner dan 0,1) groot zijn [Jaeschke et al., 1994]. Testen met een grote likelihood ratio worden als accuraat beschouwd [Davidson 2002]. Toch blijft het lastig voor een doorsnee fysiotherapeut om de likelihood ratio goed te interpreteren, en dat betekent dat een likelihood ratio niet echt een relevante maat is voor de dagelijkse praktijk.
1.5
Diagnostische odds ratio
De diagnostische odds ratio (DOR) is één algemene maat voor de accuraatheid van de indextest en is onafhankelijk van de prevalentie van de ziekte. Op basis van . Tabel 1.1 kun je de DOR als volgt berekenen: (a/c)/(b/d). Een diagnostische odds ratio geeft aan hoe goed de test in staat is de echt zieke van de niet-zieke te onderscheiden.
1.5.1
Interpretatie
Een diagnostische odds ratio van 1 betekent dat het uitvoeren van de indextest geen meerwaarde heeft, vergeleken met het opgooien van een muntje. De DOR heeft geen waarde voor de dagelijkse praktijk omdat het geen informatie geeft over de foutpositieven en fout-negatieven. Het wordt met name gebruikt voor wetenschappelijk onderzoek, vooral bij het uitvoeren van systematische reviews en meta-analyses en heeft niet zo veel klinische waarde voor de dagelijkse praktijk.
11
1.6 • ROC-curves
true positive rate (sensitiviteit)
100
80
60
40
20
0 0
20
40
60
80
100
false positive rate (100-specificiteit) . Figuur 1.1 Voorbeeld van een ROC-curve
1.6
ROC-curves
Bovenstaande termen (sensitiviteit/specificiteit, voorspellende waarden etc.) gaan vooral op wanneer voor een indextest een duidelijk afkappunt bestaat tussen een positieve test en een negatieve test. Dit is lang niet altijd het geval. Bijvoorbeeld, de uitkomsten van de functiescore leveren uitkomsten op een continue schaal op. Het berekenen van de (criterium)validiteit van de functiescore is dus afhankelijk van het afkappunt waarboven de functiescore als positief wordt gescoord (positivity threshold). Elk afkappunt kent een andere waarde voor de voorspellende waarden, sensitiviteit en specificiteit. Bij het ene afkappunt is de sensitiviteit hoog en de specificiteit veel lager, maar bij andere afkappunten kan dat andersom zijn. Dit verklaart vaak dat in de ene studie heel andere voorspellende waarden van de indextest gevonden worden dan in de andere studie; men heeft vaak een ander afkappunt gekozen. Vooral als het onbekend is welk afkappunt nu de hoogste sensitiviteit en specificiteit oplevert kunnen ROC-curves (receiver operator characteristic curves) een oplossing zijn (zie . Figuur 1.1 voor een voorbeeld). Deze ROC-curves worden vooral gebruikt voor wetenschappelijk onderzoek om de optimale afkapwaarde van een test in een bepaalde populatie te bepalen. In een patiëntenpopulatie wordt dan de indextest afgenomen (bijvoorbeeld de functiescore) en vervolgens wordt berekend op welke verschillende afkappunten hoeveel patiënten positief scoorden. Op elk afkappunt kan dan een sensitiviteit en specificiteit worden berekend. En al die punten leveren dan een curve op (. Figuur 1.1).
1
12
1
Hoofdstuk 1 • Validiteit
1.6.1
Interpretatie
De ROC-curve is een grafische weergave van de sensitiviteit op de y-as en 1-specificiteit op de x-as, voor elk afkappunt van de indextest. Het discriminatoir vermogen van de functiescore kan dan worden uitgedrukt in de oppervlakte onder de curve (‘area under the curve’ (AUC)). Het ideale afkappunt is dan het afkappunt dat hoort bij het sensitiviteits- en specificiteitspunt dat het meest in de linker bovenhoek ligt. In dat geval is zowel de sensitiviteit als de specificiteit zo hoog mogelijk, en kan de AUC de 1 naderen (bijna perfecte indextest). Een AUC van 0,5 betekent dat de indextest geen enkel onderscheidend vermogen heeft tussen mensen met en zonder de ziekte of aandoening. ROC-curves kunnen ook worden gebruikt om het onderscheidende vermogen van twee testen (die op dezelfde patiënten zijn gemeten) met elkaar te vergelijken. De test met de hoogste AUC heeft dan het grootste onderscheidende vermogen. Een ROC-curve of een AUC van een individuele test is niet een direct klinisch toepasbare maat en wordt voornamelijk voor wetenschappelijk onderzoek gebruikt. Het geeft een waarde voor het onderscheidende vermogen van de test in zijn geheel, maar niet een kans op aanwezigheid van ziekte per patiënt/testuitslag.
1.7
Conclusie
De patiënt uit de casus kwam zelf met zijn diagnose (self-labeling) (zie ‘Introductie’). Vervolgens heeft de fysiotherapeut in haar klinisch redeneerproces twee stappen doorlopen in het verfijnen van de hypothese, namelijk eerst een restricted rule out (zie ‘Introductie’) om door middel van de Ottawa Ankle Rules een fractuur uit te sluiten. Dit betekent als beleid dat de patiënt niet terugverwezen hoefde te worden naar de huisarts of spoedeisende hulp. Daarna heeft ze door middel van probabilistic reasoning (zie ‘Introductie’) bepaald of de patiënt behandeling nodig heeft of mogelijk ook vanzelf geneest (gunstig natuurlijk beloop). Dit heeft ze gedaan door middel van het afnemen van de functiescore. Op basis van de functiescore (hoger dan 40) zou de conclusie van de fysiotherapeut kunnen zijn dat de kans groot is dat de klacht bij deze patiënt vanzelf overgaat, en dus geen behandeling behoeft. Zou de functiescore lager zijn dan 40 en de patiënt dus baat zou hebben bij een fysiotherapeutische behandeling, dan wordt de keuze van de meest geschikte behandeling allereerst bepaald door welke behandelingen effectief zijn. Bij meerdere effectieve behandelingen speelt de voorkeur van de patiënt ook een rol. De klinische expertise van de fysiotherapeut zorgt ervoor dat de meest effectieve behandeling wordt gekozen en wordt aangepast aan de wensen en mogelijkheden van de patiënt. Idealiter dient dit proces van klinisch redeneren ondersteund te worden door valide tests. Kennis over de validiteit van veelgebruikte tests maakt het de fysiotherapeut mogelijk gebruik te kunnen maken van dergelijke diagnostische strategieën in het klinisch redeneerproces en voor het bepalen van een zo adequaat mogelijk behandelplan.
Referenties
Referenties Bachmann LM, Kolb E, Koller MT, Steurer J & TerRiet G. (2003) Accuracy of Ottawa Ankle Rules to exclude fractures of the ankle and mid-foot: systematic review. BMJ 2003;326:417–23. Bhandari M & Guyatt GH. (2005) How to appraise a diagnostic test. World J Surg 2005;29:561–6. Cochrane glossary: 7 www.cochrane.org/glossary Cronbach LJ, Meehl PE. (1955) Construct Validity in Psychological Tests. Psychol Bull. 1955;52(4):281–302. Cronbach LJ, Gleser GC. (1953) Assessing similarity between profiles. Psychol Bull. 1953;50(6):456–73. Davidson M. (2002) The interpretation of diagnostic tests: a primer for physiotherapists. Austr J Physiother 2002;48:227–33. de Bie RA, de Vet HC, van den Wildenberg FA, Lenssen T & Knipschild PG. (1997) The prognosis of ankle sprains. Int J Sports Med 1997;18(4):285–9. Fritz JM & Wainner RS. (2001) Examining diagnostic tests: an evidence based perspective. Phys Ther 2001;81:1546–64. Hegedus EJ & Stern B. (2009) Beyond SpPIn and SnNOut: considerations with dichotomous tests during assessment of diagnostic accuracy. JMPT 2009:17:1:E1–E5 Jaeschke R, Guyatt GH & Sackett DL. (1994) Users’ guide to the medical literature III. How to use an article about diagnostic test B. What are the results and will they help me in caring for my patients? JAMA 1994;271:703–7. Kaikkonen A, Kannus P & Jarvinen M. (1994) A performance test protocol and scoring scale for the evaluation of ankle injuries. Am J Sports Med 1994;22(4):462–9. Karlsson J & Peterson L. (1991) Evaluation of ankle joint function. The use of a scoring scale. Foot 1991;11:15–9.
13
1