ONDERZOEK O ND ERZO EK
Prestatie-indicatoren voor ziekenhuizen DE INVLOED VAN ONZEKERHEID Anne-Margreet van Dishoeck, Caspar M.N. Looman, Els C.M. van der Wilden-van Lier, Johan P. Mackenbach en Ewout W. Steyerberg
DOEL OPZET METHODE
RESULTATEN
CONCLUSIE
Inzichtelijk maken wat de invloed van het toeval is op ogenschijnlijke verschillen in kwaliteit tussen ziekenhuizen, gemeten met prestatie-indicatoren. Retrospectief-statistisch. Wij analyseerden de publiek toegankelijke data uit 2005 van de prestatie-indicatoren voor decubitus, cerebrovasculair accident en acuut myocardinfarct met 3 verschillende, moderne grafische weergaven: ‘forestplot’, ‘funnelplot’ en ‘rankplot’. De invloed van toeval werd inzichtelijk gemaakt door de weergave van betrouwbaarheidsintervallen. Bij funnelplots werd de uitkomst van de prestatie-indicator afgezet tegen het patiëntenaantal in het betreffende ziekenhuis; zo kon de rol van groepsgrootte op de uitkomst zichtbaar worden gemaakt. Voor bijna alle prestatie-indicatoren waren er statistisch significante verschillen in de uitkomsten tussen ziekenhuizen (p < 0,001). De betrouwbaarheidsintervallen gaven echter aan dat een gering aantal ziekenhuizen significant beter of slechter presteerde dan de norm, weergegeven in een forestplot. Goed en slecht presterende ziekenhuizen waren gemakkelijker te identificeren met een funnelplot. In rankplots, waarbij betrouwbaarheidsintervallen rond de rang van ieder ziekenhuis met ‘bootstrapping’ waren berekend, bleek de rangordening van ziekenhuizen zeer onzeker. De funnelplot is een gemakkelijk interpreteerbare weergave van de grootte van verschillen tussen ziekenhuizen. Deze weergave houdt rekening met onzekerheid in de resultaten. Bij de beoordeling van individuele ziekenhuizen tonen gerapporteerde prestatie-indicatoren statistisch significante verschillen, maar toeval is een essentiële factor die moet worden meegewogen.
Erasmus MC-Centrum, afd. Maatschappelijke Gezondheidszorg, Center for Medical Decision Making, Rotterdam. Drs. A.M. van Dishoeck, onderzoeker; dr.ir. C.M.N. Looman, statisticus; drs. E.C.M. van der Wilden-van Lier en prof.dr. J.P. Mackenbach, sociaal geneeskundigen; prof.dr. E.W. Steyerberg, epidemioloog. Contactpersoon: drs. A.M. van Dishoeck (
[email protected]).
Dankzij de ontwikkeling van de ‘Basisset prestatie-indicatoren ziekenhuizen’ door de Inspectie voor de Gezondheidszorg (IGZ) is de aandacht voor prestatie-indicatoren (PI) als instrument voor het meten van de kwaliteit van de zorgverlening in Nederlandse ziekenhuizen in de afgelopen jaren fors toegenomen.- Na de publiekelijke bekendmaking van de resultaten van individuele ziekenhuizen kwamen er verschillende, niet-consistente top -lijsten. In deze lijsten wordt de uitkomst van een indicator gelijkgesteld aan de kwaliteit van de zorgverlening in het onderhavige ziekenhuis, zonder dat men aandacht besteedt aan de invloeden van toeval en verscheidenheid in ziekten (‘case-mix’). De IGZ beoogt met de basisset PI een indicatie te krijgen van ziekenhuizen waar de zorg mogelijk onder de maat is en waar nader onderzoek wenselijk is. Jaarlijks publiceert de IGZ het rapport ‘Het resultaat telt’. Hierin beschrijft zij de resultaten van ziekenhuizen voor ruim indicatoren en illustreert zij die met grafieken van scores die oplopen van laag naar hoog. Deze weergave suggereert een rangordening van goede naar slechte prestatie, zonder dat men inzicht krijgt in de rol van het toeval. Daarnaast is er meer fundamentele kritiek op PI. Zo bestaat er scepsis over de onderliggende methoden. Ook zouden PI pervers gedrag oproepen.-
NED TIJDSCHR GENEESKD. 2009;153:B161
1
O ND ERZO EK
Een prestatie-indicator is een meetbaar aspect van de zorg dat een aanwijzing geeft over de kwaliteit van de geleverde zorg. Fundamentele kenmerken van een indicator zijn betrouwbaarheid (precisie), validiteit, haalbaarheid, acceptatie door de professional, en gevoeligheid voor verandering. PI moeten helder gedefi nieerd zijn en uniform toepasbaar in de Nederlandse ziekenhuizen. Deze overwegingen zijn met name belangrijk bij de ontwikkeling van indicatoren. De uitkomst van een ziekenhuis weerspiegelt de ziekteverscheidenheid (bepaald door de patiëntenpopulatie in dat specifieke ziekenhuis), de kwaliteit van zorg en het toeval (bepaald door het totale aantal patiënten waarmee de indicator wordt berekend) (figuur ). Naarmate gerekend wordt met een kleinere patiëntengroep, speelt het toeval een grotere rol, zoals gereflecteerd in een grotere standaardfout. Bij de presentatie van de resultaten moet men de invloed van het toeval betrekken bij de beoordeling van eventuele verschillen in de kwaliteit van de geleverde zorg. Die invloed kan men op verschillende manieren weergeven. Een ‘forestplot’ toont zowel de puntschatting als het betrouwbaarheidsinterval per ziekenhuis in een grafiek. Men heeft echter gepleit voor het gebruik van ‘funnelplots’. Wij pasten beide grafische methoden toe op enkele PI. De waarde van rangordening onderzochten wij door het betrouwbaarheidsinterval rond de rangordening te berekenen en weer te geven in een ‘rankplot’. Met dit onderzoek willen wij aantonen dat het goed mogelijk is om de invloed van toeval mee te laten wegen bij de beoordeling van de kwaliteit van zorg in een ziekenhuis en bij de vergelijking van ziekenhuizen.
METHODE DATA
Voor de analyse maakten wij gebruik van publiek toegankelijke data van de PI ‘decubitus’, ‘CVA’ en ‘acuut myocardinfarct’ voor ziekenhuizen in . Wij kozen deze indicatoren, omdat ze verschillende situaties illustreren: (a) een groot totaalaantal patiënten en aanzienlijke verschillen tussen ziekenhuizen (puntprevalentie van decubitus); (b) een kleine patiëntengroep en grote verschillen tussen de ziekenhuizen (sterfte in de eerste dagen na opname bij patiënten met CVA); (c) een lage gemiddelde uitkomst van de indicator en geringe verschillen tussen de ziekenhuizen (sterfte in de eerste dagen na opname bij patiënten met een acuut myocardinfarct). We namen hierbij aan dat de data een reële afspiegeling waren van de kwaliteit van zorg in individuele ziekenhuizen en dat ziekteverscheidenheid geen belangrijke invloed had. De data werden verkregen van de cd-rom uit het rapport ‘Het resultaat telt ’, waarop de door de inspectie gecorrigeerde gegevens staan. BEREKENING BETROUWBAARHEIDSINTERVAL
Wij berekenden per indicator de standaardfout (SE), het -BI en verschillen tussen de ziekenhuizen op basis van de totale aantallen patiënten per ziekenhuis die meetelden voor een indicator (n), bijvoorbeeld alle patiënten jonger dan jaar met een ischemisch CVA. Ook stelden wij de uitkomsten vast van de indicator (y), bijvoorbeeld de -daagse sterfte bij patiënten jonger dan jaar met een ischemisch CVA. Het betrouwbaarheidsinterval werd berekend volgens de formule BI = eα± ,.se. Hierbij is SE = √(/y+(/n-y)), en α = log (y/n/(-y/n)), waarbij y het
‘case mix’
ontwikkeling van prestatie-indicator: eenduidige definitie en uniforme toepassing in de Nederlandse ziekenhuizen
prestatie-indicatoren
kwaliteit van zorg
uitkomst bijvoorbeeld prevalentie of sterfte
toeval
FIGUUR 1 Conceptueel kader voor de beoordeling van de uitkomst van een prestatie-indicator. Niet alleen de kwaliteit van zorg, maar ook toeval en de ziekteverscheidenheid (‘case mix’) in een ziekenhuis kunnen van invloed zijn op de uitkomst.
2
NED TIJDSCHR GENEESKD. 2009;153:B161
indicator
aantal ziekenhuizen
gemiddelde teller/noemer*
gemiddelde puntschatting in % (95%-BI)
p†
puntprevalentie decubitus ischemisch CVA; 7-daagse sterfte bij patiënt jonger dan 65 jaar patiënt van 65 jaar en ouder hemorragisch CVA; 7-daagse sterfte bij patiënt jonger dan 65 jaar patiënt van 65 jaar en ouder acuut myocardinfarct bij patiënt van 65 jaar en ouder; ziekenhuissterfte 30-daagse sterfte acuut myocardinfarct bij patiënt jonger dan 65 jaar; ziekenhuissterfte 30-daagse sterfte
89
14/238
6,0 (4,7-7,8)
< 0,0001
91 91
2/63 10/178
3,2 (1,6-6,3) 5,6 (4,1-7,7)
< 0,0001 < 0,0001
90 90
2/12 9/35
16,7 (8,4-30,3) 25,7 (19,0-33,8)
0,0005 < 0,0001
37 53
16/131 16/146
12,2 (9,6-15,4) 11,0 (8,6-13,8)
< 0,0001 < 0,0001
37 53
3/102 4/124
2,9 (1,7-5,2) 3,2 (0,2-5,3)
0,06 0,003
*De gemiddelde uitkomst refereert aan de uitkomst van 'het gemiddelde Nederlandse ziekenhuis'. De teller is het gemiddeld aantal patiënten met de indicatoruitkomst, bijvoorbeeld het aantal patiënten met decubitus. De noemer is het gemiddeld aantal patiënten voor wie de indicator is geregistreerd, bijvoorbeeld alle patiënten met een acuut myocardinfarct jonger dan 65 jaar. †De p-waarde betreft de nulhypothese dat er geen verschillen tussen de Nederlandse ziekenhuizen bestaan behalve verschillen die berusten op louter toeval.
aantal patiënten met de uitkomst voorstelt en n het totale aantal patiënten in een ziekenhuis. Bij een uitkomst van y = werd het betrouwbaarheidsinterval berekend met ;-elog (,/n). Dit is een exacte methode. Een p-waarde van , werd gezien als grens voor statistische significantie bij gebruik van de likelihoodratiotoets voor het detecteren van verschillen tussen ziekenhuizen. GRAFISCHE WEERGAVEN
We gebruikten grafische methoden om de invloed van het toeval inzichtelijk te maken: forestplot, funnelplot en rankplot. In een forestplot wordt in oplopende volgorde zowel de puntschatting als het bijbehorende betrouwbaarheidsinterval weergegeven. Bij de vooraf gekozen significantiegrens van , laat het -BI zien welke andere positie het ziekenhuis op basis van toeval had kunnen hebben. In een funnelplot worden de resultaten van de ziekenhuizen geplot samen met betrouwbaarheidsgrenzen rond een gestelde norm of landelijk gemiddelde. De betrouwbaarheidsgrenzen worden berekend in relatie tot het aantal patiënten per ziekenhuis bij wie de te scoren uitkomst is gemeten. Het is gebruikelijk om hierbij zowel -BI als ,-BI te hanteren. Wij berekenden de betrouwbaarheidsgrenzen met een exacte methode, dat wil zeggen, rekening houdend met het discrete karakter van de aantallen. Hierdoor ontstaat een zaagtandeffect in de grafiek in plaats van een vloeiende lijn. De exacte berekening was noodzakelijk door het soms grote aantal scores van y = .
In een rankplot wordt het betrouwbaarheidsinterval rond het rangnummer met behulp van ‘bootstrapping’ gesimuleerd. Hierbij worden door ‘trekking met teruglegging’ steekproeven genomen uit de populatie van het onderzochte ziekenhuis, waarbij elke steekproef evenveel personen bevat als de groep waaruit hij is getrokken. Per ziekenhuis werden steekproeven genomen door willekeurige trekkingen uit een binominale verdeling op basis van teller y en noemer n. Op die manier werden nieuwe datasets gemaakt, die resultaten weerspiegelen die onder dezelfde omstandigheden in de onderzochte ziekenhuizen evengoed hadden kunnen worden waargenomen. Voor iedere nieuwe dataset werden weer rangnummers per ziekenhuis bepaald. De verdeling van rangnummers over de datasets vormde de basis van het -BI rond de rangnummers.
RESULTATEN RAPPORTAGE VAN GESELECTEERDE INDICATOREN
Veel ziekenhuizen ( van de ) rapporteerden in gegevens over de ziekenhuisbrede puntprevalentie van decubitus (tabel). Hiervan gaven ziekenhuizen cijfers over ziekenhuisbrede incidentie in plaats van puntprevalentie; deze werden geëxcludeerd. In het gemiddelde Nederlandse ziekenhuis waren patiënten bij de meting betrokken, van wie patiënten decubitus graad - hadden. De gemiddelde puntprevalentie in was , (-BI: ,-,). Tussen de ziekenhuizen bestonden significante verschillen (p < ,).
NED TIJDSCHR GENEESKD. 2009;153:B161
3
O ND ERZO EK
TABEL Overzicht van prestatie-indicatoren, geanalyseerd in een onderzoek naar de rol van toeval bij verschillen tussen ziekenhuizen (bron: Inspectie voor de Gezondheidszorg, gegevens over 2005; www.igz.nl/publicaties/jaarrapportages/ziekenhuizen/www.IGZ.nl)
veel lager, namelijk en in de groepen < jaar respectievelijk ≥ jaar. De gemiddelde -daagse sterfte na een ischemisch CVA was , (< jaar) en , (≥ jaar). Bij patiënten met een hemorragisch CVA waren deze percentages respectievelijk . Tussen de ziekenhuizen bestonden statistisch significante verschillen. De meeste ziekenhuizen ( van de ) rapporteerden gegevens over de sterfte na een acuut myocardinfarct. Cijfers over ziekenhuissterfte werden door ziekenhuizen gegeven, terwijl ziekenhuizen over de -daagse
decubitusprevalentie per ziekenhuis
0,20
0
a
0,025
0,05
0,075
0,1
0,125
0,15
0,175
0,2
c
0,10
0,05
100
200
300
400
500
populatieomvang
91 86 81 76 71 66 61 56 51 45 41 36 31 26 21 16 11 6 1 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 mediaan en 95%-BI van ‘bootstrap’-replica’s
FIGUUR 2 Drie verschillende weergaven van de decubitusprevalentie per ziekenhuis in 2005. (a) ‘Forestplot’ met de puntschatting per ziekenhuis en het 95%-BI. De verticale lijn geeft de norm voor decubitusprevalentie. (b) ‘Funnelplot’ met de decubitusprevalentie afgezet tegen de populatieomvang van het ziekenhuis. De doorgetrokken lijn geeft de norm voor decubitus) en het prevalentie, de onderbroken lijnen de grenzen van het 95%-BI ( ); ziekenhuizen met scores buiten deze betrouwbaarheids99,8%-BI (
4
0,15
b
decubitusprevalentie per ziekenhuis
rangorde naar decubitusprevalentie
O ND ERZO EK
Door ziekenhuizen werden gegevens gerapporteerd over de -daagse sterfte na een CVA. Daarbij werden groepen patiënten onderscheiden op grond van oorzaak (ischemisch of hemorragisch) en leeftijd (jonger dan jaar of jaar en ouder). Eén ziekenhuis gaf geen cijfers bij het hemorragisch CVA. De grootste groep waren patiënten van ≥ jaar met een ischemisch CVA (gemiddeld patiënten). De groep jonger dan jaar met ischemisch CVA bevatte gemiddeld patiënten. De aantallen patiënten met een hemorragisch CVA waren
intervallen presteren significant slechter of beter dan de norm. (c) ‘Rankplot’ met rangordening van ziekenhuizen op basis van zogeheten ‘bootstrapping’. Daarbij werden per ziekenhuis 1000 steekproeven uit de patiëntenpopulatie genomen om datasets (‘bootstrap’-replica’s) te genereren. De rangorde naar decubitusprevalentie werd afgezet tegen de rangorde volgens de mediaan van de ‘bootstrap’-replica’s.
NED TIJDSCHR GENEESKD. 2009;153:B161
O ND ERZO EK
1,0
mortaliteit
0,8 0,6 0,4 0,2 0 0
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
c
0
b
mortaliteit hemorragisch CVA
rangorde naar decubitusprevalentie
a
0,1
10
20
30
populatieomvang
86 81 76 71 66 61 56 51 45 41 36 31 26 21 16 11 6 1 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 mediaan en 95%-BI van ‘bootstrap’-replica’s
FIGUUR 3 Drie verschillende weergaven van de sterfte per ziekenhuis in de eerste 7 dagen na een hemorragisch CVA bij patiënten jonger dan 65 jaar (gegevens uit 2005). (a) ‘Forestplot’ met de mortaliteit en het 95%-BI per ziekenhuis. De verticale lijn geeft de norm voor de mortaliteit. (b) ‘Funnelplot’ met de mortaliteit afgezet tegen de populatieomvang (dat wil zeggen: het aantal patiënten jonger dan 65 jaar met een hemorragisch CVA in elk ziekenhuis). De doorgetrokken lijn geeft de norm voor de mortaliteit,
) en het 99,8%-BI de onderbroken lijnen de grenzen van het 95%-BI ( ); ziekenhuizen met scores buiten deze betrouwbaarheidsintervallen ( presteren significant slechter of beter dan de norm. (c) ‘Rankplot’ met rangordening van ziekenhuizen op basis van zogeheten ‘bootstrapping’. De rangorde naar mortaliteit werd afgezet tegen de rangorde volgens de mediaan van de ‘bootstrap’-replica’s.
sterfte rapporteerden. De ziekenhuissterfte bij patiënten jonger dan jaar was gemiddeld , en voor patiënten ≥ jaar. De -daagse sterfte verschilde daar niet veel van en bedroeg respectievelijk en .
(figuur a). De decubituspuntprevalentie van het eerste ziekenhuis is ,, maar met een betrouwbaarheidsinterval van -. Het is niet uitgesloten dat de puntprevalentie puur op basis van toeval ook had kunnen bedragen. Het ruime interval wordt veroorzaakt door het kleine aantal patiënten (n = ). Het tweede ziekenhuis heeft ook een puntprevalentie van ,, maar met een betrouwbaarheidsinterval van ,-. Daarom is dit ziekenhuis significant beter dan de norm voor decubitusprevalentie van en het eerste ziekenhuis niet.
DECUBITUSPREVALENTIE IN FOREST-, FUNNEL- EN RANKPLOT
De forestplot voor de prevalentie van decubitus toont oplopend de puntschattingen van , tot ,. De betrouwbaarheidsintervallen rondom de puntschattingen variëren sterk door de verschillen in populatiegrootte
NED TIJDSCHR GENEESKD. 2009;153:B161
5
ziekenhuizen onder de ondergrens van het -BI presteerden beter dan de norm, zoals is af te lezen uit de funnelplot. Met deze weergave kunnen ziekenhuizen zich spiegelen aan ziekenhuizen met een vergelijkbare populatieomvang. Rangordening van ziekenhuizen op basis van decubituspuntprevalentie toont ruime betrouwbaarheidsinterval-
0,10
ziekenhuissterfte
0,08 0,06 0,04 0,02 0 0
a
0,01
0,02 0,03 0,04
0,05
0,06
0,07 0,08
0,09
0,1
100
200
b
ziekenhuissterfte na acuut myocardinfarct
300
populatieomvang
36 rangorde naar ziekenhuissterfte
O ND ERZO EK
In de funnelplot is de landelijke norm van de inspectie van aangehouden (zie figuur b). Onder en boven de grens van het -BI bevinden zich de ziekenhuizen waarvoor de puntschatting meer dan maal de standaardfout verschilde van het gemiddelde. Van de ziekenhuizen voldeden niet aan die norm, met inachtneming van de variatie op basis van toeval. De
31 26 21 16 11 6 1 1
c
6
11 16 21 26 31 mediaan en 95%-BI van ‘bootstrap’-replica’s
FIGUUR 4 Drie verschillende weergaven van de ziekenhuissterfte in de eerste 30 dagen na een acuut myocardinfarct bij patiënten jonger dan 65 jaar (gegevens uit 2005). (a) ‘Forestplot’ met de ziekenhuissterfte en het 95%-BI per ziekenhuis. De verticale lijn geeft de norm voor de ziekenhuissterfte. (b) ‘Funnelplot’ met de ziekenhuissterfte afgezet tegen de populatieomvang (dat wil zeggen: het aantal patiënten jonger dan 65 jaar met een acuut myocardinfarct in elk ziekenhuis). De doorgetrokken lijn geeft de norm voor de
6
36
) ziekenhuissterfte, de onderbroken lijnen de grenzen van het 95%-BI ( ); ziekenhuizen met scores buiten deze betrouwbaaren het 99,8%-BI ( heidsintervallen presteren significant slechter of beter dan de norm. (c) ‘Rankplot’ met rangordening van ziekenhuizen op basis van zogeheten ‘bootstrapping’. De rangorde naar mortaliteit werd afgezet tegen de rangorde volgens de mediaan van de ‘bootstrap’-replica’s.
NED TIJDSCHR GENEESKD. 2009;153:B161
Kenmerken van een goede indicator 9 • Een indicator heeft een relatie met wat onder ‘kwaliteit van zorg’ wordt begrepen. • Een indicator moet veranderingen in kwaliteit aangeven. • Een indicator moet betrouwbaar geregistreerd kunnen worden, waarbij iedereen dus op dezelfde wijze registreert.
len (zie figuur c). De positie die een ziekenhuis inneemt in de rangordening is behoorlijk onzeker. CVA
Om de invloed van kleine patiëntenaantallen op de uitkomsten te illustreren kozen wij voor de weergave van de sterfte in de eerste dagen na een hemorragisch CVA onder patiënten jonger dan jaar (figuur ). De puntschattingen van de ziekenhuizen varieerden oplopend van - sterfte. De forestplot toont ruime betrouwbaarheidsintervallen door de veelal kleine patiëntenaantallen. In de eerste ziekenhuizen was de -daagse sterfte . Bij een populatie van patiënten, zoals in het laatste ziekenhuis met , is het betrouwbaarheidsinterval echter -. De funnelplot toont aan dat er behoudens de variatie op basis van toeval maar weinig verschillen tussen de ziekenhuizen lijken te zijn. Verder blijkt de rangordening zeer onzeker. ACUUT MYOCARDINFARCT
Als voorbeeld van een indicator met lage gemiddelde waarden kozen wij voor de ziekenhuissterfte na een acuut myocardinfarct bij patiënten jonger dan jaar. De puntschattingen van de prevalentie variëren in de forestplot van -,, met een wisselend betrouwbaarheidsinterval door verschillen in de patiëntenaantallen (figuur a). Slechts ziekenhuizen scoren significant slechter dan de norm van , sterfte binnen dagen. Uit de funnelplot (zie figuur b) blijkt dat goed en slecht presterende ziekenhuizen nauwelijks te identificeren zijn. In de funnelplot bevindt zich maar ziekenhuis buiten de grens van het -BI. Ook de rangordening is onzeker (zie figuur c).
DISCUSSIE Uit onze vergelijking van drie moderne methoden blijkt dat de funnelplot een aantrekkelijke en eenvoudig interpreteerbare weergave is voor het rapporteren van uitkomsten op prestatie-indicatoren. De variatie die kan bestaan op basis van toeval alleen wordt helder, en daarmee wordt overinterpretatie voorkomen van ogenschijn-
lijke verschillen tussen ziekenhuizen. Buiten de grenzen van het -BI bevinden zich de ziekenhuizen met een significant slechter of beter resultaat. Binnen deze grenzen presteren de ziekenhuizen conform de norm, indien rekening gehouden wordt met variatie door toeval. De forestplot toont aan dat de betrouwbaarheidsintervallen rondom individuele scores sterk kunnen verschillen, zoals zichtbaar bij het eerste en tweede ziekenhuis in de forestplot van decubitusprevalentie (zie figuur a). Daarmee is ook de interpretatie van de kwaliteit van de geleverde zorg per ziekenhuis verschillend. Een nadeel van forestplots is de overschatting van de waarde van rangordening. Rangordening heeft als nadeel dat er maar één de beste en één de slechtste kan zijn. De rankplot maakt inzichtelijk dat een ziekenhuis puur op basis van toeval ook een geheel andere plaats in de rangorde kan innemen. Rangordening van ziekenhuizen met behulp van deze gegevens lijkt daarom niet zinnig. Het kan zelfs misleidend zijn, aangezien toeval een dominante rol speelt bij enkele indicatoren, zoals CVA en acuut myocardinfarct. WAT ZEGT EEN INDICATOR?
Het doel van PI voor de IGZ is het opsporen van ziekenhuizen waar de zorg mogelijk onder de maat is. Bij die ziekenhuizen worden nadere vragen gesteld over de geleverde prestaties. Voor dit doel is de puntprevalentie van decubitus bruikbaar: ziekenhuizen moeten nader onderzoek doen naar de oorzaak van de hogere puntprevalentie van decubitus. Het is veel moeilijker om aan de hand van de CVA-indicatoren een uitspraak te doen over de kwaliteit van de zorgverlening, doordat de aantallen patiënten in individuele ziekenhuizen klein zijn. Deze indicator kampt met een gebrek aan onderscheidend vermogen (‘power’). De kleine aantallen maken de beoor-
▼ UITLEG ▼ Onderverdeling van kwaliteitsindicatoren volgens ‘het paradigma van Donabedian’ (www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hstat).18 • Structuurindicatoren: deze geven informatie over de organisatorische voorwaarden waarbinnen een instelling verantwoord zorg kan leveren. Bijvoorbeeld: het hebben van een hartfalenpoli of een voorziening voor deelname aan de landelijke registratie van bloedtransfusiereacties. • Procesindicatoren: deze geven een indicatie over het verloop van processen in een organisatie. Bijvoorbeeld: de tijd tussen binnenkomst in het ziekenhuis en het moment waarop de patiënt met een acuut herseninfarct een trombolyticum krijgt toegediend (‘door to needle-time’). • Uitkomstindicatoren: deze geven een indicatie over de uitkomst van de zorg. Bijvoorbeeld: de sterfte na myocardinfact of CVA.
NED TIJDSCHR GENEESKD. 2009;153:B161
7
O ND ERZO EK
▼ UITLEG ▼
▼ LEERPUNTEN ▼ O ND ERZO EK
• De resultaten van ziekenhuizen worden gerapporteerd aan de hand van prestatie-indicatoren. • De weergave van deze resultaten in een rangorde van laag naar hoog geeft geen inzicht in verschillen op basis van toeval. • Een ´funnelplot´ is een weergave van de resultaten waarbij ook de betrouwbaarheidsintervallen duidelijk zijn. • Uit die weergave blijkt dat toeval een belangrijke factor is. • Toeval moet meegewogen worden bij de beoordeling van prestaties van individuele ziekenhuizen.
deling vrijwel onmogelijk, omdat het overgrote deel van de ogenschijnlijke verschillen toe te schrijven is aan het toeval. Deze indicator is in de basisset van dan ook vervallen. Bij het acuut myocardinfarct zijn absolute verschillen tussen de ziekenhuizen klein, terwijl de sterfte laag is. Dit beperkt het onderscheidend vermogen van deze indicator om verschillen in de kwaliteit van zorg aan te tonen. De ziekenhuissterfte van patiënten van jaar en ouder laat zelfs geen significante verschillen tussen de ziekenhuizen zien. Deze indicator voldoet daarom niet als kwaliteitsindicator. PI bergen een paradox in zich. Enerzijds geven ze inzicht in de geleverde prestaties, wat kan leiden tot nader onderzoek en mogelijk tot kwaliteitsverbetering. Sinds het openbaar maken van de PI vanaf zijn positieve resultaten bereikt, zoals de landelijke daling van de puntprevalentie decubitus. Anderzijds kunnen toezicht, de mogelijkheid van sanctie en vergelijking van PI leiden tot pervers gedrag en ‘datapoetsen’.- Door recht te doen aan de invloed van het toeval op de score voor PI ontstaat hopelijk een minder absolute interpretatie, die minder bedreigend is of minder snel als onterecht wordt ervaren. Van een indicator moet een stimulerende werking uitgaan, wil deze leiden tot kwaliteitsverbetering bij de professionals. Dit onderbouwt de noodzaak van realistische rapportage van PI, bijvoorbeeld met behulp van funnelplots.
8
CONCLUSIE De invloed van toeval en ziekteverscheidenheid moet al bij de ontwikkeling van PI meegewogen worden. Dit stelt eisen aan het selectieproces van PI, waarbij naast validiteit en betrouwbaarheid ook meetbaarheid en het vermogen verbetering aan te tonen selectiecriteria moeten zijn. In ons onderzoek bleken de indicatoren voor CVA en acuut myocardinfarct niet aan deze eis te voldoen. In ons onderzoek concentreerden wij ons op de rol van toevalsvariatie. Wij besteedden geen aandacht aan andere verstorende factoren, zoals registratieverschillen, organisatieverschillen, en de invloed van ziekteverscheidenheid. Wat betreft dit laatste is het aannemelijk dat academische ziekenhuizen en topklinische ziekenhuizen een heel andere patiëntenpopulatie hebben dan basisziekenhuizen. Statistische correctie voor deze verschillen in ziekteverscheidenheid kan lastig of zelfs onmogelijk zijn. Dit vraagt nader onderzoek. Wij concluderen dat de funnelplot een aantrekkelijke grafische weergave is voor de prestaties van Nederlandse ziekenhuizen. Het maakt ziekenhuizen beter duidelijk of zij aan de norm voldoen dan een simpele rangordening zonder weergave van onzekerheid, zoals nu gebruikelijk is in IGZ rapporten als ‘Het resultaat telt’ en in de verschillende top -lijsten. Dit onderzoek maakt onderdeel uit van het project ‘Prestatie-indicatoren’ in het Erasmus MC, Rotterdam: een onderzoek naar de relatie met kwaliteit van zorg. Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld. Aanvaard op 27 oktober 2008 Citeer als: Ned Tijdschr Geneeskd. 2009;153:B161
> Meer op www.ntvg.nl/onderzoek ●
NED TIJDSCHR GENEESKD. 2009;153:B161
1
Berg M, Gras M, Meijerink Y, Eland A, Kallewaard M, Haeck J, et al.
10
care. BMJ. 2003;326:816-9.
Contact. 2003;58:1535-8. Berg M, Meijerink Y, Gras M, Goossensen A, Schellekens W, Haeck J, et
11
Spiegelhalter DJ. Funnel plots for comparing institutional performance.
12
Marshall EC, Spiegelhalter DJ. Reliability of league tables of in vitro
Stat Med. 2005;24:1185-202.
al. Feasibility first: developing public performance indicators on patient safety and clinical effectiveness for Dutch hospitals. Health Policy.
fertilisation clinics: retrospective analysis of live birth rates. BMJ.
2005;75:59-73. 3 4
1998;316:1701-5.
Basisset prestatie-indicatoren ziekenhuizen 2005. Den Haag: Inspectie voor de Gezondheidszorg; 2005.
13
Het resultaat telt 2005; prestatie-indicatoren als onafhankelijke
14 15
Haag: Inspectie voor de Gezondheidszorg; 2006. 5
De Bruijn H. Prestatiemeting in de publieke sector. Tussen professie en
6
Giard RW. Prestatie-indicatoren als maat voor de kwaliteit van medische
7
Lilford R, Mohammed MA, Spiegelhalter D, Thomson R. Use and misuse
Wollersheim H, Hermens R, Hulscher M, Braspenning J, Ouwens M, Schouten J, et al. Clinical indicators: development and applications. Neth J Med. 2007;65:15-22.
care: avoiding institutional stigma. Lancet. 2004;363:1147-54.
9
Guthrie B, Love T, Fahey T, Morris A, Sullivan F. Control, compare and from multiple quality indicators. Qual Saf Health Care. 2005;14:450-4.
17
of process and outcome data in managing performance of acute medical
and information technology revolutions. JAMA. 2006;295:2780-3.
Berwick DM, James B, Coye MJ. Connections between quality
communicate: designing control charts to summarise efficiently data
zorg: retoriek en realiteit. Ned Tijdschr Geneeskd. 2005;149:2715-9.
Wachter RM. Expected and unanticipated consequences of the quality
Basisset prestatie-indicatoren ziekenhuizen 2006. Den Haag: Inspectie
measurement and improvement. Med Care. 2003;41:130-8. 16
verantwoording. 2e dr. Den Haag: Lemma; 2006.
Hinkley DV. Bootstrap methods. J R Stat Soc Series B. 1988;50:312-37. voor de Gezondheidszorg; 20006.
graadmeter voor de kwaliteit van in ziekenhuizen geleverde zorg. Den
8
Campbell SM, Braspenning J, Hutchinson A, Marshall MN. Research methods used in developing and applying quality indicators in primary
Leren van cijfers; ziekenhuizen gaan prestaties openbaar maken. Med 2
O ND ERZO EK
LITERATUUR
18
Donabedian A. The quality of care. How can it be assessed? JAMA. 1988;260:1743-8.
Colsen P, Casparie A. Indicatorregistratie: een model ten behoeve van integrale kwaliteitszorg in een ziekenhuis. Med Contact. 1995;50:297-9.
NED TIJDSCHR GENEESKD. 2009;153:B161
9