22 Uitvoerder – kansen en valkuilen Edwin de Beurs
Benchmarken is het inzichtelijk maken van het behandelresultaat bij groepen patiënten en vergelijken met een criterium of met andere instellingen, locaties, afdelingen of behandelaars. Inzicht in het effect van behandeling in de ggz is van belang voor de patiënten, voor de financiers van de zorg, en voor de zorgaanbieders zelf. Niemand is tegen zulke transparantie in de ggz, maar over de wijze waarop deze het best tot stand gebracht kan worden lopen de meningen uiteen. Alle patiënten of alle behandelingen over één kam te scheren doet de diversiteit en complexiteit van de ggz tekort. Ook de keuze van de meetinstrumenten om het behandelresultaat aan af te meten is verre van eenvoudig. In dit hoofdstuk worden de keuzes besproken en de werkwijze voorgesteld die door Stichting Benchmark ggz (sbg) is uitgewerkt. We sluiten het hoofdstuk af met een aantal kritische kanttekeningen en mogelijke valkuilen bij benchmarken.
Inleiding De geestelijke gezondheidszorg (ggz) staat onder toenemende druk om de kwaliteit van haar zorgverlening inzichtelijk te maken. Deze vraag om transparantie over de kwaliteit van de zorg komt van verschillende kanten, zoals van die van de patiënten, de overheid en zorgverzekeraars. Patiënten zijn mondiger geworden en willen als consumenten van de zorg weten waar zij het best terechtkunnen voor de behandeling van hun klachten. Patiëntenorganisaties als het Landelijk Platform ggz spelen een actieve rol bij initiatieven om de kwaliteit van zorg zichtbaar te maken. Bemoeienis van de overheid met de kwaliteit van zorg blijkt uit initiatieven als Zichtbare Zorg (ZiZo), die erop gericht zijn de presta-
Van weten naar meten A.indd 227
26-09-11 08:48
veran t woord e n
ties van de zorg zichtbaar en transparant te maken in maat en getal. Voor veel zorggebieden, waaronder de ggz, zijn prestatie-indicatoren opgesteld voor het ‘proces’ van de zorgverlening, zoals wachtlijstduur en negatieve incidenten, en ook voor de uitkomst of het effect van de zorg, bijvoorbeeld uitgedrukt in het percentage verbeterden van alle behandelde patiënten. Ook de zorgverzekeraars pleiten voor transparantie omtrent kwaliteit van zorg in de ggz. Als gevolg van de zorgverzekeringswet zijn sinds 2008 de zorgverzekeraars de voornaamste financiers van de ggz geworden. Alle curatieve zorg, hetgeen 90% van alle behandelingen in de ggz betreft en zo’n 60% van het totale ggz-budget, wordt door hen betaald. De andere 40% van de ggz-kosten vallen nog onder de Algemene Wet Bijzondere Ziektekosten (awbz), maar het is de bedoeling dat ook deze zorg door de zorgverzekeraars gefinancierd gaat worden. Verantwoorde inkoop door de verzekeraars impliceert een oog voor de kwaliteit van de geboden zorg, of een combinatie van kosten en kwaliteit: kosteneffectiviteit. Ten slotte heeft de ggz er zelf baat bij dat er meer transparantie ontstaat over de positieve resultaten die met behandelingen worden geboekt. In wetenschappelijk onderzoek is telkenmale aangetoond dat patiënten baat hebben bij behandeling en dat verergering van psychische klachten (en toename van ziektekosten) door behandeling voorkomen wordt. Beleidsmakers twijfelen echter nog steeds aan de effectiviteit van de zorgverlening in de ggz, en bij bezuinigingen op de gezondheidszorg wordt de ggz onevenredig belast. Dankzij Routine Outcome Monitoring (rom) zijn gegevens over de uitkomst van de behandeling op patiëntniveau beschikbaar. Het is mogelijk de gegevens op geaggregeerd niveau te analyseren en uitspraken te doen over het gemiddeld resultaat van behandelingen. De ggz beschikt zo over gegevens waarmee inzichtelijk gemaakt kan worden wat behandeling in de ggz vermag. Daarmee wordt ook benchmarken mogelijk. Voor dit doel is in 2011 sbg opgericht, op gezamenlijk initiatief van zorgverzekeraars en zorgaanbieders.
Benchmarken Wikipedia geeft de volgende definitie van benchmarken: ‘Een benchmark, vertaalbaar als “referentiekader” of “ijkingskader”, is een basis om de prestaties van verschillende systemen,
Van weten naar meten A.indd 228
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
apparaten of organisaties met elkaar te kunnen vergelijken. Benchmarking is een manier voor organisaties om van elkaar te leren, verantwoording af te leggen en toezicht te vergemakkelijken. De uitkomst van een benchmark is een soort maatgetal dat iets over de prestatie zegt.’ Bij benchmarken kan het gaan om vergelijken van de prestatie met een vastgestelde norm of standaard, de benchmark. In essentie is benchmarken leren van de ‘best practice’ van andere zorgaanbieders (Bayney, 2005; Camp & Tweet, 1994). De nadruk kan echter ook liggen op onderling vergelijken. Bij benchmarken is vergelijken niet een doel op zich, maar een middel om erachter te komen op welke onderdelen een instelling bovenmatig goed presteert. De daar toegepaste zorgprogramma’s en behandelingen verdienen nadere bestudering en wellicht export naar andere instellingen. Tevens kan door benchmarken duidelijk worden op welke gebieden de instelling onder het gemiddelde presteert. Daar is blijkbaar ruimte voor verbetering. Het benchmarkresultaat moet zo aanknopingspunten bieden om de eigen resultaten te verbeteren (Cleary, Hunt, Walter & Tong, 2010).
Hoe wordt de ‘prestatie’ van zorgverleners het best zichtbaar gemaakt? De kwaliteit van de zorg kan op verschillende manier onderzocht worden: je kunt vaststellen in hoeverre men behandelt volgens de ‘state of the art’ (bijvoorbeeld door zich te houden aan behandelrichtlijnen), of door het opleidingsniveau of de professionaliteit van behandelaars vast te stellen, hetgeen vaak een onderdeel is van certificering. Factoren die betrekking hebben op hoe men behandelt worden vaak procesindicatoren genoemd. Je kunt ook onderzoeken wat de opbrengst van de behandeling is of wat het de patiënt heeft opgeleverd aan gezondheidswinst. Daarvoor onderzoeken we de uitkomst van de behandeling, de outcome-indicatoren. Ten slotte kan je de patiënt vragen naar zijn of haar ervaring met de zorgaanbieder. Dit wordt vaak aangeduid als het patiëntenperspectief.
Behandeluitkomsten
In wetenschappelijk onderzoek naar de behandeling voor psychische klachten is de afgelopen decennia flink vooruitgang geboekt met het meetbaar maken van de uitkomst van zorg. Er zijn grofweg twee lijnen
Van weten naar meten A.indd 229
26-09-11 08:48
veran t woord e n
van therapie-effectonderzoek: gecontroleerd onderzoek naar de werkzaamheid van behandelingen en onderzoek naar hun effectiviteit. De werkzaamheid van een behandeling is aangetoond wanneer deze leidt tot een grotere afname van klachten/symptomen dan bij een controlegroep wordt geconstateerd. Feitelijk vormt dit soort onderzoeksuitkomsten de ‘evidence base’ onder de behandelingen van psychiaters en klinisch psychologen.
rom Een tweede lijn van evaluatie van behandeling in het ggz-veld is effectiviteitsonderzoek. In dit type onderzoek worden behandelingen geëvalueerd zoals ze uitgevoerd worden in de klinische praktijk (Westbrook & Kirk, 2005). Bij onderzoek naar de effectiviteit ligt de nadruk op de vraag hoe goed de behandeling presteert in de klinische praktijk van alledag. De laatste jaren heeft dit effectiviteitsonderzoek in de ggz vooral de vorm aangenomen van rom. De rest van dit boek is gewijd aan rom en hier staan we bij dit onderwerp verder niet uitgebreid stil. Wel is het belangrijk om de toepassing van rom in het bredere perspectief van uitkomstonderzoek te plaatsen. Het primaire doel van rom is om de behandelaar en patiënt te informeren over de voortgang van de behandeling. Maar het beschikbaar komen van rom-gegevens schept ook de mogelijkheid om te onderzoeken hoe effectief de behandeling is bij groepen patiënten, bijvoorbeeld alle patiënten van een instelling, van een afdeling of de caseload van een behandelaar. Dat is te beschouwen als effectiviteitsonderzoek. Met het beschikbaar komen van gegevens over het resultaat van de behandeling bij groepen patiënten middels rom, komt ook benchmarken in de ggz binnen bereik.
Benchmarken en rom vergeleken Benchmarken kan een goede aanvulling op rom vormen om zicht te krijgen op de uitkomst van behandelingen. Met rom kan de behandelaar de voortgang van een patiënt gedurende de behandeling volgen en de behandeling zo nodig bijtijds bijstellen. rom is de vinger aan de pols van de individuele patiënt. Benchmarken gaat daarentegen altijd over geaggregeerde gegevens en is in deze metafoor de vinger aan de pols bij een instelling of een afdeling. Wanneer een instelling rom goed op orde heeft, vormen de verzamelde gegevens een uitstekend uitgangspunt voor benchmarken. Benchmarken op basis van rom-
Van weten naar meten A.indd 230
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
gegevens, die in het kader van verbetering van het primaire proces toch al verzameld werden, genereert een schat aan informatie over de prestatie op geaggregeerd niveau en mogelijke verbetering in prestatie over tijd. rom en benchmarken kunnen samen leiden tot kwalitatief betere zorg: rom doordat sneller duidelijk wordt of een behandeling ‘aanslaat’ bij een individuele cliënt; benchmarken doordat duidelijk wordt hoe instellingen, afdelingen, of zelfs behandelaars presteren in vergelijking met een landelijk gemiddelde. Door na te gaan wat bovengemiddeld presterende afdelingen of behandelaars anders doen dan afdelingen of behandelaars die onder de benchmark scoren, zal duidelijk worden wat de essentiële factoren zijn die voor een betere behandeluitkomst zorgen. Terugkoppeling van benchmarkresultaten naar alle lagen van de organisatie (zowel management als de werkvloer) is essentieel voor een positief effect op de kwaliteit van de geleverde zorg (Bayney, 2005). Deze feedback van de bevindingen van benchmarken kan dan gebruikt worden om succesvolle behandelingen of programma’s te stimuleren en afdelingen of zorgprogramma’s waar ruimte voor verbetering is te detecteren. Uiteindelijk is inzichtelijk maken van kwaliteitsverschillen de beste stimulans om de kwaliteit van professionals en daarmee van de zorg te verhogen.
Valkuilen Benchmarken biedt kansen, maar er zijn ook gevaren. Onderzoek van het effect van behandeling in de ggz is geen eenvoudige opgave en een te simplistische benadering doet benchmarken meer kwaad dan goed. Instellingen of behandelaars zullen zich dan niet herkennen in de resultaten. Een ander gevaar is dat verantwoording afleggen de hoofddoelstelling van rom wordt in plaats van de eigenlijke doelstelling: het volgen van de voortgang van de behandeling bij individuele patiënten. Verder dient er consensus te komen over talloze keuzes die rondom benchmarken gemaakt moeten worden. Hoe kunnen we het beste het resultaat van de behandeling operationaliseren? Welke meetinstrumenten kunnen we het beste gebruiken? Wat zijn de optimale meetmomenten? Hoe kunnen we het best omgaan met verschillen in patiëntenpopulaties en verschillen in doelstellingen van behandelingen? In het consensus zoeken over voornoemde keuzes schuilt het gevaar dat keuzes uit de weg gegaan worden en dat alternatieve benaderingen naast elkaar blijven bestaan. Dit kan tot gevolg hebben dat benchmar-
Van weten naar meten A.indd 231
26-09-11 08:48
veran t woord e n
ken geen eenduidige bevindingen oplevert en we straks door de bomen het bos niet meer zien. Het adagium uit de ontwerperswereld ‘less is more’ is zeker ook op benchmarken van toepassing. Voor een eerlijke vergelijking van instellingen of afdelingen moet een aantal valkuilen vermeden worden. Benchmarkverschillen geven pas waarachtige verschillen in kwaliteit van zorg weer, wanneer we alternatieve verklaringen kunnen uitsluiten (Mant, 2001). Verschillen kunnen veroorzaakt worden door onvergelijkbare meetresultaten, onvergelijkbare patiëntengroepen of door toevallige fluctuaties. Voor een eerlijke vergelijking moeten deze alternatieve verklaringen uitgesloten worden. Er moet uniformiteit zijn in de uitkomstmaten en meetmethoden, er moet rekening worden gehouden met kenmerken van de patiënten en hun klachten of problemen, en de aangetroffen verschillen moeten groot genoeg zijn om toeval uit te kunnen sluiten.
Meetdomeinen
De prestatie die wordt geleverd in de ggz is op verschillende meetdomeinen te meten. Te denken valt aan klachten en symptomen (angst, zorgen, stemming, lichamelijke klachten, wanen), dagelijks functioneren (interpersoonlijk, huisvesting, werk of opleiding), gebruik van verslavende middelen, ervaren kwaliteit van leven, risico op recidive. Welke meetdomeinen het meest relevant zijn voor benchmarken, is afhankelijk van de aard van de psychiatrische problematiek en de doelstelling van de behandeling. Hierbij spelen inhoudelijke overwegingen een rol: bij ambulante curatieve zorg gaat het vooral om vermindering van de symptomatologie; voor zorg bij ernstige psychiatrische aandoeningen om verbetering op het gebied van functioneren of ervaren kwaliteit van leven; in de verslavingszorg is (controle over) het middelengebruik de belangrijkste uitkomst. Het meetdomein dat het best differentieert tussen behandelaars, afdelingen of instellingen verdient voor benchmarken uiteindelijk de voorkeur.
Vergelijkbaarheid van meetinstrumenten
In de ggz zijn veel verschillende meetinstrumenten in gebruik voor nauw verwante of zelfs identieke doeleinden. Om de ernst van de problematiek te meten worden in de curatieve ambulante zorg vaak symptoomlijsten zoals de scl-90 of de bsi gebruikt, maar er zijn ook meer recent ontwikkelde vragenlijsten, zoals de oq-45, de core-34 of de kkl. Veelgebruikte meetinstrumenten bij ernstige psychiatrische aandoeningen zijn de honos, de bprs en de can (Mulder et al., 2010).
Van weten naar meten A.indd 232
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
Het gebruikte meetinstrument heeft soms met traditie te maken. Indien behandelaars gewend zijn een bepaald meetinstrument te gebruiken, dan creëert de introductie van een nieuw instrument ongewenste barrières voor de implementatie van rom. Soms spelen inhoudelijke overwegingen, efficiëntie of financiële argumenten een rol bij de keuze van het meetinstrument. En de ontwikkelingen staan op dit gebied niet stil. We kunnen de komende jaren nieuwe meetinstrumenten verwachten, en nieuwe technieken om patiënten te bevragen. Het is dan ook niet wenselijk (of haalbaar) om voor benchmarken één algemeen toepasbaar meetinstrument aan te wijzen. Wel moeten we eisen stellen aan het meetinstrumentarium dat de basis vormt van de benchmark. Naast psychometrische kenmerken als betrouwbaarheid (levert herhaalde meting hetzelfde resultaat op?) en validiteit (meet het instrument wat het beoogt te meten?) is voor benchmarken de gevoeligheid voor verandering van groot belang. Indien aan deze drie voorwaarden is voldaan, kunnen scores op meetinstrumenten in elkaar worden vertaald of gestandaardiseerd in een gezamenlijke maat, zoals de T-score (De Beurs, 2010).
Meetmomenten
Een laatste aspect waarop bij het meten van behandeluitkomsten uniformiteit gevonden moet worden is de wijze waarop gegevens worden verzameld. Wanneer dient de meting voorafgaande aan de behandeling plaats te vinden? Voor, tijdens of na de intake? Op dit punt implementeren instellingen rom niet allemaal op dezelfde wijze, en de keuze van het meetmoment kan van invloed zijn op de grootte van het behandeleffect. Wanneer dient de uitkomst van de behandeling gemeten te worden? Na iedere zitting? Driemaandelijks? Jaarlijks? Op dit moment is ervoor gekozen te benchmarken op dbc-trajecten, wat impliceert dat er minimaal jaarlijks wordt gemeten. Dbc-trajecten zijn in de ggz echter vooral een onderdeel van het administratieve proces, dat bij veel behandelaars (nog) niet leeft en voor hen veraf staat van de dagelijkse klinische realiteit. De dbc-systematiek over de behandeling leggen biedt desalniettemin grote voordelen. Zo brengt het verschillen terug tussen behandelingen die zich over jaren uitstrekken en behandelingen die in een paar maanden worden afgerond. Ten tweede maken de dbc’s zorgkosten inzichtelijk, zodat in de toekomst het kostenaspect van de behandeling meegenomen kan worden als factor bij benchmarken en wellicht prestatiebekostiging mogelijk wordt.
Van weten naar meten A.indd 233
26-09-11 08:48
veran t woord e n
Verschillen in patiëntenpopulaties
Het is onzinnig om ten behoeve van benchmarken alle patiënten of alle behandelingen in de ggz over één kam te scheren. Iedere patiënt en iedere behandeling is uniek. Maar tegelijk kan die uniciteit niet een uitgangspunt zijn bij benchmarken. Dat gaat immers op basis van het gemiddeld behaalde effect bij groepen patiënten. Desalniettemin zijn klachtenreductie, afname van gedragsproblemen, remissie, abstinentie en risico op recidive onvergelijkbare uitkomsten (of appels en peren). Een werkbaar compromis tussen beide uitersten – alles over één kam scheren of volledige uniciteit – is om benchmarks te berekenen over homogene patiëntengroepen. We beschouwen een groep als homogeen wanneer de doelstelling van de behandeling gelijk is en/of wanneer het effect van de behandeling op dezelfde manier te meten valt. Het meest in het oog springend verschil tussen behandelingen in de ggz heeft alles te maken met de doelstelling: curatief of verzorgend, cure of care? Dit onderscheid valt gedeeltelijk samen met verschil in aard, ernst en chroniciteit van de psychiatrische aandoening en de daarbij passende behandeling (ambulant of opname/deeltijd). Bij veelvoorkomende psychiatrische aandoeningen, zoals angststoornissen en (milde vormen van) depressie, is het doel van de doorgaans ambulante behandeling om herstel te bereiken. Bij andere stoornissen, zoals psychotische en bipolaire stoornissen, vereist de behandeling vaak een opname en is volledige remissie van de symptomen meestal niet haalbaar. De doelstelling is dan eerder om passende verzorging te bieden en zorgbehoeften te vervullen. Naast het onderscheid in cure of care zijn ook verschillen in leeftijd (kinderen en adolescenten, volwassenen en ouderen) en verschillen in aard van het probleem dat op de voorgrond staat (psychische klachten, verslaving, criminaliteit) relevant. Om de verschillende patiëntenpopulaties onder te verdelen in homogene groepen kan het begrip zorgdomein gebruikt worden. De belangrijkste zorgdomeinen voor sbg zijn: kinderen en jeugdigen, volwassenen in curatieve zorg, volwassenen in chronische zorg, ouderen (gerontopsychiatrie en psychogeriatrie), verslaving curatief, verslaving care en zorg in een forensisch kader. Deze indeling sluit nauw aan bij de onderverdeling in circuits die vaak in de ggz gehanteerd wordt en bij de verschillende afdelingen in grote geïntegreerde instellingen.
Casemixcorrectie
Bij vergelijking van de prestatie van verschillende zorgaanbieders moeten we ook rekening houden met de aard of de ernst van de pati-
Van weten naar meten A.indd 234
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
ëntenpopulatie die behandeld wordt. In de ggz kunnen er flinke onderlinge verschillen zijn tussen zorgaanbieders in de doelgroepen die zij typisch behandelen. De uitkomst van de behandeling wordt mede bepaald door kenmerken van de patiënten, vanwege verschillen in behandelbaarheid tussen patiënten. Uit de onderzoeksliteratuur en de klinische praktijk weten we bijvoorbeeld dat patiënten met complexere problematiek, bijvoorbeeld in de vorm van veel comorbide (psycho) pathologie, moeilijker te behandelen zijn. Voor benchmarken moet daarom rekening gehouden worden met factoren als de ernst en/of complexiteit van de psychopathologie bij aanvang van de therapie en mogelijk relevante achtergrondvariabelen zoals het opleidingsniveau of de etniciteit van de patiënt (Adamson, Sellman, Frampton, 2009; Hamilton, 2002). Om deze verschillen in patiëntenpopulaties te benoemen wordt de term casemix gebruikt. Met casemixcorrectie kan gecorrigeerd worden voor factoren die van invloed zijn op de therapie-uitkomst. Een algemenere term hiervoor is ‘risk-adjusting of outcomes’ (Hermann, Rollins & Chan, 2007). Een probleem bij casemixcorrectie in de ggz is dat we vooralsnog niet weten welke variabelen prognostische waarde hebben voor het therapie-effect en wat hun gewicht zou moeten zijn om hiervoor op de juiste manier te corrigeren. Een alternatieve benadering om toch nu al rekening te houden met casemixvariabelen is om per homogene subgroep van patiënten een benchmark te bepalen (‘casemix grouping’; vgl. Sanderson, 1997). Zo ontstaan dan richtwaarden voor patiënten met bepaalde stoornissen, met gemeenschappelijke eigenschappen, zoals etnische achtergrond of één of meerdere (comorbide) stoornissen. Stel dat een zorgaanbieder de hypothese heeft dat het gemiddelde resultaat van zijn instelling gedrukt wordt door een overmaat aan patiënten met comorbide persoonlijkheidspathologie als nevendiagnose. Door binnen de totale patiëntengroep van de instelling te filteren op deze variabele en de resultaten te vergelijken met de landelijke uitkomst die is behaald bij patiënten met comorbide persoonlijkheidspathologie, komt een eerlijke vergelijking tot stand en kunnen we benchmarken én tegelijk recht doen aan de specifieke casemix van de instelling.
Toeval
Wanneer patiëntenpopulaties vergelijkbaar zijn geworden door casemixcorrectie of subgroepselectie, en uniformiteit in uitkomstmaten is gevonden, dienen toevallige fluctuaties in uitkomst nog uitgeslo-
Van weten naar meten A.indd 235
26-09-11 08:48
veran t woord e n
ten te worden. Hier helpt de statistiek. Met statistische toetsen kan vastgesteld worden hoe groot de kans is dat een verschil in gemiddelde op toeval berust. We stellen die kans meestal op kleiner van 5%. Ook willen we de kans dat we ten onrechte concluderen dat er geen verschil is, niet te groot laten zijn. Daar zijn vooral voldoende observaties (behandelingen) voor nodig, en dit aantal wordt vastgesteld met een poweranalyse. Een statistische analyse of een poweranalyse is niet zomaar gedaan voor elke vergelijking, maar er zijn andere hulpmiddelen om inzichtelijk te maken of verschillen in gemiddelde uitkomst betekenisvol zijn. Gemiddelde uitkomsten kunnen we van een betrouwbaarheidsinterval voorzien (zouden we de observatie honderd keer herhalen, dan zal in 95% van de gevallen de bevinding binnen de grenzen van het 95%-betrouwbaarheidsinterval terechtkomen). Het betrouwbaarheidsinterval wordt breder (en de observatie minder precies) naarmate de gemiddelde uitkomst op minder behandelingen is gebaseerd. Om deze reden is het vergelijken van de uitkomst bij caseloads van behandelaars veel lastiger dan het onderling vergelijken van afdelingen of hele instellingen.
Andere nog openstaande punten Verschilscore of categoriale uitkomst
Hoe kunnen we ten behoeve van benchmarken het gemiddelde resultaat van behandelingen optimaal zichtbaar maken? Ten eerste kan men de uitkomst uitdrukken in de gemiddelde hoeveelheid vooruitgang die met de behandelingen geboekt is door de voormetingsscore te vergelijken met de nametingsscore. Zo gaat men te werk bij wetenschappelijk therapie-uitkomstonderzoek. Het gemiddelde verschil geeft aan wat is bereikt bij een groep patiënten. Het verschil tussen pre en post geeft een uitkomst op een continue schaal: iemand die tien punten verbeterd is, is meer verbeterd dan iemand met vijf punten klachtenvermindering. We kunnen dit verschil standaardiseren door het uit te drukken in een effectmaat zoals Cohens d (het gestandaardiseerde verschil), waarmee het bereikte effect vergelijkbaar wordt met resultaten die in de wetenschappelijke literatuur worden gehanteerd. Ten tweede kan men de informatie over het effect van de behandeling terugbrengen tot een categoriale uitkomst: herstel, verbetering, geen verandering, verslechtering, enzovoort. Zo’n categorisering van uitkomsten maakt het bijvoorbeeld mogelijk om de prestatie van een instelling of afdeling uit te drukken in het percentage verbeterde pa-
Van weten naar meten A.indd 236
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
tiënten. In de onderzoeksliteratuur zijn criteria voorgesteld voor statistisch betrouwbare verandering en klinisch significante verbetering (Jacobson & Truax, 1991). De prestatie van een instelling uitdrukken in het percentage verbeterde of herstelde patiënten maakt weliswaar een heldere en direct aansprekende presentatie van resultaten mogelijk, maar impliceert ook een reductie van informatie. Een continue variabele wordt immers teruggebracht tot een categoriale. Hierdoor kunnen we een te grof beeld krijgen en aanwezige verschillen over het hoofd zien. Uit onderzoek blijkt dat beide methoden tot vergelijkbare resultaten leiden, maar er zijn ook verschillen, en ze kunnen niet zomaar door elkaar heen gebruikt worden (Cuijpers, Smit, Hollon & Andersson, 2010). Beide vormen van presenteren van benchmarkresultaten dienen zorgvuldig met elkaar te worden vergeleken op zeggingskracht en validiteit van de conclusies.
Perverse prikkels
Van benchmarken zou de prikkel uit moeten gaan om betere zorgprestaties en dus betere uitkomsten van de behandeling te realiseren. We moeten daarbij wel oppassen dat er geen perverse prikkels ontstaan. Met perverse prikkels wordt het effect aangeduid dat maatregelen ongewenst gedrag kunnen stimuleren, zoals politieagenten belonen voor het aantal uitgeschreven bonnen. Of, dichter bij huis, patiënten net iets langer behandelen dan noodzakelijk is, waardoor een duurdere dbctariefgroep gedeclareerd kan worden. Ten aanzien van benchmarken op behandelresultaat wordt wel als potentieel negatief effect genoemd dat instellingen erdoor gemotiveerd raken om patiënten met een slechte prognose de deur te wijzen. Zij zouden immers de gemiddelde prestatie van de instelling kunnen verlagen. Casemixcorrectie kan dit effect mogelijk tegengaan. Of van benchmarken op resultaat daadwerkelijk dergelijke perverse prikkels uitgaan, zal in de praktijk moeten blijken.
Selectiebias
Uitgangspunt bij rom is dat men ernaar streeft om alle patiënten te meten. In de realiteit zal rom niet bij alle patiënten mogelijk zijn. Niet iedereen is bereid rondom de behandeling vragenlijsten in te vullen. Andere patiënten zijn niet in staat tot participeren in rom (taalbarrières, ernst van de psychopathologie). Weer anderen haken in de loop van het rom-traject af. In 2010 is tussen Zorgverzekeraars Nederland en ggz Nederland een ambitieus groeitraject afgesproken om de romrespons jaarlijks met 10% te verhogen. De verwachting is dat uitein-
Van weten naar meten A.indd 237
26-09-11 08:48
veran t woord e n
delijk bij zo’n 80% van alle behandelingen in de ggz voormetingen gerealiseerd zullen kunnen worden, en bij 80% daarvan ook nametingen. Samen levert dat 64% evalueerbare behandelingen op. Voor de validiteit van de benchmark is het van groot belang dat deze 64% niet systematisch verschilt van de 36% niet-gemeten behandelingen. Selectie van rom-respondenten (bijvoorbeeld alleen nameten van succesvol afgesloten behandelingen) kan ongewenste vertekening van de resultaten opleveren. Twee ontwikkelingen maken het echter onwaarschijnlijk dat instellingen hun behandelresultaten ‘oppoetsen’ door selectief te gaan meten. Ten eerste is de primaire doelstelling van romgegevens verzamelen het ondersteunen van de individuele behandeling en het leren van het resultaat; vergelijken en verantwoorden zijn een secundair doel. Ten tweede zijn veel zorgaanbieders nog maar net begonnen met het implementeren van rom, en in deze instellingen dient nog een meetcultuur tot stand te komen. De komende jaren zullen in het teken staan van het verhogen van de rom-respons volgens het afgesproken groeimodel. Patiënten niet nameten omdat hun resultaten het gemiddelde naar beneden zouden kunnen trekken, staat daar haaks op. De timing van ontwikkelingen rond de benchmarken in Nederland is gelukkig. Het is zaak nu eerst een zo hoog mogelijke respons op rom realiseren en instellingen op hun rom-respons te vergelijken. Dit biedt de gelegenheid om eerst ervaring op te doen met onderlinge vergelijking op hoe volledig er gemeten wordt rond de behandeling. Dit is een concreet en minder controversieel aspect om onderlinge vergelijking op aan te gaan dan de uitkomst van de behandeling. De komende jaren zullen een gestage groei van de rom-respons te zien geven, en de verzamelde gegevens maken een eerste blik op behandelresultaten mogelijk. Wanneer de rom-respons op het verwachte peil is, is ook ervaring opgedaan met vergelijking van het behandelresultaat en kan wellicht consensus bereikt worden over controverses met betrekking tot het vaststellen van de uitkomst van de behandeling op basis van empirische data in plaats van op basis van opinies.
Tot slot We staan in Nederland aan de vooravond van een unieke ontwikkeling die in de wereld zijn weerga niet kent: er wordt een serieuze poging gedaan om transparantie te scheppen over de prestaties van de ggz op basis van de uitkomst van de behandeling. Het is dan ook
Van weten naar meten A.indd 238
26-09-11 08:48
hoo f ds t u kt it e l h o o f ds t u kt it e l
niet verbazend dat na de lancering van de plannen voor een landelijke benchmark er een levendige discussie is losgebrand over de (on) wenselijkheid en (on)mogelijkheid van benchmarken (zie bijvoorbeeld Mulder, 2010; Delespaul, 2010; Kooiman & Klaassens, 2010; Van Oenen, 2011). Is het eigenlijk mogelijk om de prestaties van de ggz inzichtelijk maken aan de hand van de gemiddelde uitkomst van behandelingen? Iedereen kan zich wel een patiënt voor de geest halen waarbij deze methode schipbreuk lijdt. Ook kan iedereen omstandigheden bedenken waaronder de vergelijking tussen afdelingen in een instelling, of de vergelijking van een instelling met het landelijk gemiddelde, op het eerste gezicht ‘unfair’ is. Er is nog veel uit te denken en te ontwikkelen, en niet alle problemen rondom benchmarken zijn nu al opgelost. Zo moeten bijvoorbeeld voor een aantal specifieke deelgebieden in de ggz nog relevante uitkomstvariabelen gekozen worden. En bij de forensische psychiatrie is de keuze van de juiste uitkomstmaat ingewikkelder dan bij zorg aan volwassenen met angst- of stemmingsstoornissen. Valkuilen zoals moedwillige vertekening van resultaten of perverse prikkels die mogelijk van benchmarken uitgaan moeten omzeild worden. Uiteindelijk zal de tijd leren of de onderlinge vergelijking betekenisvolle verschillen aan het licht brengt en of instellingen, afdelingen of behandelaars zich herkennen in de resultaten die deze onderlinge vergelijking oplevert. De doelstelling van benchmarken is niet om instellingen af te rekenen op hun prestaties. Het doel van benchmarken is net als bij rom om de kwaliteit van de zorg te verbeteren door lering te trekken uit de gegevens die zo beschikbaar komen. Wanneer er inzicht is in behandeleffectiviteit en er verschillen aan het licht treden kunnen we op zoek gaan naar mogelijke verklaringen voor die verschillen. Ligt het aan de casemix van de instelling? En wat is dan bijzonder in die casemix? Achtergrondvariabelen van de clientèle, complexe problematiek, regionale verschillen in het land? Of ligt het aan het opleidingsniveau van het personeel? Is er wellicht sprake van een gebrekkige toepassing van richtlijnen of zorgprogramma’s? De zoektocht naar verklaringen gaat op zijn minst hypotheses opleveren die, na toetsing in gecontroleerd onderzoek, nieuwe kennis, betere behandelingen en een betere afstemming van zorgvraag en zorgaanbod opleveren en zo uiteindelijk leiden tot effectievere en doelmatigere zorg. En daar zullen zowel behandelaars als patiënten in de ggz bij gebaat zijn.
Van weten naar meten A.indd 239
26-09-11 08:48