Routine Outcome Monitoring
Edwin de Beurs en Paul Emmelkamp
4.1
4
Inleiding
In een boek over mislukkingen in de psychotherapie mag een beschrijving van Routine Outcome Monitoring (rom) niet ontbreken. rom wordt vaak beschouwd als een nieuwe ontwikkeling in de geestelijke gezondheidszorg (ggz) om op een gestandaardiseerde manier meetinstrumenten te gebruiken als hulpmiddel bij de behandeling. Maar dit is slechts ten dele waar. Reeds in de vorige eeuw werd in (cognitief-)gedragstherapeutische kringen gewezen op het belang van herhaald meten bij behandelingen (Calhoun & Resick, 1993; Emmelkamp, 1981). Dit gebeurde vaak, maar niet uitsluitend, bij gecontroleerde casestudies, waarbij systematisch elementen van de behandeling gevarieerd werden en de voortgang van de patiënt systematisch gemonitord werd. Kernelement van de rom-methodiek is dat de therapeut (en soms de patiënt) van feedback wordt voorzien over de voortgang die geboekt wordt met de behandeling. rom is zo een van de manieren om tijdig te detecteren of een behandeling op koers ligt of dreigt te mislukken. We zullen verschillende varianten van rom bespreken en de meetinstrumenten beschrijven die u voor dit doel kunt inzetten. De meetresultaten kunnen helpen om vroegtijdig te signaleren dat een behandeling niet volgens plan verloopt of niet het verwachtte effect heeft. Meten om de aard of ernst van de problematiek in kaart te brengen is in de klinische psychologie en de psychiatrie dus niet nieuw. Sinds jaar en dag worden zelfrapportagevragenlijsten, gestructureerde interviews en beoordelingsschalen gebruikt voorafgaande aan de behandeling als hulpmiddel om tot een behandelplan te komen, en tijdens en na de behandeling om de uitkomst van de behandeling vast te stellen. Nieuw is wel de brede en meer gestandaardiseerde benadering van meten die de laatste jaren tot ontwikkeling is gekomen in de ggz. rom staat in Nederland sterk in de belangstelling getuige twee boeken (Buwalda et al., 2011; Van Hees et al., 2011) en een themanummer in het Tijdschrift voor Psychiatrie (februari 2012). rom heeft in de eerste plaats zo’n vlucht kunnen nemen doordat in toenemende mate betrouwbare en valide meetinstrumenten voor allerlei aandoeningen beschikbaar zijn gekomen. Door de toepassing van de computer en het internet om gegevens te verwerven, vragenlijstscores te bepalen en de resultaten te interpreteren werd rom gemakkelijker inzetbaar. Deze ontwikkeling past in een internationale trend. Ook in het buitenland zien we een groei in de toepassing van gestandaardiseerde meetinstrumenten om therapie-effecten te meten. Zo is in Groot-Brittannië bij wet geregeld dat de uitkomst van de behandeling wordt gemonitord met de Health of Nations Outcome Scales (honos; Wing et al, 1999). Australië en Nieuw-Zeeland volgen dit voorbeeld van het gebruik van de honos. Bij de mildere aandoeningen wordt in Engeland de core-om veel gebruikt (Barkham et al., 2005). In de Verenigde Staten wordt bij patiënten in de ambulante curatieve zorg veel gebruikgemaakt van de oq-45 (Lambert et al, 1996). Ook is duidelijk geworden dat rom de behandeling kan ondersteunen en er zo een verhoging van de kwaliteit van de zorg kan worden gerealiseerd (Lambert, 2007; Lambert, 2013; Knaub et al., 2009 Carlier et al., 2012). Ten slotte heeft de wens om transparant te zijn over het bereikte resultaat van behandeling (benchmarking) en verantwoording af te leggen voor 69
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 69
01-09-13 15:01
bestede gelden in de gezondheidszorg de ggz-brede inzet van rom in Nederland gestimuleerd. De ggz heeft zich ten doel gesteld om het imago van een black box af te schudden om zich zo minder kwetsbaar te maken voor kostenbewuste zorgverzekeraars en de overheid. In dit hoofdstuk zullen we rom beschrijven, waarbij verschillende varianten aan bod komen met elk hun voor- en nadelen, zodat een therapeut een afgewogen keuze kan maken uit het gevarieerde aanbod van methodieken. We zullen bovendien kort verschillende typen meetinstrumenten bespreken die toegepast kunnen worden in rom.
4.2
rom gedefinieerd
rom staat voor Routine Outcome Monitoring. Routine verwijst naar het feit dat rom een reguliere of routinematige activiteit is die bij iedere behandeling wordt toegepast, een integraal onderdeel van de behandeling uitmaakt en zo ook is opgenomen in de richtlijnen voor de behandeling. Outcome betekent dat rom is gericht op het meten van de uitkomst van de behandeling. De uitkomst kan betrekking hebben op de symptomatologie van de aandoening (gemeten met klachtenlijsten zoals de scl-90), maar men kan ook breder kijken naar bijvoorbeeld het niveau van functioneren (werk, opleiding, relationeel) of naar de ervaren kwaliteit van leven (lichamelijk, sociaal en emotioneel). Ten slotte staat Monitoring voor het feit dat het een activiteit is die voortdurend herhaald wordt, vergelijkbaar met het dagelijks bepalen van de lichaamstemperatuur bij patiënten die in het ziekenhuis verblijven. Drie betekenissen van rom In de onderzoeksliteratuur komen we voor de ‘M’ in het acroniem rom drie betekenissen tegen: measurement, monitoring en management. rom wordt vrijelijk door elkaar gebruikt voor deze drie begrippen, maar er zitten duidelijke verschillen in betekenis en doelstelling achter. Routine Outcome Monitoring houdt in dat gedurende de behandeling periodiek de ernst van de klachten of het niveau van functioneren wordt vastgesteld en de gegevens teruggeleid worden naar de therapeut, die zo in staat gesteld wordt de patiënt in de gaten te houden. De aldus verkregen tussentijdse resultaten worden gebruikt ter ondersteuning van klinische beslissingen in de behandeling (De Beurs & Zitman, 2007). rom maakt nieuwe ontwikkelingen mogelijk. Zo heeft de groep van Lambert software ontwikkeld die op basis van de voormetingsscore een traject van verbetering voorspelt. De software signaleert of de meetgegevens een afname van de klachten en een verbetering in het functioneren laten zien, die in overeenstemming zijn met wat te verwachten was gezien het aanvangsniveau. Zo wordt bepaald of de behandeling wel of niet goed op koers (on track) ligt. Wanneer meetresultaten uitwijzen dat patiënten van de koers afwijken (not on track), ontvangt de therapeut een waarschuwing van het rom-systeem (Lambert, 2007). Deze vorm van rom gaat vaak gepaard met sessiegewijs meten (Miller & Duncan, 2004). De nadruk in dit hoofdstuk zal op Routine Outcome Monitoring liggen. Routine Outcome Measurement betekent vooral de uitkomst of het eindresultaat van de behandeling meten (Hoogduin, 2011). Hiervoor volstaat een eindmeting aan het einde van de behandeling, maar meestal wordt ook een voormeting verricht om het aanvangsniveau vast te leggen. Het verschil tussen beide metingen geeft de verandering in symptomen, klachten of functioneren over de tijd weer die ten dele is toe te schrijven aan de behandeling. Ten dele, omdat ook andere factoren dan de therapeutische inspanningen van de therapeut kunnen
70
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 70
Algemeen
01-09-13 15:01
hebben bijgedragen aan een verschil tussen begin- en eindmeting (spontane fluctuaties in klachten, veranderingen in de persoonlijke omstandigheden van de patiënt et cetera). Ten slotte heeft Routine Outcome Management (Ellwood, 1988) betrekking op het door leidinggevenden verzamelen van geaggregeerde uitkomstgegevens, er lering uit te trekken en waar mogelijk te gebruiken als stuurinformatie. Zo kan bijvoorbeeld duidelijk worden dat de resultaten van een behandeling bij bepaalde patiëntengroepen achterblijven bij wat men gemiddeld gesproken zou kunnen verwachten. Of er kan aan het licht komen dat een afdeling, locatie of instelling juist bovengemiddeld effectief is in het behandelen van een bepaalde doelgroep. Ook het verantwoording afleggen aan de buitenwereld over wat de ggz vermag is een doelstelling van Routine Outcome Management. In dit hoofdstuk zullen de laatste twee betekenissen van rom niet uitgebreid aan de orde komen. De geïnteresseerde lezer verwijzen we graag naar Hoogduin (2011) of de website van de Stichting Benchmark ggz (‘Postion paper sbg’ op www.sbggz.nl).
4.3
Historie
Wetenschappelijk onderzoek naar het effect van een behandeling voor psychische klachten wordt bij voorkeur uitgevoerd door middel van gerandomiseerde gecontroleerde onderzoeken (rct’s). Door het lot worden patiënten aan een experimentele conditie (een psychologische behandeling of een medicament) of een controleconditie (een placebo of een wachtlijstgroep) toebedeeld en de uitkomsten van beide condities worden vergeleken om te onderzoeken of de experimentele behandeling beter werkt dan de controlebehandeling. Dit type onderzoek is geschikt om de werkzaamheid (efficacy) van een behandeling aan te tonen. Bij dergelijke onderzoeken wordt geprobeerd optimale omstandigheden te creëren, zodat het verschil tussen beide condities is toe te schrijven aan de experimentele manipulatie (het middel of de behandeling) en alternatieve verklaringen voor het verschil tussen beide condities zijn uit te sluiten. Dit noemen we de interne validiteit van het onderzoek rct’s hebben de klinische psychologie en psychiatrie veel gebracht. In het ruime aanbod van psychotherapeutische behandelingen is een begin gemaakt met het scheiden van het kaf van het koren. Richtlijnen voor evidence-based behandelen zijn ontwikkeld en standaardisatie van behandeling is bereikt middels protocollen die voortkwamen uit rct’s. De protocollen voor evidence-based behandelingen hebben hun weg gevonden naar de klinische praktijk (Braet & Bögels, 2008; Keijsers et al., 2011), hoewel er wel enige zorgen zijn over de generaliseerbaarheid naar de klinische praktijk, de zogenoemde externe validiteit. Om de interne validiteit van een onderzoeksbevinding te borgen, worden aan het onderzoeksdesign zekere eisen gesteld, zoals gerandomiseerde toewijzing van patiënten aan behandelcondities, geprotocolleerde behandelingen, heldere inclusie- en exclusiecriteria voor patiënten die deelnemen aan het onderzoek, gebruik van betrouwbare en valide meetinstrumenten om de uitkomst van de behandeling vast te stellen en het blind houden voor de behandelconditie van alle betrokkenen (patiënt, therapeut en onderzoeker). Het onderzoek naar de werkzaamheid van behandelingen vindt doorgaans aan universiteiten en/of academische instellingen plaats en is om meerdere redenen niet zonder meer generaliseerbaar naar de dagelijkse praktijk. Sinds enige jaren ligt er bij het onderzoek naar de evaluatie van behandelingen in het ggz-veld meer nadruk op effectiviteitsonderzoek of uitkomstenonderzoek. Bij onderzoek naar de effectiviteit ligt de nadruk meer op de externe validiteit van de onderzoeksbevindingen. Dit type onderzoek richt zich vooral op de vraag hoe goed de behandeling presteert onder de minder gecontroleerde omstandigheden van Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 71
71
01-09-13 15:01
de praktijk van alledag. Resultaten van effectiviteitsonderzoek in de klinische praktijk laten over het algemeen positieve resultaten voor psychologische behandelingen zien, maar de effecten zijn doorgaans iets minder gunstig dan in efficacy trials (Emmelkamp, 2011). Dit kan liggen aan het gegeven dat de modale patiënt in de klinische praktijk complexer is dan de patiënten in de efficacy trials, maar het kan ook liggen aan het feit dat therapeuten zich in de klinische praktijk minder goed aan de protocollen houden en in het algemeen minder gesuperviseerd en slordiger werken.(Powers & Emmelkamp, 2009). Vanwege de onvrede met de externe validiteit van rct’s is een tweede type therapie-effectonderzoek opgekomen: observationeel cohortonderzoek, ook wel onderzoek naar effectiveness genoemd. Hierbij wordt de uitkomst van de behandeling met dezelfde meetinstrumenten gemeten, maar worden een aantal van de strenge controles van rct’s losgelaten. Met dit type onderzoek wordt een groep patiënten over de tijd gevolgd en worden behandelingen geëvalueerd zoals ze worden toegepast in de klinische werkelijkheid bij patiënten die zo veel mogelijk overeenstemmen met patiënten zoals ze zich presenteren in de werkelijkheid van alledag. De interne validiteit van het onderzoek neemt dan weliswaar af, maar de zeggingskracht van de bevindingen voor de klinische werkelijkheid neemt toe. De opkomst van observationeel onderzoek heeft ook een direct effect gehad op hoe we psychische problemen behandelen. Systematisch gegevens verzamelen over de uitkomst van een behandeling, in combinatie met de nieuwe mogelijkheden die ict biedt, maken het mogelijk resultaten direct terug te koppelen aan de therapeut en de patiënt. Er kan zo direct feedback geboden worden over het beloop van de behandeling. Men noemt dit ook wel patient-focused behandelen (Lambert & Ogles, 2004). Doel hiervan is de uitkomst van de behandeling te verbeteren door tijdig te signaleren dat de behandeling dreigt te mislukken. Hier komen we later nog op terug.
4.4 Waarom meten? Waarom eigenlijk meten met vragenlijsten en beoordelingsschalen wanneer men zo zou kunnen zien hoe het een patiënt vergaat? Clinici blijken echter hun eigen vaardigheid om tot een juist en betrouwbaar klinisch oordeel te komen te overschatten (Mohr, 1995). Dit is deels terug te voeren op een onderschatting van de complexiteit van de taak om tot een juist klinisch oordeel te komen. Voor een goed gewogen oordeel moet men meerdere aspecten tegelijk (en in hun onderlinge samenhang) in ogenschouw nemen. Daarmee lopen we tegen een algemeen menselijke beperking aan: volgens de wet van Miller is het maximum dat ons werkgeheugen aan kan ongeveer zeven aspecten (Miller, 1956). Met een reeks klassiek geworden experimenten, ook al meer dan vijftig jaar geleden uitgevoerd, toonde Meehl de beperkingen van het klinisch oordeel aan (Meehl, 1954; Dawes et al., 1989). De combinatie van informatie volgens formele (statistische) regels leidt consequent tot een betere beoordeling dan een weging van dezelfde informatie ‘in het hoofd’ van een clinicus. Het zelfbeeld van de psycholoog of psychiater en het idee van de eigen professionaliteit verhoudt zich echter slecht met de constatering dat het klinisch oordeel het aflegt tegen een checklist of gestandaardiseerd meetinstrument. Een dergelijke overschatting van eigen vermogens is al bekritiseerd in de forensische psychiatrie (Ziskin, 1995), maar geldt onverkort ook voor de klinische psychologie en de psychiatrie (Kazdin, 2008). Beoordelen hoe de patiënt reageert op de behandeling is dus veel lastiger dan therapeuten doorgaans denken. Daar komt nog bij dat therapeuten geneigd zijn zichzelf als beter dan hun collega’s te beschouwen: mislukkingen komen toch vooral bij collega’s voor (Walfish et al., 2012). Zelden wordt in de klinische praktijk gerapporteerd dat patiënten verslechteren 72
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 72
Algemeen
01-09-13 15:01
(Hatfield et al., 2010). Een onderzoek van Hannan et al. (2005) is wat dit betreft zeer verhelderend. In een steekproef van 550 patiënten verslechterden 40 patiënten. Deze verslechtering werd slechts bij één patiënt door de therapeut voorspeld. Met zelfreport data (oq-45) bleek de verslechtering in 36 van de 40 gevallen wel goed te voorspellen. Kortom, de uitkomsten van gestandaardiseerde meetinstrumenten zijn superieur aan het klinisch oordeel.
4.5
Soorten meetinstrumenten
Meetinstrumenten zijn onder te verdelen in verschillende types op basis van de gebruikte methode, zoals zelf-rapportage, beoordeling door een deskundige of een gestructureerd interview. 4.5.1 Hoe meten? Om de ernst van een aandoening te meten wordt meestal gebruikgemaakt van vragenlijsten of checklists die de patiënt zelf kan invullen. Dit is een efficiënte methode die weinig tijd vraagt van de therapeut. Er zijn voor allerlei aandoeningen vragenlijsten ontwikkeld en onderzocht op betrouwbaarheid (interne consistentie en test-hertestbetrouwbaarheid) en validiteit (wordt het bedoelde concept daadwerkelijk gemeten). In het themanummer ‘Meetinstrumenten’ van het Tijdschrift voor Psychiatrie (2005) wordt een overzicht gegeven van meetinstrumenten voor verschillende diagnostische groepen. Zelfrapportagevragenlijsten en checklists/Computer Adaptive Testing(CAT) Steeds vaker wordt gebruikgemaakt van het internet om meetinstrumenten voor zelfrapportage af te nemen. Dit heeft een nieuwe ontwikkeling op het gebied van zelfrapportage mogelijk gemaakt: Computer Adaptive Testing of cat (Van der Linden & Glas, 2000). Deze methodiek is gebaseerd op de Item Respons Theorie (Embretson & Reise, 2000). Met cat kunnen gegevens op een veel efficiëntere wijze worden verzameld door alleen vragen voor te leggen die relevant zijn gegeven het niveau van de ernst van de problematiek van de respondent. De eerste vraag is passend bij een respondent met een problematiek van gemiddelde ernst. De vervolgvragen worden door de computer gekozen op basis van eerder gegeven antwoorden. De computer blijft vragen aanbieden tot een vooraf ingesteld niveau van meetnauwkeurigheid is bereikt. Doorgaans wordt zo een concept, bijvoorbeeld angst, depressie of boosheid, met zes tot acht vragen voldoende nauwkeurig bepaald, terwijl bij de conventionele benadering met een zelfrapportagelijst de respondent wel twintig tot dertig items zou moeten beantwoorden. In de vs is de afgelopen tien jaar met steun van de federale overheid gewerkt aan het tot stand brengen van cat-modules voor het meten van concepten die voor de evaluatie van de gezondheidszorg relevant zijn (zie: www.promis.org). Voor de ggz zijn dat depressie, angst en boosheid. Deze meetinstrumenten zijn ook in de DSM-5 opgenomen (apa, 2013). Op dit moment wordt in Nederland de vertaling en het kalibreren van de Nederlandse versies ter hand genomen. De komende jaren zullen er meer cat-modules beschikbaar komen voor het meten van concepten die voor de gezondheidszorg relevant zijn. Beoordelingsschalen Beoordelingsschalen worden bij voorkeur ingezet wanneer de patiënt niet in staat is tot zelfrapportage over de klachten. Het meest gebruikte beoordelingsinstrument in de ggz is de Health of Nation Outcome Scale (honos; Wing, 1998). De honos brengt het functioneren in kaart op twaalf probleemgebieden, zoals hyperactief gedrag, middelengebruik, lichamelijke problemen, depressie, relaties en huisvesting. Het instrument wordt vooral toegepast bij Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 73
73
01-09-13 15:01
patiënten met ernstige psychiatrische aandoeningen, zoals een psychotische of een bipolaire stoornis. De verschillende scoremogelijkheden op de onderwerpen zijn uitgebreid omschreven in een instructie. Voor betrouwbare resultaten is een training in de afname van het instrument vereist (Mulder et al., 2004). Zelfrapportage versus beoordelingsschaal Zelfrapportagelijsten maken het de therapeut makkelijk: de patiënt doet immers het werk. Bij de meest voorkomende aandoeningen, zoals depressie en angststoornissen, zijn patiënten goed in staat zelf een vragenlijst in te vullen en geven deze instrumenten een valide beeld van de ernst van de aandoening, het niveau van het functioneren of de ervaren kwaliteit van leven. Wanneer een patiënt niet in staat is tot een betrouwbare zelfrapportage, zoals het geval kan zijn bij psychotische stoornissen, verdient een beoordelingsschaal de voorkeur. Deze wordt bij voorkeur ingevuld door een onafhankelijk beoordelaar die goed getraind is in de toepassing van het instrument. Deze schaal wordt afgenomen aan de hand van een kort interview met de patiënt. Zo’n beoordelaar is in de klinische praktijk vaak niet beschikbaar. In dergelijke situaties zal de therapeut de meting zelf moeten uitvoeren. Daar kleven bezwaren aan. Hiervoor werd al vermeld dat de betrouwbaarheid van het klinisch oordeel van de therapeut wordt overschat en erger, dat gebeurt vooral door hemzelf. Naast onbetrouwbaarheid valt te vrezen dat een therapeut die zijn eigen behandeling evalueert, een te zonnige kijk op de bereikte uitkomst heeft. Semigestructureerde klinische interviews Voor het betrouwbaar vaststellen van diagnosen op As I en As II van de dsm-5 (apa, 2013) zijn meetinstrumenten ontwikkeld. Dit zijn uitgeschreven interviews waarbij systematisch alle criteria (symptomen) van een aandoening worden uitgevraagd. De diagnose op de eerste as kan vastgesteld worden met diagnostische interviews, zoals de scid (First et al., 1997) en de mini-plus (Sheehan et al., 1998). Voor de diagnose op As II is er de scid-II (First et al., 1997) of de sidp-iv (Pfohl et al., 1995). Diagnostische interviews worden doorgaans eenmalig afgenomen tijdens de intake van de patiënt. Ze zijn bedoeld om op een betrouwbare manier tot een dsm-5-classificatie te komen en kunnen van dienst zijn bij de selectie van vervolginstrumenten om de ernst van de aandoening te meten. Ze zijn door hun omvang niet geschikt om regelmatig gedurende de behandeling te worden afgenomen. Doorgaans wordt ook de behandeluitkomst niet afgemeten aan de diagnostische status van de patiënt. 4.5.2 Wat meten? Naast de onderverdeling naar meetmethode is ook een onderverdeling te maken naar reikwijdte van het meetinstrument of het toepassingsgebied dat een meetinstrument bestrijkt. Generiek en stoornisspecifiek meten Bij de keuze van instrumenten voor rom is het onderscheid tussen stoornisspecifieke en generieke instrumenten relevant. Stoornisspecifieke instrumenten zijn geschikt voor een beperkte doelgroep van patiënten. Voorbeelden zijn de Eating Disorders Inventory (edi-ii; Garner, 1991) voor eetstoornissen, de Checklist Individual Strenght (cis; Vercoulen et al, 1994) voor chronisch vermoeidheid, of de Borderline Personality Disorders Severity Index (bpdsi; Arntz et al., 2003) voor de borderline persoonlijkheidsstoornis. Generieke instrumenten, zoals de scl-90 (Arrindel & Ettema, 2003), of de oq-45 (Lambert et al., 1996), hebben een brede meetpretentie en zijn voor een breed spectrum van stoornissen geschikt. Die brede toepassing heeft ook een prijs: over het algemeen zijn ze minder gevoelig voor verandering dan stoornisspecifieke instrumenten. Om het verloop van de voortgang bij een individu74
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 74
Algemeen
01-09-13 15:01
ele patiënt te meten is een stoornisspecifiek instrument waarschijnlijk het meest geschikt vanwege de betere gevoeligheid. Er is weinig vergelijkend onderzoek tussen stoornisspecifieke en generieke meetinstrumenten en er is ons ook geen vergelijkend onderzoek bekend waaruit zou blijken dat stoornisspecifieke instrumenten een beter voorspellend vermogen hebben ten aanzien van het toekomstig beloop van de klachten. Om het behandelresultaat te vergelijken met wat bij andere patiënten is bereikt, is men hoe dan ook op een generiek instrument aangewezen. De combinatie van een stoornisspecifiek en een generiek instrument is natuurlijk ook mogelijk, al moeten we er oog voor houden de patiënt niet te overvragen. 4.5.3 Te meten concepten/meetdomeinen Lijden aan een psychische stoornis kan tot uiting komen op verschillende terreinen: de ernst van de psychopathologie (klachten en symptomen), de negatieve impact op het dagelijks functioneren en de kwaliteit van leven zoals die wordt ervaren. Ernst van de symptomen De meest voor de hand liggende uitkomstmaat bij de behandeling van psychopathologie is de ernst van de psychische klachten. Het zijn immers de klachten of symptomen waarvoor de patiënt behandeling zoekt. Uitzonderingen zijn patiënten met psychotische stoornissen en patiënten in de forensische psychiatrie. De eerste groep is soms niet in staat coherent klachten of symptomen te rapporteren, of het doel van de behandeling is niet zozeer symptoomreductie maar veeleer verbetering van het functioneren of een afname van de zorgbehoefte. In de forensische setting is het doel van de behandeling soms klachtenreductie, maar in andere gevallen een afname van het risico dat iemand opnieuw in crimineel gedrag vervalt (reductie van het recidiverisico). Voor het meten van de ernst van psychopathologie zijn een keur aan meetinstrumenten voorhanden. We noemen de Symptom Checklist (scl-90; Arrindell & Ettema, 2003) en het kortere zusterinstrument de Brief Symptom Inventory (bsi; De Beurs & Zitman, 2006), de Outcome Questionnaire (oq-45; De Jong et al., 2007), de Depressie Angst Stress Schaal (dass; De Beurs et al., 2001), de Clinical Outcomes in Routine Evaluation (core-om; Barkham et al., 2005) en de Korte Klachtenlijst (kkl; Lange & Appelo, 2007). Recent verscheen een studie waarin de gevoeligheid voor verandering (responsiviteit) van deze instrumenten onderling werd vergeleken (De Beurs et al., 2012). Aan de hand van de gegevens van vijf instellingen werden voor- en nametingen op telkens een tweetal zelfrapportagevragenlijsten vergeleken. Alle onderzochte meetinstrumenten (scl-90, bsi, oq, kkl, dass en core) hebben een vergelijkbare meetpretentie: ernst van de klachten of symptomen. De gelijktijdige en herhaalde afname van telkens twee meetinstrumenten maakt het mogelijk om de overeenkomst in score te onderzoeken bij metingen die op hetzelfde moment hadden plaatsgevonden (correlaties) en de responsiviteit te onderzoeken aan de hand van herhaalde metingen. Scores op de instrumenten correleren hoog, wat aangeeft dat ze inderdaad over het algemeen hetzelfde meten. In grote lijnen bleek de responsiviteit van instrumenten vergelijkbaar, al waren er ook wel verschillen. Uit de resultaten bleek dat de scl-90 responsiever was dan de dass, de oq-sd responsiever dan de bsi en de kkl en, ten slotte, de core-p responsiever dan de scl-90. Bij het vaststellen van het effect van de behandeling op basis van afname in ernst van de symptomen maakt het dus wel degelijk uit welk instrument is gebruikt. Verschillen in gevoeligheid kwamen vooral aan het licht wanneer men naar de indices voor klinisch significante verandering kijkt (betrouwbare verandering of herstel). Meetinstrumenten met een lagere betrouwbaarheid, zoals de kkl, leveren dan een substantieel conservatievere schatting van het behandelsucces op. In dezelfde dataset waren volgens Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 75
75
01-09-13 15:01
de oq-sd-schaal 38,6% van de patiënten betrouwbaar verbeterd, terwijl volgens de kkl slechts 12,9% van de patiënten dit criterium haalde. Niveau van functioneren De honos is ontwikkeld door Wing et al. (1998). Dit gebeurde in Groot-Brittannië in opdracht van het ministerie van volksgezondheid. Tegenwoordig vindt dit instrument niet alleen brede toepassing in Groot-Brittannië, Australië en Nieuw-Zeeland, maar ook in Nederland (Mulder et al., 2004). Het is een beoordelingsschaal die is bedoeld om ingevuld te worden door de therapeut of een onafhankelijk beoordelaar op basis van een bevraging van de patiënt of bestudering van het dossier. De honos meet de geestelijke gezondheidstoestand en het niveau van sociaal functioneren en wordt vooral gebruikt bij patiënten met ernstige psychiatrische aandoeningen, zoals een psychotische stoornis, een bipolaire stoornis of een ernstige depressie. Bij een lichtere problematiek heeft het instrument minder waarde: vanwege de lage score bij voormeting is er dan nauwelijks ruimte voor verbetering. In de honos komen onder meer aan bod de ernst van de symptomatologie (angst, depressie, cognitieve problemen), middelengebruik, lichamelijke problemen, sociale contacten, en woon- en werkomstandigheden. Van de honos zijn er speciale versies gemaakt voor ouderen (honos65+), kinderen en adolescenten (honosca), kinderen met leerproblemen, mensen met verworven cognitieve stoornissen (honos-nah) en patiënten in de forensische psychiatrie (honos-Forensisch deel). In de verslavingszorg wordt voor het meten van het functioneren gebruikgemaakt van een gestructureerd interview dat is ontwikkeld door de World Health Organization (WHO) en is opgenomen in de mate (Meten van Addicties voor Triage en Evaluatie) als mate-icn, waarbij de laatste drie letter staan voor International Classification of functioning and Need for care (Schippers et al., 2011). De icn tracht op systematische wijze alle aspecten van het functioneren die verband houden met gezondheidsproblemen in kaart te brengen. De mate-icn inventariseert in hoeverre iemand actief is en participeert in de samenleving (module 7 van de mate), de externe factoren die daarop van invloed zijn en de zorgbehoeften die daaruit voortvloeien (module 8 van de mate). Beperkingen in het functioneren worden uitgevraagd op een achttal domeinen, zoals persoonlijke verzorging en hygiëne, huisvesting et cetera. De icn wordt niet alleen gebruikt in de verslavingszorg, maar is in principe ook geschikt voor andere deelgebieden in de ggz. Ten slotte is er nog een ander instrument ontwikkeld door de who, de whodas (Van der Hoeken et al., 2000), waarvan ook zelfrapportageversies bestaan. Er is een versie die bestaat uit 36 items en een verkorte versie van 12 items waarin beperkingen in het functioneren ten gevolge van gezondheidsproblemen worden uitgevraagd op 6 domeinen (cognitie, mobiliteit, zelfverzorging, interpersoonlijke relaties, dagelijkse activiteiten en sociale participatie). De DSM-5 beveelt de whodas 2.0 aan om beperkingen in het functioneren in kaart te brengen. Kwaliteit van leven Het verbeteren van het welbevinden of de ‘ervaren kwaliteit van leven’, zoals dit concept formeel heet, is te beschouwen als het ultieme doel van behandelen. Het is echter ook een breed containerbegrip en omvat zowel lichamelijk, sociaal als emotioneel welbevinden. Dit laatste vertoont veel inhoudelijke overeenkomst met de algemene psychopathologie, wat al met klachtenlijsten zoals de scl-90 wordt gemeten. De kwaliteit van leven wordt vooral bij de evaluatie van medisch handelen ingezet om, naast somatische indicatoren van genezing, zoals een prestatietest, bloedwaarden of andere laboratoriumwaarden, een indruk te krijgen van hoe de patiënt zelf zijn gezondheidstoestand ervaart. Men noemt dit in de algemene gezondheidszorg Patient Reported Outcome Measures (prom’s; Dawson et al., 2010). 76
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 76
Algemeen
01-09-13 15:01
De meest gebruikte zelfrapportagevragenlijst voor het meten van de kwaliteit van leven is de sf-36 (ook wel bekend als de Rand-36; Van der Zee et al., 1996). De sf-36 is een multidimensionele indicator en meet met 36 vragen in 11 groepen 8 aspecten van het welbevinden: fysiek functioneren, rolbeperkingen vanwege een fysiek probleem, pijn, algemene gezondheidsbeleving, mentale gezondheid, vitaliteit, sociaal functioneren en rolbeperkingen vanwege een emotioneel probleem. Ook zijn er twee hogere orde somscores te berekenen: de lichamelijke gezondheidscomponent (de eerste vier) en de geestelijke gezondheidscomponent (de laatste vier). Het instrument wordt internationaal veel gebruikt om de effecten van het medisch handelen te meten. Een recenter instrument, meer toegespitst op (ernstige) psychiatrische aandoeningen, is de mansa (Van Nieuwenhuizen et al., 2001). De mansa resulteert in een enkele somscore voor welbevinden. Bij het gebruik van de instrumenten voor het meten van de kwaliteit van leven voor rom moet men rekening houden met het feit dat de reductie van de klachten en de symptomen pas later tot uiting komen als het gaat om de verbetering van de kwaliteit van leven. Er is als het ware een na-ijlend effect. Het is daarom niet zinvol om de kwaliteit van leven heel frequent te monitoren. Klantervaring Met de Consumer Quality-index (cqi) worden allerlei aspecten van de klantervaring van de ggz-patiënt gemeten. We spreken in dit verband over klantervaring om deze te kunnen onderscheiden van de algemene tevredenheid of patiëntsatisfactie. De patiënt bevragen over de algemene tevredenheid met de behandeling levert doorgaans niet erg bruikbare informatie op. Het is beter om naar specifieke en concrete aspecten van de behandeling te vragen, zoals bejegening, wachttijd, bereikt resultaat et cetera (Delnoij & Hendriks, 2008). Een alternatieve weg, voortgekomen uit de wereld van het marktonderzoek, is om de patiënt te vragen of hij de behandeling zou aanbevelen aan een kennis of een familielid met een vergelijkbare problematiek. Dit staat bekend als de Net Promotor Score (nps) en geeft de verhouding aan tussen de mensen die ‘ja’ en ‘nee’ zeggen op deze vraag (Reichheld & Markey, 2011). Deze methode wordt veel toegepast in de commerciële dienstverlening, bijvoorbeeld na hotelovernachtingen. Uit recent onderzoek in Engeland (Grahan & MacCormick, 2012) naar het gebruik van deze score bleek dat met name in de ggz de vraag vaak tot onbegrip leidde en uiteindelijk onderdeed voor een algemene beoordeling op een 11-punts Likertschaal (0–10, wat in de buurt komt van een rapportcijfer). De waarde van de cq-index als instrument in aanvulling op andere concepten (klachten en symptomen, functioneren en kwaliteit van leven) moet nog duidelijk worden. Net als kwaliteit van leven lijkt dit in ieder geval niet een aspect dat frequent gemonitord moet worden, en hoogstens meerwaarde kan hebben bij de evaluatie van de behandeling als geheel wanneer deze wordt afgesloten.
4.6 Drie manieren om naar de uitkomst van de behandeling te kijken De eenvoudigste manier om naar de uitkomst van de behandeling te kijken is om de eindscore van een patiënt op een meetinstrument te vergelijken met normtabellen voor de klinische populatie of voor de bevolking in het algemeen. Door vergelijking met normscores wordt betekenis verleend aan de ruwe score. De meeste instrumenten onderscheiden vijf of zeven niveaus (zie tabel 4.1).
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 77
77
01-09-13 15:01
Tabel 4.1 Vijf niveaus Zeer hoog Hoog Gemiddeld Laag Zeer laag
Diverse indelingen om ruwe scores op meetinstrumenten betekenis te geven Zeven niveaus Zeer hoog Hoog Boven gemiddeld Gemiddeld Beneden gemiddeld Laag Zeer laag
Percentiel* 100 95 80 60 40 20 5
Z-score* > 1,64 0,94 – 1,63 0,25 – 0,93 0,24 – –0,24 0,25 – 0,93 0,94 – 1,64 < –1,64
T-score* > 67 58 – 66 53 – 57 48 – 52 42 – 47 34 – 41 < 33
* Percentielscore is de waarde waaronder een zeker percentage van de populatie valt: 95e percentiel betekent dat 95% van de populatie een lagere score heeft. De Z-score en de (genormaliseerde) T-score zijn standaardscores, die op een andere manier de relatieve positie van de patiënt in de populatie weergeven.
De ruwe score op een meetinstrument kan men met verschillende normgroepen vergelijken. Afhankelijk van het gebruikte instrument zijn er normen voor de algemene populatie (en soms subgroepen daaruit, zoals mannen / vrouwen of autochtonen / allochtonen) en voor verschillende klinische groepen (ambulante patiënten, opgenomen patiënten et cetera). Welke normgroep gebruikt wordt als referentiekader hangt af van wat men wil weten. Het is wellicht interessanter om te weten dat een patiënt bij de intake hoger scoort dan het gemiddelde van vergelijkbare patiënten, dan dat hij hoger scoort dan de Nederlandse bevolking. Als algemene leidraad geldt: scores aan het begin van de behandeling laten zich het best vergelijken met klinische normen; bij de nameting kan men kiezen tussen klinische normen of normen van de algemene populatie. In veel gevallen zal een score aan het eind van de behandeling nog wel enigszins verhoogd zijn ten opzichte van de algemene populatie, maar lager zijn dan het gemiddelde van de klinische populatie. Het niveau van klachten of functioneren dat is bereikt aan het einde van de behandeling is maar een deel van het plaatje. Met rom beschikken we nu juist over meer informatie. Het aanvangsniveau van de klachten is altijd sterk van invloed op het eindniveau. Het aanvangsniveau is feitelijk de beste voorspeller van het eindniveau en voorspelt minstens 25% van de variantie in eindscores. Patiënten met een hoge beginscore (meer of ernstiger klachten) rapporteren gedurende de gehele behandeling een hoger klachtenniveau, hebben ook een hogere eindscore en dus een hoger klachtenniveau aan het einde van de behandeling. Figuur 4.1 laat het scoreverloop op de oq-sd-schaal van klachten van drie voorbeeldpatiënten over vijf meetmomenten zien en illustreert de samenhang tussen voor- en nameting. Patiënt A heeft bij aanvang een score van 75 en bij de eindmeting is de score gedaald naar 35 (nog altijd in de klinische range, maar van begin tot eind bedraagt de totale klachtenreductie 40 punten). Patiënt B begint de behandeling met een score van 45 en daalt naar 27 (18 punten klachtenreductie). Patiënt C heeft een laag aanvangsniveau en begint met een score van 34 aan de behandeling en daalt naar 25, een verschilscore van 9 schaalpunten. Een tweede manier om naar het behandeleffect bij een patiënt te kijken is om de beginmeting en vervolgmeting of eindmeting te vergelijken. De omvang van het verschil is een directe maat voor het bereikte effect. Bij voorkeur drukken we de schaalscore op het meetinstrument en de verschuiving dan uit in een standaardeenheid (een gestandaardiseerde score zoals de T-score of de Effect Size (es)), zodat kennis over de gebruikte vragenlijst niet nodig is om de grootte van de verandering op de juiste waarde te schatten. In therapieeffectonderzoek wordt meestal een es-waarde van 1.0 tot 2.0 standaarddeviatie bereikt, wat 78
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 78
Algemeen
01-09-13 15:01
80
Patiënt A
Verschil A
Patiënt B
70
Patiënt C
60 50 Verschil B
40 CO = 33 30 20
Verschil C
Beginmeting
Figuur 4.1
1e vervolgmeting 2e vervolgmeting 3e vervolgmeting
Eindmeting
Scoreverloop op een klachtenlijst bij drie patiënten
correspondeert met een es van 1 tot 2 en een Delta T-score van 10–20. Schuift de patiënt dus 1.5 standaarddeviatie op in score (of 15 T-scorepunten) dan is in de behandeling een effect bereikt dat binnen het gebruikelijke bereik ligt. We zagen hiervoor dat de beginscore in sterke mate de eindscore voorspelt: patiënten met een hoog klachtenniveau hebben ook een hogere score aan het eind van de behandeling, dan patiënten met een laag aanvangsniveau. Tegelijk geldt dat een hoge beginscore meer ruimte laat voor een grotere verschilscore tussen het begin en het eind van de behandeling. Over het algemeen is er ook een positief verband tussen beginscore en de verschilscore. Hier duikt dus op een andere manier het fenomeen op van de invloed van de ernst van de klachten aan het begin van de behandeling: bij patiënten met een hoge aanvangswaarde zullen we gemiddeld een grotere verschilscore aantreffen (zie figuur 4.1). Patiënten met ernstigere klachten zullen dus meer verbeteren, maar aan het eind van de behandeling zijn ze er in absolute zin slechter aan toe. Samenvattend illustreert figuur 4.1 dus twee effecten: patiënten met een hoog beginniveau (ernstiger psychopathologie) zijn er na behandeling slechter aan toe, maar over het algemeen zullen zij ook meer zijn vooruitgegaan dan patiënten met een laag beginniveau. Een andere manier om de uitkomst van een behandeling te duiden is om er een klinisch betekenisvol label aan te geven, zoals ‘verbeterd’, ‘hersteld’, of ‘verslechterd’. Door Jacobson et al. (1986 1991) is zo’n methode voorgesteld om de behandeluitkomsten in te delen en van betekenis te voorzien. Ze gaan ervan uit dat de doelstelling van behandeling is om patiënten weer gezond te krijgen of, formeler gesteld: terug te brengen op het niveau van functioneren van de normale populatie. Zij stellen twee criteria voor klinisch significante verandering voor: ÌÌ statistisch betrouwbare verandering (Reliable Change Index of rci); ÌÌ een nametingsscore buiten de range van de zieke populatie en binnen de range van de gezonde populatie. Een statistisch betrouwbare verandering is een verandering die zo groot is dat de kans kleiner is dan 5% dat die verandering moet worden toegeschreven aan de meetonbetrouwbaarheid van het instrument (ieder instrument heeft een meetonbetrouwbaarheid: bij een duimstok vanwege temperatuurschommelingen, bij zelfrapportagevragenlijsten vanwege het niet begrijpen van het item, te vluchtig lezen, onzorgvuldig invullen et cetera). Er valt te berekenen dat een verschuiving van tien punten of meer op de oq-Symptomatic Distress Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 79
79
01-09-13 15:01
schaal (oq-sd) een betrouwbare verandering is (Lambert et al., 1996). Een patiënt met een voormetingsscore van 45 moet dus 35 of lager scoren bij de vervolgmeting wil er sprake zijn van betrouwbare verandering. Patiënten A en B van het voorbeeld in figuur 4.1 voldoen aan het criterium voor betrouwbare verandering, patiënt C, met een verschilscore van 9, net niet. Voor het tweede criterium wordt een grensscore bepaald, de Cut-off of co. Omdat de range van scores van de zieke en de gezonde populatie bij meetinstrumenten overlapt, wordt meestal een co-waarde berekend als halverwege het gemiddelde van de zieke en de gezonde populatie (bij de oq-sd bedraagt deze waarde 33). De nametingsscore moet lager zijn dan de co-waarde. In figuur 4.1 is die waarde met een horizontale lijn aangegeven. Bij patiënt B is een betrouwbare verandering in de klachten bereikt. Patiënt B scoort lager dan de grensscore tussen ziek en gezond (co = 33) en kan dus als hersteld beschouwd worden. Patiënt A scoort bij de eindmeting 35 en valt met deze score nog net in de klinische range. De combinatie van beide criteria geeft een indeling in vijf categorieën zoals weergegeven in tabel 4.2. Tabel 4.2
Vijf niveaus van behandelresultaat geoperationaliseerd
Hersteld (patiënt B)
Verbeterd (patiënt A)
Onveranderd (patiënt C) Verslechterd
Teruggevallen
verschilscore ≥ rci voormeting > eindmeting voormeting ≥ co en eindmeting < co verschilscore ≥ rci voormeting > eindmeting voormeting ≥ co en eindmeting ≥ co verschilscore < rci verschilscore ≥ rci voormeting < eindmeting voormeting < co en eindmeting < co verschilscore ≥ rci voormeting < eindmeting voormeting < co en eindmeting ≥ co
Het voordeel van deze benadering van de klinisch relevante verandering is dat aan het behandeleffect direct een klinisch relevante betekenis wordt toegekend. In één oogopslag is te zien welk resultaat volgens het meetinstrument is bereikt. De criteria van Jacobson zijn over het algemeen streng, wat met name geldt voor de rci. Bij patiënten met een lage voormetingsscore vanwege relatief milde klachten of een enkele serieuze klacht (patiënt C) is er zo soms weinig ruimte voor een statistisch betrouwbare verandering, of zij scoren al onder de co-waarde. Bovendien geldt dat bij het terugbrengen van een continue verschilscore naar vijf categorieën informatie wordt weggegooid die feitelijk beschikbaar was. Vooral bij tussenmetingen gedurende de behandeling kan het interessanter zijn om in de gaten te houden of er sprake is van een geringe afname van de score, dan louter en alleen te kijken of er inmiddels wel of niet een betrouwbare verandering is bereikt. Voorzichtigheid bij interpretatie van kleine scoreverschuivingen blijft hierbij wel geboden: een kleine verschuiving kan immers ook veroorzaakt zijn door een meetonnauwkeurigheid van de vragenlijst.
4.7
rom-varianten
rom is nog volop in ontwikkeling en de verschillende varianten worden op hun toepasbaarheid beproefd.
80
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 80
Algemeen
01-09-13 15:01
4.7.1 Periodieke rom met de scl-90/bsi of de honos Men kan rom inzetten om periodiek te evalueren wat bereikt is, bijvoorbeeld op vaste tijdsintervallen: iedere week, iedere drie weken, iedere drie maanden, zes maanden of zelfs jaarlijks. De lengte van dit tijdsinterval hangt af van de veranderlijkheid van wat men meet, hoe breed men meet en bij wie. Als vuistregel geldt voor rom: hoe vaker hoe beter. Om de patiënt echter niet te overvragen, moet een balans gevonden worden tussen frequent meten en veel, of omvangrijke meetinstrumenten tegelijk opnemen in de meetset. Te veel, te vaak meten leidt tot meetvermoeidheid bij de patiënt. Dit zal tot uiting komen in non-respons of slordig invullen. Verder geldt dat de ernst van de klachten of het functioneren minder snel fluctueert bij chronische patiënten in de ggz dan bij patiënten in de ambulante curatieve zorg. Veranderingen in de kwaliteit van leven ijlen over het algemeen na op de veranderingen in de klachten en het functioneren. Bij het meten van veranderingen moet men daarmee rekening houden. In de praktijk wordt er bij chronische patiënten dan ook minder frequent gemeten. Naast meten op vaste tijdsintervallen, kan men ervoor kiezen om een meting uit te voeren op klinisch relevante momenten, zoals na voltooiing van een behandelplan of -protocol (bijvoorbeeld na twaalf sessies geprotocolleerde cognitieve gedragstherapie). 4.7.2 Wat is het juiste moment voor een meting? Voor de uitgangsmeting is het beste moment van meten zo dicht mogelijk bij de daadwerkelijke start van de behandeling. Dat klinkt voor de hand liggend, maar bij een langdurige intakeprocedure of een wachttijd tussen de intake en de start van de behandeling kan dit een nieuwe meting vereisen. Zo’n herhaalde meting is van belang, want in de wachtperiode voor de behandeling startte kunnen betekenisvolle veranderingen in de klachten of de omstandigheden van de patiënt zijn opgetreden. Om praktische redenen kan men de eindmeting het beste uitvoeren voorafgaand aan de laatste sessie met de patiënt. Dat kan de patiënt thuis doen of, indien dat niet gebeurd is, in de wachtkamer voorafgaand aan de sessie. Meten voorafgaand aan de laatste sessie biedt de mogelijkheid om de resultaten te bespreken. Bij een gunstig resultaat is dit een mooie afsluiting van de behandeling. Een ongunstig resultaat biedt natuurlijk ook gespreksstof en kan leiden tot een heroverweging van de voorgenomen beëindiging van de behandeling. 4.7.3 Iedere sessie-rom Er zijn twee varianten van rom waarbij tijdens iedere sessie wordt gemeten: de methode van Lambert en de methode van Miller. Bij Lambert wordt de Outcome Questionnaire bij de patiënt afgenomen. Bij Miller een verkorte versie van de oq en daarnaast vult de patiënt aan het eind van de sessie de Session Rating Scale in. De oq van Lambert en Clincial Support tools Lambert heeft vanaf midden jaren negentig van de vorige eeuw een rom-systeem ontwikkeld om de voortgang in de behandeling te volgen. Voorafgaand aan iedere sessie wordt een korte vragenlijst met 45 items, de oq-45, afgenomen en gescoord, zodat de therapeut op de hoogte is van hoe het met de patiënt gaat. De oq meet drie aspecten: ernst van de symptomatologie (symptomatic distress), interpersoonlijk functioneren (interpersonal relations) en functioneren op werk of opleiding (social role). De methode voorziet in een waarschuwingssysteem dat signaleert wanneer uit de score op de vragenlijst naar voren komt dat het de patiënt slechter (of beter) vergaat dan op grond van eerdere scores te verwachten is. Het systeem onderscheidt verbetering, geen verandering en verslechtering volgens de criteria van Jacobson et al. (zie paragraaf 4.6). Lambert heeft aangetoond dat het feedbacksysteem leidt tot een snel-
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 81
81
01-09-13 15:01
ler resultaat: er zijn minder sessies nodig om dezelfde verbetering te bereiken en het feedbacksysteem leidt tot minder mislukte behandelingen (Shimokawa et al., 2010). In Nederland is ervaring opgedaan met de methode van Lambert in het promotieonderzoek van De Jong (2012). Ook door de Jong werd geconcludeerd dat rom vooral effectief was bij patiënten waarbij de afname van de klachten niet volgens de verwachting verliep. Er kunnen dan andere meetinstrumenten gebruikt worden (Clinical Support Tools) om bijvoorbeeld beter zicht te krijgen op de therapeutisch relatie, de motivatie van de patiënt, of de patiëntkenmerken, zoals persoonlijkheidstrekken. In het vervolg van de behandeling moet beter op deze aspecten worden ingespeeld. De srs en de ors van Miller en Duncan Door Miller en Duncan (2004 is een rom-methodiek geïntroduceerd die bestaat uit een vereenvoudigde variant van de methode van Lambert et al., aangevuld met een procesmaat van de behandeling. De benadering van Miller en Duncan houdt in dat de patiënt voorafgaande aan iedere sessie de Outcome Rating Scale (ors) invult. De ors is een korte lijst met vier Visual Analog Scales (vas). Een vas bestaat uit een lijnstuk van 10 millimeter waarvan beide uiteinden van een betekenis zijn voorzien (bijvoorbeeld ‘laag’ en ‘hoog’). De patiënt kan op die schaal met een verticaal streepje zijn respons aangeven. De vier vragen stemmen in grote lijnen overeen met de vier concepten die worden gemeten met de oq-45. De respondent wordt gevraagd aan te geven ‘hoe het gaat’ wat betreft: ÌÌ individueel welbevinden (ernst van de klachten of symptomatic distress); ÌÌ relationeel welbevinden (invloed van de klachten op interpersoonlijk functioneren of interpersonal relations); ÌÌ sociaal welbevinden (invloed van de klachten op het functioneren op het werk of de opleiding, of social role); ÌÌ algemeen welbevinden, een totaal oordeel over ‘hoe het gaat’ corresponderend met de totaalscore op de oq. Aan het einde van de behandelsessie vult de patiënt de Session Rating Scale (srs) in, waarmee met vier vragen een beoordeling van de behandeling wordt gevraagd (Bordin, 1979). De patiënt wordt gevraagd: ÌÌ aan te geven wat hij vindt van de onderlinge relatie met de therapeut; ÌÌ aan te geven wat hij vindt van de doelen en onderwerpen die in de sessie aan bod zijn gekomen; ÌÌ de aanpak en/of werkwijze in de behandeling te beoordelen; ÌÌ een algeheel oordeel over de sessie te geven. Met name dit laatste instrument kan een handig hulpmiddel zijn om inzicht te krijgen in hoe de patiënt de behandeling en de therapeut waardeert. Zo worden eventuele teleurstellingen bij de patiënt tijdig gedetecteerd en kan een voortijdig staken van de behandeling worden voorkomen. Het resultaat van de afname van de srs wordt direct met de patiënt besproken. De ors en de srs zijn via het internet te downloaden en gaan vergezeld van een duidelijke instructie. De ors is zeer geschikt om een vinger aan de pols te houden bij de patiënt gedurende de behandeling. Echter, als intake-instrument om een compleet beeld te krijgen van de problematiek en als formele uitkomstmaat voor de behandeling schiet het instrument tekort. De convergente validiteit met de oq-45 laten te wensen over (r = .50 tot .60 in verschillende studies; Miller et al., 2003; Miller & Duncan, 2004). De methodiek van afname, met name het onmiddellijk bespreken van de resultaten met de patiënt, is therapeutisch uiterst nuttig, 82
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 82
Algemeen
01-09-13 15:01
maar sluit onvoldoende uit dat er sprake is van een ongewenste invloed van de therapeut op hoe de patiënt het instrument invult. Het is echter een mooie methodiek in combinatie met een uitkomstmeting met een gestandaardiseerde vragenlijst. Conclusie Toepassing van de rom-methode waarbij iedere sessie wordt gemeten, is vooral in de eerste fase van de behandeling nuttig. Wanneer patiënten de behandeling voortijdig staken, dan doen ze dat meestal in het begin. Juist dan is het zaak de voortgang in de gaten te houden. Naarmate de behandeling vordert, is de kans op een drop-out veel kleiner en kan minder frequent gemeten worden. Door telkens na iedere sessie te meten houdt men voortdurend een vinger aan de pols en is er altijd een eindmeting van de behandeling beschikbaar om de behandeling in zijn geheel te evalueren. Er bestaat wel een risico op meetvermoeidheid bij de patiënt (non-compliance met het meetregime of de behandeling, of slordig invullen (routineus invullen, zonder erbij na te denken)). De combinatie van de oq-45 (of een andere generieke lijst) aan het begin van de behandeling, de srs en ors iedere sessie, en de periodieke herhaling van de oq-45 gedurende de behandeling is een goede rom-methodiek voor de curatieve zorg aan patiënten met veelvoorkomende, wat lichtere psychiatrische problematiek. Met periodiek herhalen wordt een herhaalmeting op een klinisch relevant moment bedoeld, bijvoorbeeld wanneer de periode is verlopen dat er een positief effect van een medicament is te verwachten (zes tot negen weken), of wanneer een behandelprotocol is afgerond. Het geheel kan nog aangevuld worden met de periodieke afname van een stoornisspecifieke schaal. Met dit gevoeligere instrument kunnen kleine veranderingen in de aanmeldingsklacht worden opgespoord. Bij patiënten met ernstige psychiatrische aandoeningen vraagt het meten om een wat andere aanpak, zeker waar het opgenomen patiënten betreft met een chronische problematiek. In dergelijke gevallen meet men minder frequent, bijvoorbeeld halfjaarlijks of zelfs jaarlijks en ligt de focus meer op het functioneren (honos; Wing et al., 1998) of de zorgbehoefte (cansas; Slade et al., 1999). De doelstelling van de behandeling is hier immers in veel gevallen niet herstel, maar stabilisatie of het tegengaan van een crisis. Ook dat heeft implicaties voor rom. 4.7.4 Ondersteuning met software Essentieel voor een bruikbare rom is een goede ondersteuning met software, bij voorkeur geïntegreerd met het elektronisch patiëntendossier (epd). Goede rom-software zorgt voor het verwerven van gegevens door patiënten via e-mail te attenderen op de vragenlijsten die klaar staan om beantwoord te worden en een website om de items aan te bieden. De software kan de score op vragenlijsten direct berekenen en de resultaten van een individuele patiënt onmiddellijk aan de therapeut beschikbaar stellen op een inzichtelijke en aantrekkelijke manier, bijvoorbeeld door de score te vergelijken met normgegevens en de scores over de tijd in een grafiek weer te geven. De software kan gebruikt worden om de therapeut te attenderen op opvallende scores die buiten het verwachte beloop liggen. Ten slotte kan de software van dienst zijn bij het beheren van de gegevens. Zo kan met behulp van de software worden bijgehouden of een patiënt na verloop van een bepaald tijdsinterval of een vooraf ingesteld aantal sessies in aanmerking komt voor een vervolgmeting. Het gemakt dient de mens en de tijd van papieren zelfinvullijstjes die met de hand moeten worden gescoord ligt achter ons. De ervaring leert dat de implementatie van rom in de ggz pas goed van de grond komt wanneer de therapeut bij de toepassing adequaat wordt ondersteund met ict.
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 83
83
01-09-13 15:01
4.8 Discussie De veronderstelde positieve effecten van rom zijn nog maar beperkt onderzocht. De huidige wens om tot implementatie van rom over te gaan, is nog niet evidence-based, maar vooral opinion-based en gestoeld op common sense (‘meten is weten’). De onderzoekresultaten die er zijn, zijn wel overwegend positief. Duffy et al. (2008) rapporteren goede ervaringen met wat zij hun measurement-based care approach noemen. Het ging hierbij om de inzet van een kort zelfrapportage-instrument (de Patient Health Questionnaire (phq-9)). Zij onderzochten de bruikbaarheid en uitvoerbaarheid van sessiegewijs meten met dit instrument bij de zorg voor depressieve patiënten in negentien instellingen. Twee instellingen haakten gedurende het project af vanwege de eisen die werden gesteld rondom dataverzameling. Van de instellingen die bleven deelnemen, waren de ervaringen ronduit positief. Psychiaters gebruikten naar eigen zeggen de uitkomstinformatie in 97% van hun sessies en in 40% van de gevallen werd de behandeling daadwerkelijk bijgestuurd op basis van de uitkomst. Naast deze anekdotische aanwijzingen is het positieve effect van rom op de uitkomst van de behandeling onderzocht in aan aantal gecontroleerde studies. De methode die men daarbij volgt is dat alle patiënten regelmatig vragenlijsten invullen over hun klachten en functioneren, waarbij er systematisch gevarieerd wordt of de therapeut de scores op de vragenlijsten te zien krijgt (feedback) en de gegevens gebruikt in de behandeling (feedback aan de patiënt). Carlier et al. (2012 hebben in een overzichtsartikel de onderzoeksresultaten van het onderzoek naar het effect van feedback op een rijtje gezet. Hun voornaamste conclusie is dat rom vooral van nut is bij behandelingen die niet goed (dreigen te) verlopen. rom lijkt dus een probaat middel om een dreigende mislukking van de behandeling te signaleren en tegen te gaan. Inmiddels is ook een meta-analyse verschenen van twaalf gecontroleerde studies naar het effect van feedback op het behandelresultaat (Knaub et al., 2009). Hieruit kwam een significant, zij het klein, positief effect van feedback op het resultaat naar voren. Tegen de verwachting in leidde feedback niet tot een kortere behandeling. Toch stellen Knaub et al. dat de resultaten bemoedigend zijn voor rom. We kunnen concluderen dat er meer onderzoek nodig is naar het effect van tussentijdse feedback op het beloop van de behandeling. De kernvraag hierbij is of rom sneller tot een beter resultaat leidt. Een positief effect van rom zou af te meten moeten zijn aan een minder voortijdige drop-out, een kortere, meer doelmatige behandeling en een beter eindresultaat van de behandeling. Vervolgvragen zijn: Welke vormen of elementen van rom dragen vooral bij aan een goed resultaat? Welke meetinstrumenten genereren de meest bruikbare informatie? En bij welk zorgtype (cure versus care) geldt dit vooral? Al in 1988 stelde Ellwood voor om bij patiënten gezondheid en functioneren routinematig te meten en deze gegevens op te nemen in grote databases om de gegevens in geaggregeerde vorm te kunnen gebruiken (Ellwood, 1988). Dit pleidooi kreeg veel navolging in redactionele bijdragen in tijdschriften (Holloway, 2002; Slade, 2002), maar desondanks blijkt uit onderzoek dat het meten van behandeluitkomsten slechts incidenteel werd toegepast. Gilbody et al. (2002) schatten op basis van de resultaten van een enquête onder 369 psychiaters in Engeland dat slechts 20% van de clinici ‘routinematig of af en toe’ het resultaat van hun behandeling meet. In 2008 is het in de vs niet anders: Zimmerman en McGlinchey (2008) ondervroegen psychiaters die deelnamen aan een nascholing in hoeverre zij gebruikmaakten van meetinstrumenten bij de behandeling van depressie. 80% van de psychiaters gaf aan helemaal geen gebruik te maken van uitkomstschalen. Ten slotte blijkt dat ook in Australië het feitelijk inzetten van meetinstrumenten en het gebruik van resultaten ter ondersteuning van de behandeling nog achterblijft bij de ambitie die men had toen men daar in het begin van deze eeuw startte met de landelijke verzameling van uitkomstgegevens (Happell, 2008; Trauer, 2010). 84
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 84
Algemeen
01-09-13 15:01
De betrokkenheid van therapeuten bij bestaande rom-initiatieven laat dus nog te wensen over. Dit terwijl de therapeut wel de voornaamste belanghebbende is en de sleutel tot het gebruik van rom in handen heeft. De therapeut kan het beste aangeven welke informatie relevant is (wat de keuze van het meetinstrument bepaald) en wanneer hij over die informatie wil beschikken (want dat bepaald wat het juiste moment van de meting is). De therapeut informeert de patiënt over de uitkomst van rom. Wanneer rom zo voor de hand ligt, nuttig blijkt te zijn om mislopende behandelingen vroegtijdig te signaleren en de kwaliteit van zorg in de ggz zo aantoonbaar kan verbeteren, hoe komt het dan dat invoering van rom bij therapeuten niet vlot? Voor de terughoudendheid van therapeuten met betrekking tot rom zijn een paar oorzaken te noemen. Wie nog niet de voordelen van rom heeft ervaren, kan in rom vooral een uitbreiding van de administratieve last zien die in de ggz toch al als hoog wordt ervaren. In de opleiding tot clinicus is nog te weinig aandacht voor het monitoren van behandeluitkomsten. De meeste therapeuten hebben nog weinig ervaring met het bespreken van de rom-resultaten met patiënten. Ze zijn onvoldoende bekend met wat eigenlijk wordt gemeten met de gebruikte meetinstrumenten of wat concrete scores betekenen en zijn zo slecht in staat om de uitkomsten op een betekenisvolle wijze terug te koppelen naar de patiënt. De terughoudendheid van therapeuten kan ook voortkomen uit de wijze van implementeren waarvoor in Nederland is gekozen. Binnen veel instellingen in Nederland wordt het gebruik van rom op dit moment vooral gestimuleerd om gegevens te verwerven die in geaggregeerde vorm gebruikt kunnen worden. Men doet dit om zicht te krijgen op de gemiddelde behandeluitkomst van instellingen, hun onderafdelingen of therapeuten (benchmarken). Dit gebeurt onder andere in het kader van het afleggen van verantwoording aan de financiers van de zorg, de overheid en de zorgverzekeraars. Dit laatste heeft zeker een gunstige kant, want zonder de druk van de overheid en de zorgverzekeraars had rom nooit zo’n vlucht genomen. Een ongewenst neveneffect is echter dat rom vooral in het licht is komen te staan van verantwoorden. rom, benchmarken, verantwoorden en afrekenen (prestatiebekostiging) worden in één adem genoemd en vaak als identiek beschouwd (Van Os, et al, 2012). In het licht van het eerder gemaakte onderscheid in de drie betekenissen van rom, wordt rom in Nederland vooral ingevoerd ten behoeve van uitkomstenmeting (measurement) en sturen op uitkomsten (management) en in veel mindere mate om het verloop van de behandeling te volgen (monitoring), terwijl juist daar grote winst te behalen valt voor de patiënten die in behandeling zijn. Jammer is dat dit laatste doel, ondersteuning van het klinisch proces, hierdoor ondergesneeuwd dreigt te raken en de therapeut het gevoel kan krijgen dat het eigen klinische gereedschap misbruikt gaat worden in een ongewenste afrekencultuur. Wat de zaak nog verergert is dat bij de implementatie van rom in ggz-instellingen meestal een top-downprocedure wordt gevolgd: het management verordonneert de invoering van rom en belast een projectmedewerker met die taak. Hierdoor dreigt de betrokkenheid en de intrinsieke motivatie van de professional nog verder af te nemen. Voor de uitrol van rom louter en alleen ‘omdat we ons moeten verantwoorden voor de verzekeraar’ lopen therapeuten niet warm. Het oorspronkelijke doel van rom zou weer op de voorgrond moeten komen en de uitrol van rom moet aangevuld worden met een bottom-upstramien, waarin de therapeut overtuigd raakt van de goede zaak. Therapeuten moeten worden verleid tot een vorm van rom waarin klinisch relevante gegevens worden verzameld waardoor zij de duidelijke voordelen van rom aan den lijve ervaren, namelijk het verkrijgen van betekenisvolle informatie over de aard en de ernst van de klachten en het verkrijgen van meer zicht op de voortgang van de behandeling. Het is tenslotte leuk om de klinische impressie dat het goed gaat met de patiënt, terug te zien in mooie resultaten, weergegeven in tabellen en grafiekjes. Minder leuk, maar zeker zo belangrijk is het als de klinische impressie wordt weersproken door de data van de patiënt. Een voorbeeldpresentatie is weergegeven in figuur 4.2. Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 85
85
01-09-13 15:01
Figuur 4.2
Voorbeeld van rom-resultaten: herhaalde metingen met de scl-90
86
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 86
Algemeen
01-09-13 15:01
4.9 Tot besluit In de opleiding tot psychiater of psycholoog is er aandacht voor de toepassing van meetinstrumenten, hun meetpretentie en psychometrische kernbegrippen als accuratesse, betrouwbaarheid en validiteit. Bij veel professionals is echter de opgedane psychometrische kennis weggezakt na enige tijd te hebben gewerkt in de ggz. Dit helpt niet wanneer resultaten van meetinstrumenten moeten worden teruggekoppeld aan patiënten. Wat is de meetpretentie van de totaalscore of subschaalscores van veelgebruikte zelfrapportagemeetinstrumenten in de ggz? Meten ze klachten en symptomen, cognities, emoties, lichamelijke verschijnselen, gedragingen, niveau van functioneren of (ervaren) kwaliteit van leven? Wat betekent het wanneer een patiënt een ‘bovengemiddelde’ score heeft in vergelijking met de klinische populatie? Of in vergelijking met de normale populatie? Welke verklaringen zijn er wanneer een patiënt zelf vindt dat er veel veranderd is, maar de verandering niet tot uiting komt in de vergelijking van begin en eindmeting, bijvoorbeeld vanwege ‘response shift’? Met response shift wordt het fenomeen aangeduid dat de patiënt in de loop van de behandeling anders tegen de eigen klachten of situatie gaat aankijken. De patiënt was zich bijvoorbeeld voor de behandeling nog niet bewust van bepaalde problemen of klachten en daardoor is de voormetingsscore lager uitgevallen dan men achteraf terugkijkend, zou hebben aangegeven. De therapeut moet zich op zijn gemak voelen wanneer de hiervoor genoemde vragen aan de orde komen bij de bespreking van de meetresultaten met een patiënt en moet op dit soort vragen professioneel antwoord kunnen geven. We hopen met dit hoofdstuk een bijdrage te leveren aan de toename van kennis over rom en de benutting van meetresultaten in de ggz.
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 87
87
01-09-13 15:01
Literatuur American Psychiatric Association (2013). Diagnostic and statistical manual of mental disorders (DSM-5). Washington DC: American Psychiatric Publishing. Arntz, A., Hoorn, M. van den, Cornelis, J., Verheul, R., Bosch, W.M. van den & Bie, A.J. de (2003). Reliability and validity of the borderline personality disorder severity index. Journal of Personality Disorders, 17, 45-59. Arrindell, W.A. & Ettema, J.H.M. (2003). SCL-90: Herziene handleiding bij een multidimensionele psychopathologie-indicator. Lisse: Swets & Zeitlinger. Barkham, M., Gilbert, N., Connell, J., Marshall, C. & Twigg, E. (2005). Suitability and utility of the CORE-OM and CORE-A for assessing severity of presenting problems in psychological therapy services based in primary and secondary care settings. British Journal of Psychiatry, 186, 239-246. Braet, C. & Bögels, S. (red.) (2008). Protocollaire behandelingen voor kinderen met psychische klachten. Amsterdam: Boom. Buwalda V.J.A., Nugter, M.A., Swinkels, J.A., Mulder, C.L. (red.) (2011). Praktijkboek ROM in de GGZ: Een leidraad voor gebruik en implementatie van meetinstrumenten. Utrecht: De Tijdstroom. Calhoun, K.S. & Resick, P.A. (1993). Post-traumatic stress disorder. In: D.H. Barlow (ed.), Clinical handbook of psychological disorders (2nd ed.) (pp.48-98). New York: Guilford Press. Carlier, I.V., Meuldijk, D., Vliet, I.M. van, Fenema, E.M. van, Wee, N.J. van der & Zitman, F.G. (2012). Empirische evidentie voor de effectiviteit van Routine Outcome Monitoring: Een literatuuroverzicht. Tijdschrift voor Psychiatrie, 54, 121-128. Dawes, R.M., Faust, D. & Meehl, P.E. (1989). Clinical versus actuarial judgment. Science, 243, 1668-1674. Dawson, J., Doll, H., Fitzpatrick, R., Jenkinson, C. & Carr, A.J. (2010). The routine use of patient reported outcome measures in healthcare settings. British Medical Journal, 340, c186. Beurs, E. de, Barendregt, M., Flens, G., Dijk, E van, Huijbrechts, I. & Meerding, W.J. (2012). Equivalentie in responsiviteit van veel gebruikte zelfrapportage meetinstrumenten in de geestelijke gezondheidszorg. Maandblad Geestelijke volksgezondheid, 67, 259-264. Beurs, E. de & Zitman, F.G. (2006). De Brief Symptom Inventory (BSI): De betrouwbaarheid en validiteit van een handzaam alternatief voor de SCL-90. Maandblad Geestelijke volksgezondheid, 61, 120-141. Beurs, E. de & Zitman, F.G. (2007). Routine Outcome Monitoring: Het meten van therapie-effect in de klinische praktijk met webbased software. Maandblad Geestelijke volksgezondheid, 62, 13-28. Beurs, E. de, Hollander‐Gijsman, M.E. den, Rood, Y.R. van, Wee, N.J.A. van der, Giltay, E.J., Noorden, M.S. van, Lem, R. van der, Fenema, E. van & Zitman, F.G. (2011). Routine Outcome Monitoring in the Netherlands: Practical experiences with a web‐based strategy for the assessment of treatment outcome in clinical practice. Clinical Psychology & Psychotherapy, 18, 1-12. Beurs, E. de, Dyck, R. van, Marquenie, L.A., Lange, A. & Blonk, R.W.B. (2001). De DASS: Een vragenlijst voor het meten van depressie, angst en stress. Gedragstherapie, 34, 35-53. Bordin, E.S. (1979). The generalizability of the psychoanalytic concept of the working alliance. Psychotherapy: Theory, Research and Practice, 16, 252-260. Delnoij, D. & Hendriks, M. (2008). De CQ-index: het meten van klantervaringen in de zorg. Tijdschrift voor Gezondheidswetenschappen, 86, 440-446. Duffy, F.F., Chung, H., Trivedi, M., Rae, D.S., Regier, D.A., & Katzelnick, D. J. (2008). Systematic use of patient-rated depression severity monitoring: Is it helpful and feasible in clinical psychiatry? Psychiatric Services, 59, 1148-1154. Ellwood, P.M. (1988) Outcomes management: A technology of patient experience. New England Journal of Medicine, 318, 1549-1556. Embretson, S.E. & Reise, S.P. (2000). Item Response Theory for Psychologists. New York, Psychology Press.
88
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 88
Algemeen
01-09-13 15:01
Emmelkamp, P.M.G. (1981). The current and future status of clinical research. Behavioral Assessment, 3, 249-253. Emmelkamp, P.M.G. (2011). Zijn de resultaten van randomized clinical rials (RCT’s) generaliseerbaar naar de klinische praktijk. Gedragstherapie, 44, 261-276. First, M.B., Gibbon, M., Spitzer, R.L., Williams, J.B.W. & Benjamin, L.S. (1997). Structured Clinical Interview for DSM-IV Axis II Personality Disorders (SCID-II). Washington DC: American Psychiatric Press, Inc. First, M.B., Spitzer, R.L., Gibbon, M. & Williams, J.B.W. (1996). Structured Clinical Interview for DSM IV Axis I Disorders (SCID). Washington DC: American Psychiatric Press. Garner, D.M. (1991). Eating Disorder Inventory-2 Manual. Odessa FL: Psychological Assessment Resources. Gilbody, S.M., House, A.O. & Sheldon, T. A. (2002). Psychiatrists in the UK do not use outcomes measures: National survey. British Journal of Psychiatry, 180, 101-103. Graham, C. & MacCormick, S. (2012). Overarching questions for patient surveys: Development report for the Care Quality Commission (CQC). Oxford: National Patient Survey Co-ordination Centre Pickford Institute. Hannan, C., Lambert, M.J., Harmon, C., Nielsen, S., Smart, D.W., Shimokawa, K. & Sutton S. (2005). A lab test and algorithms for identifying clients at risk for treatment failure. Journal of Clinical Psychology, 61, 155-163. Happell, B. (2008). The value of routine outcome measurement for consumers of mental health services: Master or servant? International Journal of Social Psychiatry, 54, 317-327. Hatfield, D., McCullough, L., Plucinski, A. & Krieger, K. (2010). Do we know when our clients get worse? An investigation of therapists’ ability to detect negative client change. Clinical Psychology & Psychotherapy, 17, 25-32. Hees, S. van, Vlist, P. van der, Mulder, N. (red.) (2011). Van weten naar meten: ROM in de ggz. Amsterdam: Boom. Hoeken, D. van der, Riet-van Hoof, K., Hoek, H.W. (2000). Dutch WHO-DAS II: questionnaire to assess disability. Den Haag: WHO Collaborating Centre WHO-DAS. Holloway, F. (2002). Outcome measurement in mental health: Welcome to the revolution. British Journal of Psychiatry, 181, 1-2. Hoogduin, K. (2011). ROM in de GGZ. Dth, 31, 410-415. Horwitz, A.V. & Wakefield, J.C. (2007). The loss of sadness: How psychiatry transformed normal sorrow into depressive disorder. Oxford: Oxford University Press. Jacobson, N.S., Follette, W.C. & Revenstorf, D. (1986). Toward a standard definition of clinically significant change. Behavior Therapy, 17, 308-311. Jacobson, N. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19. Jadad, A.R. (1998). Randomised controlled trials: A user’s guide. London: British Medical Journal Books. Jong, K. de (2012). A chance for change: Building an outcome monitoring feedback system for outpatient mental health care. Doctoral dissertation, Leiden University. Jong, K. de, Nugter, M.A., Polak, M.G., Wagenborg, J.E.A., Spinhoven, P. & Heiser, W.J. (2007). The Outcome Questionnaire (OQ-45) in a Dutch population: A cross-cultural validation. Clinical Psychology and Psychotherapy, 14, 288-301. Kazdin, A.E. (2008). Evidence-based treatment and practice: New opportunities to bridge clinical research and practice, enhance the knowledge base, and improve patient care. American Psychologist, 63, 146-159. Keijsers, G., Minnen, A. van & Hoogduin, K. (red.) (2011). Protocollaire behandelingen voor volwassenen met psychische klachten 1 en 2. Amsterdam: Boom. Knaub, C., Koesters, M., Schoefer, D., Becker, T. & Pushner, B. (2009). Effect of feedback of treatment outcome in specialist mental healthcare: Meta-analysis. British Journal of Psychiatry, 195, 15-22.
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 89
89
01-09-13 15:01
Lambert, M.J., Burlingame, G.M., Umphress, V.J., Hanssen, N., Vermeersch, D., Clause, G., & Yanchar, S.C. (1996). The reliability and validity of the Outcome Questionnaire. Clinical Psychology and Psychotherapy, 3, 249-258. Lambert, M. (2007). Presidential address: What we have learned from a decade of research aimed at improving psychotherapy outcome in routine care. Psychotherapy Research, 17, 1-14. Lambert, M.J. & Ogles, B.M. (2004). The efficacy and effectiveness of psychotherapy. In: M.J. Lambert (ed.), Bergin and Garfield’s handbook of psychotherapy and behavior change (5th ed.) (pp. 139-193). Hoboken NJ: John Wiley & Sons. Lambert, M.J. (2013). The efficacy and effectiveness of psychotherapy. In: M.J. Lambert (ed.), Bergin & Garfield’s handbook of psychotherapy and behavior change (6th ed.) (pp. 169-218). New York: John Wiley & Sons. Lange, A. & Appelo, M. (2007). Korte klachtenlijst: Handleiding. Houten: Bohn Stafleu van Loghum. Meehl, P.E. (1954). Clinical vs. statistical prediction. Minneapolis: University of Minnesota Press. Miller, G.A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review, 63, 81-97. Miller, S.D. & Duncan, B.L.(2004). The Outcome and Session Rating Scales: Administration and scoring manual. Chicago: Institute for the study of Therapeutic Change. Miller, S.D., Duncan, B.L., Browne, J., Sparks, J.A. & Claud, D.A. (2003). The Outcome Rating Scale: A preliminary study of the reliability, validity, and feasibility of a brief visual analog measure. Journal of Brief Therapy, 2, 91-99. Mohr, D.C. (1995). Negative outcome in psychotherapy: A critical review. Clinical Psychology: Science and Practice, 2, 1-27. Mulder, C.L., Staring, A.B.P., Loos, J., Buwalda, V., Kuijpers, D., Sytema, S. & Wierdsma, A.I. (2004). De Health of the Nations Outcome Scales (HoNOS) als instrument voor ‘routine outcome assessment’. Tijdschrift voor Psychiatrie, 46, 273-285. Pfohl, B., Blum N. & Zimmerman, M. (1995). Structured Interview for DSM-IV Personality : SIDP-IV. Washington DC: American Psychiatric Press. Pot, A.M., Dyck, R. van & Deeg, D.J.H. (1995). Ervaren druk door informele zorg: constructie van een schaal. Tijdschrift voor Gerontologie en Geriatrie, 26, 214-219. Powers M.B. & Emmelkamp, P.M.G. (2009). Dissemination of research findings. In: D.C.S. Richard & S.K. Huprich (eds.), Clinical psychology: Assessment, treatment and research (pp. 495-525). San Diego CA: Academic Press. Reichheld, F. & Markey, R. (2011). The ultimate question 2.0: How net promoter companies thrive in a customerdriven world. Boston MA: Harvard Business Review Press. Schippers, G.M., Broekman, T.G. & Buchholz, A. (2011). MATE Handleiding en protocol: Nederlandse bewerking. Nijmegen: Beta Boeken. Sheehan, D.V., Lecrubier, Y., Sheehan, K.H., Amorim, P., Janavs, J., Weiller, E., Hergueta, T., Baker, R., & Dunbar, G.C. (1998). The Mini-International Neuropsychiatric Interview (M.I.N.I.): The development and validation of a structured diagnostic psychiatric interview for DSM-IV and ICD-10. Journal of Clinical Psychiatry, 59(Suppl 20), 22-33. Shimokawa, K., Lambert, M. J. & Smart, D. W. (2010). Enhancing treatment outcome of patients at risk of treatment failure: Meta-analytic and Mega-analytic review of a psychotherapy quality assurance system. Journal of Consulting and Clinical Psychology, 78, 298-311. Slade, M. (2002). Routine outcome assessment in mental health services. Psychological Medicine, 32, 13391343. Slade, M., Beck, A., Bindman, J., Thornicroft, G. & Wright, S. (1999). Routine clinical outcome measures for patients with severe mental illness: CANSAS and HoNOS. British Journal of Psychiatry, 174, 404-408.
90
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 90
Algemeen
01-09-13 15:01
Spitzer, R.L., Williams, J.B., Gibbon, M. & First, M.B. (1992). The Structured Clinical Interview for DSM-III-R (SCID). I: History, rationale, and description. Archives of General Psychiatry, 49, 624-629. Trauer, T. (ed.) (2010). Outcome measurement in mental health. Cambridge: Cambridge University Press. Trauer, T., Gill, L., Pedwell, G. & Slattery, P. (2006). Routine outcome measurement in public mental health: What do clinicians think? Australian Health Review, 30, 144-147. Hoeken, D. van der, Riet-van Hoof, K. & Hoek, H.W. (2000). Dutch WHO-DAS II: Questionnaire to assess disability. Den Haag: WHO Collaborating Centre WHO-DAS. Linden, W.J. van der & Glas, C.A.W. (eds.) (2000). Computerized adaptive testing: Theory and practice. Boston MA: Kluwer. Zee, K.I. van der, Sanderman, R., Heyink, J.W. & Haes, H. de (1996). Psychometric qualities of the rand 36-item health survey 1.0: A multidimensional measure of general health status. International Journal of Behavioral Medicine, 3, 104-122. Nieuwenhuizen, C. van, Schene, A.H., Koeter, M.W.J. & Huxley, P.J. (2001). The Lancashire Quality of Life Profile: modification and psychometric evaluation. Social Psychiatry and Psychiatric Epidemiology, 36, 36-44. Os, J. van, Kahn, R., Denys, D., Schoevers, R.A., Beekman, A.T., Hoogendijk, W.J., Hemert, A. M. van, Hodiamont, P.P., Scheepers, F., Delespaul, P.A. & Leentjens, A.F. (2012). ROM: Gedragsnorm of dwangmaatregel? Overwegingen bij het themanummer over routine outcome monitoring. Tijdschrift voor Psychiatrie, 54, 245-253. Vercoulen, J.H., Swanink, C.M., Fennis, J.F., Galama, J.M., Meer, J.W. van der & Bleijenberg, G. (1994). Dimensional assessment of chronic fatigue syndrome. Journal of Psychosomatic Research, 38, 383-392. Walfish, S., McAlister, B, O’Donnell, P. & Lambert, M.J. (2012). An investigation of self-assessment bias in mental health providers. Psychological Reports, 110, 639-644. Westen, D., Novotny, C.M. & Thompson-Brenner, H. (2004). The empirical status of empirically supported psychotherapies: Assumptions, findings, and reporting in controlled clinical trials. Psychological Bulletin, 130, 631-663. Wing, J.K., Beevor, A.S., Curtis, R.H., Park, S.B.G., Hadden, S. & Bruns, A. (1998). Health of the Nation Outcome Scales (HoNOS): Research and development. British Journal of Psychiatry, 172, 11-18. Zimmerman, M. & McGlinchey, J.B. (2008). Why don’t psychiatrists use scales to measure outcome when treating depressed patients? Journal of Clinical Psychiatry, 69, 1916-1919. Zimmerman, M., Chelminsky, I., Young, D. & Dalrymple, K. (2011). Using outcome measures to promote better outcomes. Clinical Neuropsychiatry, 8, 28-36. Ziskin, J.Z. (1995). Coping with psychiatric and psychological testimony, Volume 1 (5th ed.) Los Angeles: Law and Psychology Press.
Routine Outcome Monitoring
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 91
91
01-09-13 15:01
Emmelkamp_Van mislukking naar succes in de psychotherapie.indd 92
01-09-13 15:01