Patient Reported Outcome Measures Leidraad voor de selectie en het gebruik van Patient Reported Outcome Measures voor het meten van kwaliteit van zorg
Paul van Kessel Mattanja Triemstra Dolf de Boer
ISBN 978-94-6122-000-0 http://www.nivel.nl
[email protected] Telefoon 030 2 729 700 Fax 030 2 729 729 ©2014 NIVEL, Postbus 1568, 3500 BN UTRECHT Niets uit deze uitgave mag worden verveelvoudigd en/of openbaar gemaakt worden door middel van druk, fotokopie, microfilm of op welke andere wijze dan ook zonder voorafgaande schriftelijke toestemming van het NIVEL te Utrecht. Het gebruik van cijfers en/of tekst als toelichting of ondersteuning in artikelen, boeken en scripties is toegestaan, mits de bron duidelijk wordt vermeld.
Inhoud 1 1.1 1.2 1.3
Inleiding Achtergrond Doel en positionering Opbouw en leeswijzer
2 PROMs: definiëring en stappenplan 2.1 PROs, PROMs en PRO-PM 2.2 Generiek stappenplan 3 Selectie van PROs
5 5 6 6 7 7 7 9
4 4.1 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6 4.2.7 4.2.8 4.3
Selectie van bestaande PROMs Identificeren van bestaande PROMs Evaluatie en selectie van een PROM Conceptueel- en meetmodel Inhoudsvaliditeit Constructvaliditeit Cross-culturele validiteit Betrouwbaarheid Responsiviteit en minimaal klinisch relevant verschil Hanteerbaarheid Kwaliteit van studies naar PROMs Het (door)ontwikkelen van een PROM
11 11 11 12 12 12 12 13 13 14 14 16
5 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.2 5.2.1 5.2.2 5.2.3 5.2.4
Implementatie van PROMs Het gebruik van een PROM als prestatiemaat (PRO-PM) Definiëring van de prestatiemaat Aggregatieniveau Casemix Statistisch model voor vergelijkingen Overige implementatievraagstukken Onderzoeksopzet, response shift & recall bias Klinisch betekenisvolle meetmomenten Algemene aandachtspunten bij dataverzameling Rapportage
19 19 19 19 19 20 21 21 22 22 23
Literatuur
25
Bijlagen: Bijlage 1 Bijlage 2
Direct, indirect en quasi-indirect meten Begrippenlijst
PROMs Leidraad, NIVEL 2014
29 31
3
4
PROMs Leidraad, NIVEL 2014
1 Inleiding
1.1
Achtergrond De afgelopen jaren zijn forse inspanningen geleverd om de kwaliteit van zorg transparant te maken voor patiënten, zorgaanbieders en zorgverzekeraars, met als doel kwaliteit van zorg te borgen of te verbeteren. Daarnaast draagt transparantie van kwaliteit van zorg bij aan het versterken van de positie van de patiënt. Patiënten krijgen namelijk meer en betere toegang tot informatie over de zorg, maar vormen zelf eveneens een belangrijke en waardevolle informatiebron door hun ervaringen te rapporteren in vragenlijsten en forums en op websites. De overheid heeft een belangrijke rol gespeeld bij het transparant maken van kwaliteit van zorg. Hiertoe heeft de overheid onder meer het programma Zichtbare Zorg in het leven geroepen (Inspectie voor de Gezondheidszorg, 2014) om de ontwikkeling van kwaliteitsindicatoren te initiëren, stimuleren en faciliteren. Tevens is de Consumer Quality Index (CQI of CQ-index) door de overheid ondersteunt als standaard voor het meten van kwaliteit van zorg vanuit patiëntenperspectief. Met de komst van Zorginstituut Nederland neemt de overheid een andere positie in en komt het initiatief voor het transparant maken van kwaliteit van zorg in grotere mate bij partijen in de zorg (patiëntenorganisaties, zorgaanbieders en verzekeraars) te liggen. Het Zorginstituut gaat de ontwikkelingen bij partijen in de zorg vooral monitoren, onder meer door een Register bij te houden van meetinstrumenten en indicatoren. Het Zorginstituut toetst onder meer meetinstrumenten en indicatoren zorgvuldig alvorens deze in het Register te plaatsen. Hiertoe is een Toetsingskader Kwaliteitsstandaarden en Meetinstrumenten (CVZ, 2014) opgesteld waarin verschillende procedurele en methodische criteria zijn opgenomen. Daarnaast is een Aanbiedingsformulier ontwikkeld waarin partijen die een meetinstrument of indicator aanbieden aan het Register verschillende vragen moeten beantwoorden. Op grond van dit Aanbiedingsformulier toetst het Zorginstituut of het meetinstrument of de indicator voldoet aan het Toetsingskader. De methodische elementen uit het Toetsingskader en het Aanbiedingsformulier zijn goed toegesneden op indicatoren gebaseerd op registraties van zorgaanbieders en indicatoren gebaseerd op patiëntervaringen zoals gemeten met de CQindex vragenlijsten. Deze patiëntervaringen worden ook wel Patient Reported Experience Measures (PREMs) genoemd. Het Toetsingskader maakt bij indicatoren en de CQ-index respectievelijk gebruik van de Indicatorstandaard (Koolman, Zuidgeest, Visser, & Appelman, 2012) en de CQI Handboeken (Koopman, Sixma, Hendriks, De Boer, & Delnoij, 2008). Een wat nieuwere ontwikkeling betreft het gebruik van Patient-Reported Outcome Measures (PROMs) als bron voor indicatoren van kwaliteit van zorg. PROMs worden uitgevraagd bij patiënten en sluiten dus nauw aan bij het besef dat patiënten een centrale
PROMs Leidraad, NIVEL 2014
5
bron zijn van informatie over kwaliteit van zorg. PROMs zijn daarnaast complementair aan de CQ-index omdat PROMs zich primair richten op uitkomsten van zorg terwijl de CQ-index zich meer focust op structuur- en procesaspecten van zorg. Het gebruik van PROMs als bron voor indicatoren van kwaliteit van zorg heeft onder meer veel aandacht gekregen door het PROMs initiative in het Verenigd Koninkrijk waar op zeer grote schaal ervaring is opgedaan met kwaliteitsindicatoren gebaseerd op PROMs voor verschillende electieve ingrepen (Devlin, Parkin, & Browne, 2010). In Nederland zijn ook verschillende initiatieven ontplooid. Zo hebben verzekeraars een serie pilots met PROMs gefinancierd en worden PROMs momenteel ook in een groeiend aantal klinische registraties ingebed.
1.2
Doel en positionering Het is van groot belang dat zodra partijen PROMs willen aanbieden aan het Register als instrumenten voor het meten van kwaliteit van zorg, het Toetsingskader en het Aanbiedingsformulier hiervoor ook voldoende zijn toegerust. Dit betekent dat het Toetsingskader en de vragen uit het Aanbiedingsformulier geschikt moeten worden gemaakt om PROMs mee te kunnen beoordelen. Tevens is van belang dat helder is waar de criteria en de vragen uit het Aanbiedingsformulier op zijn gebaseerd. Dit document voorziet partijen in de zorg van een leidraad voor de selectie en ontwikkeling van PROMs. Een punt van aandacht bij de vormgeving van dit document was dat verschillende relevante vraagstukken rond PROMs nog niet zijn uitgekristalliseerd. Dit geldt bijvoorbeeld voor de momenten waarop een PROM het beste kan worden afgenomen, de opzet van registraties en dataverzamelingen of de factoren die een rol kunnen spelen bij casemix correctie. In dit document is volstaan met het benoemen van deze vraagstukken en het aanbevelen van een zorgvuldige (verslaglegging van) besluitvorming, liefst aangevuld met onderzoek om meer kennis op te bouwen.
1.3
Opbouw en leeswijzer In hoofdstuk twee worden PROMs en enkele gerelateerde begrippen gedefinieerd en wordt een globaal stappenplan geschetst om tot een selectie van PROMs te komen, hier metingen mee uit te voeren en de resultaten te bewerken en gebruiken. Hoofdstuk drie en vier gaan in op aandachtspunten bij de selectie van een PRO of PROM en hoofdstuk vijf gaat in op verschillende implementatiekwesties. Daar komt ook het gebruik van een PROM als prestatiemaat aan de orde, een gebruiksdoel dat zeer belangrijk is voor de transparantie van kwaliteit van zorg. In hoofdstuk drie, vier en vijf zijn verschillende aanbevelingen te vinden die vaak vrijblijvend zijn, maar soms ook niet omdat zij vereist zijn om vragen uit het Aanbiedingsformulier te kunnen beantwoorden. Partijen die precies willen weten welke informatie vereist is voor het Aanbiedingsformulier wordt aangeraden om de meest actuele versie te raadplegen op de website van het Zorginstituut.
6
PROMs Leidraad, NIVEL 2014
2 PROMs: definiëring en stappenplan
2.1
PROs, PROMs en PRO-PM Patient-Reported Outcomes (PROs) zijn uitkomsten van zorg die betrekking hebben op de gezondheid van de patiënt en die de patiënt zelf rapporteert (FDA, 2006). Voorbeelden van PROs zijn symptomen, functioneren en gezondheidsgerelateerde kwaliteit van leven. Wanneer een instrument wordt gebruikt om een PRO mee te meten, wordt het ook wel Patient Reported Outcome Measure (PROM) genoemd. Met PROMs is het mogelijk om de effectiviteit van een behandeling te meten vanuit het perspectief van de patiënt. Als dit instrument als basis dient voor een indicator, waarmee de kwaliteit van een instelling of behandelaar in een numerieke score wordt uitgedrukt, wordt het een Patient Reported Outcome - Performance Measure (PRO-PM) of prestatiemaat genoemd (NQF, 2013). In bijlage 2 is een begrippenlijst te vinden waarin de begrippen PRO, PROM en PRO-PM zijn opgenomen, samen met verschillende andere relevante termen.
2.2
Generiek stappenplan Om tot een adequate uitkomstindicator en bijbehorend meetinstrument te komen, is het van belang om een drietal stappen te volgen en daarbij gebruik te maken van de input van experts en vooral van patiënten (zie figuur 2.1). Dit begint met een conceptuele basis en het vaststellen van de uitkomsten (PROs) die belangrijk zijn voor de betreffende patiëntengroep (stap 1). Vervolgens wordt er informatie verzameld over bestaande meetinstrumenten voor de specifieke patiëntengroep en zorgsetting (stap 2a). In stap 2b wordt de kwaliteit van de bestaande PROMs geëvalueerd en wordt er een keuze gemaakt op basis van een aantal criteria. Als er geen geschikte PROM is gevonden, kan er een worden (door)ontwikkeld (stap 3). De laatste stap (stap 4) gaat in op de implementatie van PROMs, onder meer bij gebruik van PROMs als prestatiemaat.
PROMs Leidraad, NIVEL 2014
7
Figuur 2.1 Schematisch overzicht van het PROMs-stappenplan
1. Selectie van de PRO
2. Selectie van bestaande PROMs a. Identificeren van bestaande PROMs b. Evaluatie en selectie van de PROMs
Criteria voor PROMs: ● Conceptueel- en meetmodel ● Inhoudsvaliditeit ● Constructvaliditeit ● Cross-culturele validiteit ● Betrouwbaarheid ● Responsiviteit ● Interpreteerbaarheid ● Hanteerbaarheid ● Kwaliteir van studies naar PROMs
3. Het (door)ontwikkelen van een PROM
4. Implementatie van PROMs Het gebruik van een PROM als prestatiemaat (PRO-PM) Overige implementatievraagstukken
8
PROMs Leidraad, NIVEL 2014
3 Selectie van PROs
Het moet helder zijn wat er precies in kaart moet worden gebracht en wanneer: over welke uitkomsten, bij welke patiëntengroep en in relatie tot welke zorg(aanbieders) gaat het? Het gaat hierbij om de uitkomst zelf en (nog) niet het meetinstrument. Het primaire doel is het inzichtelijk maken van kwaliteit van zorg. Met kwalitatief onderzoek (focusgroepen en/of interviews) bij patiënten en experts kan worden bepaald welke uitkomsten (PROs) voor de doelgroep in de specifieke zorgsetting van belang zijn. Het moet gaan om uitkomsten die vatbaar zijn voor verandering en waar zorgverleners daadwerkelijk invloed op kunnen hebben, oftewel: (veranderingen in) gezondheidsuitkomsten die toegeschreven kunnen worden aan een zorginterventie. De geselecteerde uitkomst valt onder een bepaald niveau (Wilson & Cleary, 1995). Onder niveaus worden de verschillende aspecten van ervaren gezondheid verstaan, zoals bijvoorbeeld symptomen (zoals pijn en vermoeidheid), fysiek, mentaal en sociaal functioneren en algemeen ervaren gezondheid . Aanbevelingen Betrek patiënten, experts en relevante stakeholders bij het vaststellen van de relevante PROs en documenteer dit proces zorgvuldig.
PROMs Leidraad, NIVEL 2014
9
10
PROMs Leidraad, NIVEL 2014
4 Selectie van bestaande PROMs
4.1
Identificeren van bestaande PROMs Gezien de veelheid aan reeds ontwikkelde meetinstrumenten is het absoluut noodzakelijk om eerst na te gaan welke PROMs er al zijn alvorens zelf een nieuw instrument te gaan ontwikkelen. Dit voorkomt wildgroei van meetinstrumenten. Om te inventariseren welke PROMs beschikbaar zijn voor de betreffende patiëntengroep en aandoening wordt literatuuronderzoek uitgevoerd (Mokkink et al., 2009). Daarnaast kan uiteraard gebruik worden gemaakt van betrokken experts die al goed zicht hebben op mogelijke potentiele PROMs en ook weten welke PROMs al in richtlijnen of standaarden worden aanbevolen of in de praktijk al worden gebruikt. Daarnaast is een overkoepelend systeem beschikbaar dat bestaat uit generieke PROMs voor de meeste elementen van fysiek, mentaal en sociaal functioneren en waaruit kan worden geput bij het identificeren van PROMs (PROMIS; Cella et al., 2010). Voor de PRO kan een generieke of specifieke PROM worden geselecteerd (of ontwikkeld, als er geen geschikte PROM voorhanden is). Generieke PROMs kunnen onafhankelijk van de aandoening van de patiënt ingezet worden. Specifieke instrumenten zijn juist ontwikkeld om te gebruiken bij een specifieke patiëntengroep en zijn doorgaans gevoeliger voor het meten van veranderingen bij de betreffende doelgroep (McKenna, 2011). Aanbevelingen Maak een overzicht van PROMs die zijn geïdentificeerd en documenteer hoe de identificatie van de PROMs is verlopen.
4.2
Evaluatie en selectie van een PROM Bij de selectie van PROMs is het van belang dat er voldoende draagvlak is voor de PRO en het instrument bij de diverse stakeholders: patiëntenorganisaties, zorgaanbieders en zorgverzekeraars. Zeker bij PROMs als prestatiemaat moeten alle partijen bereid zijn om zich te committeren aan het instrument (zie ook het Toetsingskader kwaliteitsstandaarden en meetinstrumenten; CVZ, 2014). Als duidelijk is welke PROMs beschikbaar zijn, kunnen de PROMs worden geëvalueerd, bijvoorbeeld in samenspraak met stakeholders. Bij het evalueren van een PROM dient rekening gehouden te worden met de meeteigenschappen en minimale eisen van validiteit, betrouwbaarheid en responsiviteit, en hanteerbaarheid (Reeve et al., 2013). De onderstaande eisen maken het mogelijk om te beoordelen of een PROM geschikt en bruikbaar is. Voor alle criteria geldt dat er evidentie aangedragen kan worden vanuit de literatuur. Als er geen geschikte PROM voorhanden is, kan overgegaan worden tot (door)ontwikkeling van een nieuwe PROM (stap 2c).
PROMs Leidraad, NIVEL 2014
11
4.2.1
Conceptueel- en meetmodel Een PROM behoort duidelijk gedefinieerd te zijn als het gaat om welke constructen gemeten worden en bij welke populatie. Richt de PROM zich bijvoorbeeld op pijn of vermoeidheid of angst? De focus van de PROM moet overeenstemmen met de beslissingen die in stap 1 (doel en niveau van een PRO) zijn gemaakt. Daarnaast moet er informatie beschikbaar zijn over hoe de constructen georganiseerd zijn in een meetmodel, inclusief informatie over de dimensionaliteit en hoe de items en de constructen zich tot elkaar verhouden (zie ook construct validiteit). Als een PROM bijvoorbeeld is gericht op pijn én vermoeidheid moet duidelijk zijn welke items betrekking hebben op pijn en welke betrekking hebben op vermoeidheid. Dit wordt vaak onderbouwd met factoranalyse (zie ook: Construct validiteit). Dit alles moet helder zijn gedocumenteerd en verantwoord, bijvoorbeeld in de vorm van artikel.
4.2.2
Inhoudsvaliditeit Inhoudsvaliditeit is de mate waarin de inhoud van de PROM een adequate afspiegeling is van het te meten construct (Mokkink et al., 2010). De inhoudsvaliditeit kan geverifieerd worden door experts en patiënten. Inspraak van patiënten tijdens het ontwikkeltraject van PROMs is noodzakelijk omdat het om patiënt gerelateerde uitkomsten en het patiëntenperspectief gaat. Als het evaluatie- en selectieproces leidt tot de keuze voor een PROM die niet met inspraak van patiënten is ontwikkeld, dan is het extra belangrijk dat deze keuze wel door patiënten(-organisaties) wordt onderschreven. Het toetsen of patiënten het te meten construct herkennen in de PROM en goed begrijpen waar de PROM over gaat, kan gedaan worden met behulp van cognitieve interviews bij patiënten. Patiënten kunnen worden gevraagd om hardop te denken bij het invullen van een vragenlijst en er worden verdiepende vragen gesteld over de items, termen of inleidende tekststukken (Beatty & Willis, 2007; Willis, 2005). Het is belangrijk dat uit de cognitieve interviews blijkt dat patiënten de PROM interpreteren op een manier die overeenkomt bij de in stap 1 vastgestelde doelen.
4.2.3
Constructvaliditeit Constructvaliditeit heeft betrekking op de mate waarin een meetinstrument correleert met andere meetinstrumenten die hetzelfde meten (convergente validiteit) en niet correleert met instrumenten die wat anders meten (divergente validiteit) (Mokkink et al., 2010). Er hoort evidentie te zijn waaruit blijkt dat de constructvaliditeit van de PROM naar behoren is. Afhankelijk van de PROs die gemeten worden met de PROM, kunnen er verschillende instrumenten zijn waaraan dit getoetst wordt (Reeve et al., 2013). Bijvoorbeeld, een PROM voor fysiek functioneren correleert naar verwachting positief met een performance-based test voor fysiek functioneren. Tevens is de structurele validiteit een belangrijk onderdeel van constructvaliditeit. De structurele validiteit gaat in op de mate waarin de scores van een PROM een adequate afspiegeling zijn van de dimensionaliteit van het te meten construct. Dit kan onder meer in kaart worden gebracht met behulp van (confirmatieve) factor analyse (de Vet, Terwee, Mokkink, & Knol, 2011).
4.2.4
Cross-culturele validiteit Als een PROM recent is vertaald of wordt gebruikt voor internationale vergelijkingen is het van groot belang dat de vertaling van een PROM op een zorgvuldige, professionele
12
PROMs Leidraad, NIVEL 2014
manier is gedaan. Indien in Nederland al veel ervaring is opgedaan met een vertaalde PROM en daaruit blijkt dat deze in de Nederlandse populatie voldoet aan de verschillende criteria uit dit document, dan weegt het minder zwaar als de vertaling niet strikt volgens de regelen der kunst is uitgevoerd. Een breed geaccepteerde methode voor het vertalen van PROMs is de forward-backward vertaalmethode (Beaton, Bombardier, Guillemin, & Ferraz, 2000). Deze methode bestaat uit vijf stappen: 1. Voorwaartse vertaling: Meerdere onafhankelijke vertalers, bij voorkeur vertalers met de doeltaal als moedertaal, vertalen de oorspronkelijke versie naar de doeltaal (Nederlands). 2. Expertpanel: De twee vertalers uit stap 1 komen tot consensus voor wat betreft eventuele inadequate vertalingen die zijn gemaakt in stap 1. 3. Terugwaartse vertaling: Het instrument wordt terug vertaald naar oorspronkelijke taal door een onafhankelijke vertaler die de oorspronkelijke taal als moedertaal heeft, maar geen kennis heeft van de originele vragenlijst. 4. Expertgroep: een expertgroep bereikt consensus over de vertalingen en zorgt ervoor dat er geen discrepanties meer zijn tussen het bron- en het doelinstrument. 5. Pre-test en cognitieve interviews: Het instrument wordt getest op de doelpopulatie. Er volgt ook een kwantitatieve testfase. 4.2.5
Betrouwbaarheid Mokkink et al. (2010) definiëren betrouwbaarheid als de mate waarin een meting vrij is van meetfout. Voor de betrouwbaarheid van de (uni-dimensionele) schalen wordt standaard gekeken naar de Cronbachs alfa (Mokkink et al., 2010; Sijtsma, 2009). De meest accurate manier om betrouwbaarheid in kaart te brengen is door zowel met behulp van Cronbachs alfa, test-hertestbetrouwbaarheid en absolute meetfout. Omdat deze laatste twee vaak in de praktijk wat lastiger zijn vast te stellen, wordt vaak volstaan met het berekenen van Cronbachs alfa. De minimale betrouwbaarheid van schalen is 0,70 voor vergelijkingen op groepsniveau.
4.2.6
Responsiviteit en minimaal klinisch relevant verschil Responsiviteit is het vermogen van een instrument om veranderingen in het te meten construct te detecteren (Mokkink et al., 2010). Om de responsiviteit vast te stellen, zijn aanvullende criteria of ‘anchors’ nodig. Dit kunnen beoordelingen van patiënten zijn over de mate waarin zij veranderd zijn of veranderingen in andere PROMs die hetzelfde meten. Om verschilscores goed te kunnen interpreteren is een minimaal klinisch relevant verschil wenselijk. Het minimaal klinisch relevant verschil is de kleinste verandering in de score op de PROM die belangrijk wordt gevonden door patiënten, behandelaars of relevante anderen (de Vet et al., 2007). De aanbevolen methode voor het bepalen van een minimaal klinisch relevant verschil is door het te schatten op basis van anchor-based methoden (Revicki, Hays, Cella, & Sloan, 2008). Anchor-based methoden maken gebruik van een ander instrument of vraag om te bepalen wanneer een verschil (klinisch) relevant is (Jaeschke, Singer, & Guyatt, 1989). Naast anchor-based methoden kunnen ook distribution-based methoden worden gebruikt. Distribution-based methoden richten zich op het kleinst waarneembare verschil dat buiten de meetfout kan worden waargenomen (de Vet & Terwee, 2010). Strikt genomen gaan distribution-based methoden daarmee
PROMs Leidraad, NIVEL 2014
13
voorbij aan de vraag of dat kleinst waarneembare verschil wel relevant wordt gevonden door patiënten.
4.2.7
Hanteerbaarheid Bij hanteerbaarheid gaat het erom dat patiënten niet te veel worden belast en dat de PROM nut heeft. Belasting gaat in op de lengte van de PROM, de frequentie van dataverzameling, het vereiste niveau van taal- / gezondheidsvaardigheden en de aansluiting bij fysieke en cognitieve mogelijkheden van de patiëntengroep. Het gebruik van begrijpelijke taal is bovendien van belang voor de betrouwbaarheid en validiteit van de PROM. Informatie over de belasting voor patiënten volgt doorgaans uit cognitieve interviews waarin patiënten wordt gevraagd een vragenlijst in te vullen en hierbij hardop na te denken en waarbij verdiepende vragen worden gesteld over de PROM (Beatty & Willis, 2007; Willis, 2005). Patiënten kunnen in de cognitieve interviews aangeven of de belasting te hoog is en waar dat door komt. De belasting voor zorgverleners hangt sterk samen met heel andere kwesties zoals de wijze waarop de PROM wordt geïmplementeerd, en geregistreerd, maar ook de financiering van de metingen waaronder eventuele licentiekosten. Het nut van een PROM voor patiënten en zorgverleners kan worden geborgd door hun betrokkenheid bij het vaststellen van de relevante PROs en bij het selecteren van de PROMs. Dat patiënten en zorgverleners een PROM nuttig vinden betekent niet direct dat het nut in verhouding staat tot de belasting. Dit is een afweging die de relevante stakeholders gezamenlijk moeten maken. Hoewel het nut van het instrument al in stap 1 is vastgesteld (omdat patiënten worden betrokken bij de keuze van de PROs), is het belangrijk dat de belasting in evenwicht is met de het nut. Het nut voor de patiënt kan vergroot worden door terugkoppeling van de resultaten waardoor de patiënt inzicht krijgt in de eigen gezondheid ten opzichte van eerdere momenten of in vergelijking met andere patiënten. Als verschillende methoden voor dataverzameling worden gebruikt (zoals mixed-mode), moet er bewijs zijn dat dit vergelijkbare en representatieve resultaten oplevert. Een PROM moet tevens niet te belastend zijn voor zorgverleners. Het gebruik en de afnamewijze moeten passen binnen de setting en de kosten moeten niet te hoog zijn.
4.2.8
Kwaliteit van studies naar PROMs Informatie over de eigenschappen van bestaande PROMs wordt veelal ontleend aan eerder onderzoek. Uiteraard is de kwaliteit van dit eerdere onderzoek van groot belang. Informatie over een PROM heeft nu eenmaal weinig betekenis als die informatie is ontleend aan ondeugdelijke studies. Bij het beoordelen van de kwaliteit van studies spelen verschillende zaken een rol waaronder het aantal waarnemingen (N), respons en representativiteit, helderheid over de omgang met missing data etc. Uiteraard is het mogelijk om te twisten welke eisen precies moeten worden gesteld. Het COSMIN initiatief (COnsens based Standerds for Measurement INstruments) – waar verschillende definities uit dit document ook aan zijn ontleend – betreft een poging hier consensus in aan te brengen. Dit heeft onder meer heeft geleid tot een checklist met bijbehorend rating systeem waarmee de kwaliteit van studies naar meetinstrumenten kan worden beoordeeld (COSMIN, 2014; Terwee et al., 2012). De checklist biedt dus een bestaand raamwerk dat
14
PROMs Leidraad, NIVEL 2014
kan worden gebruikt om te bekijken of informatie over de eigenschappen van een PROM is gebaseerd op studies van goede kwaliteit. Aanbevelingen Evalueer de geïdentificeerde PROMs met betrekking tot het conceptueel- en meetmodel, inhoudsvaliditeit, constructvaliditeit, cross-culturele validiteit, betrouwbaarheid, responsiviteit en minimaal klinisch relevant verschil, hanteerbaarheid. Betrek hierbij de verschillende relevante stakeholders. Documenteer het evaluatieproces in het algemeen. Indien een PROM wordt gekozen op grond van de evaluatie, documenteer dan in het bijzonder informatie met betrekking tot de evaluatiecriteria voor de geselecteerde PROM. Kijk daarbij kritisch naar de kwaliteit van de studies waar informatie over een PROM op gebaseerd is, bij voorkeur met behulp van een bestaand raamwerk zoals bijvoorbeeld de COSMIN.
PROMs Leidraad, NIVEL 2014
15
4.3
Het (door)ontwikkelen van een PROM Wanneer er geen geschikte PROM voorhanden is, of als een instrument niet of onvoldoende is gevalideerd voor de bedoelde doelgroep/aandoening, zorgsetting, taal en cultuur, kan een PROM worden (door)ontwikkeld. Figuur 3.1 toont de gebruikelijke fases die horen bij het ontwikkelen van een PROM en de methoden en werkwijzen die doorgaans voor die fases worden gehanteerd. Hierbij is het van belang dat het al duidelijk is wat het niveau en het doel van de uitkomstindicator is. Deze is bij stap 1 (vaststellen niveau en doel van de PRO) reeds bepaald.
Figuur 4.1
Schematisch overzicht van de ontwikkeling van een PROM
1. Inhoud en vorm vaststellen (validiteit)
2. Kwalitatieve testfase
4. Aanpassingen aan instrument
3. Kwantitatieve testfase
Wat?
Wat?
Wat?
Wat?
-Items genereren
-Verificatie bij patiënten van concepten, antwoordcategorieën, herinneringsperiode en leesbaarheid
-Vaststellen van betrouwbaarheid, dimensionaliteit, responsiviteit, constructvaliditeit
-Naar aanleiding van de kwantitatieve festfase dient de PROM aangepast te worden
-Belasting onderzoeken bij patienten
-Idealiter bestaande PROMs en/of andere variabelen meenemen t.b.v. constructvaliditeit
Hoe?
-Vaststellen van de manier van datacollectie, scoreadministratie, herinngeringsperiode, antwoordcategorieën -Vaststellen minimaal klinisch relevant verschil
Hoe? Hoe? -Expert meetings / interviews met stakeholders en patiënten, literatuur review, transcripties van focusgroepen
-Cognitieve test bij patiënten. Zie Willis (2005) en WIS cognitief interview
-Op basis van §6.5 van het Handboek CQI Ontwikkeling kunnen er aanpassingen gedaan worden
Hoe? -Cronbachs alfa, factoranalyses, interitemanalyses, IRT-analyses. Richtlijnen zijn te vinden in bijvoorbeeld De Vet et al. (2011). -Responsiviteit kan bepaald worden met gegevens uit fase 2 Inhoudsvaliditeit 'vaststellen')
De precieze invulling van iedere stap kan per ontwikkeltraject verschillen en wordt hier dan ook niet in detail uitgewerkt. Daarnaast is het denkbaar dat wanneer een bestaande PROM wordt doorontwikkeld, slechts een deel van de stappen moet worden doorlopen. Bij de invulling van de verschillende stappen is het uiteraard wel van belang dat deze in ieder geval overeenstemmen met de aanbevelingen en criteria in dit document. Er kan gebruik worden gemaakt van literatuur zoals van De Vet, Terwee, Mokkink en Knol (2011) en FDA (2006). Hierin staan specifieke afwegingen beschreven ten aanzien van het ontwikkelen van een PROM. Ook delen van het CQI Handboek Ontwikkeling (Koopman et al., 2008) (bv. over focusgroepen of cognitieve testen) bieden aanknopingspunten.
16
PROMs Leidraad, NIVEL 2014
Aanbevelingen Indien een nieuwe PROM wordt ontwikkeld, hou bij het ontwikkeltraject dan rekening met de aanbevelingen uit paragraaf 4.1 en zorg dat het traject resulteert in informatie m.b.t. de evaluatiecriteria uit paragraaf 4.2.
PROMs Leidraad, NIVEL 2014
17
18
PROMs Leidraad, NIVEL 2014
5 Implementatie van PROMs
5.1 5.1.1
Het gebruik van een PROM als prestatiemaat (PRO-PM) Definiëring van de prestatiemaat Bij het gebruik van een PROM als een prestatiemaat is van belang hoe de PRO-PM (prestatiemaat) wordt gedefinieerd. In het algemeen is het idee dat de PRO-PM weergeeft in hoeverre zorg van invloed is op de PRO, bijvoorbeeld dat de PRO verbetert door zorg of – bij bijvoorbeeld chronische aandoeningen – dat de zorg achteruitgang van de PRO vertraagd of verminderd. In dit licht gaat het dus om veranderingen in een PRO in de tijd. In het geval van twee tijdstippen (t1, t2) kan de PRO-PM worden gedefinieerd als het verschil in het gemiddelde / de somscores tussen de twee tijdstippen, of het al dan niet behalen van een vooraf vastgesteld verschil tussen de twee tijdstippen (bijvoorbeeld het percentage patiënten dat een minimaal klinisch relevant verschil heeft behaald). Een eenduidige conventie is vooralsnog niet voorhanden en de keuze kan ook afhangen van wat het beste aansluit bij de belevingswereld van de gebruiker (Hildon, Neuburger, Allwood, van der Meulen, & Black, 2012). Daarnaast is het verstandig om van enkele varianten vast te stellen of deze meer of minder gevoelig zijn voor verschillen tussen zorgaanbieders of zorgverleners. Voor verschillende behandelingen is het eveneens interessant om te focussen op de meting voorafgaand aan de behandeling, vanuit de gedachte dat dit inzicht geeft in de mate waarin een zorgaanbieder relatief voortvarend of terughoudend is met het aansturen op die behandeling. Ook hierbij zijn verschillende varianten mogelijk waaronder bijvoorbeeld de gemiddelde score voorafgaand aan de behandeling of het percentage patiënten dat voorafgaand aan de behandeling een bepaalde waarde overschrijdt.
5.1.2
Aggregatieniveau Om een PROM te kunnen gebruiken als prestatiemaat is eveneens van belang op welk aggregatieniveau de prestatiemaat betrekking heeft. Voorbeelden van aggregatieniveaus die tot op heden veel voorkomen zijn ziekenhuis, afdeling, zorgketen, concern, locatie etc. Belangrijke overwegingen bij het kiezen van een aggregatieniveau zijn op welk niveau kwaliteitsverschillen worden verwacht en op welk niveau de resultaten bruikbaar zijn. Idealiter worden meerdere aggregatieniveaus meegenomen bij (pilot-)metingen zodat in ieder geval kan worden bekeken op welke niveaus de PRO-PM meer of minder verschillen in kwaliteit laten zien.
5.1.3
Casemix Een punt van aandacht bij prestatiemetingen in het algemeen en bij een PRO-PM in het bijzonder is dat verschillen in de patiëntenpopulaties van zorgaanbieders van invloed kunnen zijn op de scores. In dit verband wordt vaak gesproken over casemix correctie, een statistische correctie voor verschillen in de kenmerken van patiëntenpopulaties die
PROMs Leidraad, NIVEL 2014
19
van invloed zijn op de uitkomst en waar een zorgaanbieder niets aan kan doen (Zaslavsky, Zaborski, & Cleary, 2000). De meest simpele vorm om rekening te houden met casemix is stratificatie. Hierbij worden respondenten gesplitst in groepen op basis van de casemix factoren. Dit houdt in dat (bijvoorbeeld) de score voor de laagopgeleide mannen van zorgaanbieder A wordt vergeleken met de score voor laagopgeleide mannen van zorgaanbieder B. Het opsplitsen in groepen zorgt echter voor een lager aantal waarnemingen per groep, waarmee de power voor statistische toetsen tussen deze groepen afneemt. Daarom wordt meestal regressie-analyse gebruikt zodat er statistisch kan worden gecorrigeerd voor casemix factoren zonder concessies te hoeven doen aan de groepsgrootte voor statistische toetsen (zie ook §5.1.4). De keuze van de casemix variabelen is van goot belang voor de acceptatie van de resultaten en vindt bij voorkeur plaats op basis van literatuur, empirische gegevens en de mening van experts (Deutsch, Smith, Gage, Kelleher, & Garfinkel, 2012). Veel gebruikte casemix variabelen zijn de demografische kenmerken leeftijd, geslacht, opleiding, SES en leefsituatie/burgerlijke staat. Ook klinische kenmerken komen in aanmerking. Voorbeelden hiervan zijn kenmerken van de aandoening zoals ernst en duur van een aandoening en co-morbiditeit. In dit verband wordt de eerste score, voorafgaand aan de behandeling, ook regelmatig gebruikt als casemix variabele. Het functioneren van een patiënt voorafgaand aan een behandeling hangt namelijk samen met de mate waarin vooruitgang of achteruitgang mogelijk is (Coles, 2010). Andere kenmerken van patiënten zoals gezondheidsvaardigheden, geletterdheid, angst of stress kunnen ook relevante casemix adjusters zijn, maar worden minder vaak als zodanig gebruikt. Idealiter wordt in de eerste (pilot-)metingen een uitgebreide set met mogelijke casemix variabelen meegenomen en vindt een selectie plaats op grond van de resultaten (Coles, 2010). 5.1.4
Statistisch model voor vergelijkingen Wat betreft de statistische modellen voor het vergelijken van een prestatiemaat tussen zorgaanbieders (of enig ander aggregatieniveau) hebben multi-level modellen de voorkeur. Multi-level modellen corrigeren voor de afhankelijkheid van patiënten binnen analyse-eenheden. Binnen de CQ-index zijn deze modellen vrijwel uitsluitend gebruikt voor het vergelijken van zorgaanbieders en ook bij zorginhoudelijke indicatoren worden idealiter multi-level modellen toegepast, hoewel deze voor zorginhoudelijke indicatoren in een enkel geval niet convergeren (Koolman et al., 2012; Reitsma, Schipper, & Remmerswaal, 2011). In het kort hebben multi-level modellen als voordeel dat zij rekening houden met de afhankelijkheid van waarnemingen binnen een zorgaanbieder en dat de toevalsvariatie die zich kan voordoen – vooral bij de zorgaanbieders met weinig waarnemingen – wordt verminderd in de uiteindelijke schattingen per zorgaanbieder. De voordelen van multi-level analyse voor het vergelijken van zorgaanbieders zijn elders uitvoeriger beschreven (Boer, Hoek, Delnoij, & Groenewegen, 2010) evenals de werkwijze (College voor Zorgverzekeringen, 2013c). Aanbevelingen De vraagstukken uit deze paragraaf zijn methodisch van aard maar hebben ook consequenties voor de gebruikswaarde de PRO-PM. De aanbeveling is dan ook om zowel methodologen als stakeholders te betrekken bij de besluitvorming. Bouw waar mogelijk en wenselijk ook aanvullende evidentie op, bijvoorbeeld door verschillende PRO-PMs,
20
PROMs Leidraad, NIVEL 2014
aggregatieniveaus of casemix adjusters mee te nemen en te bekijken welke varianten de meest bruikbare informatie opleveren.
5.2 5.2.1
Overige implementatievraagstukken Onderzoeksopzet, response shift & recall bias Er zijn verschillende designs of methoden van dataverzameling mogelijk met PROMs, elk gekenmerkt door specifieke voor- en nadelen en eventuele voorwaarden voor wat betreft de uitvoering en interpretatie van het onderzoek (zie bijlage 1). Voorop staat dat het doel van PROMs-metingen is om te bepalen of en in hoeverre patiënten verbeteren, verslechteren of geen verandering laten zien. Dit kan op drie manieren worden nagegaan, namelijk: direct, indirect of quasi-indirect (Meyer, Richter, & Raspe, 2013). Onder de directe methoden vallen bijvoorbeeld ‘transition ratings’ met een ‘global rating of change’ zoals de Global Perceived Effect vraag (GPE, Kamper et al., 2010). Hiermee wordt de patiënt op een directe wijze gevraagd naar veranderingen in de uitkomstindicator; of deze is verslechterd, verbeterd of gelijk is gebleven ten opzichte van een eerder moment. Deze methode heeft als voordeel dat het relatief snel en gemakkelijk te bevragen, registreren en interpreteren is. Een nadeel is dat het een beroep doet op de herinnering van de patiënt die mogelijk niet geheel accuraat is. Daarnaast zijn dit soort vragen relatief lastig voor patiënten omdat een patiënt in gedachten een inschatting moet maken van de huidige situatie, een vroegere situatie en het verschil daartussen. Bovendien blijkt dat de vraag naar het effect van de behandeling meer zegt over hoe het gaat op het huidige moment dan over de verandering (Meyer et al., 2013). Bij de indirecte methode wordt eenzelfde patiëntengroep op verschillende momenten in de tijd gevraagd naar een bepaalde uitkomstindicator. Er wordt dan een baseline-meting gedaan en een meting na de interventie (pre-post design). Door het verschil te berekenen wordt een eventuele verbetering of verslechtering zichtbaar. Hiervoor is het opvolgen van patiënten in de tijd noodzakelijk, is de belasting van patiënten groter vanwege de twee opeenvolgende metingen in de tijd. Daarnaast kan er bij gebruik van deze methode response shift optreden. Response shift is gedefinieerd als een verandering in de evaluatie van iemands kwaliteit van leven als gevolg van veranderingen in interne standaarden, waarden en de persoonlijke interpretatie/opvattingen van kwaliteit van leven op zich (Sprangers & Schwartz, 1999). Dit is problematisch omdat het hierdoor niet meer duidelijk is of en in welke mate een verandering in een uitkomstindicator veroorzaakt is door het effect van een interventie, response shift of beide. Een methode die niet gevoelig is voor response shift, is de quasi-indirecte methode. Hierbij worden na de interventie/behandeling twee vragen gesteld. Ten eerste wordt retrospectief (terugkijkend) gevraagd naar de status van de patiënt vóór de interventie. Ten tweede wordt gevraagd naar de status op het meetmoment zelf. Er wordt dan voor response shift gecorrigeerd omdat er impliciet vanuit wordt gegaan dat de patiënt retrospectief een inschatting maakt van de twee momenten en daarmee dus dezelfde interne standaard hanteert voor beide momenten. Op die manier wordt dus automatisch gecorrigeerd voor de status van het moment van bevragen. Ook hier geldt echter weer dat de herinnering van de patiënt vertroebeld kan zijn (recall bias), wat van invloed is op de retrospectieve voormeting.
PROMs Leidraad, NIVEL 2014
21
Aanbevelingen Overweeg bij de keuze voor een onderzoeksopzet welke opzet het beste past bij de patiëntenpopulatie. Is recall bias naar verwachting een groot risico voor deze populatie of speelt response shift hier vermoedelijke een grotere rol? Betrek experts en beschikbare literatuur bij deze overwegingen en overweeg eventueel om aanvullende evidentie op te bouwen door de omvang van eventuele recall bias en/of response shift te onderzoeken in (pilot-)metingen. 5.2.2
Klinisch betekenisvolle meetmomenten Het is belangrijk om vast te stellen wanneer en hoe vaak patiënten een PROM moeten invullen. De verschillende opties hebben elk voor- en nadelen (Aaronson et al., 2011). Bij een enkele meting is de timing van groot belang voor het gemeten ‘effect’ en is het wenselijk dat de meting voor alle patiënten op eenzelfde (tijds)periode betrekking heeft. Als er meerdere meetmomenten zijn, is het eveneens van belang dat die op klinisch relevante momenten plaatsvinden (wanneer er daadwerkelijk effecten zijn te verwachten). Voor toepassing in de klinische praktijk is het wenselijk om de metingen te laten samenvallen met de contactmomenten van patiënt en behandelaar, zodat de resultaten kunnen worden gebruikt voor het evalueren en zo nodig bijstellen van een behandeling. Voor andere doeleinden - zoals de kwaliteitscontrole/-verbetering door zorgaanbieders of instellingen, benchmarking en de zorginkoop door zorgverzekeraars – volstaat wellicht één retrospectieve meting voor een evaluatie op groeps-/organisatieniveau of voor een vergelijking van zorgaanbieders. Dat het meetmoment van invloed kan zijn op de uitkomst, kan aanleiding zijn om dat meetmoment in ieder geval zo constant mogelijk te houden tussen patiënten en tussen zorgaanbieders. Tegelijkertijd heeft enige variatie in meetmomenten ook voordelen, want dit maakt het mogelijk om de eventuele invloed van het meetmoment op de uitkomst te analyseren, bijvoorbeeld met behulp van correlatie- en/of regressieanalyse. Indien blijkt dat het meetmoment van invloed is op de uitkomst kan hier nog rekening mee worden gehouden bij het vergelijken van instellingen door het meetmoment te betrekken bij de casemix adjustment. Aanbevelingen Houd bij het vaststellen van de meetmomenten rekening met wanneer effecten van de behandeling te verwachten zijn. Maak hierbij tevens gebruik van beschikbare evidentie met betrekking tot de invloed van het meetmoment op de uitkomst. Overweeg – zeker bij gebrek aan beschikbare evidentie – om evidentie op te bouwen, bijvoorbeeld door enige variatie in het meetmoment toe te staan zodat de invloed van het meetmoment op de uitkomst achteraf kan worden geanalyseerd.
5.2.3
Algemene aandachtspunten bij dataverzameling Bij dataverzameling met behulp van (online) vragenlijsten is doorgaans veel aandacht voor de hoogte en de representativiteit van de respons. Daarnaast is het van belang om de privacy van respondenten te beschermen. Deze zaken spelen uiteraard ook een rol bij PROMs.
22
PROMs Leidraad, NIVEL 2014
De hoogte van de respons is mede afhankelijk van de wijze van dataverzameling. Van belang hierbij is dat de methode van dataverzameling goed aansluit bij de doelgroep. Zo zal een online dataverzameling geen hele hoge respons opleveren in een doelgroep die niet goed uit de voeten kan met internet. Voorts hebben sommige doelgroepen moeite met het invullen van (online) vragenlijsten in welk geval interviews met de doelgroep, of een dataverzameling onder de naasten van de doelgroep een gunstiger respons op kunnen leveren. Daarnaast is het van belang om bij schriftelijke en/of online dataverzamelingen herinneringen te sturen aan nonresponders teneinde de respons te verhogen. Tot slot dienen de hoogte en de representativiteit van de respons te worden vastgesteld. Dit vereist dat er een registratie is van responders en non-responders, inclusief enkele achtergrondkenmerken, zodat kan worden bekeken hoe hoog de respons is en of deze representatief is voor de totale groep die is benaderd. Indien de benaderde groep een steekproef is van de populatie die in aanmerking komt voor het onderzoek dient bij de steekproeftrekking uiteraard te worden bekeken of de steekproef ook representatief is voor de populatie. Voornoemde aandachtspunten bij dataverzameling zijn verre van uniek voor PROMs en dan ook al veelvuldig uitgewerkt voor verschillende andere toepassingen waaronder de CQ-index. De richtlijnen voor de CQ-index bevatten bijvoorbeeld onderdelen over dataverzameling met behulp van interviews (College voor Zorgverzekeringen, 2013b), standaard verzendschema’s voor schriftelijke en/of online dataverzamelingen (College voor Zorgverzekeringen, 2013a) en steekproeftrekking, respons en representativiteit. Ook de bescherming van de privacy komt daarbij uitgebreid aan bod. De genoemde CQI richtlijnen bieden aanknopingspunten, maar zijn niet in alle gevallen zonder meer toepasbaar voor PROMs; dit hangt af van de wijze waarop metingen met PROMs worden ingericht. Aanbevelingen Stem de methode van dataverzameling zoveel mogelijk af op de patiëntenpopulatie en doe dit idealiter ook in overleg met patiënten. Sluit waar mogelijk aan bij bestaande conventies voor dataverzameling en de bescherming van privacy. Zorg voor een gedegen en verifieerbare registratie van steekproef, respons en representativiteit. 5.2.4
Rapportage De wijzen waarop PROMs gerapporteerd kunnen worden zijn talrijk. Voorbeelden van rapportagemethoden zijn het percentage verbeterde en verslechterde patiënten of het percentage patiënten dat voldoet aan een specifieke waarde (Cella et al., 2013; NQF, 2013). Welke rapportagemethode het beste kan worden teruggekoppeld en in welk format is nog niet uitgekristalliseerd. Duidelijk is wel dat verschillende groepen van gebruikers van PROMs ook verschillende voorkeuren hebben. Zo zijn patiënten (naast hun eigen scores) vooral geïnteresseerd in de proportie patiënten die verbetert, terwijl clinici liefst een zo breed mogelijk, gevarieerd spectrum van uitkomstmaten willen zien (Hildon et al., 2012). Voorts kan het gebruiksdoel van invloed zijn op de eisen die worden gesteld aan de presentatiewijze. Zo worden zaken als casemix correctie, onzekerheidsmarges en de significantie van verschillen tussen aanbieders doorgaans veel belangrijker gevonden voor externe verantwoordingsdoelen dan voor interne verbetering.
PROMs Leidraad, NIVEL 2014
23
Aanbevelingen Stem de presentatiewijze af op de gebruiker en het gebruiksdoel. Doe dit in overleg met de gebruiker en andere relevante stakeholders. Maak eventueel gebruik van focusgroepen of cognitieve testen met gebruikers om te onderzoeken of een presentatiewijze de interpretatie en het gebruik van de informatie goed ondersteunt.
24
PROMs Leidraad, NIVEL 2014
Literatuur
Aaronson, N., Choucair, A., Elliott, T., Greenhalgh, J., Halyard, M., Hess, R., . . . Snyder, C. (2011). User's guide to implementing patient-reported outcomes assessment in clinical practice: International Society for Quality Life Research. Beaton, D. E., Bombardier, C., Guillemin, F., & Ferraz, M. B. (2000). Guidelines for the process of cross-cultural adaptation of self-report measures. Spine, 25(24), 31863191. Beatty, P. C., & Willis, G. B. (2007). Research synthesis: The practice of cognitive interviewing. Public Opinion Quarterly, 71(2), 287-311. Boer, D. d., Hoek, L. v. d., Delnoij, D., & Groenewegen, P. (2010). Kleine zorgaanbieders in multilevel vergelijkende analyses: De CQI Verpleging, Verzorging en Thuiszorg. Cella, D., Hahn, E. A., Jensen, S. E., Butt, Z., Nowinsky, C. J., & Rothrock, N. (2013, 9/28/2013). Methodological Issues In The Selection, Administration And Use Of Patient-Reported Outcomes In Performance Measurement In Health Care Settings. Retrieved 12/19/2013, 2013, from http://www.qualityforum.org/Projects/n-r/PatientReported_Outcomes/Commissioned_Paper_1.aspx Cella, D., Riley, W., Stone, A., Rothrock, N., Reeve, B., Yount, S., . . . Choi, S. (2010). The Patient-Reported Outcomes Measurement Information System (PROMIS) developed and tested its first wave of adult self-reported health outcome item banks: 2005–2008. Journal of clinical epidemiology, 63(11), 1179-1194. Coles, J. (2010). PROMs Risk Adjustment Methodology—Guide for General Surgery and Orthopaedic Procedures. Northgate Information Solutions Ltd & CHKS Ltd. College voor Zorgverzekeringen. (2013a, 15-09-2013). PRO 03 Schriftelijke en/of online dataverzameling. Retrieved 17-02, 2013, from http://www.centrumklantervaringzorg.nl/cqi-richtlijnen/handboek-eisen-enwerkwijzen-cqi-metingen.html College voor Zorgverzekeringen. (2013b, 15-09-2013). PRO 04 Mondelinge dataverzameling. Retrieved 17-02, 2013, from http://www.centrumklantervaringzorg.nl/cqi-richtlijnen/handboek-eisen-enwerkwijzen-cqi-metingen.html College voor Zorgverzekeringen. (2013c). Werkinstructie: Vergelijkende analyses en casemix-adjustment. COSMIN. (2014). Cosmin | The COSMIN checklist. Retrieved 31-03-2014, from http://www.cosmin.nl/the-cosmin-checklist_8_5.html CVZ. (2014). Toetsingskader kwaliteitsstandaarden en meetinstrumenten. Retrieved from http://www.cvz.nl/kwaliteit/toetsingskader+en+register/toetsingskader. de Vet, H. C. W., Ostelo, R. W. J. G., Terwee, C. B., van der Roer, N., Knol, D. L., Beckerman, H., . . . Bouter, L. M. (2007). Minimally important change determined by a visual method integrating an anchor-based and a distributionbased approach. Quality of Life Research, 16(1), 131-142. de Vet, H. C. W., & Terwee, C. B. (2010). The minimal detectable change should not replace the minimal important difference. Journal of clinical epidemiology, 63(7), 804-805.
PROMs Leidraad, NIVEL 2014
25
de Vet, H. C. W., Terwee, C. B., Mokkink, L. B., & Knol, D. L. (2011). Measurement in Medicine: A Practical Guide: Cambridge University Press. Deutsch, L., Smith, L., Gage, B., Kelleher, C., & Garfinkel, D. (2012). Patient-Reported Outcomes in Performance Measurement: Commissioned Paper on PRO-Based Performance Measures for Healthcare Accountable Entities. Devlin, N. J., Parkin, D., & Browne, J. (2010). Patientreported outcome measures in the NHS: new methods for analysing and reporting EQ5D data. Health economics, 19(8), 886-905. FDA. (2006). Guidance for industry: patient-reported outcome measures: use in medical product development to support labeling claims: draft guidance. Health and Quality of Life Outcomes, 4(1), 79. doi: 10.1186/1477-7525-4-79 Hildon, Z., Neuburger, J., Allwood, D., van der Meulen, J., & Black, N. (2012). Clinicians' and patients' views of metrics of change derived from patient reported outcome measures (PROMs) for comparing providers' performance of surgery. BMC Health Services Research, 12(1), 171. Inspectie voor de Gezondheidszorg. (2014). Zichtbare Zorg. Retrieved 10 februari, 2014, from www.zichtbarezorg.nl Jacobson, N. S., Roberts, L. J., Berns, S. B., & McGlinchey, J. B. (1999). Methods for defining and determining the clinical significance of treatment effects: description, application, and alternatives. Journal of consulting and clinical psychology, 67(3), 300. Jaeschke, R., Singer, J., & Guyatt, G. H. (1989). Measurement of health status: ascertaining the minimal clinically important difference. Controlled clinical trials, 10(4), 407-415. Kamper, S. J., Ostelo, R. W., Knol, D. L., Maher, C. G., de Vet, H. C., & Hancock, M. J. (2010). Global Perceived Effect scales provided reliable assessments of health transition in people with musculoskeletal disorders, but ratings are strongly influenced by current status. Journal of clinical epidemiology, 63(7), 760-766. Koolman, X., Zuidgeest, M., Visser, J., & Appelman, M. (2012). Indicatorstandaard. Methodologische criteria voor de ontwikkeling van betrouwbare kwaliteitsindicatoren in de zorg. Koopman, L., Sixma, H., Hendriks, M., De Boer, D., & Delnoij, D. (2008). Handboek CQI Ontwikkeling: richtlijnen en voorschriften voor de ontwikkeling van een CQI meetinstrument. Utrecht: NIVEL. McKenna, S. P. (2011). Measuring patient-reported outcomes: moving beyond misplaced common sense to hard science. BMC medicine, 9(1), 86. Meyer, T., Richter, S., & Raspe, H. (2013). Agreement between pre-post measures of change and transition ratings as well as then-tests. BMC medical research methodology, 13(1), 52. Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L., . . . de Vet, H. C. (2009). Evaluation of the methodological quality of systematic reviews of health status measurement instruments. Quality of Life Research, 18(3), 313-333. Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L., . . . de Vet, H. C. (2010). The COSMIN study reached international consensus on taxonomy, terminology, and definitions of measurement properties for healthrelated patient-reported outcomes. Journal of clinical epidemiology, 63(7), 737745. NQF. (2013, 1/10/2013). Patient Reported Outcomes (PROs) in Performance Measurement. Retrieved 12/19/2013, 2013, from http://www.qualityforum.org/Publications/2012/12/PatientReported_Outcomes_Final_Report.aspx
26
PROMs Leidraad, NIVEL 2014
Reeve, B. B., Wyrwich, K. W., Wu, A. W., Velikova, G., Terwee, C. B., Snyder, C. F., . . . McLeod, L. D. (2013). ISOQOL recommends minimum standards for patientreported outcome measures used in patient-centered outcomes and comparative effectiveness research. Quality of Life Research, 1-17. Reitsma, J., Schipper, M., & Remmerswaal, R. E. (2011). Statistisch betrouwbaar onderscheiden. Barneveld: Significant. Revicki, D., Hays, R. D., Cella, D., & Sloan, J. (2008). Recommended methods for determining responsiveness and minimally important differences for patientreported outcomes. Journal of clinical epidemiology, 61(2), 102-109. Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika, 74(1), 107-120. Sprangers, M. A., & Schwartz, C. E. (1999). Integrating response shift into health-related quality of life research: a theoretical model. Social science & medicine, 48(11), 1507-1515. Terwee, C. B., Mokkink, L. B., Knol, D. L., Ostelo, R. W., Bouter, L. M., & de Vet, H. C. (2012). Rating the methodological quality in systematic reviews of studies on measurement properties: a scoring system for the COSMIN checklist. Quality of Life Research, 21(4), 651-657. Tuley, M. R., Mulrow, C. D., & McMahan, C. A. (1991). Estimating and testing an index of responsiveness and the relationship of the index to power. Journal of clinical epidemiology, 44(4), 417-421. Willis, G. B. (2005). Cognitive interviewing: A tool for improving questionnaire design. New York: Sage. Wilson, I. B., & Cleary, P. D. (1995). Linking clinical variables with health-related quality of life. JAMA: the journal of the American Medical Association, 273(1), 59-65. Zaslavsky, A. M., Zaborski, L., & Cleary, P. D. (2000). Does the effect of respondent characteristics on consumer assessments vary across health plans? Medical Care Research and Review, 57(3), 379-394.
PROMs Leidraad, NIVEL 2014
27
28
PROMs Leidraad, NIVEL 2014
Bijlage 1 Direct, indirect en quasi-indirect meten
Direct
Indirect
Quasi-indirect
Retrospectieve meting waarbij op een directe manier wordt gevraagd naar de verandering (verbetering/verslechtering of geen verandering) door of sinds de zorg(interventie). Dit kan met een enkele vraag (‘global rating of change’), zoals de General Perceived Effect vraag (GPE), of met meerdere vragen naar klachten/symptomen, functioneren of kwaliteit van leven (niveaus). Deze eenmalige meting met één of enkele vragen aan de patiënt betekent een minimale belasting voor de patiënt. Bovendien wordt direct een indruk verkregen van de verandering volgens de patiënt.
Prospectief, longitudinaal cohort onderzoek met twee metingen: vooren nameting (pre- en post-interventie) voor de evaluatie van een specifieke behandeling of ingreep (operatie, medicatie, etc.).
Retrospectieve meting met tenminste twee vragen over de situatie voor en na de interventie (pre- en postinterventie status).
Er kan een verschil berekend worden op het niveau van afzonderlijke variabelen of schalen.
Twee scores voor verschillende momenten, maar niet de logistieke en administratieve nadelen die bij de indirecte methode horen.
Recall bias en response shift is van invloed op de mate van verandering.
-Het prospectief design stelt veel administratieve en logistieke eisen aan de dataverzameling. -Door verandering in omstandigheden, is het ingewikkeld om KvL te meten omdat dit een constant referentiepunt vereist. -Response shift is van invloed op de mate van verandering.
Nadelen
Voordelen
Methode
Tabel B1.1 Methoden voor het meten van verschillen in uitkomsten van zorg met PROMs
De absolute scores zijn afzonderlijk te interpreteren en kunnen vergeleken worden met andere doel-/ referentiegroepen en metingen over de tijd.
- Een pre-meting is niet bij elke patiëntengroep en in elke zorgsetting mogelijk (bijvoorbeeld niet bij chronische patiënten en acute zorg).
PROMs Leidraad, NIVEL 2014
-Patiënten moeten zich kunnen herinneren hoe hun status vóór de zorginterventie en/of terugkijkend in de tijd was. Deze herinneringen zijn vatbaar voor vertekeningen door de huidige (gezondheids)status van een patiënt. -Recall bias is van invloed op de mate van verandering. -Onduidelijk hoe response shift zich verhoudt tot retrospectieve metingen
29
Voorwaarden
Direct
30
Het pre-post interval moet kort genoeg zijn zodat de patiënt in staat is om de prestatus te herinneren, en lang genoeg om een verandering te kunnen meten. Het premoment moet duidelijk en voor iedereen hetzelfde gedefinieerd zijn, bijvoorbeeld: ten opzichte van voor de behandeling/operatie of in vergelijking met … maanden geleden,
Indirect Meetmomenten moeten zo gekozen zijn dat er daadwerkelijk veranderingen kunnen worden gemeten.
Quasi-indirect Het pre-post interval moet kort genoeg zijn zodat de patiënt in staat is om de pre-status te herinneren, en lang genoeg om een verandering te kunnen meten. Het pre-moment moet duidelijk en voor iedereen hetzelfde gedefinieerd zijn.
PROMs Leidraad, NIVEL 2014
Bijlage 2 Begrippenlijst
- Specifiek instrument Specifieke instrumenten zijn ontwikkeld om te gebruiken bij een specifieke patiëntengroep of voor een specifiek lichaamsdeel of -regio (McKenna, 2011). - Belasting / hanteerbaarheid De tijd, energie en andere eisen die gesteld worden aan patiënten of zorgverleners die een meetinstrument invullen of afnemen. - Betrouwbaarheid De mate waarin een meting vrij is van meetfout (Mokkink et al., 2010). - Casemix correctie Casemix correctie houdt in dat gecorrigeerd moet worden voor populatiekenmerken van een instelling om te voorkomen dat verschillen in uitkomsten ten onrechte worden toegeschreven aan verschillen tussen zorgaanbieders/instellingen. Ook wel ‘risk adjustment’ genoemd. - Constructvaliditeit De mate waarin de scores van een PROM consistent zijn met hypotheses (over bijvoorbeeld relaties met andere instrumenten of verschillen tussen relevante groepen) gebaseerd op de aanname dat de PROM op een valide wijze het construct meet (Mokkink et al., 2010). - Niveau De verschillende gebieden van (determinanten van) kwaliteit van leven, zoals bijvoorbeeld sociaal functioneren, depressie of fysiek functioneren. - Forward-backward vertaalmethode: Een vertaalmethode waarbij gebruik gemaakt wordt gemaakt van een vertaling naar de doeltaal, een expertpanel om tot consensus te komen, een terugwaartse vertaling van de doeltaal naar de brontaal en uiteindelijk een cognitieve test en een kwantitatieve test (Beaton et al., 2000). - Inhoudsvaliditeit De mate waarin de inhoud van de PROM een adequate afspiegeling is van het te meten construct (Mokkink et al., 2010).
- Generiek instrument
PROMs Leidraad, NIVEL 2014
31
Generieke PROMs kunnen gebruikt worden onafhankelijk van de aandoening van de patiënt (McKenna, 2011). - Minimaal klinisch relevant verschil De kleinste verandering in de score op de PROM die belangrijk wordt gevonden door patiënten, behandelaars of relevante anderen (de Vet et al., 2007). - Kleinste detecteerbare verschil Het kleinst waarneembare verschil dat buiten de meetfout kan worden waargenomen (Jacobson, Roberts, Berns, & McGlinchey, 1999). - Patient Reported Outcome - Performance Measure (PRO-PM) Zie “Prestatiemaat”. - Prestatiemaat Kwaliteitsindicator op basis van uitkomstmeting. Bijvoorbeeld: het percentage patiënten dat tenminste twee punten omhoog gaat op een meetinstrument (NQF, 2013). - Responsiviteit Het vermogen van een instrument om verandering door behandeling te detecteren (Tuley, Mulrow, & McMahan, 1991). - Response shift Een verandering in de evaluatie van iemands kwaliteit van leven als gevolg van veranderingen in interne standaarden, waarden en de conceptualisatie van kwaliteit van leven op zich (Sprangers & Schwartz, 1999). - Patient Reported Outcome (PRO) Uitkomstmaten van zorg die betrekking hebben op de gezondheid van de patiënt en die direct van de patiënt zelf komen (FDA, 2006). - Patient Reported Outcome Measure (PROM) Een meetinstrument dat uitkomstmaten van zorg meet die betrekking hebben op de gezondheid van de patiënt en die direct van de patiënt zelf komen (FDA, 2006). - Structurele validiteit De mate waarin de scores van een PROM een adequate afspiegeling zijn van de dimensionaliteit van het te meten construct (Mokkink et al., 2010). - Validiteit De mate waarin hetgene dat men beoogt te meten ook werkelijk wordt gemeten (Mokkink et al., 2010).
32
PROMs Leidraad, NIVEL 2014