6 Waarderend kwaliteit- van-levenonderzoek Jan van Busschbach en Han Bleichrodt
6.1
Inleiding
Gezondheidstoestanden komen in een oneindig aantal variaties voor, waardoor het moeilijk is de effecten van de gezondheidszorg te vergelijken. Dit compliceert de economische evaluaties van die gezondheidszorg, omdat bij deze evaluaties juist het vergelijken van de kosten van verschillende interventies in relatie tot hun effecten centraal staat. Wil men zo’n vergelijking mogelijk maken, dan moeten de effecten van de verschillende interventies worden uitgedrukt in één en dezelfde effectmaat. Dit zou bijvoorbeeld kunnen door gezondheidstoestanden te beschrijven met behulp van een klein aantal factoren of dimensies. Uiteraard gaat door deze generalisatie informatie verloren, maar de gezondheidstoestanden zijn dan wel beter te vergelijken. De beschrijving van een gezondheidstoestand zou zich bijvoorbeeld kunnen beperken tot mortaliteit en morbiditeit: het aantal levensjaren en de kwaliteit van leven. Wil men gezondheidstoestanden verder generaliseren tot één getal, dan moeten levensjaren en kwaliteit van leven met elkaar verweven worden tot één dimensie of factor. Klarman, Fransis en Rosenthal behoorden in 1968 tot de eersten die zich met dit probleem bezighielden. Zij probeerden de effecten van nierdialyse te vergelijken met de effecten van niertransplantatie door het aantal overlevingsjaren ten gevolge van beide interventies te schatten. Omdat patiënten die gedialyseerd worden een lagere kwaliteit van leven hebben dan getransplanteerde patiënten, kenden de auteurs een factor 0,8 toe aan elk levensjaar van een gedialyseerde nierpatiënt. Op deze manier werden de effecten van nierdialyse en niertransplantatie op mortaliteit en morbiditeit gecombineerd tot één getal. Dit getal geeft uitdrukking aan het aantal levensjaren én de kwaliteit van leven. Levensjaren die op een dergelijke manier gecorrigeerd worden met een factor voor de kwaliteit van leven worden doorgaans quality adjusted life years genoemd, of kortweg QALY’s. Het aantal QALY’s kan worden berekend via de v olgende functie: QALY = V(Q) * Y
VKE_06.indd 115
6/15/10 9:03:10 PM
116 v a n
kosten tot effecten
correctiefactor kwaliteit van leven
waarbij V(Q) de correctiefactor voor de kwaliteit van leven is en Y het aantal levensjaren. De correctiefactor voor de kwaliteit van leven is een waarde (of gewicht) (V) die de relatieve wenselijkheid of waardering van de gezondheidstoestand (Q) uitdrukt. Deze factor heeft doorgaans een waarde 1,0 bij een goede gezondheidstoestand en een waarde 0,0 bij een zeer slechte gezondheidstoestand of de dood. Figuur 6.1 geeft grafisch het verloop van iemands leven in QALY’s weer met en zonder in dit –voorbeeld – psychotherapie. Het verloop zonder psychotherapie is de lichtgrijze curve. De persoon start zijn leven in goede gezondheid, maar in de loop van zijn puberteit wordt hij steeds neerslachtiger. Op zijn 20e gaat die neerslachtigheid over in depressie en daalt zijn kwaliteit van leven aanmerkelijk. Hij blijft daarna kwakkelen op dat niveau tot hij doodgaat op zijn 80e. Het donkergrijze vlak verbeeldt wat er zou kunnen gebeuren als hij op 30-jarige leeftijd begint met psychotherapie: hij vermijdt dan het grote verval en blijft tot het einde van zijn leven in goede gezondheid. Het donkergrijze oppervlak is het aantal QALY’s dat deze persoon zou winnen met psychotherapie. Het witte bovenste vlak staat voor het aantal QALY’s dat verloren gaat aan comorbiditeit; er zijn maar weinig stervelingen die hun hele leven ‘perfect gezond’ zijn. Het gebruik van QALY’s is niet zonder controverse. Een groot deel van dat debat gaat over de manier waarop de correctiefactor van kwaliteit van leven wordt vastgesteld. Daarbij zijn twee belangrijke kwesties te onderscheiden. Ten eerste is het de vraag wie de correctiefactor bepaalt: de arts, de patiënt of de maatschappij? De tweede vraag luidt: hoe wordt de correctiefactor vastgesteld? Deze twee kwesties worden eerst behandeld en daarna zal worden ingegaan op de ethische aspecten van het gebruik van QALY’s, de validiteit van de QALY voor beleid, alternatieven voor de QALY en de relatie met beschrijvende kwaliteit-van-levenvragenlijsten.
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
comorbiditeit met psychotherapie geen psychotherapie
0
10
20
30
40
50
60
70
80
levensjaren Figuur 6.1 De levensloop in QALY’s van een depressieve patiënt, met en zonder psychotherapie
VKE_06.indd 116
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
6.2
117
H e t m a at s c h a p p e l i j k e p e r s p e c t i e f
Een belangrijke kwestie bij het vaststellen van de correctiefactor van kwaliteit van leven is het perspectief. Wie stelt de correctie vast: de arts, de patiënt of de maatschappij? Als het gaat om de manier van vaststellen van deze correctie, of liever gezegd ‘de waardering van de gezondheidstoestand’ zijn er drie wetenschappelijke scholen te onderscheiden: de klinische, de epidemiologische en de gezondheids economische. Elke van deze drie scholen heeft zijn eigen voorkeursgroep die volgens hen de gezondheidstoestanden behoort te waarderen (tabel 6.1). De klinische school die QALY’s vooral gebruikt in medische beslismodellen gaat uit van patiëntwaarderingen. Dit wordt mooi geïllustreerd door de eerste stelling van Stiggelbout (1995) bij haar proefschrift uit 1995: ‘In beslissingen die gevoelig zijn voor de waarderingen van de mogelijke uitkomsten, dient men de waarderingen van patiënten te gebruiken, niet die van artsen.’ Modellen die gemaakt worden vanuit de epidemiologie en de maatschappelijke gezondheidszorg zijn echter vaak wel gebaseerd op ‘expert panels’ die de waarderingen vaststellen. Het onderzoek Global Burden of Disease van Murray en Lopez (1996) is daar een goed voorbeeld van. Bij dit soort modellen wordt vaak een groot aantal gezondheidstoestanden tegelijk onderzocht, die beschreven zijn in medische termen: bijvoorbeeld ‘migraine in een milde vorm’, of ‘zware depressie’. Er is dan behoefte om een groot aantal van die gezondheidstoestanden tegelijk te laten ‘waarderen’ in termen van de correctiefactor voor kwaliteit van leven. De keuze voor experts wordt dan ook meestal verantwoord door te wijzen op de noodzakelijke bekendheid met álle ziektebeelden in het model, een kennis die van leken en patiënten niet kan worden verlangd. De derde groep wetenschappers die zich bezighoudt met het waarderen van gezondheidstoestanden wordt gevormd door gezondheidseconomen. Zij gaan niet uit van het patiëntenperspectief of het perspectief van de dokter, maar hanteren het maatschappelijk perspectief, zoals in dit handboek al eerder is beschreven. Het maatschappelijk perspectief komt ook terug bij het berekenen van de kosten, omdat er in de gezondheidseconomie een voorkeur bestaat voor het in de berekeningen meenemen van alle kosten voor de gehele maatschappij. Als de kosten worden berekend vanuit het oogpunt van de maatschappij, ligt het voor de hand om de baten vanuit datzelfde oogpunt te bekijken. Gezondheidseconomen vragen daarom het liefst de maatschappij om een waardering uit te spreken over de kwaliteit van leven van patiënten. Tabel 6.1 Wie stelt de kwaliteit van leven vast? De drie wetenschappelijke scholen School
Toepassing
Perspectief
klinische school
medische beslismodellen
de patiënt
epidemiologie
vergelijkingen tussen concurrerende ziekten
artsen
gezondheidseconomie
kosteneffectiviteitsanalyses
het algemeen publiek
VKE_06.indd 117
6/15/10 9:03:11 PM
118 v a n
kosten tot effecten
De keuze van de gezondheidseconomen voor het algemene publiek bij de waardering van kwaliteit van leven roept vaak weerstand op, vooral vanuit de klinische hoek. Het meest gehoorde argument is dat patiënten de beste beoordelaars zijn van hun eigen kwaliteit van leven. Bovendien kunnen patiënten worden gezien als de consumenten van zorg en dus als de natuurlijke eindbeoordelaars van de kwaliteit van de gezondheidszorg. In veel kwaliteit-van-levengeschriften wordt de patiënt dan ook naar voren geschoven als de vanzelfsprekende beoordelaar van de kwaliteit van leven: ‘Given its inherently subjective nature, consensus was quickly reached that quality of life ratings should, whenever possible, be elicited directly from patients themselves.’ (Aaronson e.a.1996). Deze stelling mag dan misschien waar zijn binnen een klinische omgeving; binnen de gezondheidseconomie is de positie van de patiënt als beoordelaar minder vanzelfsprekend dan de bovenstaande uitspraak doet vermoeden. Dat heeft te maken met de aanwezigheid van de verzekeraar als derde partij, die zorg draagt voor de betaling. Het een en ander is goed verwoord door Hadorn (1991): ‘Patients who pay for their own care will, of course, base treatment decisions on their own current preferences. However, patients who rely on others to pay their medical bills (viz. through public or private insurance plans) can not expect that these others will pay for everything they (the patients) might wish to receive. Permitting patients unlimited access to care based on post-illness preferences would too often result in the provision of marginally beneficial care. The lack of any associated marginal financial cost to the patient often makes any potentially beneficial treatment desirable or “worth trying”. For this reason, the importance and priority of treatments should be based on the average pre-illness preferences of the entire beneficiary population [...]. This tenet, known as the “insurance principle”, is found routinely in other areas of insurance.’ Met andere woorden, de patiënt mag dan wel zorg consumeren, de betaling gebeurt door anderen. Dit maakt dat de patiënt niet de ‘allesbepalende consument’ is, zoals een gast in een restaurant of een klant in een winkel. Dit wordt nog duidelijker wanneer we naar andere verzekeringen kijken. Zo is het verboden om een verzekeringspolis af te sluiten nadat de schade geleden is. Men mag alleen een polis kiezen (met de daarbij behorende prijsafweging) wanneer het nog onbekend is of er schade geleden gaat worden. Een ander voorbeeld is de werkloosheidsuitkering. De hoogte van de uitkering kan worden gezien als de (maatschappelijke) waardering voor mensen zonder werk. Bij het vormen van een mening over de hoogte van de uitkering zullen maar weinig mensen daarbij geïnteresseerd zijn in de mening van de werklozen zelf: de mening van de belanghebbende laat zich raden. Daarom wordt de hoogte van de werkloosheidsuitkering, net als overigens de hoogte van de studiefinanciering en de wedde van dienstplichtigen, bepaald door de maatschappij als geheel, in casus de politiek, en niet door de belanghebbenden zelf. Een andere reden om het maatschappelijk perspectief te kiezen is dat, zoals eerder al is beschreven, de kosten doorgaans al vanuit het maatschappelijk perspectief bepaald worden. Wanneer de effecten vanuit een ander perspectief gewaardeerd
VKE_06.indd 118
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
119
zouden worden, bijvoorbeeld het patiëntenperspectief, dan zouden er boven en onder de deelstreep van de kosteneffectiviteitsratio twee verschillende perspectieven staan. Het perspectief van de gehele ratio is dan onduidelijk. Een verder argument om het maatschappelijk perspectief te kiezen is dat de patiënten van morgen deel uitmaken van het algemene publiek. Zouden zij dan geen zeggenschap mogen hebben over wat gezondheid waard is maar de huidige patiënten wel? Zijn patiëntwaarderingen nu zonder betekenis in economische evaluatiestudies? Zo stellig kan men dat niet zeggen. Om een totaalbeeld te krijgen van de gezondheidstoestand kan het interessant zijn om de mening van de patiënt te peilen, zeker wanneer de economische evaluatie plaatsvindt in het kader van een Health Technology Assessment. Soms wordt ook de mening van de patiënt gebruikt als een benadering van het maatschappelijke perspectief. Dit kan een toegevoegde waarde hebben binnen het onderzoek wanneer men vermoedt dat de bewuste gezondheidstoestand moeilijk voorstelbaar is voor het algemene publiek. Soms wordt het bovenstaande argument doorgetrokken en wordt gesteld dat het onmogelijk is voor een buitenstaander om de kwaliteit van leven van een patiënt goed in te schatten: ‘Je beseft pas hoe erg het is als je het zelf krijgt.’ Met andere woorden, men wijst op het gevaar dat buitenstaanders uit onwetendheid de problemen onderschatten. Het wonderlijke is echter dat het empirische bewijs eerder de andere kant op wijst: gezonde buitenstaanders schatten doorgaans de kwaliteit van leven van patiënten lager in dan de patiënt zelf. Een van de eerste onderzoekers die dat registreerde was Stensman (1985). Hij mat de kwaliteit van leven van 36 chronische rolstoelpatiënten en 36 gematchte gezonde personen. Hij gebruikte een visueel-analoge schaal die liep van 0 tot 10. De rolstoelpatiënten scoorden gemiddeld 8,0, de gezonde personen 8,2. De hoge waardering van patiënten ten opzichte van buitenstaanders is daarna in veel onderzoek teruggevonden (Gold e.a. 1996). Het lijkt erop dat de meeste patiënten hun interne referentiepunten bijstellen wanneer zij in een situatie komen waarin er geen vooruitgang meer mogelijk is. Voor dit fenomeen gebruiken verschillende wetenschappelijke disciplines verschillende termen. Economen zullen het ‘preferentiedrift’ noemen, psychologen ‘cognitieve dissonantiebeperking’ en artsen ‘coping’. Sommige kwaliteit-van-levenonderzoekers noemen het fenomeen van de hoge patiëntwaarderingen ‘response shift’ (Sprangers 1996). De hoge waarderingen van patiënten voor hun eigen kwaliteit van leven bemoeilijken de interpretatie en zorgen daarnaast voor een plafondeffect in de meting. Het vermijden van dit plafondeffect is een bijkomend voordeel van het gebruik van maatschappelijke waarderingen voor de kwaliteit van leven.
Richtlijn Vanuit het maatschappelijke perspectief dienen de waarderingen van de algemene populatie te worden gebruikt in het waarderend kwaliteit-van-levenonderzoek.
VKE_06.indd 119
6/15/10 9:03:11 PM
120 v a n
6.3
kosten tot effecten
H o e m a at s c h a p p e l i j k e w a a r d e r i n g e n t e v e r k r i j g e n
Pionierswerk bij het vaststelstellen van de maatschappelijke correctiefactor voor kwaliteit van leven werd verricht door de groep van Patrick, Kaplan, en Bush aan de Amerikaanse oostkust, door Torrance in Canada en door Rosser en Kind in Londen. Allen volgden ongeveer dezelfde onderzoekslijn. In het begin liet men het publiek steeds specifieke gezondheidstoestanden waarderen. Omdat dit een arbeidsintensieve aangelegenheid is, begon men te zoeken naar goedkopere alternatieven. Alle groepen kwamen uit op een generieke vragenlijst van kwaliteit van leven, waarvan de uitkomsten konden worden omgezet in de correctiefactor voor de kwaliteit van leven. Zo ontstond de Rosser-Kind-matrix, met twee dimensies die samen 28 gezondheidstoestanden definiëren. Deze 28 toestanden werden gewaardeerd door 70 proefpersonen, waarna de waarderingen werden omgezet in een schaal van 0 tot 1,00 (Kind e.a. 1982, Gudex & Kind 1988). Torrance en Patrick gebruikten een generieke vragenlijst met veel meer gezondheidstoestanden, maar het idee was hetzelfde (Feeny e.a. 1995, Torrance e.a. 1995, Kaplan e.a. 1976). Er zijn dus twee manieren om maatschappelijke waarderingen voor gezondheidstoestanden te verkrijgen. Men kan per onderzoek proberen om de gezondheidstoestanden te waarderen, of men kan gebruikmaken van gevalideerde vragenlijsten. Hierna worden beide methoden uitgewerkt.
6.3.1 Zelf waarderingen schatten Wanneer men zelf waarderingen wil gaan schatten, moet men eerst de belangrijkste gezondheidstoestanden definiëren. Wanneer bijvoorbeeld een nieuw middel voor astma wordt getest, moeten eerst de verschillende stadia van deze chronische ziekte worden beschreven. Deze gezondheidstoestanden moeten vervolgens worden gewaardeerd door een steekproef uit het algemene publiek. Daarna kunnen de waarden van het algemene publiek gekoppeld worden aan de gezondheidstoestanden van de patiënt zoals die voorkomen in het klinisch onderzoek (Brazier & Dixon 1995). Het waarderen van gezondheidstoestanden kan met behulp van een visueel-analoge schaal, de time trade-off, de standard gamble of de person trade-off. De voor- en nadelen van deze methoden zullen hierna kort worden omschreven. Een uitgebreide beschrijving van deze waarderingsmethoden is te vinden in Drummond e.a. (1997).
Visueel-analoge schaal Een relatief eenvoudige manier om gezondheidstoestanden te waarderen is het gebruik van een visueel-analoge schaal. Deze schaal bestaat uit een lijn met twee vaste eindpunten, die doorgaans als ‘dood’ respectievelijk ‘volledig gezond’ worden benoemd. Een respondent wordt gevraagd de te waarderen gezondheidstoestanden op de schaal te plaatsen en wel zodanig dat de intervallen tussen de posities corresponderen met verschillen in sterkte van de voorkeur.
VKE_06.indd 120
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
121
De visueel-analoge schaal is een relatief eenvoudige methode. Er is echter een aantal nadelen. Ten eerste is de schaal niet gebaseerd op keuzegedrag, in tegenstelling tot de standard gamble en de time trade-off. Verder zijn de intervalproporties van de schaal omstreden. Zo toonden onder andere Bleichrodt en Johannesson (1997b) aan dat respondenten de neiging hebben om hun antwoorden over de schaal te spreiden, wanneer er meer dan één gezondheidstoestand wordt aangeboden. Een toestand zal dus een hogere waardering krijgen wanneer de andere toestanden relatief slecht zijn. Een verder nadeel is dat mensen bij het gebruiken van de visueel-analoge schaal geen rekening houden met de duur van gezondheidstoestanden (Robinson e.a. 1997). Ondanks deze kritiekpunten zijn er onderzoekers die de visueel-analoge schaal nog niet hebben afgeschreven. Zij stellen dat deze methode wel degelijk gebruikt kan worden en wijzen op de tekortkomingen van de andere methoden (Parkin & Devlin 2006). Anderen stellen dat de visueel-analoge schaal goed ingezet kan worden wanneer kosten (en dus gezondheidseconomie) niet het primaire doel zijn van de analyse, bijvoorbeeld bij een medisch-besliskundige analyse vanuit patiëntenperspectief. Met de opkomst van de interesse voor rangordetechnieken bij het vaststellen van QALY’s, zoals paarsgewijze vergelijkingen, maakt ook de visueel-analoge schaal weer een revival door, omdat deze schaal erg lijkt op een rangordeschaal (Craig e.a. 2009). Deze ontwikkelingen staan echter nog in de kinderschoenen en het is de verwachting dat de visueel-analoge schaal voorlopig nog niet op grote schaal zal wordt ingezet bij gezondheidseconomische evaluaties.
Standard gamble Bij de standard-gamblemethode wordt respondenten gevraagd aan te geven hoeveel risico op ‘dood’ zij maximaal zouden willen nemen om een bepaalde gezondheidstoestand te vermijden. Hoe hoger daarbij het genomen risico is, des te slechter is de te vermijden gezondheidstoestand. Op deze manier kunnen gezondheidstoestanden worden geschaald tussen 1 (geen risico) en 0 (100% risico). De standard gamble is gebaseerd op de ‘verwachte-waardetheorie’ van Von Neumann en Morgenstern (1944), een invloedrijke theorie in de besliskunde. Veel onderzoekers hebben daarom beargumenteerd dat de standard gamble de ‘gouden standaard’ is bij de bepaling van utiliteiten voor gezondheidstoestanden. Daarnaast zijn de aannamen van de standard gamble nauwkeurig beschreven en getest, zij het overigens niet altijd met bevredigende resultaten. Een laatste reden om de standard gamble te beschouwen als de gouden standaard is dat de utiliteit wordt vastgesteld onder de conditie van onzekerheid, een omstandigheid die ook geldt in de geneeskunde. Hiertegen kan worden ingebracht dat de onzekerheid in een standard gamble zelden tot nooit lijkt op de onzekerheid binnen de klinische situatie. Een belangrijk probleem bij de standard gamble is dat mensen zich niet volgens het verwachte nutsmodel gedragen. Dit leidt ertoe dat de standard gamble te hoge nutswaarden geeft (Bleichrodt 2002). Met andere woorden, de standard gamble
VKE_06.indd 121
6/15/10 9:03:11 PM
122 v a n
kosten tot effecten
onderschat de ernst van gezondheidsklachten. De beste beschrijvende theorie van beslissen onder onzekerheid is de prospecttheorie (Kahneman & Tversky 1979). Bleichrodt e.a. (2001) hebben correcties van de standard gamble voorgesteld op basis van de inzichten van de prospecttheorie. Zij toonden aan dat deze correcties tot betere nutswaarden leiden (zie ook Bleichrodt e.a. 2007) terwijl ze niet moeilijker te bepalen zijn dan standard gamble nutswaarden.
Time trade-off Time trade-off is ontwikkeld door Torrance, Thomas en Sackett (1972) als een gebruiksvriendelijk alternatief voor de standard gamble. Hierbij wordt de respondent niet gevraagd naar het maximale risico dat hij wil lopen, maar naar de maximale hoeveelheid tijd die hij bereid is in te leveren. Time trade-off is inhoudelijk nauw verbonden met het QALY-concept. De implementatie van de methode lijkt veel op het vergelijken van twee QALY-profielen. Onderzoek laat zien dat de constructvaliditeit van de time trade-off meestal gelijkwaardig is aan die van standard gamble en soms zelfs beter (Bleichrodt & Johannesson 1997a, Van Busschbach 1994, Bleichrodt 1996, Dolan e.a. 1996, Richardson 1994). Time trade-off bleek ook de beste voorspeller te zijn voor de uiteindelijke behandelkeuzen (Bleichrodt 1997a). Een mogelijk verklaring voor de goede prestaties van de time trade-off is dat deze weliswaar aan bias onderhevig is, maar dat de verschillende biasses elkaar in balans houden, anders dan bij de standard gamble (Bleichrodt 2002, Van Osch e.a. 2004). De time trade-off is dan ook de meest gebruikte waarderingstechniek voor kwaliteit van leven in QALY-analyses.
Person trade-off Bij person trade-off moet een respondent aangeven hoeveel patiënten in een bepaalde gezondheidstoestand hij gelijkwaardig vindt aan het aantal patiënten in een referentietoestand. Bijvoorbeeld, een reductie in kwaliteit van leven bij 1000 patiënten door verkoudheid is gelijkwaardig aan een reductie in kwaliteit van leven bij 25 patiënten door een gebroken been. Deze methode is in het begin van de jaren zeventig al eens beschreven door Fanshel en Bush (1970) en is toegepast in het invloedrijke onderzoek van Rosser en Kind (1978). Een groot voordeel zou zijn dat bij deze methode afwegingen tussen patiënten moeten worden gemaakt, in plaats van binnen één patiënt zoals bij de standard gamble en de time trade-off. Op deze manier zou ook solidariteit in de waardering van de gezondheidstoestanden worden meegewogen. Dit zou meer aansluiten bij de allocatieproblemen waarvoor het QALY-paradigma een oplossing pretendeert te zijn (Nord e.a. 1993). Na het onderzoek van Rosser en Kind is er lange tijd geen onderzoek gedaan met de person trade-off. Vooral dankzij de inspanningen van Erik Nord (1992) en het gebruik van deze methode in het Global Burden of Disease-onderzoek van Murray en Lopez, is het onderzoek ernaar weer in de belangstelling gekomen. Het nieuwe
VKE_06.indd 122
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
123
onderzoek kenmerkt zich echter nog steeds door kleinschaligheid en er zijn nog maar weinig andere onderzoekers geweest die over person trade-off gepubliceerd hebben. Uit eigen onderzoek blijkt dat de person trade-off ook de moeilijkste waarderingsmethode is. Daarnaast bleek person trade-off de laagste constructvaliditeit te bezitten (Van Busschbach 1994). Er is in de literatuur nog geen consensus over een standaard operationalisering te vinden, maar er worden wel inspanningen in die richting gedaan. Een theoretisch probleem is dat er ook geen consensus bestaat over het nut van het meewegen van ‘solidariteit’ bij het waarderen van gezondheidstoestanden (Dolan e.a. 1996, Dolan 1998) en dat de person trade-off restrictieve veronderstellingen doet die empirisch niet geldig zijn (Doctor e.a. 2009). Om deze redenen wordt person trade-off meestal beschreven als een veelbelovende, maar nog niet goed omschreven waarderingsmethode van kwaliteit van leven (Gold e.a. 1996, Drummond e.a. 1997, CCOHTA, 1997, Green, 2001).
Rangordemethoden Een nieuwe ontwikkeling is een interesse om rangordemethoden zoals paarsgewijze vergelijkingen en Discrete Choice Experiments (DCE) te gebruiken om waarderingen van kwaliteit van leven vast te stellen. Recentelijk zijn er pogingen ondernomen om een relatie te leggen tussen deze methoden en time trade-off (Craig & Van Busschbach 2009). Rangordemethoden lijken gemakkelijker af te nemen dan de standard gamble en de time trade-off en worden gesteund door uitgebreid psychometrisch onderzoek. Het komende decennium zal moeten blijken of deze methoden daadwerkelijk betere waarderingen van kwaliteit van leven opleveren dan de time trade-off en de standard gamble.
Richtlijn Gebruik bij het waarderen van gezondheidstoestanden bij voorkeur een gecorrigeerde standard gamble of de time trade-off.
6.3.2 Gevalideerde vragenlijsten In plaats van de waarderingen voor de gezondheidstoestanden per onderzoek te bepalen, is een alternatieve mogelijkheid om bij patiënten een gestandaardiseerde vragenlijst af te nemen, waarvan de maatschappelijke waarden van de gezondheidstoestanden al bekend zijn. Een aantal vragenlijsten is speciaal voor dit doel ontworpen. Voorbeelden zijn de Quality of Well-Being (QWB), de EuroQol (EQ-5D), de SF-6D, de Health Utility Index (HUI Mark-I, -II en -III) en de Rosser-Kind-matrix. Bij het gebruik van gestandaardiseerde vragenlijsten moet er vooral op worden gelet dat men de officiële vertaling gebruikt en de officiële lay-out. Vooral gezondheidseconomen en artsen hebben de neiging losjes om te gaan met zorgvuldig vastgelegde
VKE_06.indd 123
6/15/10 9:03:11 PM
124 v a n
kosten tot effecten
afnameprocedures en materialen. Vanuit de hoek van de testpsychologie wordt er echter steeds op aangedrongen zo veel mogelijk de standaard te bewaren: de invloed van procedures en materialen op de scores kan wezenlijk zijn. Het correcte gebruik van gevalideerde vragenlijsten wordt gestimuleerd door overheidsorganen die richtlijnen opstellen over kwaliteit-van-levenmetingen, zoals de Food & Drug Administration in de Verenigde Staten, het National Institute for Clinical Excellence (NICE) in het Verenigd Koningrijk en het College voor Zorgverzekeringen in Nederland. Richtlijn Gebruik alleen de officiële vertaling van gevalideerde vragenlijsten en maak zo veel mogelijk gebruik van de originele lay-out.
De EuroQol (EQ-5D) is de meest gebruikte vragenlijst bij QALY-onderzoek, ook in Nederland. Het is ook de enige vragenlijst waarbij de maatschappelijke waarderingen van de gezondheidstoestanden in Nederland onderzocht zijn. Op dit moment zijn alleen de EQ-5D en de HUI op een formele manier vertaald in het Nederlands. Van de QWB en de Rosser-Kind-matrix bestaan alleen informele Nederlandse vertalingen. De SF-6D is een afgeleide van de SF-36-vragenlijst en heeft in korte tijd veel populariteit verworven. Hierna worden de EuroQol, de HUI en de SF-6D kort beschreven.
EuroQol (EQ-5D) De EuroQol groep werd halverwege de jaren tachtig opgericht met als doelstelling een internationaal meetinstrument te ontwikkelen dat gebruikt kon worden bij economische evaluaties van de gezondheidszorg. Het moest een klein instrument zijn, omdat verwacht werd dat de vragenlijst naast andere vragenlijsten gebruikt zou worden (The EuroQol Group 1990). Dit resulteerde in een visueel-analoge schaal waarmee de eigen gezondheid gewaardeerd kan worden en een vragenlijst met vijf vragen, elk met drie antwoordmogelijkheden: de EQ-5D (Brooks 1996). De vragen gaan over mobiliteit, zelfverzorging, dagelijkse activiteiten, pijn en stemming. De antwoordmogelijkheden zijn steeds: ‘geen problemen’, ‘matige problemen’ en ‘veel problemen’. Met behulp van deze vijf vragen kunnen 243 (35) gezondheidstoestanden worden gedefinieerd. Deze gezondheidstoestanden zijn voorgelegd aan het algemene publiek, waardoor de maatschappelijke waarde van de 243 gezondheidstoestanden bekend is. De meest gebruikte waarderingen zijn bepaald door onderzoekers van de Universiteit van York in een grote studie waarbij in meer dan drieduizend huishoudens de waarden van de toestanden bepaald werden met behulp van time trade-off (Drummond e.a. 1997, Dolan 1997). Deze grote studie is inmiddels herhaald in verschillende andere landen, waaronder Nederland (Lamers e.a. 2005, 2006). Op deze
VKE_06.indd 124
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
125
manier kunnen nationale waarderingen voor kwaliteit van leven gebruikt worden. De Nederlandse waarden voor kwaliteit van leven worden weergegeven in tabel 6.2. Het kleine aantal vragen van de EQ-5D zorgt ervoor dat de vragenlijst gemakkelijk kan worden opgenomen in een patiëntgebonden onderzoek. Het beperkte aantal gezondheidstoestanden (243) maakt dat ook de waarderingstaak voor het algemene publiek relatief eenvoudig is. Anderzijds leiden het kleine aantal vragen en de beperkte antwoordcategorieën tot vrees dat de sensitiviteit van de EQ-5D beperkt zal zijn. Daarbij wordt vaak verwezen naar de SF-6D, die 18.000 gezondheidstoestanden kent (Brazier e.a. 1996). Empirisch bewijs voor deze veronderstelling is niet eenduidig. Het lijkt inderdaad zo te zijn dat bij relatief goede gezondheidstoestanden, de EQ-5D minder sensitief is dan de SF-6D. Dit komt doordat veel relatief gezonde patiënten in de gezondheidstoestand ‘geen problemen op geen van de dimensies’ terechtkomen. De SF-6D kan relatief gezonde patiënten beter differentiëren, maar lijdt juist aan een ‘vloereffect’: het is bij de SF-6D vrijwel onmogelijk om een waardering lager dan 0,4 te krijgen (Brazier e.a. 2004). Omdat bij de EQ-5D relatief gemakkelijk lage waarderingen worden gegeven, kan de gezondheidswinst bij de EQ-5D groter zijn dan bij de SF-6D (Kontodimopoulos e.a. 2009). De EuroQol Group werkt aan een versie van de EQ-5D met vijf in plaats van drie antwoordcategorieën. Van deze versie mag verwacht worden dat ze sensitiever is Tabel 6.2 Nederlandse en Britse EQ-5D-waarden Vaste aftrek voor afwijking van toestand ‘11111’
Nederlands
Brits
–0,071
–0,081
–0,036
–0,069
Extra aftrek voor: rr
enige problemen met lopen
rr
bedlegerig
–0,161
–0,314
rr
enige problemen met zelfzorg
–0,082
–0,104
rr
niet in staat tot zelfzorg
–0,152
–0,214
rr
enige problemen met dagelijkse activiteiten
–0,032
–0,036
rr
niet in staat dagelijkse activiteiten uit te voeren
–0,057
–0,094
rr
matige pijn of andere klachten
–0,086
–0,123
rr
zeer ernstige pijn of andere klachten
–0,329
–0,386
rr
matig angstig of somber
–0,124
–0,071
rr
erg angstig of somber
–0,325
–0,236
rr
ernstige problemen op ≥ 1 dimensie
–0,234
–0,269
De waardering voor een gezondheidstoestand gaat uit van de waarde 1. Zodra iemand aangeeft dat er problemen zijn op een van de dimensies (zie tabel 6.1), vermindert de waarde voor diens gezondheidstoestand met 0,071. Vervolgens is er een aftrek per probleem. In geval van ernstige problemen op ≥ 1 dimensie is er eenmalig een extra aftrek.
VKE_06.indd 125
6/15/10 9:03:11 PM
126 v a n
kosten tot effecten
voor de betere gezondheidstoestanden. Hoewel de vragenlijst inmiddels klaar is, is er nog geen waarderingsstudie uitgevoerd voor deze nieuwe vragenlijst en kan deze dan ook nog niet gebruikt worden om QALY’s te schatten. Het gebruik van de EuroQol EQ-5D voor publieke doeleinden is in principe gratis en de vragenlijst kan worden opgevraagd bij het secretariaat van de EuroQol Group (www.euroqol.org). Wanneer het onderzoek wordt gesponsord door de industrie, wordt een bijdrage gevraagd voor secretariële activiteiten, zoals het verschaffen van officiële vertalingen. Veel industrieën hebben een contract met de EuroQol Group op basis van een meerjarig abonnement.
Health Utility Index (HUI) De Health Utility Index (HUI) is ontwikkeld op de McMaster Universiteit in Canada en is inmiddels aan zijn derde versie toe (Feeny e.a. 1995, 2002). Het is een vragenlijst die oorspronkelijk gevalideerd is voor kinderen en ook bij latere versies is het pediatrisch gebruik gefaciliteerd. Het classificatiesysteem van deze HUI Mark-III is veel uitgebreider dan dat van de EQ-5D. Het classificatiesysteem kent acht dimensies met minimaal vijf antwoordcategorieën: vision, hearing, speech, ambulation, dexterity, emotion, cognition, pain. Dit resulteerde in maar liefst 972.000 gezondheidstoestanden. Door dit grote aantal veronderstelt men vaak dat de sensitiviteit van de HUI Mark-III groter is dan die van de EQ-5D, die maar 243 toestanden onderscheidt. Er zijn nog geen onderzoeken geweest die dit vermoeden empirisch hebben bevestigd. Wel is gebleken dat de sensitiviteit van beide vragenlijsten in een relatief gezonde populatie nauwelijks verschilt (Stolk & Van Busschbach 1998, Luo e.a. 2009). Desalniettemin kunnen in specifieke patiëntengroepen verschillen tussen vragenlijsten optreden (Langfitt e.a. 2006). Het verdient daarom aanbeveling om vooraf te kijken welke van de verschillende dimensies van de HUI, EQ-5D of een andere vragenlijst het beste aansluit bij de verwachte kwaliteit-van-leveneffecten. Een van de redenen waarom de HUI met haar grote aantal gezondheidstoestanden niet veel sensitiever is dan de EQ-5D, is juist dit grote aantal gezondheidstoestanden. Dit compliceert namelijk de waarderingen van deze toestanden door het algemene publiek. In het onderzoek van Dolan (1997) worden 45 van de 243 EuroQol-toestanden gewaardeerd, een verhouding van 1 op 5. De waarderingen van de overige toestanden worden geschat met regressietechnieken. Bij het waarderingsonderzoek van de HUI waarderen de proefpersonen ongeveer 20 van de 972.000 toestanden, een verhouding van 1 op 48.600. Deze verhouding is zo groot dat gewone regressietechnieken niet meer volstaan. De onderzoekers moesten daarom een aantal aanvullende aannames doen (Multi Attribute Utility Theory) om de rest van de waarderingen te schatten en hun standard-gamblewaarderingen mengen met scores van de visueel-analoge schaal. Deze complexe werkwijze verklaart wellicht waarom het grotere aantal gezondheidstoestanden niet automatisch leidt tot een betere sensitiviteit dan de EQ-5D.
VKE_06.indd 126
6/15/10 9:03:11 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
127
De vragenlijst kan worden opgevraagd bij de McMaster Health Utility Index Group (www.healthutilities.com). Het starttarief is $ 4000,- per studie, ook voor academisch onderzoek. Door te onderhandelen kan soms een lager bedrag worden afgesproken. Op de website en in het handboek van Drummond (1997) is het scoringsalgoritme afgebeeld. Raat e.a. (2004) publiceerden een Nederlands tarief voor kinderen, gebaseerd op schriftelijke visueel-analoge schaalscores die daarna ‘getransformeerd’ werden naar standard-gamblewaarden. Het is daarmee de enige vragenlijst in zijn soort die in Nederland speciaal gevalideerd is voor gebruik in een pediatrische populatie.
SF-6D Een vragenlijst die in opkomst is, is de SF-6D. Dit instrument is afgeleid van de veelgebruikte generieke kwaliteit-van-levenvragenlijst SF-36. De SF-36 wordt vaak toegepast in geneesmiddelenonderzoek. Daarom biedt het omrekenen van SF-36scores naar SF-6D-scores kansen bij het efficiënt schatten van de kwaliteit-van-leven‘waarderingen’ voor het economische model wanneer alleen de SF-36 is gebruikt. Net als bij de HUI moeten we dan wel gebruikmaken van één enkele, buitenlandse validatiestudie (Brazier e.a. 2002). Zoals hiervóór al is beschreven, lijdt de SF-6D aan een ‘vloereffect’: het is bij de SF-6D vrijwel onmogelijk om een waardering lager dan 0,4 te krijgen (Brazier e.a. 2004). Dat maakt de vragenlijst minder geschikt wanneer veel slechte gezondheidstoestanden te verwachten zijn. Aan de andere kant lijkt de SF-6D een geschikte vragenlijst wanneer de patiënten relatief gezond zijn. In die gevallen lijkt de vragenlijst sensitiever dan de EQ-5D. Een nadeel van het gebruik van de SF-6D is dat deze nog niet is uitontwikkeld. Van de enkele validatiestudie zijn bijvoorbeeld meerdere algoritmes in omloop. Het meest gebruikte is afgebeeld in Drummond e.a. (1997).
Richtlijn De EQ-5D kan sensitiever zijn bij ernstige gezondheidstoestanden, de SF-6D lijkt juist sensitiever bij relatief gezonde patiënten.
Ziektespecifieke lijsten Er is een trend om ziektespecifieke, beschrijvende vragenlijsten geschikt te maken voor QALY-analyses. Dit kan een optie zijn wanneer men veronderstelt dat het effect van de behandeling niet op te maken valt uit een al gevalideerde vragenlijst, zoals de HUI en EQ-5D (Stolk & Van Busschbach 2003). Gezondheidstoestanden gedefinieerd door de ziektespecifieke, beschrijvende vragenlijsten worden dan met de time trade-off of de standard gamble gewaardeerd door het algemene publiek. Ook worden er op dit moment experimenten gedaan waarbij met vormen van paarsgewijze vergelijkingen
VKE_06.indd 127
6/15/10 9:03:11 PM
128 v a n
kosten tot effecten
en andere rangordemodellen, ziektespecifieke lijsten worden gevalideerd (bijvoorbeeld Ratcliffe e.a. 2009). Een vraag daarbij is of de waarderingen vergelijkbaar zijn met de standaard generieke aanpak, omdat de comorbiditeit buiten beeld blijft. Bovendien is het goed voorstelbaar dat de focus op de ziektespecifieke klachten een uitvergroting geeft van het probleem en dat daarom het probleem een te zwaar gewicht krijgt (Stolk e.a. 2003). Aan de andere kant kan een ziektespecifieke aanpak zinvol zijn, wanneer vooraf al duidelijk is dat de generieke vragenlijsten zoals de SF-6D en de EQ-5D niet gevoelig zijn voor het gezondheidsprobleem (Stolk e.a. 2000).
6.3.3 Modelspecifieke gezondheidstoestanden Gezondheidstoestanden in een gezondheidseconomisch model kunnen ook rechtstreeks gewaardeerd worden met de time trade-off of standard gamble door het algemene publiek (Redekop e.a. 2004). De stap van vragenlijsten afnemen bij de patiënten wordt dan overgeslagen. Ook hier geldt de vraag of QALY’s volgens deze aanpak vergelijkbaar zijn met QALY’s volgens de standaard generieke aanpak. Opnieuw bestaat hier het gevaar dat de comorbiditeit buiten beeld blijft. Bovendien is het goed voorstelbaar dat de focus op de ziektespecifieke gezondheidstoestanden een uitvergroting geeft van het probleem en dat daarom de gezondheidsklachten een te zwaar gewicht krijgen. Als de kwaliteit van leven van de gezondheidstoestanden al beschreven is in de literatuur, valt te overwegen om deze gegevens te gebruiken. Daarbij moeten we bedenken dat validatiestudies uit verschillende West-Europese landen met de EQ-5D maar beperkte verschillen laten zien (Van Busschbach e.a. 2003). Wanneer de ruwe empirische EQ-5D-patiëntenclassificatiedata uit het buitenland beschikbaar zijn, is het ook mogelijk om deze data opnieuw te wegen met het Nederlandse tarief (Lamers 2006). Dat is een geringe inspanning die de geschiktheid van de data voor een nationaal doelmatigheidsonderzoek vergroot. De volgende bronnen zijn handig bij het zoeken naar kwaliteit-van-levengegevens voor gezondheidstoestanden: rr de CEA registry site van Tufts New England Medical Center: geeft onder andere lijsten met kwaliteit-van-levengewichten (utilitiy weights): https://research.tuftsnemc.org/cear/; rr de NHS Economic Evaluation Database (NHS EED): http://www.crd.york.ac.uk/ crdweb/; rr de site van de EuroQol-groep: www.euroqol.org. Nuttige artikelen zijn: Bell e.a. (2001), Chapman e.a. (2000), Earle e.a. (2000) en Pirragglia e.a. (2004). Een valkuil bij het verzamelen van gegevens uit de literatuur is het combineren van verschillende onderzoeksmethoden van kwaliteit-van-levenmetingen (Krabbe e.a. 2003). Verschillende kwaliteit-van-levenvragenlijsten en verschillende waarderingsmethoden geven soms verschillende resultaten. Omdat er in een model of onderzoek
VKE_06.indd 128
6/15/10 9:03:12 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
129
doorgaans sprake is van relatieve veranderingen ten opzichte van de oude of concurrerende behandeling (met ander woorden: een verschilscore), hoeft dit bij een consequente toepassing in een model of onderzoek van één methode en/of vragenlijst geen groot probleem te zijn: de relatieve verschillen tussen methoden zullen kleiner zijn dan de absolute verschillen tussen methoden. Er ontstaan wel gemakkelijk problemen bij het gebruik van verschillende methoden door elkaar. In dat geval zullen de verschilscores variëren met de (verschillen in) keuzen van de waarderingsmethoden. Het is dan ook nodig om bij het gebruik van gegevens uit de literatuur te verantwoorden dat maar één specifieke meetmethode is gebruikt.
Richtlijn Gebruik geen verschillende waarderingsmethoden in het onderzoek of het model. Let vooral op deze richtlijn bij het gebruik van gegevens uit de literatuur.
6.4
Q ALY ’ s e n e t hi e k
Het gebruik van QALY’s is aan kritiek onderhevig. Deze kritiek komt niet alleen uit wetenschappelijke kring, maar ook van beleidsmakers. Een voorbeeld hiervan is te vinden in het eerste debat van de Tweede Kamer over QALY’s. In dit debat in 1989 bleek dat een brede meerderheid van de volksvertegenwoordiging twijfelde aan het nut van QALY’s als bruikbaar beleidsinstrument. Een citaat uit het verslag van de Vaste Commissie voor Volksgezondheid (1989): ‘De problematiek van baten en lasten – het vaststellen van effectiviteit – vereist toepasbare criteria. In hoeverre kan de ontwikkelde meeteenheid QALY hiertoe een bijdrage leveren? Is het niet griezelig om meeteenheden, die toch uitgaan van gemiddelden, toe te passen? Statistisch kwetsbare groepen zouden structureel de dupe kunnen zijn en dat willen wij geen van allen.’ Het is opvallend dat kritiek op het gebruik van QALY’s, zoals in het bovenstaande citaat, meestal bestaat uit argumenten die niet specifiek zijn voor het QALY-concept maar die gelden voor alle vormen van kosteneffectiviteitsanalyses. Als bijvoorbeeld in het bovenstaande citaat het begrip ‘QALY’ vervangen wordt door ‘gewonnen levensjaren’, dan blijft de strekking van het betoog gelijk. Veel critici beroepen zich op ethische gronden. Ethische principes zouden in het gedrang komen omdat bij de toepassing van het QALY-concept in kosteneffectiviteitsanalyses onderscheid gemaakt wordt tussen patiëntgroepen op basis van kosten, overlevingsjaren en kwaliteit van leven. Sommige auteurs vinden dit onethisch, juridisch onjuist en zelfs discriminerend (Harris 1987, Cohen 1983, Loewy 1980, Van Maarseveen 1989). De beladen en moeilijk te definiëren term discriminatie wordt volgens Kastelein (1990) gebruikt omdat deze auteurs vinden dat alle patiënten gelijk zijn in de zin dat ze allen hulp behoeven. Selectie binnen de groep van patiënten is daarom een selectie onder gelijken en dus discriminatie. Het komt er dus op neer dat kosteneffectiviteitsanalyses en dus ook het QALY-concept, onvermijdelijk onethisch
VKE_06.indd 129
6/15/10 9:03:12 PM
130 v a n
kosten tot effecten
zijn wanneer men vindt dat het onethisch is om patiënten te selecteren op basis van kosten, overlevingsjaren en kwaliteit van leven. De stelling dat criteria zoals kosten, overlevingsjaren en kwaliteit van leven moeten worden uitgesloten bij het selecteren van behandelingen, heeft hetzij de consequentie dat de kosten moeten stijgen om het aantal overlevingsjaren en de gemiddelde kwaliteit van leven op peil te houden (Wagstaff 1991, Culyer 1991), hetzij dat bij constant budget het aantal overlevingsjaren zal afnemen en de gemiddelde kwaliteit van leven zal dalen. Deze onaantrekkelijke consequenties worden zelden naar voren gebracht door de critici van het QALY-concept. Er zijn nooit alternatieve selectiestrategieën ontwikkeld die zouden kunnen functioneren in tijden van schaarste. Zie hierover bijvoorbeeld de discussie tussen Van Busschbach en Hartkamp (Van Busschbach 1991, Hartkamp 1992, Van Busschbach e.a. 1992). Dit kunnen de critici van het QALYconcept zich permitteren omdat zij veel minder zwaar tillen aan het kostenargument en veel meer belang hechten aan een gezondheidszorg zonder selectie. Wanneer men echter onderkent dat het kostenelement wél een belangrijke rol zou moeten spelen in het beleid, zijn QALY-achtige concepten onvermijdelijk om met het beschikbare budget zo veel mogelijk gezondheidswinst te behalen (Van Busschbach 1994).
6 . 5 A lt e r n at i e v e n :
d e p s e u d o - Q ALY ’ s
Het aan het begin van dit hoofdstuk genoemde onderzoek van Klarman, Fransis en Rosenthal uit 1968 wordt vaak gezien als een eerste poging om tot een QALY-achtig concept te komen. De ontwikkeling van het concept vond daarna onder verschillende namen plaats. Ook werd het concept ‘uitgevonden’ in andere wetenschapsgebieden dan de gezondheidseconomie. Hieronder staan enkele van deze ontwikkelingen beschreven.
6.5.1 DALY In de epidemiologie en de maatschappelijke gezondheidszorg (public health) is het ‘disability adjusted life year’ ontwikkeld, ofwel de DALY. Een DALY wordt wel een ‘omgekeerde QALY’ genoemd: het is de gemiddelde verwachte levensduur minus de QALY’s. De DALY is een verdere uitwerking van de meeteenheid ‘Life Years Lost’ en is in opdracht van de World Health Organisation (WHO) ontwikkeld in een poging om de ‘global burden of disease’ in kaart te brengen (Murray & Lopez 1996). Een klein onderdeel van dit grote epidemiologische project was het toekennen van waarden aan de kwaliteit van leven van diagnosegroepen. Murray and Lopez zijn epidemiologen en waren onbekenden op het terrein van de gezondheidseconomie. De operationalisering van de waarderingstaak vond dan ook grotendeels plaats los van de ontwikkelingen in de gezondheidseconomie en de medische besliskunde. Hierdoor is een aantal excentrieke elementen in de meting geslopen. Murray en Lopez hebben ervoor gekozen om de correctiefactor voor de kwaliteit van leven te baseren op ‘equivalence of number’, ook wel ‘person trade-off’ genoemd. Deze correctiefactor
VKE_06.indd 130
6/15/10 9:03:12 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
131
werd door artsen bepaald. Daarbij zijn niet gezondheidstoestanden gewaardeerd, maar ziektebeelden, zoals verkoudheid, aids en depressie. Daarnaast wordt een correctiefactor voor leeftijd gehanteerd. Al deze methodologische opties waren al eerder beschreven, maar al in de jaren zeventig door gezondheidseconomen verworpen. Dit wordt ook niet ontkend door de ontwikkelaars van de DALY. Zij stellen echter dat de gekozen opties aansluiten bij de onderzoeksvraag ‘inzicht verkrijgen in de “ziektelast” in de wereld, vooral in de ontwikkelingslanden’. Inmiddels hebben de ontwikkelaars van het DALY-concept hun methodologie op enkele punten bijgesteld, waardoor het DALY-concept meer in de richting van het gedachtegoed van de gezondheidseconomen is opgeschoven. Anderzijds is er bij de gezondheidseconomen ook erkenning voor de herwaardering van oude concepten en voor de rijkdom aan informatie die het project Global Burden of Disease oplevert. Het onderzoek van Murray en Lopez wordt momenteel voortgezet door onderzoekers die ook al hun sporen verdiend hebben binnen de gezondheidseconomie. Het valt dan ook te verwachten dat in de toekomst beide stromingen verder naar elkaar toe zullen groeien.
6.5.2 Q-TWiST Bij het evalueren van de effecten van medicatie bij kankerpatiënten werden clinici geconfronteerd met een lastig probleem. Vaak kon men het leven van de patiënt wel rekken, maar dit ging dan ten koste van de kwaliteit van leven tijdens de therapie. Bovendien waren vaak niet alle toegevoegde levensdagen van voldoende kwaliteit. Bij de keuze tussen wel of geen therapie moest men dus een afweging maken tussen een winst in levensduur en een verlies in kwaliteit van leven. Een statisticus die nauw betrokken was bij dit soort klinisch onderzoek, R.D. Gelber, stelde halverwege de jaren tachtig voor om in deze gevallen de dagen te tellen die een patiënt in relatief goede gezondheid doorbrengt: ‘Time Without Symptoms of disease and subjective Toxic effects of treatment’, ofwel TWiST (Fairclough & Gelver 1996). De behandeling die het meeste TWiST opleverde, wordt bij deze operationalisering gezien als de beste. TWiST bleek een aantrekkelijke uitkomstmaat voor veel clinici wanneer de uitkomsten in termen van kwaliteit van leven en levensduur niet in elkaars verlengde lagen. Opvallend zijn de overeenkomsten tussen QALY en TWiST: een TWiSTanalyse kan worden gezien als een QALY-analyse waarbij een dag in goede gezondheid de waarde 1 krijgt en een dag met ziekteverschijnselen de waarde 0. TWiST is dus een soort QALY waarbij de correctiefactor voor de kwaliteit van leven gedichotomiseerd is. Gezondheidseconomen spreken dan ook wel eens over een ‘uitgeklede QALY’ of een ‘QALY-made-simple’. De overeenkomst tussen QALY en TWiST is des te opvallender, omdat Gelber zijn TWiST ontwikkelde onafhankelijk van het QALYonderzoek. Deze klinische oorsprong van de TWiST is er wellicht de oorzaak van dat het TWiST-concept veel gemakkelijker wordt geaccepteerd door het klinische veld dan het QALY-concept. Dit verschil in acceptatie deed een bekende Amerikaanse
VKE_06.indd 131
6/15/10 9:03:12 PM
132 v a n
kosten tot effecten
ezondheidseconoom eens opmerken dat de TWiST het Trojaanse paard was waarg mee het QALY-concept geïntroduceerd kon worden bij clinici. In de loop der jaren ontwikkelde Gelber zijn TWiST steeds meer in de richting van het QALY-concept. Halverwege de jaren negentig stelt hij voor de dichotome correctiefactor voor de kwaliteit van leven (0 en 1) te vervangen door een glijdende schaal, gebaseerd op utiliteiten. Hij noemde dit ‘Quality-adjusted Time Without Symptoms of disease and subjective Toxic effects of treatment’, ofwel Q-TWiST. Door de introductie van utiliteiten als correctiefactor voor de kwaliteit van leven vervalt eigenlijk het verschil met QALY’s.
6.5.3 Healthy-Years Equivalents In 1989 verscheen een artikel van Mehrez en Gafni (1989) waarin een alternatief voor QALY’s werd voorgesteld, namelijk Healthy-Years Equivalents (HYE). De auteurs stelden dat HYE weliswaar iets moeilijker te bepalen waren dan QALY’s, maar dat de uitkomsten ervan meer valide waren dan die van een ‘gewone’ QALY-analyse. Ten opzichte van die gewone QALY-analyse stelden ze twee veranderingen voor. In het gebruikelijke QALY-model heeft wat in voorgaande jaren is gebeurd geen invloed op de waardering van wat daarna komt. Het gebruikelijke QALY-model heeft een simpele additieve structuur: voor kwaliteit gecorrigeerde levensjaren worden eenvoudigweg bij elkaar opgeteld. Het HYE-concept laat deze additieve structuur los en waardeert gehele ziektescenario’s. Een ziekte is bij het HYE-concept dus meer dan de som der delen, zoals dat bij QALY-analyse gebruikelijk is. De tweede verandering ten opzichte van gewone QALY’s was het voorstel van Mehrez en Gafni om de waardering van de scenario’s te laten verlopen via een ‘tweefasen standard gamble’. De eerste fase is een gewone standard gamble die een utiliteit geeft; de tweede standard gamble wordt gebruikt om het equivalent aan gezonde jaren vast te stellen. Na de eerste publicaties van Mehrez en Gafni kwam een uitvoerig debat op gang over de vermeende voordelen van HYE boven QALY’s (zie voor een inzichtelijk verslag Drummond e.a. 1997). De uitkomsten van het debat waren dat het waarderen van scenario’s inderdaad theoretisch aantrekkelijk is, maar praktisch vaak niet uitvoerbaar. Daarnaast bleek de theoretische superioriteit van de tweefasen standard gamble onjuist (Rittenhouse 1997, Van Busschbach 1994). Al met al lijkt het HYEconcept voorlopig meer vragen op te werpen dan het beantwoordt, waardoor HYE niet gezien worden als een volwaardig alternatief voor QALY’s (Wakker 1996, Gold e.a. 1996, Drummond e.a. 1997, CCOHTA 1997).
Richtlijn Het QALY-model is te prefereren boven het gebruik van DALY’s, Q-TWiST en HYE.
VKE_06.indd 132
6/15/10 9:03:12 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
6 . 6 Q ALY - a n a ly s e s
133
n a a s t b e s c h r i j v e n d k w a l i t e i t - va n -
levenonderzoek
QALY’s worden vaak in één adem genoemd met multidimensionale generieke kwaliteit-van-levenvragenlijsten zoals de Nottingham Health Profile (NHP), de Short Form 36 (SF-36) en de Sickness Impact Profile (SIP). Deze vragenlijsten zijn in het vorige hoofdstuk behandeld. Vaak lijkt daarbij de discussie zich te beperken tot de vraag ‘wat beter is’: QALY’s of een beschrijvende multidimensionale kwaliteit-van-levenvragenlijst. Een dergelijke discussie doet echter geen recht aan de verschillen in doelstelling die aan de metingen ten grondslag liggen. Ten eerste gaan de bovengenoemde generieke vragenlijsten uit van een multidimensionale beschrijving van kwaliteit van leven. Methoden die gebruikt worden bij QALY-analyses moeten kwaliteit van leven in één dimensie beschrijven, anders is een QALY-analyse niet mogelijk. Vragenlijsten zoals de NHP, de SF-36 en de SIP zijn nooit ontworpen met de ambitie om kwaliteit van leven unidimensionaal te schalen. Sterker nog, deze vragenlijsten leggen juist de nadruk op de pluriformiteit van kwaliteit van leven. Het is dan ook onjuist om te veronderstellen dat deze vragenlijsten inwisselbaar zijn voor QALY-analyses: ze zijn ontworpen om andere onderzoeksvragen te beantwoorden. Een dergelijke redenering geldt ook voor zogenoemde ziektespecifieke vragenlijsten. De geconstateerde verschillen in het meetdomein tussen multidimensionale beschrijvende vragenlijsten van kwaliteit van leven en QALY-analyse vormen een argument om deze beschrijvende vragenlijsten te gebruiken náást QALY-analyses. Tegenwoordig wordt daarom vaak geadviseerd om drie typen vragenlijsten in klinisch onderzoek te betrekken: een ziektespecifieke vragenlijst, een generieke kwaliteit-van-levenvragenlijst en een vragenlijst geschikt voor QALY-analyses (CCOHTA 1997). Deze drie metingen van kwaliteit van leven zijn niet redundant, omdat aan de verschillende metingen verschillende vraagstellingen ten grondslag liggen.
Richtlijn Gebruik náást QALY-analyses ook multidimensionale generieke en ziektespecifieke vragenlijsten naar kwaliteit van leven.
6 . 7 C o n c l u s i e Wanneer kwaliteit van leven gemeten wordt ten behoeve van een economische evaluatie, is het van belang dat dit gebeurt vanuit het maatschappelijk perspectief. Dat betekent dat niet de patiënt, maar de maatschappij als geheel bepaalt hoe ernstig gezondheidsklachten zijn. De waardering van de kwaliteit van leven moet unidimensionaal zijn, omdat ze gebruikt moet kunnen worden in een QALYanalyse. Een QALY-analyse is de meest gebruikelijke manier om al de effecten van
VKE_06.indd 133
6/15/10 9:03:12 PM
134 v a n
kosten tot effecten
de gezondheidszorg onder één noemer te vangen. Gebruik voor de waardering van kwaliteit van leven de voor prospecttheorie gecorrigeerde standard gamble of de time trade-off. De waarderingen van de gezondheidstoestanden kunnen per onderzoek worden vastgesteld, of men kan gebruikmaken van gevalideerde vragenlijsten die speciaal voor dit doel ontworpen zijn. Let bij het gebruik van deze gevalideerde vragenlijsten op de juiste lay-out, vertaling en procedures. De best gevalideerde en gedocumenteerde vragenlijst voor het gebruik in QALY-analyses is op dit moment de EuroQol, een internationale vragenlijst die mede ontwikkeld is vanuit Nederland. Een mogelijk probleem bij het gebruik van deze vragenlijst is een gebrek aan sensitiviteit, vooral bij geringe gezondheidsproblemen. De HUI kan daar mogelijk in de toekomst een oplossing voor bieden, omdat deze een verfijnder classificatiesysteem bezit. Het verdient verder aanbeveling om drie soorten metingen van kwaliteit van leven te doen: een ziektespecifieke, een generieke en een meting die geschikt is voor gebruik in een QALY-analyse. Li t e r at u u r Aaronson NK, Cull AM, Kaasa S, et al. The European Organization for Research and Treatment of Cancer (EORTC) modular approach to quality of life assessment in oncology: An update. In: Quality of life and pharmacoeconomics in clinical trails. 2nd edition. Spilker B. (ed.). Philadelphia: Lippincott-Raven Publishers, 1996. Bell CM, Chapman RH, Stone PW, et al. An off-the-shelf help list: A comprehensive catalog of preference scores from published cost-utility analyses. Med Decis Making 2001;21:288-94. Bleichrodt H, Abellan-Perpiñan JM, Pinto-Prades JL, et al. Resolving inconsistencies in utility measurement under risk: Tests of generalizations of expected utility. Man Sci 53: 469-482, 2007. Bleichrodt H, Johannesson M. Standard gamble, time trade-off and rating scale: Experimental results on the ranking properties of QALY’s. J Health Econ 1997a;16:155-75. Bleichrodt H, Jonannesson M. An Experimental test of the theoretical founcations of rating-schale valuations. Med Decis Making 1997b;17:208-16. Bleichrodt H, Pinto JL, Wakker PP. Making descriptive use of prospect theory to improve the prescriptive use of expected utility. Man Sci 2001;47:1498-514. Bleichrodt H. A new explanation for the difference between time trade-off utilities and standard gamble utilities. Health Econ 2002;11(5):447-56. Bleichrodt H. Applications of utility theory in the economic evaluation of health care. Proefschrift Erasmus Universiteit Rotterdam. Ridderkerk: Ridderprint, 1996. Brazier J, Dixon S. The use of condition specific outcome measures in economical appraisal. Health Econ 1995;4:255-64. Brazier J, Roberts J, Deverill M. The estimation of a preference-based measure of health from the SF-36. J Health Econ 2002;21(2):271-92. Brazier J, Roberts J, Tsuchiya A, et al. A comparison of the EQ-5D and SF-6D across seven patient groups. Health Econ 2004;13:873-84.
VKE_06.indd 134
6/15/10 9:03:12 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
135
Brazier JE, Walters SJ, Nicholl JP, et al. Using the SF-36 and Euroqol on an elderly population. Qual Life Res 1996;5(2):195-204. Brooks R, with the EuroQol Group. EuroQol: the current state of play. Health Policy 1996;37:53-72. Busschbach JJ van, Hessing DJ, Charro FTh de. De kwaliteit van QALY’s. Med Cont 1991;46: 1353-5. Busschbach JJ van, Hessing DJ, Charro FTh de. QALY’s. De kwaliteiten van ‘De kwaliteiten van QALY’s’. (Naschrift). Med Cont 1992;47:38. Busschbach JJ van, Weijnen T, Nieuwenhuizen M, et al. A comparison of EQ-5D time tradeoff values obtained in Germany, The United Kingdom and Spain. In: Brooks R, Rabin R, Charro F de. The measurement and evaluation of health status using EQ-5D: A European perspective. Dordrecht: Kluwer, 2003, pp. 143-65. Busschbach JJ van. De validiteit van QALY’s. Proefschrift. Sanders Instituut, Erasmus Universiteit Rotterdam-Proefschriftenreeks. Arnhem: Gouda Quint, 1994. CCOHTA: Canadian Coordinating Office for Health Technology Assessment. Guidelines for Economic Evaluation of Pharmaceuticals: Canada. 2nd edition. Ottawa: CCOHTA, 1997. Chapman RH, Stone PW, Sandberg EA, et al. A comprehensive league table of cost-utility ratios and a sub-table of ‘panel-worthy’ studies. Med Decis Making 2000;20:451-67. Cohen CB. Quality of life and the analogy with the Nazis. J Med Philos 1983;8:113‑35. Craig BM, Busschbach JJ van. The episodic random utility model unifies time trade-off and discrete choice approaches in health state valuation. Popul Health Metr 2009;7(1):3. Culyer AJ. Health, health expenditures, and equity. Discussion Paper 83. Centre for Health Economics, University of York, 1991. Doctor JN, Miyamoto J, Bleichrodt H. When are person tradeoffs valid? J Health Econ 2009; 28(5):1018-27. Dolan P, Gudex C, Kind P, et al. Valuing health states: a comparion of methods. J Health Econ 1996;15:209-31. Dolan P. Modeling valuations for the EuroQol health states. Med Care 1997;35:1095-108. Dolan P. The measurement of individual utility and social welfare. J Health Econ 1998;17:39-52. Drummond MF, Sculpher MJ, Torrance GW, et al. Methods for the economical evaluation of health care programmes. 3rd edition. New York: Oxford University Press, 1997. Earle CC, Chapman RH, Baker CS, et al. Systematic overview of cost-utility assessments in oncology. J Clin Oncol 2000;18:3302-17. Fairclough DL, Gelber RD. Quality of life: statistical issues and analysis. In: Quality of life and pharmacoeconomics in clinical trails. 2nd edition. Spilker B, ed. Philadelphia: Lippincott-Raven Publishers, 1996. Fanshel S, Bush JW. A health-status index and its application to health services outcomes. Oper Res 1970;18:1021-66. Feeny D, Furlong W, Boyle M, et al. Multi-attribute health status classification systems. Health utilities index. Pharmacoeconomics 1995;7:490-502. Feeny D, Furlong W, Torrance GW, et al. Related multiattribute and single-attribute utility functions for the health utilities index mark 3 system. Med Care 2002;40(2):113-28.
VKE_06.indd 135
6/15/10 9:03:12 PM
136 v a n
kosten tot effecten
Gold MR, Patrick DL, Torrance GW, et al. Indentifying and valuing outcomes. Chapter 4. In: Gold MR, Siegle JE, Russel LB, et al. (eds). Cost-effectiveness in health and medicine. New York: Oxford University Press, 1996. Green C. On the societal value of health care: What do we know about the person trade-off technique? Health Econ 2001;10(3):233-43 Gudex C, Kind P. The QALY toolkit. Discussion Paper 38. York: Centre for Health Economics, University of York, 1988. Hadorn DC. The role of public values in setting health care priorities. Soc Sci Med 1991;32:773-81. Harris J. QALYfying the value of life. J Med Ethics 1987;13:117-23. Hartkamp SF. Ingezonden brief naar aanleiding van: ‘De kwaliteiten van QALY’s’. Busschbach JJ van, Hessing DJ, Charro FTh, 1991: De kwaliteiten van ‘De kwaliteiten van QALY’s’. Med Cont 1992;47:37-8. Kahneman D, Tversky A. Prospect theory: An analysis of decision under risk. Econometrica 1979;47:263-291. Kaplan RM, Bush JW, Berry CC. Health status: Types of validity and the index of well-being. Health Serv Res 1976;11:478-507. Kastelein WR. Recht op gezondheidszorg en selectiecriteria in de zwakzinnigenzorg. Med Cont 1990;45:79-81. Kind P, Rosser R, Williams A. Valuation of quality of live: some psychometric evidence. The value of life and safety; proceedings of a conference held by the Geneva Association on 30/3/1981. Geneva: 1982, pp. 159-70. Klarman HE, Fransis JO, Rosenthal GD. Cost effectiveness analysis applied to the treatment of chronic renal disease. Medical Care 1968;6:48-54. Kontodimopoulos N, Pappa E, Papadopoulos A, et al. Comparing SF-6D and EQ-5D utilities across groups differing in health status. Qual Life Res 2009;18(1):87-97. Krabbe PFM, Adang EMM, Stalmeijer EMM. Health-state valuations have been core issues in the field of medical decision making. 2003;23(6):542. Lamers LM, McDonnell J, Stalmeier PF, et al. The Dutch tariff: results and arguments for an effective design for national EQ-5D valuation studies. Health Econ 2006;15(10):1121-32. Lamers LM, Stalmeier PFM, McDonnell J, et al. Kwaliteit van leven meten in economische evaluaties: het Nederlands EQ-5D-tarief. Ned Tijdschr Geneeskd 2005;149(28):1574-8. Langfitt JT, Vickrey BG, McDermott MP, et al. Validity and responsiveness of generic preferencebased HRQOL instruments in chronic epilepsy. Qual Life Res 2006;15(5):899-914. Loewy EL. Cost should not be a factor in medical care. N Eng J Med 1980;302:697. Luo N, Johnson JA, Shaw JW, et al. Relative efficiency of the EQ-5D, HUI2, and HUI3 index scores in measuring health burden of chronic medical conditions in a population health survey in the United States. Med Care 2009;47(1):53-60. Maarseveen H van. Discriminatie wegens leeftijd. Ned Juristen Blad 1989;64:1085-6. Mehrez A, Gafni A. Quality-adjusted life years, utility theory, and healthy-years equivalents. Med Decis Making 1989;9(2):142-9.
VKE_06.indd 136
6/15/10 9:03:12 PM
w a a r d e r e n d k w a l i t e i t - va n - l e v e n o n d e r z o e k
137
Murray JL, Lopez AD. The Global Burden of Disease. Summary. The Global Burden of Disease and Injury Series. Geneva: Harvard school of Public Health on behalf of the World Health Organisation and the World Bank, 1996. Neumann J von, Morgenstern O. Theory of games and economic behavior. Princeton: Princeton University Press, 1944. Nord E, Richardson J, Macarounas-Kirchmann K. Social evaluation of health care versus personal evaluation of health states. Evidence on the validity of four health-state scaling instruments using Norwegian and Australian Surveys. Int J Technol Assess Health Care 1993;9:463-78. Nord E. An alternative to QALY’s: the saved young life equivalent (SAVE). BMJ 1992;305:875-7. Osch SMC van, Wakker PR, Hout van den WB, et al. Correcting biases in standard gamble and time trade-off utilities. Med Decis Making 2004;24(5):511-7. Parkin D, Devlin N. Is there a case for using visual analogue scale valuations in cost-utility analysis? Health Econ. 2006;15(7):653-64. Pirraglia PA, Rosen AB, Hermann RC, et al. Cost utility analysis studies of depression management: A systematic review. Am J Psychiatry 2004;161(12):2155-62. Raat H, Bonsel GJ, Hoogeveen WC, et al; Dutch HUI Group. Feasibility and reliability of a mailed questionnaire to obtain visual analogue scale valuations for health states defined by the Health Utilities Index Mark 3. Med Care 2004;42(1):13-8. Ratcliffe J, Brazier J, Tsuchiya A, et al. Using DCE and ranking data to estimate cardinal values for health states for deriving a preference-based single index from the sexual quality of life questionnaire. Health Econ 2009;18(11):1261-76. Redekop W, Stolk E, Kok E, et al. Diabetic foot ulcers and amputations: estimates of health utility for use in cost-effectiveness analyses of new treatments. Diabetes Metab 2004;30:549-56. Richardson J. Cost utility analysis: What should it measure? Soc Sci Med 1994;39:7-21. Rittenhouse BE. Healthy years equivalents versus time trade-off. Ambiguity on certainty and uncertainty. Int J Tech Assess Health Care 1997;13:35-48. Robinson A, Dolan P, Williams A. Valuing health status using VAS and TTO: what lies behind the numbers? Soc Sci Med. 1997;45(8):1289-97. Rosser R, Kind P. A scale of valuations of states of illness: Is there a social consensus? Int J Epidemiol 1978;7:347-58. Sprangers MAG. Response-shift bias: a challenge to the assessment of patients’ quality of life in cancer clinical trials. Cancer Treat Rev 1996;22(Suppl A):55-62. Stensman R. Severely mobility-disabled people assess the quality of their lives. Scand J Rehabil Med 1985;17:87‑99. Stiggelbout AM. Trade-offs between quality and quantity of life. Methodological aspects of outcome valuation in cancer patients. Proefschrift, Universiteit Leiden. Enschede: CopyPrint 2000, 1995. Stolk E, Busschbach JJV. The sensitivity of the EuroQol and the Health Utility Index in patients treated for imperforate anus. Paper presented at the eleventh EuroQol Plenary Meeting, October 1-3, Hannover: 1998.
VKE_06.indd 137
6/15/10 9:03:12 PM
138 v a n
kosten tot effecten
Stolk EA, Busschbach JJ van. Validity and feasibility of the use of condition-specific outcome measures in economic evaluation. Qual Life Res 2003;12(4):363-71. Stolk EA, Busschbach JJV, Caffa M, et al. Cost utility analysis of sildenafil compared with papaverinephentolamine injections. BMJ 2000;320:1165-8. The EuroQol Group. EuroQol - A new facility for the measurement of health-related quality of life. Health Policy 1990;16:199-208. Torrance GW, Furlong W, Feeny D, et al. Multi-attribute preference functions. Health Utilities Index. Pharmacoeconomics 1995;7:503-20. Torrance GW, Thomas WH, Sackett DL. A utility maximization model for evaluation of health care programs. Health Serv Res 1972;7:118-33. Vaste Commissie voor Volksgezondheid. 27ste uitgebreide commissievergadering. Grenzen aan de zorg (20620). Handelingen Tweede Kamer, vergaderjaar 1988-1989, 23/1/1989 UCV 27, 1989, p. 27-15. Wagstaff A. QALY’s and the equity-efficiency trade-off. J Health Econ 1991;10:21-41. Wakker P. A criticism of healthy-years equivalents. Med Decis Making 1996;16:207-14.
VKE_06.indd 138
6/15/10 9:03:12 PM