2010 | 9 MGv | 65 | 684 - 695
edwin de beurs
De genormaliseerde T-score Een ‘euro’ voor testuitslagen
Om in de gaten te houden of een behandeling goed werkt, zijn verschillende meetinstrumenten in omloop. Deze zijn echter niet compatibel, waardoor het moeilijk is om resultaten te vergelijken. De huidige behandelpraktijk meet, maar weet nog niet. Er is een standaardmaat nodig die de ‘wisselkoersen’ omzeilt. In de ggz in Nederland wordt het steeds meer een goede gewoonte om regelmatig vast te stellen wat de aard of de ernst van de klachten van een patiënt zijn, en of de geboden behandeling wel het gewenste effect heeft. Daarbij worden verschillende testen ingezet. Bij de behandeling van veel voorkomende psychiatrische aandoeningen, zoals stemmings- en angststoornissen, is vooral de meetmethode met zelfrapportagevragenlijsten populair. De patiënt geeft voor een reeks symptomen of klachten aan in hoeverre deze de afgelopen periode optraden. Naast instrumenten met een generieke meetpretentie, zoals de scl-90 die geschikt is voor alle stoornissen in dit zorgdomein, is er nog een keur aan stoornisspecifieke vragenlijsten, bijvoorbeeld voor de paniekstoornis, de sociale fobie of persoonlijkheidsstoornissen. Zelfrapportage-instrumenten worden voornamelijk gebruikt bij de evaluatie van zorgprogramma’s in een ambulante setting. Patiënten in ambulante zorg zijn doorgaans goed in staat hun eigen situatie of klachten te beoordelen en kunnen zo’n vragenlijst dus goed invullen. Bij ernstige psychiatrische aandoeningen zoals psychotische stoornissen is dat beoordelingsvermogen vaak aangetast. In de zorg voor deze patiënten worden dan ook meestal beoordelingsschalen gebruikt, zoals de honos, mansa en can (Mulder e.a., 2010). Dit zijn vragenlijsten die worden ingevuld door de
de genormaliseerde t-score
Kader 1 Soorten zelfrapportagevragenlijsten In de ggz worden generieke en stoornisspecifieke vragenlijsten gebruikt. De meest gebruikte zijn generieke vragenlijsten die naar algemene klachten vragen. De patiënt moet voor een reeks symptomen of klachten aangeven in hoeverre deze de afgelopen periode optraden. Voorbeelden hiervan zijn de Symptom Checklist (scl-90, Arrindell & Ettema, 1986) en de verkorte variant hiervan, de Brief Symptom Inventory (bsi; De Beurs & Zitman, 2006). In toenemende mate wordt tegenwoordig de Outcome Questionnaire gebruikt (oq-45; De Jong e.a., 2008). Andere vragenlijsten die worden toegepast zijn de Vier Dimensies Klachtenlijst (4dkl; Terluin, 1996), de Hospital Anxiety Depression Scale (hads; Spinhoven e.a., 1997) en de Depressie Angst Stress Schaal (dass; De Beurs e.a., 2001). Recentelijk geïntroduceerde vragenlijsten zijn de Clinical Outcomes in Routine Evaluation-Outcome Measure (core-om; Barkham e.a., 2005) en de Korte Klachten Lijst (kkl; Lange & Appelo, 2007). Er zijn ook verschillende stoornisspecifieke vragenlijsten. De vragen in deze lijsten zijn toegesneden op een bepaalde stoornis. Voor stemmingstoornissen bijvoorbeeld de bdi (Bouman e.a., 1985) of de ids (Nolen & Dingemans, 2009); voor de paniekstoornis de pol (De Beurs e.a., 2005); voor obsessieve-compulsieve stoornis de Padua (Van Oppen, 1992); voor sociale fobie de ioa (Van Dam-Baggen & Kraaimaat, 2003); voor posttraumatische stressstoornis de ies (Brom & Kleber, 1985); voor persoonlijkheidsstoornissen de dapp-bq (Van Kampen e.a., 2010) en de sipp (Verheul e.a., 2008). Voor minder vaak voorkomende stoornissen, zoals eetstoornissen, is er de edi (Van Strien, 2002). Stoornisspecifieke vragenlijsten hebben doorgaans iets betere psychometrische kenmerken (indien toegepast bij de juiste doelgroep) en zijn gevoeliger voor verandering, maar hebben een smaller toepassingsgebied dan generieke lijsten. De scl-90 en de bsi bieden naast een totaalscore die staat voor algemeen niveau van psychopathologie, ook gedetailleerde informatie over specifieke klachtgebieden zoals lichamelijke klachten, stemmingsklachten, angstklachten en fobische vermijding. De oq biedt op klachtgebied alleen een algemene score (de oq-sd), maar heeft als voordeel dat ook verbeteringen in de kwaliteit van interpersoonlijke relaties (familie, vrienden, oq-ir) en maatschappelijk functioneren (op werk of opleiding, oq-sr) uitgevraagd worden. De dass heeft naast een totaalscore specifieke schalen voor angst, depressie en stress. Met name de laatste schaal is interessant voor indicatiestelling en effectmeting van hulpverlening bij arbeidsgerelateerde problematiek (De Beurs e.a., 2010). De core-om biedt naast een algemene score voor de ernst van de klachten ook een subschaal over risico’s (op terugval). De kkl is aangenaam kort met 13 items voor klachten en een open vraag, maar dit levert een wel erg globale meting op. Ten slotte is nog een belangrijk kenmerk dat sommige lijsten in het publieke domein en gratis beschikbaar zijn, terwijl andere alleen zijn te bekomen via een uitgever. De normering en documentatie van commerciële lijsten is doorgaans wat beter. Echter, naast dat het gebruik van commercieel beschikbare vragenlijsten enige kosten en administratieve last met zich meebrengt, is een groeiend probleem dat uitgevers meer en meer toestemming weigeren om vragenlijsten middels populaire (web)applicaties, zoals NetQ-rom, QuestManager of roqua aan respondenten aan te bieden.
685
de beurs
behandelaar of door een onafhankelijke beoordelaar over de patiënt, meestal aan de hand van een kort interview met de patiënt. Iedere vragenlijst heeft specifieke voor- en nadelen en er zijn inhoudelijke verschillen tussen de instrumenten (zie kader 1). De uiteindelijke keuze van het instrument wordt bepaald door de doelen die met de behandeling worden nagestreefd: symptoomreductie, toegenomen vaardigheden, toegenomen kwaliteit van leven, et cetera. Behandelaars (en onderzoekers) kunnen verschillende opvattingen hebben over de doelstelling van behandeling. Maar alle behandelaars zijn het erover eens dat al deze verschillende meetinstrumenten een Babylonische spraakverwarring opleveren zodra we met elkaar uitkomsten willen uitwisselen. Een behandelaar die gewend is aan scl-90-scores communiceert niet gemakkelijk over de ernst van klachten van een patiënt met een collega die altijd de oq (Outcome Questionnaire) gebruikt. De huidige situatie in de ggz laat zich wat dat betreft vergelijken met de manier waarop in Europa over de prijzen van goederen of diensten werd gesproken voordat de euro werd ingevoerd. Sinds 2002 behoren wisselkoersen en omrekenen van geld in de euro-landen tot het verleden, en dat is ontegenzeggelijk te danken aan de invoering van de euro. Zoiets is ook wenselijk voor meetinstrumenten die gebruikt worden voor therapie-uitkomst. Vervangen van ‘wisselkoersen’ voor de uitkomsten van veelgebruikte vragenlijsten door een gemeenschappelijke uitkomstmaat, zal het gebruik van meetinstrumenten in de ggz bovendien verder kunnen stimuleren. In dit artikel stel ik een nieuwe valuta, een ‘euro’ voor uitkomstmaten in de ggz voor: de genormaliseerde T-score.
Verschillende indelingen Testresultaten van meetinstrumenten of vragenlijsten zijn onderling niet zomaar te vergelijken, omdat ze uitgaan van verschillende schalen. De totaalscore op de scl-90 heeft een theoretisch bereik van 90 tot 450 punten (de somscore van 90 items met een mogelijke score van 1 tot 5), de oq-sd (Outcome Questionnaire-Symptom Distress subschaal) heeft een bereik van 0 tot 100 (de somscore van 25 items met een mogelijke score van 0 tot 4), en de totaalscore op de bsi (Brief Symptom Inventory) heeft een bereik van 0,00 tot 4,00 (gemiddelde score op 53 items met een mogelijke score van 0 tot 4). Deze schalen zijn betrekkelijk willekeurig gekozen en een score krijgt pas betekenis wanneer je de schaal kent en weet hoe bijvoorbeeld een gemiddelde patiënt scoort. Om een algemenere betekenis aan een uitkomst van een test te geven zijn verscheidene schaalvrije indelingen van scores voorgesteld. Met schaalvrij
de genormaliseerde t-score
wordt hier bedoeld: los van de schaal van de oorspronkelijke ruwe scores op het meetinstrument. Heel bekend is de percentielscore. Deze is gebaseerd op een verdeling van scores van een populatie in honderd gelijke delen. Een percentielscore van 95 houdt bijvoorbeeld in dat de respondent in de extreme 5% van de populatie scoort en dat slechts 5% van de populatie nog hoger scoort. Andere indelingen zijn stanines (negen gelijke intervallen van elk een halve standaarddeviatie breed) of kwartielen (telkens een interval van een kwart van de populatie). ‘Normtabellen’ maken eigenlijk ook gebruik van een schaalvrije indeling van scores. Daarin wordt een betekenis aan uitkomsten op een vragenlijst toegekend met begrippen als ‘zeer hoog’, ‘hoog’, ‘bovengemiddeld’ et cetera. Aan deze indeling ligt vaak een percentielscore ten grondslag van respectievelijk 5% (zeer laag), 20%, 40%, 60%, 80% en 95% (zeer hoog). Ten slotte zijn er indelingen van scores gebaseerd op de schaalvrije standaardscore of Z-score. Z-scores worden berekend door van de ruwe score het populatiegemiddelde af te trekken en het resultaat te delen door de standaardafwijking. Dit resulteert in een score met een gemiddelde van 0 en een standaarddeviatie van 1.De T-score is daar een voorbeeld van.
De T-score Al in de jaren twintig van de vorige eeuw stelde McCall (1922) als schaalvrije score de T-score voor. De keuze voor de letter T was een eerbewijs aan Edward Tellegen en Lewis Terman, aartsvaders in de Amerikaanse psychologie die zich vooral bezighielden met meten in de onderwijspsychologie. Er zijn twee varianten van de T-score: de lineaire T-score en de genormaliseerde T-score (zie ook Klugh, 2006). Lineaire T-score De lineaire T-score is in feite een directe omzetting van de Z-score. De Z-score heeft een gemiddelde van 0 en een standaarddeviatie van 1. Een score met een gemiddelde van 0 is echter wat lastig in het dagelijks gebruik. De helft van de patiënten heeft een negatieve score en de meeste patiënten hebben een decimaal in hun score. Om tot een wat handzamere score te komen stelde McCall voor de Z-score te vermenigvuldigen met 10 en op te hogen met 50 punten: de lineaire T-score. Per definitie is het gemiddelde van de T-score dus 50 en de standaarddeviatie [10.1] Uitgaande van een normaalverdeling corresponderen T-scores met percentielscores zoals weergegeven in tabel 1. De betekenis zoals vaak gebruikt in normtabellen is ook weergegeven in tabel 1: de hoogste 5% van de scores is ‘zeer hoog’, van 80 tot 95% is ‘hoog’, van 60
687
de beurs
tot 80% is ‘bovengemiddeld’, van 40 tot 60% is ‘gemiddeld’, enzovoorts. Om ‘gevoel’ te krijgen voor de betekenis van de T-score is in het rechtergedeelte van tabel 1 voor opeenvolgende T-scores weergegeven hoe hoog de bijpassende percentielscore is. De meeste patiënten hebben een T-score tussen de 30 en de 70 (95% van de patiënten); 99,73% scoort tussen 20 en 80. Scores buiten dit bereik zijn dus zeer uitzonderlijk.
Tabel 1
Onderlinge verhouding van percentielscores, Z-scores en T-scores en hun betekenis
Uitgaande van percentielen:
Uitgaande van T-scores:
Percentiel
Z-score
T-score
0,01
-3,090
19,10
0,5
-2,576
24,24
1
-2,326
26,74
5
-1,645
33,55
10
-1,282
37,18
20
-0,842
41,58
30
-0,524
44,76
40
-0,253
47,47
50
0,000
50,00
60
0,253
52,53
70
0,524
55,24
80
0,842
58,42
90
1,282
62,82
95
1,645
66,45
99
2,326
73,26
99,5
2,576
99,9
3,090
Betekenis
T-score
Z-score
Percentiel
10
-4,00
0,00
15
-3,50
0,02
20
-3,00
0,13
25
-2,50
0,62
30
-2,00
2,28
35
-1,50
6,68
40
-1,00
15,87
45
-0,50
30,85
50
0,00
50,00
55
0,50
69,15
60
1,00
84,13
65
1,50
93,32
70
2,00
97,72
75
2,50
99,38
80
3,00
99,87
75,76
85
3,50
99,97
80,90
90
4,00
99,99
Zeer laag
Laag
Beneden gemiddeld
Gemiddeld
Boven gemiddeld
Hoog
Zeer hoog
Het omzetten van een ruwe score naar een T-score is eenvoudig wanneer de ruwe scores normaal verdeeld zijn, dat wil zeggen als hun frequentieverdeling het bekende klokvormige beeld geeft: de meeste scores bevinden zich rond het gemiddelde en zijn symmetrisch verdeeld. Dit is bijvoorbeeld het geval bij de schaal voor Symptomatic Distress van de oq. De oq-sd-schaal heeft bij een ambulante klinische populatie2 een gemiddelde waarde van M oq-sd = 48,5 en een standaarddeviatie van 15,9 (De Beurs e.a., 2001). De T-score wordt in dit geval berekend als T = ((ruwe score – 48,5)/15,9)*10) + 50. Een oq-sd-score van 485T=50; 645T=60; 325T=40, et cetera. Op de site van het MGv
de genormaliseerde t-score
(www.trimbos.nl/mgv) en die van kznbenchmarking (www. kznbenchmarking. nl) staan gedetailleerdere gegevens voor de omzetting van ruwe scores, T-scores en percentielscores voor de oq-sd en andere instrumenten. Een vragenlijst met niet-normaal verdeelde scores is de bsi. Bij nietnormaal verdeelde scores is het beeld asymmetrisch. In figuur 2 op pagina 691 wordt linksboven de frequentieverdeling van bsi-totaalscores weergegeven van een omvangrijke dataset (9895 patiënten van ggz Rivierduinen met een stemmings-, angst of somatoforme stoornis, gemeten voorafgaande aan hun behandeling). De gemiddelde totaalscore is Mbsi-tot =1,18, sd= 0,73. Er is een normaalverdeling over de frequentieverdeling geprojecteerd. Duidelijk is dat de verdeling van de ruwe bsi-scores niet voldoet aan het klokvormige beeld van de normaalverdeling. De theoretische range van de scores loopt van 0,00 tot 4,00. Het rekenkundige midden van de schaal ligt bij 2,00, maar slechts weinig patiënten scoren boven 2,00. De verdeling is niet symmetrisch, maar ‘scheef naar rechts’. Dit betekent dat een verschuiving in ruwe score van 3,00 naar 2,00 geringer is dan een verschuiving van 1,50 naar 0,50 in termen van de relatieve positie in de populatie. Genormaliseerde T-score Bij een niet-normale verdeling van de oorspronkelijke ruwe scores geeft een lineaire omzetting naar T-scores ook niet-normaal verdeelde T-scores. De directe relatie met percentielscores gaat dan verloren. In dit geval moet een genormaliseerde T-score bepaald worden (Anastasi, 1976; Klugh 2006; McCall, 1922). Normaliseren is nodig om een standaardscore weer in het juiste perspectief te plaatsen (een T-score van 30 staat gelijk aan de laagste 2,3 % van de populatie) en is ook een voorwaarde voor eenvoudige rekenkundige bewerkingen van scores; om het effect van een behandeling te bepalen moet je een verschilscore tussen begin- en eindmeting kunnen berekenen. Zo’n rekenkundige bewerking vereist op zijn minst een intervalschaal, wat betekent dat een verschuiving van 60 naar 50 van dezelfde omvang is als een verschuiving van 50 naar 40. De aanpak om ruwe scores te normaliseren is al in 1922 door McCall voorgesteld en staat in de literatuur ook wel bekend als ‘area transformation’ (McCall, 1922, zie kader 2 voor een stap-voor-stap uiteenzetting van de procedure.) Op de website www.kznbenchmarking.nl is voor de meest voorkomende genormaliseerde T-scores de corresponderende ruwe score (of range van ruwe scores) op verschillende vragenlijsten weergegeven. In figuur 1 is de normaalverdeling weergegeven en daaronder de verhouding van T-scores met de schalen van de vier meest gebruikte uitkomst instrumenten, de oq-sd, de dass, de scl-90, en de bsi. Bij de totaalscores op de scl-90, bsi en dass is normalisering toegepast. In Tabel 2 worden de
689
de beurs
formules voor de omzetting van ruwe scores naar (genormaliseerde) T-scores gegeven. Voor de oq-sd is normaliseren niet nodig en volstaat een lineaire transformatie; het effect van normalisering bij de dass-scores is eigenlijk minimaal. De ruwe scores op dit instrument zijn ook nagenoeg normaal verdeeld. Bij de scl-90 en de bsi heeft normaliseren wel een duidelijk effect. Figuur 1
Normaalverdeling, T-score en (sub)schalen van de oq, dass, scl-90 en bsi
Tabel 2
Formules voor T-score-berekening voor vier meetinstrumenten
Schaal
omrekenfactor
Bron van data
bsi
2,06x3 - 11,66x2 + 31,24x + 27,89
N = 9895 van ggz Rivierduinen
scl-90
31,43 * Ln(x)- 114,08
N = 1250 van ggz Ingeest
oq-sd
0,63x + 19,69
N = 759 van ggz Rivierduinen
dass
-0,01x2 + 0,94x + 29,89
N = 1500 van Interapy
Kader 2 Van ruwe schaalscores naar genormaliseerde T-scores Het omzetten van ruwe schaalscores naar genormaliseerde T-scores bestaat uit de volgende stappen. Eerst worden alle percentielscores in de relevante populatie bepaald (percentile ranks). Dit betekent dat in de frequentieverdeling van scores gezocht wordt naar de grenswaarde waarboven 1% van de patiënten scoort, waarboven 2% scoort, enzovoorts. Elke percentielwaarde krijgt zo een bijbehorende ruwe score. De percentielscores hebben per definitie een vaste relatie met standaardscores volgens de standaardnormale verdeling (een percentielscore van 2,5 heeft een Z-waarde van 1,96; 5%=1,65; 10%=1,28; 50%=0,00 etc, zie Tabel 1). De percentielscores kunnen dus direct vertaald worden naar Z-scores. Deze Z-scores worden met 10 vermenigvuldigd en met 50 opgehoogd om uiteindelijk T-scores te krijgen. De wiskundige vergelijking voor de relatie tussen ruwe scores en genormaliseerde T-scores kan bepaald worden middels curve estimation, bijvoorbeeld met de regression module van spss. We zetten daarvoor de ruwe bsi-scores af tegen de genormaliseerde T-scores (Figuur 2, linksonder).
de genormaliseerde t-score
Figuur 2
Frequentieverdeling van totaalscores op de bsi voor normalisering en erna
691
Een optimale passendheid (fit) wordt bij de bsi bereikt met een derdemachtsvergelijking. Voor de bsi-totaalscore is deze vergelijking y= 2,06x3 - 11,66x2 + 31,24x + 27,89. Hierin is x de ruwe score en y de genormaliseerde T-score. Met deze vergelijking is voor elke mogelijke score op de bsi de corresponderende genormaliseerde T-score te bepalen. De resulterende T-score heeft weer een gemiddelde van 50, een standaarddeviatie van 10 en is normaal verdeeld (zie rechtsboven in Figuur 2). De schaal is pas na normalisering te beschouwen als een echte intervalschaal en er mogen nu rekenkundige bewerkingen op toegepast worden. Zoals uit de curve linksonder in Figuur 2 valt op te maken is er voor ruwe scores tussen 1,00 en 3,00 sprake van een bijna lineaire relatie met de T-score; voor scores onder de 1,00 en boven de 3,00 is de relatie duidelijk anders. De s-vormige relatie tussen ruwe scores en genormaliseerde T-scores komt vooral tot uiting in een oprekking van de schaal in het lage scorebereik en inkrimping rond het midden. Het instrument wordt met deze ingreep dus gevoeliger gemaakt voor het scorebereik waarin de meeste patiënten scoren.
Dat het ook echt ‘klopt’ met de T-score wordt beschreven in Kader 3. Hier wordt aan de hand van data van een groep patiënten die zowel de oq als de bsi hebben ingevuld, geïllustreerd dat genormaliseerde T-scores op beide instrumenten goed overeenkomen en dat de samenhang tussen uitkomsten door T-score conversie nog iets toeneemt.
de beurs
Kader 3 Overeenkomst tussen T-scores van de oq en de bsi Bij een groep van 759 patiënten van ggz Rivierduinen met angst-, stemmings- en somatoforme stoornissen werd voorafgaande aan de behandeling zowel de oq als de bsi afgenomen. De gemiddelde voormetingsscore op de oqsd-schaal bij deze groep patiënten is Moq-sd = 43,1 (sd=15,7); op de bsi-totaalscore is de gemiddelde score Mbsitot = 0,98 (sd=0,64). De correlatie tussen de ruwe scores is r = 0,81, p < 0,001, wat de convergente validiteit van de twee instrumenten onderstreept. Na conversie in genormaliseerde T-scores bedraagt de gemiddelde Toq-sd = 47,1 (sd=9,9) en de gemiddelde Tbsi-tot = 47,3 (sd=9,1). De twee T-scores komen dus goed overeen (getoetst met een t-toets voor gepaarde waarnemingen: t (758)= 1,17, p = 0,16). De correlatie tussen beide uitkomstmaten is na T-score conversie nog iets hoger: r = 0,83, p < 0,001. Dat laatste laat zich verklaren doordat de relatie tussen de ruwe scores van de oq-sd en de bsi niet lineair is (vanwege de niet-normale verdeling van de bsi-scores) en die tussen de genormaliseerde T-scores wel.
Verschilscores nodig Het effect van behandeling in de ggz wordt doorgaans uitgedrukt in het verschil tussen de testscore op een vragenlijst voorafgaande aan de behandeling, en de testscore bij afsluiting. Het gaat hier dus om verschilscores. Een verandering in ruwe score op de scl-90 van 180 naar 130 (een verschilscore van 50 punten, wat betekent: minder klachten en een gebruikelijk effect van behandeling) staat gelijk aan 0,8 standaarddeviatie verschuiving. In percentielscores staat deze verschuiving gelijk aan een verschuiving van 46% naar 14% ofwel van ‘gemiddelde score vergeleken met alle patiënten’ naar ‘laag vergeleken met alle patiënten’. De totaalscore op de bsi wordt met name in de lagere regionen van scores sensitiever voor verandering. Hetzelfde gaat op voor de scl-90. De omzetting in T-scores correspondeert met een pre- en postverschil in T-score van 49 naar 39, 10 punten oftewel 1,0 standaarddeviatie verschil. De effectgrootte groeit dus na T-score-omzetting van 0,8 naar 1,0. Deze toename in gevoeligheid van de behandelde patiënt voor verandering is een resultaat van oprekking van de schaal in het gebied waar de meeste respondenten scoren en maakt het meetinstrument dus geschikter om therapie-effect aan te tonen. In de inleiding werden ook beoordelingsschalen zoals de honos en de mansa genoemd. Voor dit artikel is deze groep instrumenten buiten beschouwing gebleven en niet als illustratiemateriaal gebruikt. De voorgestelde methode om te komen tot genormaliseerde T-scores en de voordelen van T-scores boven ruwe scores zijn echter net zo goed van toepassing bij beoordelingsschalen.
de genormaliseerde t-score
Praktijkvoordeel De ggz-praktijk zal baat hebben bij een eenduidige maat om testuitslagen over de ernst van de klachten van een patiënt in uit te drukken. Om uitkomsten op verschillende instrumenten onderling direct te kunnen vergelijken moeten er twee bewerkingen worden toegepast op de ruwe scores: standaardiseren en normaliseren. Standaardiseren zet ruwe scores om in standaardscores (Z-scores) met een gemiddelde van 0 en een standaarddeviatie van 1. Door normaliseren krijgen scheve frequentieverdelingen een normaalverdeling en wordt de meetschaal een ware intervalschaal. Dit is een vereiste voor eenvoudige rekenkundige bewerkingen zoals het verschil berekenen tussen een voor- en een nameting rond een behandeling. De genormaliseerde T-score is zowel gestandaardiseerd als genormaliseerd, wat betekent dat er bruikbare en begrijpelijke verschillen tussen voor- en nameting van de effecten van een behandeling mee zijn te verkrijgen. De T-score heeft een gemiddelde waarde van 50 en een standaarddeviatie van 10. 95% van de patiënten heeft een score tussen de 30 en de 70. Bijkomend voordeel is dat meetinstrumenten met een niet-normale frequentieverdeling gevoeliger worden voor het detecteren van verandering in ernst van de klachten. Breed gebruik van de voorgestelde ‘euro’ voor testuitslagen zal enige inspanning en gewenning vergen van het ggz-veld. Het grote voordeel is echter dat het de eenduidigheid bij het beoordelen van testuitslagen ten goede komt en er een handzame schaalvrije grootheid voor therapie-effect ontstaat. Voor het uitdrukken van intellectuele vaardigheden beschikken we al ruim een eeuw over standaardisering met de iq-score; een vergelijkbare standaardisering op het gebied van psychische klachten zal vooral voor de gebruikers van testuitslagen een welkome vooruitgang zijn. n
693
de beurs
1
Noten
Maandblad Geestelijke volksgezondheid, 61,
We zijn allemaal vertrouwd met een vergelijkba-
120-141.
re grootheid, de iq-score, die feitelijk een Z-score
e.a. (2005). De Outcome Questionnaire (oq-45): een
opgehoogd. De gemiddelde Nederlander heeft
meetinstrument voor meer dan alleen psychische
een iq van 100, 68% van de Nederlanders heeft
klachten. De Psycholoog, 40, 53-63.
een iq tussen 85 en 115. 2
Beurs, E. de, Hollander-Gijsman, M. den, Buwalda, V.,
is met 15 vermenigvuldigd en met 100 punten
Beurs, E. de, Smit, J.H., & Comijs, H. (2005). De Paniek
Als uitgangspunt voor standaardiseren is geko-
Opinie Lijst (pol). De betrouwbaarheid en validi-
zen voor het gemiddelde en standaarddeviatie
teit van een cognitieve maat voor paniekstoornis.
van een klinische populatie. Dat is in zekere
Gedragstherapie, 38, 141-155.
zin arbitrair: men zou ook kunnen kiezen voor
Beurs, E. de, Van Dyck, R., Marquenie, L.A., e.a. (2001).
het gemiddelde en standaarddeviatie van een
De dass: een vragenlijst voor het meten van
‘normale populatie’, bijvoorbeeld een steekproef
depressie, angst en stress. Gedragstherapie, 34,
uit de bevolking. De reden en rechtvaardiging
35-53.
om toch te kiezen voor de klinische populatie is
Beurs, E. de, Zweden, S. van, & Hamming, C. (2010).
dat meetinstrumenten zoals de scl-90 en de oq
De bruikbaarheid van de dass voor evaluatie
vooral bedoeld zijn om de ernst van klinische
van de behandeling van arbeidsgerelateerde
fenomenen in kaart te brengen. Deze instrumen-
psychische klachten. Tijdschrift voor Bedrijfs- en
ten dienen dan ook gecalibreerd te zijn op de klinische populatie en daaruit vloeit logisch voort
Verzekeringsgeneeskunde, 18, 103-109. Bouman, T.K., Luteijn, F., Albersnagel, F.A. & van der
de klinische populatie een gemiddelde Z-score
Ploeg, F.A.E. (1985). Enige ervaringen met de Beck
van 0 toe te wijzen. Gezonde respondenten zullen
Depression Inventory (bdi). Gedrag, 13, 3-24.
dus doorgaans lager scoren (een hele tot anderhalve standaarddeviatie lager).
Brom, D., & Kleber, R.J. (1985). De Schok Verwerkings Lijst. Nederlands Tijdschrift voor de Psychologie, 40, 164-168. Dam-Baggen, R. van, & Kraaimaat, F.W. (2003).
Literatuur Anastasi, A. (1976). Psychological Testing. New York: MacMillan. Arrindell, W.A., & Ettema, J.H.M. (1986). scl-90. Handleiding bij een multidimensionele psychopathologie-indicator. Lisse: Swets & Zeitlinger. Barkham, M., Gilbert, N., Connell, J., e.a. (2005). Suitability and utility of the core-om and core-a for assessing severity of presenting problems in psychological therapy services based in primary
Inventory of Interpersonal Situations (iss). In J. Hoyer & J. Margraf (Eds.), Angstdiagnostik, pp.267271. Berlin: Springer Verlag. Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons. Jong, K.de, Nugter, M.A., Polak, M., e.a. (2008). De Nederlandse versie van de Outcome Questionnaire (oq-45): Een crossculturele validatie. Psychologie & Gezondheid, 36, 35-45. Kampen, D. van & de Beurs, E. (2010). dapp-bq dimen-
and secondary care settings. British Journal of
sionale assessment van persoonlijkheidspatho-
Psychiatry, 186, 239-246.
logie, inclusief Nederlandse screeningsversie.
Beurs, E. de, & Zitman, F.G. (2006). De Brief Symptom Inventory (bsi): De betrouwbaarheid en validiteit van een handzaam alternatief voor de scl-90.
Amsterdam: Hogrefe. Klugh, H.E. (2006). Normalized T Scores. In S. Kotz, C.B. Read, N. Balakrishnan, & B. Vidakovic (Eds.),
de genormaliseerde t-score
Encyclopedia of Statistical Sciences, 2nd edition.
van behandelingen niet vergelijkbaar zijn. Om de
New York: John Wiley & Sons.
communicatie te vergemakkelijken stelt de auteur
Lange, A., & Appeloo, M. (2007). Korte klachten lijst (kkl) handleiding. Houten: Bohn Stafleu Van Lochum. McCall, W.A. (1922). How to measure in education. New York: Macmillan. Mulder, C.L., Gaag, M. van der, Bruggeman, R., e.a.
een conversie van scores voor die is gebaseerd op standaardscores: genormaliseerde T-scores. Dit slaat twee vliegen in een klap: uitkomsten worden direct vergelijkbaar en de omzetting zorgt voor een score met een normale verdeling. Zo ontstaat een inter-
(2010). Routine ontkomen monitoring voor
valschaal waarmee het verschil tussen een testscore
patiënten met ernstige psychiatrische aandoe-
voor en na de behandeling eenduidig is te interpre-
ningen; een consensusdocument. Tijdschrift voor
teren. De implicaties van deze standaardisering zijn
Psychiatrie, 52, 169-179.
vooral van belang voor de praktijk van alledag en voor
Nolen, W.A., & Dingemans, P.M.A.J. (2004).
alle behandelaars die gebruikmaken van meetinstru-
Meetinstrumenten bij stemmingsstoornissen.
menten. De T-scoreconversie wordt gedemonstreerd
Tijdschrift voor Psychiatrie, 10, 681-686.
bij de scl-90, de bsi, de oq-45 en de dass (zie figuur 1).
Oppen, P. van (1992). Obsessions and compulsions:
Op de sites (www.trimbos.nl/mgv) en www.kznbench-
dimensional structure, reliability, convergent
marking.nl wordt een tabel geboden waarin voor elke
and divergent validity of the Padua Inventory.
ruwe score op deze instrumenten de bijbehorende
Behaviour Research and Therapy, 30, 631-637.
T-score kan worden opgezocht.
Spinhoven, Ph., Ormel, J., Vloekers, P.P.A., e.a. (1997). A validation study of the Hospital Anxiety and
Personalia
Depression Scale (hads) in different groups of
Dr E. de Beurs (1959) was belast met opzet en uitvoe-
Dutch subjects. Psychological Medicine, 27, 363-
ring van Routine Outcome Monitoring op het lumc en
370.
bij Rivierduinen. Hij werkt nu als inhoudelijk directeur
Strien, T. van (2002). edi-ii Eating Disorder Inventory - ii (edi-iiI-nl Nederlandse versie) Lisse: Swets Test
bij Kenniscentrum Zorg Nederland (kzn) te Bilthoven.
[email protected]
Publishers. Terluin, B. (1996). De Vierdimensionale Klachtenlijst (4dkl). Huisarts en Wetenschap, 39, 538-547. Verheul, R., Andrea, H., Berghout, C., e.a. (2008).
Reageer op dit artikel via
Severity indices of personality problems (sipp118): Development, factor structure, reliability and validity. Psychological Assessment, 20, 23-34
Samenvatting E. de Beurs ‘De genormaliseerde T-score. Een ‘euro’ voor testuitslagen’
Het documenteren van effect van behande-
ling in de ggz neemt toe. Er worden verschillende meetinstrumenten gebruikt die elk uitgaan van een eigen schaal, waardoor testresultaten en uitkomsten
www.trimbos.nl/mgv
695