Betrouwbaarheid, validiteit en overeenstemming
Inleiding Dit practicum sluit aan op het theoriegedeelte over betrouwbaarheidsanalyse van hoofdstuk II-16 (deel 2). In dit hoofdstuk wordt besproken hoe een betrouwbaarheidsanalyse uitgevoerd wordt met behulp van SPSS.
Algemeen Zoals uit de theorie bekend is, is het vaak nodig voorwerk te verrichten met betrekking tot de data, voordat op de eigenlijke betrouwbaarheidsanalyse kan worden overgegaan. Een probleem vormen vooral de missing values en de categorie "Niet van Toepassing" bij de items. Ook is alertheid geboden bij de scoring van de items; eventueel moeten hercoderingen worden uitgevoerd.
De categorie "niet van toepassing" De categorie "niet van toepassing" (NVT) moet op een zodanige wijze gescoord worden als conceptueel het meest aannemelijk lijkt. Vaak staat de optie NVT aan een van de uiteinden van een item, zodat die categorie een extreme score krijgt. Bij 5-keuze items (geheel mee eens (1), eens (2), geen mening (3), oneens (4), geheel oneens (5)) krijgt de optie NVT dan de score 0 of 6. Als de scores vervolgens geanalyseerd worden, wordt NVT beschouwd als een extreem geval. Dat is natuurlijk niet juist. In werkelijkheid lijkt NVT soms meer op "nee" of vaker nog op een missing value. De waarde voor NVT moet dus niet als een valide waarde worden beschouwd in de analyse.
Missing values Items met veel missing values moeten misschien niet in de analyse meegenomen worden. Als een item vaak niet beantwoord wordt zou het kunnen betekenen dat het ambigu is. De meeste analyses passen een listwise deletion toe op de data. Dat wil zeggen dat alle personen met één of meer missing values op de bij de analyse betrokken variabelen, van de analyse worden uitgesloten. Als er veel variabelen zijn en de steekproef klein is zou dat kunnen betekenen dat er nauwelijks cases overblijven. Een oplossing is dat personen met veel missing values (bijv. meer dan 10% van de items uit de betreffende schaal) van de analyse worden uitgesloten. De overige missing values kunnen op twee manieren vervangen worden door de meest neutrale score. Vervang de missing values bij dichotome items die gescoord zijn met de waarden 0 of 1, door de waarde 0.5. Bij items die gescoord worden met 1 of 2 krijgen de missing values de waarde 1.5. Bij items op een geordende Likert schaal geldt de middelste score. Dus bij een 5-punt schaal, waar de scores lopen van 1 t/m 5 krijgen de missing values de waarde 3 en bij scoring 0 t/m 4 de waarde 2. Een alternatieve methode is om de missing values te vervangen door het gemiddelde van de andere items in die schaal voor die persoon. Nog een II16-1
methode is om de missing values te vervangen door het algemeen gemiddelde van alle personen op het desbetreffende item In de volgende paragraaf, voorbewerkingen op de data met SPSS, wordt uitgelegd hoe dit in zijn werk gaat.
Voorbewerkingen op de data met SPSS Voordat met de betrouwbaarheidsanalyse begonnen wordt: 1. wordt het aantal missing values per item vastgesteld. 2. wordt het aantal missing values per case geteld, over alle items van de betreffende schaal. 3. wordt het aantal personen vastgesteld met meer dan 10 % missing values. 4. worden de personen (en items) met meer dan 10 % missing values uitgesloten. 5. worden de resterende missing values gehercodeerd naar de meest neutrale waarde of het gemiddelde van of de schaal per persoon of het gemiddelde voor alle andere personen van het item. Hoe deze voorbewerkingen met SPSS moeten worden uitgevoerd, wordt aan de hand van een voorbeeld uitgelegd. Als voorbeeld wordt de in de theorie besproken itemset (= itemset 29 van de file SAMPLE81.SAV) van de schaal voor het meten van het belang dat mensen hechten aan hun gezondheid genomen.Voor een beschrijving van deze schaal verwijzen wij naar hoofdstuk II-16 van het statistiekboek.
1. Descriptives Met de procedure Descriptives (via Analyze → Descriptive Statistics) wordt per item het aantal valide waarden opgevraagd (SPSS geeft dit aan met Valid N). Als dit aantal van het totaal aantal cases afgetrokken wordt, volgt hieruit het aantal missing values van het desbetreffende item.
SPSS uitvoer Descriptives: Descriptive Statistics N item29a item29b item29c item29d item29e item29f item29g item29h item29i item29j Valid N (listwise)
199 199 199 199 199 199 199 199 199 199 199
Minimum 1 1 1 1 1 1 1 1 1 1
Maximum 3 3 3 3 3 3 3 3 3 3
Mean 1.82 2.20 1.90 2.59 2.15 2.61 2.55 1.92 2.24 2.24
Std. Deviation .454 .633 .595 .628 .589 .609 .591 .568 .579 .611
Na analyseren blijkt dat bij elk item één missing value voorkomt. Het aantal cases in de steekproef is 200. Het aantal valide waarden van elk item is gelijk aan 199. II16-2
Alternatief: Vraag middels Analyze → Descriptive Statistics→Frequencies per item een frequentietabel worden op, waarin ook het aantal valide en missing values vermeld worden (per item).
2. Count Met de menu-optie Transform → Count Values within Cases kan SPSS voor elke case, dus hier per persoon, tellen hoe vaak een bepaalde waarde voorkomt binnen een groep variabelen (er wordt dus binnen een case geteld over een aantal variabelen!). In het dialoogkader van de procedure Count wordt eerst de naam van de resultaatvariabele opgegeven in het kader onder Target variable, bijv. NMISS29. Eventueel kan ook nog een omschrijving van deze variabele in het kader onder Target Label worden opgegeven. Vervolgens worden onder Numeric Variables de variabelen geplaatst waarvan de waarden moeten worden geteld. In het voorbeeld zijn dit de variabelen ITEM29A t/m ITEM29J. De laatste stap is het opgeven van de waarde(n) die geteld moet(en) worden. Gebruik hiervoor de drukknop Define Values. Omdat de interesse uitgaat naar het aantal missing values klik je in dit dialoogvenster op System- or user missing en vervolgens klik je op Add. De opgegeven waarde(n), in dit geval Missing, wordt nu opgenomen in het kader Values to Count:
Na het uitvoeren van deze opdracht is de nieuwe variabele (NMISS29) in het II16-3
datavenster toegevoegd.
3. Frequencies Rest nu nog een frequentietabel op te vragen van de variabele NMISS29 met behulp van Analyze → Descriptive Statistics →Frequencies.
SPSS uitvoer Frequencies: Statistics nmiss N Valid Missing
200 0 nmiss
Valid
.00 10.00 Total
Frequency 199 1 200
Percent 99.5 .5 100.0
Valid Percent 99.5 .5 100.0
Cumulative Percent 99.5 100.0
De frequentietabel van de variabele NMISS29 (deze variabele is m.b.v. Count gemaakt) laat zien dat er 199 cases zijn met geen enkele ontbrekende waarde en dat er één case is die 10 missing values heeft.
4. Select Cases Betreft het aantal cases met meer dan 10 % missing values een klein gedeelte van de steekproef dan worden deze personen uitgesloten van de betrouwbaarheidsanalyse. Gebruik hiervoor de menu-optie Data → Select Cases. Klik in het dialoogkader Select cases op If Condition is Satisfied en vervolgens op If, waar de voorwaarde wordt opgegeven. Zijn er bijv. 10 items dan is het maximaal aantal toelaatbare missing values gelijk aan 1. De variabele die m.b.v. Count gemaakt is, heet NMISS29. De voorwaarde luidt dan: NMISS29 <= 1 (<= staat voor kleiner dan of gelijk aan). Voor die cases die na de selectie overblijven kunnen de missing values vervolgens vervangen worden door de meest neutrale score of door het algemeen gemiddelde. Overigens de niet geselecteerde cases blijven in het bestand en kunnen later weer gebruikt worden als in het dialoogvenster van Select if, de optie All Cases wordt aangeklikt.
5. Recode Tenslotte kan Transform → Recode gebruikt worden om de resterende missing values te vervangen door de meest neutrale waarde. In het voorbeeld is het maken van hercoderingen niet van toepassing, omdat de enige case met missing values er teveel heeft (meer dan 10%) om nog op te mogen vullen.
Vervangen van missing values door gemiddelde waarden Een alternatieve methode is om de resterende missing values te vervangen door het algemeen gemiddelde. Neem als voorbeeld itemset 29. Bereken het algemeen gemiddelde in SPSS met de menu-optie Transform → Compute. Geef in het dialoogvenster Compute in het kader onder Target Variable de naam van de nieuwe variabele, bijv. GEM. Geef in het kader onder Numeric expression de opdracht: MEAN(ITEM29A, ITEM29B, ITEM29C, ITEM29D, ITEM29E, ITEM29F, ITEM29G, ITEM29H, ITEM29I, ITEM29J). De II16-4
variabele GEM is het gemiddelde van de 10 items per case. Via de procedure Descriptives wordt het gemiddelde van de variabele GEM berekend over alle cases. Dit is het algemeen gemiddelde. Met de Recode opdracht kunnen de missing values vervangen worden door de waarde van dit algemeen gemiddelde. Alternatief: Het opvullen van de missing values met het steekproefgemiddelde kan ook als volgt: Transform→Replace Missing Values. Selecteer links de betreffende items (ITEM29A t/m ITEM 29J), kies onder Method Series mean:
Er worden nu automatisch 10 nieuwe variabelen aangemaakt (ITEM29_1 t/m ITEM29-10) waarin de missing values zijn vervangen door het algemeen gemiddelde.
De procedure Reliability De betrouwbaarheidsanalyse wordt uitgevoerd met de procedure Reliability. Deze procedure is te vinden onder de menu-optie Analyze → Scale → Reliability Analysis. In het dialoogvenster dat nu verschijnt worden de variabelen waarover de betrouwbaarheidsanalyse moet worden uitgevoerd geplaatst in het kader onder Items. In het voorbeeld zijn dit de variabelen ITEM29A t/m ITEM29J. In het kader naast Model wordt de gewenste betrouwbaarheidsmaat geselecteerd. SPSS hanteert standaard Alpha (Cronbach’s alpha) als betrouwbaarheidsmaat. Houd deze maat aan. Eventueel kun je achter Scale Label een naam invullen voor de betreffende schaal:
II16-5
Opmerking: De split-half reliability kan verkregen worden door Split-half te kiezen i.p.v. alpha, maar deze is ook te berekenen door de items in twee helften te splitsen, de correlatie tussen de twee somscores te berekenen en deze in te vullen in de Spearman-Brown formule met K=2. Het dialoogvenster kent slechts één drukknop, Statistics, die nader dient te worden toegelicht.
Statistics Het venster Statistics bestaat uit vier topics, nl. Descriptives for, Summaries, Inter Item en Anova Tables (deze laatste wordt niet besproken). Descriptives for kent de volgende opties: - Item : geeft gemiddelden, standaarddeviatie en aantal cases per item. - Scale : geeft gemiddelden, variantie, standaarddeviatie en aantal cases van de somscore. - Scale if item deleted: geeft informatie over de bijdrage van elk specifiek item aan de interne consistentie. Bij de bespreking van de uitvoer wordt hier verder op ingegaan. Het topic Summaries levert diverse kengetallen op voor de somscore, voor de inter item covarianties en de inter item correlaties. Summaries kent de keuzes Means, Variances, Covariances en Correlations. Met het topic Inter-Item wordt een correlatie- en/of een covariantiematrix opgevraagd (Correlations en Covariances). Samenvattend: Als een betrouwbaarheidsanalyse wordt uitgevoerd valt het aan te raden onder de drukknop Statistics van het dialoogvenster Reliability analysis de volgende opties te selecteren: alle opties onder Descriptives for en onder Summaries de opties Means, Variances en Correlations. N.b. bij het uitvoeren van een Reliability analyse wordt een listwise deletion toegepast. Heeft een case een missing value op een item dat in de analyse betrokken is, dan wordt deze case van de analyse uitgesloten.
SPSS uitvoer Reliability analysis: Reliability Scale: item29 Case Processing Summary N Cases
Valid Excludeda Total
199 1 200
% 99.5 .5 100.0
a. Listwise deletion based on all variables in the procedure.
Er wordt 1 case van de 200 uitgesloten van de analyse (t.g.v listwise deletion). II16-6
Reliability Statistics
Cronbach's Alpha .761
Cronbach's Alpha Based on Standardized Items .765
N of Items 10
Onder Reliability Statistics wordt de betrouwheidsmaat gegeven. SPSS hanteert geeft standaard de Crohnbach’s alpha als betrouwbaarheidsmaat. De Crohnbach’s Alpha Based on Standardized Items is de Standardized alpha Item Statistics item29a item29b item29c item29d item29e item29f item29g item29h item29i item29j
Mean 1.82 2.20 1.90 2.59 2.15 2.61 2.55 1.92 2.24 2.24
Std. Deviation .454 .633 .595 .628 .589 .609 .591 .568 .579 .611
N 199 199 199 199 199 199 199 199 199 199
De Item Statistics bevatten het gemiddelde, standaarddeviatie en aantal cases van elk item. Het gemiddelde per item varieert van 1.8 tot 2.6. De verdelingen zijn wat heterogeen. Van parallelle items is dus geen sprake. Dit kan o.a. leiden tot enige onderschatting van α. Aan de standaarddeviaties kan men zien of er genoeg spreiding op elk item is. Summary Item Statistics
Item Means Item Variances Inter-Item Covariances
Mean 2.222 .345 .084
Minimum 1.824 .206 -.072
Maximum 2.608 .401 .210
Range .784 .195 .282
Maximum / Minimum 1.430 1.943 -2.929
Variance .084 .003 .003
De Summary Item Statistics tabel geeft een beschrijving van het gemiddelde (Item Means) en de variantie (Item Variances) van alle items van de schaal samen, en van de correlatiematrix (Inter-Item Correlations).
II16-7
N of Items 10 10 10
Item-Total Statistics
item29a item29b item29c item29d item29e item29f item29g item29h item29i item29j
Scale Mean if Item Deleted 20.40 20.03 20.32 19.63 20.08 19.61 19.67 20.30 19.98 19.98
Scale Variance if Item Deleted 9.604 8.833 9.048 10.568 8.818 9.006 9.425 8.866 8.646 8.409
Corrected Item-Total Correlation .412 .462 .439 .002 .516 .436 .330 .527 .584 .618
Squared Multiple Correlation .200 .265 .240 .134 .326 .248 .204 .303 .450 .495
Cronbach's Alpha if Item Deleted .745 .736 .740 .799 .729 .740 .754 .728 .719 .713
De Item-total Statistics geven informatie over de bijdrage van elk item aan de interne consistentie: •
Scale Mean if Item Deleted : Gemiddelde van de somscore na eliminatie van elk specifiek item.
•
Scale Variance if Item Deleted : Variantie van de somscore na eliminatie van elk specifiek item.
•
Corrected Item-Ttotal Correlation : De correlatie tussen elk item en de somscore op de overige items (itemrest correlatie). Deze correlatie geeft aan hoe goed dit item past bij de rest.
•
Squared Multiple Correlation : De gekwadrateerde correlatie van elk specifiek item en een gewogen som van de andere items. Dit is enigszins vergelijkbaar met het kwadraat van de Corrected item-total correlation. Deze laatste is de correlatie tussen het item en de ongewogen som van de rest van de items.
•
Crohnbach’s Alpha if Item Deleted: Cronbach's α die verkregen zou worden na eliminatie van dat item uit de schaal. Als deze α hoger is dan de feitelijke α kan het item beter uit de schaal verwijderd worden, want dan levert dit item een negatieve bijdrage aan de interne consistentie van de schaal. Is dit met meerdere items het geval dan kan besloten worden deze items te elimineren of de itemset op te splitsen in meerdere clusters op grond van hun inhoud en/of faktor analyse.
Op grond van de uitvoer kan besloten worden om ITEM29D te elimineren. Uit de Corrected Item-Total Correlation blijkt dat dit item nauwelijks correleert met de rest van de items. De correlatie van ITEM29D met de rest van de items is gelijk aan .002. In de kolom Crohnbach’s Alpha if Iitem Deleted wordt dit nog eens bevestigd. De Cronbach's α stijgt van .761 naar .799 na verwijdering van dit item. De overige items passen goed in de schaal. II16-8
Scale Statistics Mean 22.22
Variance 10.971
Std. Deviation 3.312
N of Items 10
In Scale Statistics staan het gemiddelde, de variantie en de standaarddeviatie van de somscore op de schaal. Als de schalen met Reliability analyse gecontroleerd en aangepast zijn kan de somscore van de items berekend worden, met behulp van de menu-optie Transform →Compute Variable. Geef in het dialoogvenster Compute Variable onder Target Variable de naam van de somvariabele op, bijv. SOM29. Selecteer onder Fuction group: Statistical en vervolgens onder Functions and Special Variables: SUM. Plaats deze in het kader onder Numeric Expression, gevolgd door de items waarover de somscore berekend moet worden. In het voorbeeld ITEM29A t/m ITEM29C, ITEM29E t/m ITEM29J:
Klik op OK en in het datavenster verschijnt een nieuwe variabele SOM29. Met deze nieuwe variabele die de somscore van de betreffende schaal (item29) vertegenwoordigt kunnen vervolgens analyses worden uitgevoerd.
Kappa Zoals besproken in het theorieboek deel 2, hoofdstuk II-16, is kappa de bekendste maat voor overeenstemming tussen kwalitatieve oordelen. Middels SPSS is het mogelijk deze kappa te berekenen. We gaan uit van het voorbeeld dat ook in het theorieboek wordt gebruikt: 2 psychiaters geven onafhankelijk van elkaar aan of elk van 100 patiënten toerekeningsvatbaar is. De resultaten zijn samengevat in de volgende kruistabel:
II16-9
Beoordelaar I
niet wel Totaal
Beoordelaar II Niet wel 40 20 10 30 50 50
Totaal 60 40 100
Voer de data in SPSS als volgt in (b1 = beoordelaar I, b2 = beoordelaar II, 1=wel toerekeningsvatbaar, 2=niet toerekeningsvatbaar ):
Weeg de data o.b.v de variabele AANTAL middels Data→ Weight Cases (zie hoofdstuk I-7 en II-13 van dit werkboek). Ter berekening van Kappa, kies Analyze → Descriptive Statistics→ Crosstabs. Selecteer in het Crosstabs venster beoordelaar I (b_1) als rijvariabele en beoordelaar II (b_2) als kolomvariabele. Klik vervolgens op de drukknop Statistics:
Selecteer Kappa en voer de procedure uit.
II16-10
SPSS uitvoer Kappa: b1 * b2 Crosstabulation Count b2 1 b1
1 2
Total
2 40 10 50
Total 20 30 50
60 40 100
Symmetric Measures
Measure of Agreement N of Valid Cases
Kappa
Value .400 100
Asymp. a Std. Error .090
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
De uitvoer laat zien dat Kappa .4 bedraagt. De nulhypothese dat er geen overeenstemming is (Kappa = .0) wordt verworpen (p waarde =.000).
II16-11
b
Approx. T 4.082
Approx. Sig. .000
Beknopte aanwijzingen met betrekking tot de oefeningen van hoofdstuk II-16 Lees dit hoofdstuk eerst goed door!! Voor de oefeningen zijn op J-directory de SPSS bestanden VOEG.SAV en AUTONOM.SAV beschikbaar.
Oefening 16.1 16.1.b: Voer de procedure Descriptives uit voor item VOEGA t/m VOEGU om het aantal ontbrekende waarden per item te bepalen.Tel vervolgens met Transform → Count Values within Cases het aantal ontbrekende waarden per persoon (noem de resultaatvariabele Nmiss). Vraag een frequentietabel op van Nmiss met de procedure Frequencies.
Oefening 16.2 16.2.a: Voer een RELIABILITY analyse uit. Selecteer via de drukknop Statistics Item onder Descriptives for en Correlations en Covariances onder Inter-Item. Bereken uit de verkregen output vervolgens het gemiddelde en de variantie van de somscore, en het gemiddelde (G) van de items (zie §16.2.4. van het statistiekboek). Een alternatieve manier is om via Analyze →Correlate →Bivariate itemgemiddelden, varianties en covarianties op te vragen .
16.2.b: Bereken de somscore SOM en het gemiddelde G via Compute Variable en vraag middels Descriptive het gemiddelde en de variantie van SOM en G op.
Oefening 16.3 Voer een RELIABLITY analyse uit en selecteer via de drukknop Statistics alle opties onder Descriptives for en Summaries.
Oefening 16.4 16.4.a: Bereken middels Compute Variable ODD (som van de ‘oneven’VOEG items) en EVEN (som van ‘even’ VOEG items). Bereken via Analyze →Correlate →Bivariate de correlatie tussen beide somscores (= betrouwbaarheid halve schaal). PAS OP: Uit 16.1.b is gebleken dat VOEGL, VOEGO en VOEGU elk 1 ontbrekende waarde bevatten. Bij het berekenen van de somscore van ODD en EVEN en dus ook bij het berekenen van de correlatie tussen beide somscores (in 16.4.c) worden deze ontbrekende waarden door SPSS opgevat als 0 (=wel). Beter is het echter om de personen met een ontbrekende waarde helemaal weg te laten uit de analyse of de ontbrekende waarden op te vullen met de neutrale waarde (hier 0.5). Pas 1 van beide methoden toe alvorens ODD en EVEN uit te rekenen.
II16-12
16.4.c: Maak een alternatieve scatterplot. Bereken met Compute Variable het gemiddelde van de ODD en EVEN (G_OE) somscore en het verschil tussen de ODD en EVEN somscore (V) . Maak een scatterplot (Graphs → Legacy Dialogs → Scatter/Dot → Simple) met op de horizontale as het G_OE en op de verticale as V.
Oefening 16.5 De tweeweg ANOVA kan worden opgevraagd bij de betrouwbaarheids analyse via de drukknop Statistics. Onder ANOVA Table, F-test te selecteren.
Oefening 16.7 Let op: VOEGU bevat 1 ontbrekende waarde welke door SPSS wordt opgevat als 0! Corrigeer zoals beschreven in 16.4.a.
Oefening 16.8 Bij Oefening 7: Let op ontbrekende waarden bij het berekenen van de somscores! Corrigeer zoals beschreven in 16.4.a.
II16-13