Constructie van tests en vragenlijsten. Kernbegrippen, voetangels en klemmen, en mogelijkheden voor beter meten

1

Constructie van tests en vragenlijsten Kernbegrippen, voetangels en klemmen, en mogelijkheden voor beter meten

Klaas Sijtsma Universiteit van Tilburg

Lezing in het kader van de Sociaal Wetenschappelijk Sectie van de VVS Utrecht, 6 november 2009

2

Ik ga in op • kernbegrippen voor constructie tests & vragenlijsten voor de meting van attributen in diverse wetenschapsgebieden • methodologie van het opzetten van een goede test & vragenlijst • misverstanden over testtheorie en nieuwe mogelijkheden voor test- en vragenlijstconstructie • onderschatte rol van goede inhoudelijke theorieën voor succesvolle test- en vragenlijstconstructie, en de dubieuze validiteit die volgt bij onderschatting hiervan

3

Tests en vragenlijsten zijn instrumenten voor de meting van psychologische attributen:

• kennis, vaardigheden (‘skills’); verkeersregels (k), autorijden (v), vaderlandse geschiedenis (k), geheugen (v) • cognitieve capaciteiten (‘abilities’); transitief redeneren, inductief redeneren, conservering, ruimtelijk inzicht • geschiktheden (‘aptitudes’); concentratievermogen, precisie, snelheid • persoonlijkheidstrekken (‘traits’); introversie, neuroticisme, depressiviteit, rigiditeit, angst • attituden, opinies; abortus (a), positieve discriminatie van vrouwen (a), milieubeleid lokale overheid (o), Balkenende weg, nieuwe verkiezingen (o)

4

Toepassingen Wetenschappelijk: vergelijking groepen, relaties variabelen Maatschappelijk: diagnose stoornissen, leer- en ontwikkelingsproblemen, schoolvorderingen (CITO), selectie (‘jobs’) en plaatsing (o’wijs) Dus, relevant onderscheid: Groepskenmerken versus Individuele scores Heeft grote gevolgen voor constructie test- of vragenlijst

5

Hoe maak je een meetinstrument?

• Definieer attribuut (= hypothetisch construct), bij voorkeur gebaseerd op inhoudelijke theorie Voorbeeld o Bestudeer theorie / theorieën over intelligentie, tevredenheid, neuroticisme, mening over abortus o Definieer het attribuut zo precies mogelijk

6

• Definieer operationalizering: meetvoorschrift, hoe moet ik in concrete stappen het attribuut meten? Van abstracte theorie naar observeerbaar gedrag Welk gedrag is typisch / karakteristiek voor het bedoelde attribuut? o Wanneer laten mensen intelligent, tevreden, neurotisch, enzovoort, gedrag zien? En in welke situaties gebeurt dat vooral? En in reactie op welke stimuli? o Definieer domein van gedrag typisch voor intelligentie, tevredenheid, neuroticisme, en sluit andere gedragingen uit

7

• Definieer itemdomein: o Dit zijn alle mogelijke items (= stimuli) die relevant zijn voor het oproepen van gedrag dat typisch / informatief is voor het attribuut o Attributen verschillen sterk wat betreft stimuli; vergelijk kennis, intelligentie met neuroticisme, mening over abortus; leiderschap, coöperatief gedrag o Itemdomeinen verschillen vooral mbt aantallen relevante items, waarbij het in herhaling vallen niet schadelijk is voor de meting

• Selecteer uit het itemdomein de beste deelverzameling van items: TEST, VRAGENLIJST

8

• Leg test / vragenlijst voor aan representatieve steekproef van respondenten • Analyseer data mbv van klassieke testtheorie & factoranalyse of PCA (meerderheid) of item-responstheorie; levert informatie over

o

betrouwbaarheid (nauwkeurigheid, herhaalbaarheid)

o

validiteit (betekenis, voorspelling)

o

normen (interpretatie)

• Construeer schaal en ken meetwaarden toe aan individuen; gebruik deze voor wetenschappelijke of maatschappelijke toepassingen

9

Zwakke theorie

Attribuut Theorie

Operationalizering

Attribuut Theorie

Sterke theorie

Data

Analyse

10

Onderwerpen • Validiteit: Wat meet de test? Meet de test het attribuut zoals bedoeld? • Betrouwbaarheid: Kan ik bij herhaling dezelfde testscore verwachten? • Standaardmeetfout: Wanneer zijn scoreverschillen significant? • Vragenlijstconstructie volgens PCA en IRT: Wat levert moderne testtheorie extra?

11

VALIDITEIT Meet de test of vragenlijst het bedoelde attribuut? Zwaar verwaarloosd onderwerp, maar veruit belangrijkste kenmerk van een test of vragenlijst Vaak neemt men genoegen met • Enkele correlaties met andere variabelen; covariaten, testscores, toevallig beschikbare variabelen • De ad hoc structuur van de items op basis van een PCA • De passing (‘fit’) van een confirmatorisch factormodel of een itemresponsmodel

12

Echter, het enige wat werkt, is dat de test of vragenlijst gebaseerd is op een goeddoordachte en onderzochte theorie van het attribuut Van slechts enkele attributen zijn goede theorieën beschikbaar, zodat de operationalizering hier een logische uitwerking van is Veel tests en vragenlijsten gebaseerd op gewoonte (hoe doen anderen dit?), traditie (hoe deed me dit vroeger?) en intuïtie (wat lijkt me plausibel?) Hieruit resulterende items worden voorgelegd aan steekproef, en data worden statistisch geanalyseerd Omdat data nooit ‘random’ zijn, komt er altijd iets uit een statistische analyse, maar bij ontbreken theorie ondersteunt dit niet de validiteit anders dan incidenteel

13

Dus, meting dient vooraf te worden gegaan door theorievorming en –toetsing Bijv. onderzoek Samantha Bouwmeester naar transitief redeneren Monnikkenwerk; vergelijk Felix Vening Meinesz (UU) Zonder theorie en daarop gebaseerde operationalizering levert data-analyse alleen beschrijving van de data, geen feedback over theorie die er immers niet is Aanhangen bepaalde school op gebied validiteitsonderzoek niet van belang; begin bij theorie

14

KLASSIEKE TESTTHEORIE Ontstaan begin 20e eeuw (Spearman, Binet) Basis idee:

X +ij = Ti + Eij Waarin: X +ij : Ti:

Observeerbare score persoon i testafname j True score, gedefinieerd als: 1 Ti = q

Eij :

q j =1

X +ij ; q onafhankelijke replicaties van test

Meetfout, gedefinieerd als:

Eij = X +ij − Ti

15

Propensity Distributions voor twee personen

propensity

0.20

0.15

Marijke

0.10

Kees

0.05

TKees TMarijke

0.00 0

5

10

15

20

25

30

True Score Testscore

16

BETROUWBAARHEID • Welk deel van variantie van testscore X+ in een groep is systematisch? ST2 S E2 rXX '= 2 = 1 − 2 S X+ S X+ • In hoeverre kan meting worden herhaald onder dezelfde omstandigheden? Dit is de pm-correlatie tussen parallelle testscores, X + en X +': r ( X + , X +')

Definities zijn wiskundig identiek:

r ( X + , X +')

S2 '

T ST2 = rXX '= 2 = 2 SX+ S ' X+

17

Praktijk: True scores onbekend, dus ook variantie ST2 , en ook beschikt men zelden over parallelle tests; dus betrouwbaarheid onbekend Meest populaire oplossing: Schat ondergrens rXX 'dmv Cronbach’s alfa coefficient:

k × alfa = k −1 Waarin: k

:

aantal items

g, h :

item indices

C gh :

covariantie item g en item h

g ≠ h C gh

S X2 +

18

Voor berekening alfa nodig: Variantie-covariantie matrix k = 4:

1

2

3

4

1

S12

C12

C13

C14

2

C21

S 22

C23

C24

3

C31

C32

S32

C34

4

C41

C42

C43

S 42

Merk op: • Hoofddiagonaal:

varianties van items

• Andere cellen:

covarianties tussen items

• Matrix symmetrisch in hoofddiagonaal

19

Regel: Variantie testscore X+ ( = S X2 + ) = som van termen in variantie-covariantie matrix Formule:

Als X + =

k g =1

X g , dan

S X2 + =

Opdracht: k = 4:

1

2

3

4

1

.25

.12

.16

.10

2

.12

.24

.08

.09

3

.16

.08

.25

.12

4

.10

.09

.12

.21

Wat is waarde alfa?

k

S g2 +

g =1

g ≠ h C gh

20

Opdracht: k = 4:

1

2

3

4

1

.25

.16

.00

.02

2

.16

.24

.01

.01

3

.00

.01

.25

.16

4

.02

.01

.16

.21

1

2

3

4

---Bereken alfa’s

1

.25

.06

.06

.06

---Verklaar resultaat

2

.06

.24

.06

.06

---waarvan alfa afhankelijk?

3

.06

.06

.25

.06

4

.06

.06

.06

.21

k = 4:

21

Wetenswaardigheden over alfa:

1.

Alfa wordt vaak aangeduid als coëfficiënt voor • interne consistentie • homogeniteit Suggereert dat hoge alfawaarde betekent dat items hetzelfde attribuut meten V:

Is dit correct?

A:

Nee; zie de voorbeelden; een alfa van .8 kan naar elke factoriële samenstelling verwijzen, en alfa’s van .3 of .56 kunnen dat ook

22

Algemene verklaring: Teller alfa bestaat uit som van k (k − 1) covarianties; De som is gelijk aan het aantal k (k − 1) maal de gemiddelde covariantie C ; Dus, k (k − 1)C Schrijf alfa als:

k k (k − 1)C k 2C alfa = × = 2 2 k −1 SX+ SX+ Dus, alfa hangt af van gemiddelde covariantie terwijl alle informatie over de factoriële samenstelling in de contrasten van de covarianties zit; ben je dus kwijt

23

2.

Alfa is ondergrens voor betrouwbaarheid (in populatie):

alfa ≤ rXX ' Is wiskundige stelling, zoals stelling van Pythagoras; is dus altijd waar Consequentie: Alfa is vertekende schatter van rXX'; Wel nuttig omdat conservatief Praktijk: Grote steekproeven:

alfa < rXX '

Kleine steekproeven:

?

24

3.

Iedereen kent alfa, maar er zijn grotere ondergrenzen, zoals Guttmans lambda2 (lijkt op alfa, maar gebruikt meer informatie uit variantie-covariantiematrix) Probleem van het vinden van de grootste ondergrens (‘GLB’) opgelost Bewezen kan worden dat

alfa ≤ lambda2 ≤ GLB ≤ rXX '

Dus, lambda2 en GLB dichter bij doel; waarom dan alfa gebruikt? Alfa en lambda2 beide in SPSS; GLB in andere software (EQS, CITO)

25

Voorbeeld: • 8 rating scale items, gescoord 0, 1, 2, 3, meten ‘coping’ (aanpassen aan situatie) • steekproefgrootte N = 828 • factoranalyse suggereert 2 deeltests van elk 4 items # items 8

4 (set 1)

4 (set 2)

alfa

.778

.736

.640

lambda2

.785

.746

.644

GLB

.852

.820

.696

• verschillen alfa en lambda2 klein • GLB veel groter; moeite waard om GLB te schatten (grote N, kleine k)

26

Conclusies • Alfa is geen maat voor interne consistentie, ondanks hardnekkige behandeling als zodanig is de literatuur • Interne consistentie (‘items meten hetzelfde attribuut’) onderzoeken mbv factoranalyse en item-responstheorie • Alfa is bijna de kleinste bekende ondergrens voor de betrouwbaarheid (Guttman’s lambda1 is nog kleiner) • Voor grote steekproeven (N > 1,000) en korte tests ( k ≤ 10 ), schat de GLB • Voor andere data, schat Guttman’s lambda2 • Om strategische redenen rapporteer zowel alfa als een grotere ondergrens (Guttman’s lambda2 of de GLB)

27

STANDAARDMEETFOUT en KORTE TESTS & VRAGENLIJSTEN

Wat wil het nu eigenlijk zeggen dat rXX '= .6, .7, .8, .9, .95 ? Je leest vaak: alfa = .82, dus de test is voldoende betrouwbaar! Waarvoor? Hierover lees je weinig tot niets, en gerapporteerde normtabellen (verdelingen van testscores) worden niet vaak gerelateerd aan de vraag of scores wel significant verschillen (van een aftestgrens of van elkaar)

28

Niet betrouwbaarheid is belangrijk maar standaardmeetfout:

S E = S X + 1 − rXX ' Hoort bij schatting true score Tˆi = X +i (kan allemaal veel mooier, doen we hier niet terwille van de eenvoud) Nemen aan dat standaarmeetfout voor iedereen gelijk is (in IRT verschillend) Gaan ons nu concentreren op korte tests en vragenlijsten

29

Bekend: Korte tests hebben lagere betrouwbaarheid dan lange tests Tendens: onder externe druk – concentratie problemen van jonge kinderen en patiënten, ongeduld klanten en managers – lijken tests steeds korter te worden: k < 10 Vraag: Kan een korte test die uit items van hoge kwaliteit bestaat, nauwkeurige metingen opleveren? Voorbeelden: • Medisch, gezondheidsonderzoek: k ≈ 10 • Organisatie, marktonderzoek: k ≈ 5 , soms k = 1 • Psychologisch onderzoek: RAKIT (k > 350), NEO ( k = 240 )

30

Relatie betrouwbaarheid en testlengte (= # items) Stel, alle items / testdelen zijn parallel, dan neemt bij verlenging test met factor K • De true-score variantie ST2 kwadratisch toe in K, dus met factor K 2 • De meetfoutvariantie S E2 lineair toe, dus met factor K Omdat

S X2 + = ST2 + S E2 ,

bestaat de testscorevariantie dus naar verhouding

steeds meer uit true-score variantie en steeds minder uit meetfoutvariantie Betrouwbaarheid neemt toe volgens Spearman-Brown formule (r = betr. item / testdeel):

rKK =

Kr 1 + ( K − 1)r

31

Probleem: Verkorten test leidt tot snellere afname true-score variantie dan meetfoutvariantie, resulterend in korte schaal waarop verschillen testscores vooral gevolg van meetfouten Gebruik standaardmeetfout om betrouwbaarheidsinterval voor T te schatten:

Tˆi ± z1/ 2α S E ;

dus voor 1 − α = .95 :

X +i − 1.96S E ; X +i + 1.96 S E

Bij lange tests (lange schalen) bestrijkt dit interval een relatief klein deel van de schaal, bij korte tests is dat deel absoluut kleiner maar relatief groter Hoe zit dat precies?

32

Wiskundig onderzoek naar relatie testlengte, betrouwbaarheid, standaardmeetfout en schaallengte Data gesimuleerd mbv Rasch model voor dichotome items (bijv. 0 = fout, 1 = goed),

P( X g = 1 | θ ) =

Waarin: θ :

exp[a (θ − δ g )] 1 + exp[a (θ − δ g )]

Latente variabele, ipv true score

δ g : Moeilijkheid van item g op schaal van latente variabele (geen P-waarde) a:

Discriminatie van willekeurig item; representeert kwaliteit = mate waarin item personen met lage en hoge kansen betrouwbaar onderscheid

33

Design met: • 20 datamatrices voor elk 500 respondenten • Latente variabele standaardnormaal: θ ~ N (0, 1) • Alle combinaties van 5 testlengten en 4 itemdiscriminatieniveaus:

o k = 6, 8, 10, 12, 20 o a = 1, 2, 3, 4 Realistisch 1:

bescheiden

2:

goed

Onrealistisch 3:

erg hoog

4:

extreem hoog

• Itemmoeilijkheden uniform verdeeld tussen –1 en 1

34

Lambda2, Standaardmeetfout, Half Betr. Int. True Score, en Half Betr. Int. Verschil Twee True Scores. Realistisch Yes

k 6

No Yes

8

No Yes

10

No Yes

12

No Yes No

20

a 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Lambda2 .5515 .7378 .8085 .8486 .6006 .8103 .8656 .8785 .6565 .8331 .8848 .9119 .7091 .8686 .9101 .9301 .7990 .9168 .9431 .9566

SE

1.96S E

1.96 2 S E

1.0711 .9212 .8360 .7699 1.2381 1.0699 .9533 .9054 1.3964 1.2072 1.0753 1.0034 1.5213 1.2968 1.1667 1.0838 1.9816 1.6747 1.5109 1.3966

2.0994 1.8055 1.6386 1.5090 2.4267 2.0970 1.8685 1.7824 2.7369 2.3661 2.1076 1.9667 2.9817 2.5417 2.2867 2.1242 3.8839 3.2824 2.9614 2.7373

2.9689 2.5534 2.3173 2.1341 3.4318 2.9656 2.6424 2.5096 3.8706 3.3462 2.9806 2.7813 4.2168 3.5945 3.2339 3.0041 5.4927 4.6420 4.1880 3.8712

35

Wat valt op? • Voor constante k en toenemende a, neemt - Betrouwbaarheid toe, en - Standaardmeetfout af • Voor k = 6 en a = 1 (bescheiden) laat zien dat 95% betr. int. gelijk is aan

Ti ± 2.10 , dus voor X +i = 4 hebben we (1.90; 6.10) (maximum = 6) Stel, aftestscore X c = 2, 3, 4, 5, 6, dan geen significant verschil Alleen X c = 0, 1 laat significant verschil toe • Voor grotere a-waarden wordt situatie gunstiger, maar niet heel veel

36

• Voor grotere k-waarden (bijv. k = 20) nemen tov k =6

o de betrouwbaarheid toe o maar ook de standaarmeetfout en de betrouwbaarheidsintervallen Echter, de lengte van de intervallen tov van de schaallengte (20 eenheden) is kleiner dan bij k = 6: 7.8 = .39 (k = 20) versus 20

4.2 = .70 (k = 6) 6

Bedenk verder dat personen op een lange schaal verder van de aftestgrens komen te liggen (of van elkaar), en dat gaat sneller dan de groei van de intervallen Hier zit de winst

37

PRINCIPALE COMPONENTENANALYSE of ITEM-RESPONSTHEOIE?

PCA gebruikt wanneer weinig bekend over dimensionaliteit van data • PCA vat zoveel mogelijk variantie uit de itemscores samen in een zo klein mogelijk aantal principale componenten (maximaal k). • Scree plot of eigenwaarde-groter-dan-1 criterium om de beste M samenvatters te selecteren • Loodrechte of scheve rotatie M principale componenten om betere interpretatie te verkrijgen Typische methode om data te beschrijven / samen te vatten, wordt gebruikt bij gebrek aan goede theorie over attribuut; weinig vooronderstellingen

38

IRT als alternatief voor klassieke testtheorie • Klassieke testtheorie leidt tot tellingen van punten behaald op items, strikt genomen geen meting; betrouwbaarheid refereert aan herhaalbaarheid telling • IRT bestaat uit modellen gedefineerd op basis van vooronderstellingen, die

o Meeteigenschapen beschrijven (bijv., aantal dimensies in de data, relatie items en wiskundige representatie eigenschap);

o Mogelijkheid bieden om in de data na te gaan of die vooronderstellingen opgaan voor de test en de populatie in kwestie; en

o Bij passing model op data schaaleigenschappen impliceren, zoals ordening personen en / of items IRT kan exploratief en toetsend worden gebruikt (maar PCA eigenlijk ook)

39

Mokkenschaalanalyse (MSA) gebaseerd op model van monotone homogeniteit (MHM); impliceert ordinale meting van personen • Test / vragenlijst meet één eigenschap itt een complexe mengsel van invloeden op itemscores die leiden tot slecht interpreteerbare testscore →

Eendimensionaliteit, gerepresenteerd door latente variabele θ • Hoger niveau van de eigenschap θ verhoogt kans op hogere itemscores →

Monotonie, gerepresenteerd door stijgende kans P( X g ≥ x | θ ) • Respondenten benaderen ieder item alsof het geheel op zich staat, dus onafhankelijk van eerder gegeven antwoorden (bijv. sociale wenselijkheid) →

Lokale onafhankelijkheid, antwoordkansen alleen afhankelijkheid van niveau respondent i op θ , zodat P( X g ≥ x | θ i , yi ) = P( X g ≥ x | θ i )

40

Cumulative Response Probability

1.0 0.8 0.6 0.4 0.2 0.0 -2

-1

0 Latent Trait

1

2

0.10

X=4

0.00 0

1 - 2

3 - 4

5 - 6

7 - 8

Restscore Groups

9 - 11 12 - 16 17 - 35

0.20 X=4

0.10 0.00 9 11 10 13 12 15 14 17 16 19 18 22 21 -3 5

0.20

X=3

0.30

8

0.30

0.40

7

X=3

0.50

6

0.40

X=2

0.60

5

0.50

0.70

4

X=2

0.60

X=1

0.80

3

0.70

0.90

2

0.80

1.00

1

X=1

0

0.90

Proportion Positive Responses per Item Step

Proportion Positive Responses per Item Step

1.00

Restscore Groups

41

Vooronderstellingen lijken plausibel, maar • Data kunnen multidimensioneel zijn indien er diverse invloeden werkzaam zijn op de itemscores • Relaties kunnen non-monotoon zijn, zeker in geval van multidimensionaliteit, en • Respondenten kunnen zich laten leiden door vele andere eigenschappen en omstandigheden, zodat lokale afhankelijkheid geldt Ook hiervoor weer IRT modellen beschikbaar, maar duidelijk is dat • Het geen modellen zijn van de werkelijkheid • Maar gereedschappen uit een gereedschapskist waarmee je data spaarzaam kunt beschrijven (zoals elke statistische methode) • Terwijl de echte modellen van de werkelijkheid de inhoudelijke theoriën van de attributen zijn; overeenkomst met structuur IRT niet dwingend

42

Verschillen PCA en IRT: • Beide geschikt om dimensionaliteit data te onderzoeken, alleen IRT gebaseerd op meetmodel • PCA pure rekentechniek waar altijd hetzelfde uitkomt (k hoofdcomponenten); het “model” kan niet worden verworpen; IRT modellen wel, helpt de wetenschap duidelijker vooruit

43

Voorbeeld: Self-Concealment Scale (SCS; geheimhoudingsschaal; k = 10, 5-punt rating scales, N = 1503 uit Nederlandse bevolking) Weinig tot geen theorie over geheimhouding als persoonlijkheidstrek 1. I have an important secret that I haven’t shared with anyone. 2. If I shared all my secrets with my friends, they’d like me less. 3. There are lots of things about me that I keep to myself. 4. Some of my secrets have really tormented me. 5. When something bad happens to me, I tend to keep it to myself. 6. I’m often afraid I’ll reveal something I don’t want to. 7. Telling a secret often backfires and I wish I hadn’t told it. 8. I have a secret that is so private I would lie if anybody asked me about it. 9. My secrets are too embarrassing to share with others. 10. I have negative thoughts about myself that I never share with anyone.

44

Vragenlijst laat zien dat items gebaseerd zijn op common sense Strijd in literatuur over aantal factoren in SCS-data, maar weinig besef dat • Dit afhangt van de gekozen items en niet van een theorie, die er immers niet is • En van de groep waarin je de data verzamelt Natuurlijk kun je uit de data wel iets leren over geheimhouding, maar uitgangspunt is gammel, dus leerproces uiterst moeizaam Men klampt zich vast aan statistiek en data-analyse Dus, meer aandacht voor theorievorming en onderzoek gewenst (is nu ook gaande)

45

PCA + scheve rotatie (oblimin; r = .54): corrected Item no.

F1

F2

item-total correlations

8 (secret so private I´d lie when asked)

.64

.93

-.15

9 (secrets too embarrassing to share)

.70

.88

-.04

1 (important secret not shared with anyone)

.62

.76

.01

4 (secrets tormented me)

.62

.65

.13

2 (friends like me less)

.59

.52

.25

7 (telling secret backfires, regret)

.52

.46

.23

5 (tend to keep bad things for myself)

.45

-.15

.84

6 (afraid to reveal without wanting)

.55

.09

.69

10 (negative thoughts about myself not shared)

.52

.10

.65

3 (many things about me I keep to myself)

.63

.26

.58

46

MSA, automatische itemselectie met verschillende ondergrenzen (c-waarden) voor kwaliteit schalen: Geselecteerde Schalen (Itemnummers gegeven) voor c-waarden die in gelijke stappen toenemen, schaal H-waarden, en niet-schaalbare items c

Schaal 1

Schaal 2

Onschaalbaar

.00-.35

1-10 (.44)

.40

1-4,8,9 (.52)

6,7,10 (.44)

5

.45

1-4,8,9 (.52)

6,10 (.45)

5,7

.50

1,4,8,9 (.57)

3,5 (.52)

2,6,7,10

.55

1,8,9 (.62)

2-7,10

.60-.70

8,9 (.74)

1-7,10

47

Conclusies: • PCA: 1-factor oplossing (hoge item-restcorrelaties, correlatie scheve factoren = .54) • MSA suggereert 1 matige tot sterke schaal (dus geschikt voor ordenen personen) • Verschillen PCA en MSA betreffen

o de selectie van items in de eendimensionele schaal; MSA levert hiervoor betere argumenten

o MSA: items hebben sterke monotone relatie met latente variabele; dus, testscore X + kan personen nauwkeurig ordenen op latente variabele θ , en SCS kan “low” en “high-concealers” goed onderscheiden • Auteurs SCS dachten dat ze drie factoren onderscheidden; lijkt onjuist • Echter, auteurs van dit onderzoek vinden dat 1 dimensie de theorie geen recht doet!?

48

TOT SLOT

Test- en vragenlijstconstructie is erg onderschat onderwerp; onderzoekers maken zich er niet druk om Goede metingen haal je niet bij de supermarkt en je plukt ze niet uit de boom

DANK VOOR UW AANDACHT

49

LITERATUUR Emons, W. H. M., Sijtsma, K., & Meijer, R. R. (2007). On the consistency of individual classification using short scales. Psychological Methods, 12, 105-120. Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach' s alpha. Psychometrika, 74, 107-120. Sijtsma, K. (2009). Correcting fallacies in validity, reliability, and classification. International Journal of Testing, 9, 167-194. Wismeijer, A. A. J., Sijtsma, K., Van Assen, M. A. L. M., & Vingerhoets, A. J. J. M. (2008). A comparative study of the dimensionality of the self-concealment scale using principal components analysis and Mokken scale analysis. Journal of Personality Assessment, 90, 323-334. Sijtsma, K. (2009). Over misverstanden rond Cronbachs alfa en de wenselijkheid van alternatieven. De Psycholoog, 44, 561-567. Sijtsma, K., & Emons, W. H. M. (2007). Korte tests: Kostbare tijdwinst en onbetrouwbare beslissingen. De Psycholoog, 42, 406-411.

Constructie van tests en vragenlijsten. Kernbegrippen, voetangels en klemmen, en mogelijkheden voor beter meten

Recommend Documents