Academiejaar PSYCHOMETRIE LESSEN + NOTA S. 0. Psychometrie. Dr. Wilfried De Corte Door: Delfien Vansteelandt

Academiejaar 2013-2014

PSYCHOMETRIE

0. Psychometrie

LESSEN + NOTA’S

Dr. Wilfried De Corte | Door: Delfien Vansteelandt

0

Inhoudsopgave 0. PSYCHOMETRIE

1

Verantwoordelijk lesgevers

1

Leerstof

1

Vragen?

1

Situering

1

Overzicht van de lessen

2

Belang

2

Extra Meetniveau: categorische vs. continue variabelen Voorbeeld intervalniveau Voorbeeld van een construct: “Verhaaltje over stress”

2 2 3 3

1. FORMULERING KLASSIEKE TESTTHEORIE

5

Overzicht

5

Wat is een psychologische test? Verklarende noot Meetniveaus

5 5 5

Klassieke testtheorie als meetmodel

6

Formulering van de klassieke testtheorie Verklarende noot Kansveranderlijken Kansdichtheidsfuncties: f(u), g(v) Distributie- of verdelingsfunctie van een kansveranderlijke: F(X = t) = P(X ≤ t) Dichtheidsfunctie (densiteitsfunctie) f(v) (Cummulatieve) Distributiefunctie (verdelingsfunctie) F(v) Verwachting (gemiddelde) van de kansveranderlijke Variantie en covariantie van de kansveranderlijke Calculus kansveranderlijken Andere notatie voor verwachting, variantie en covariantie Extra Formulering KTT: 3 stappen 1. Formulering KTT voor 1 subject en 1 test 2. Formulering KTT voor een populatie van subjecten en 1 test 3. Formulering KTT voor een populatie van subjecten en voor meerdere tests Recapitulatie verder te gebruiken notatie

6 7 7 7 7 7 8 8 8 9 10 10 11 11 12 14 15

Betrouwbaarheid Definitie van de betrouwbaarheid van een test Noot: notatie populatie- en steekproefgrootheden Noot: onderscheid schatter – schatting Methoden om betrouwbaarheid te schatten Spearman-Brown formule Verklarende noot Coëfficiënt (= Chronbach’s alfa) Verklarende noot Toepassingen van betrouwbaarheid Bepaling standaardmeetfout Schatten ware score Verklarende noot: Regressiefunctie Bepaling standaardschattingsfout (precisie waarmee de ware score geschat wordt) Correctie voor attenuatie (correlatie ware scores test X met ware scores test Y) Precisie van verschilscores Enkele problemen i.v.m. de klassieke test / betrouwbaarheidstheorie

15 15 17 18 18 18 21 21 24 24 24 25 26 27 28 29 29

Validiteit Definitie en traditionele validiteitsstrategieën Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Validiteit van de meting in een beslissingscontext: criteriumvaliditeit

30 30 30 34

Itemanalyse Descriptieve analyse van de itemresponsen Distractoranalyse (mc-item) Itemmoeilijkheid: p-waarde Itemvariantie Samenhang item-testtotaalscore: itemdiscriminatie Studie van de relatie tussen de items onderling

35 35 35 36 36 36 38

Beschrijvend/descriptief gebruik van testscores Transformatie van ruwe testscores Lineaire transformaties Niet-lineaire transformaties Normering

39 39 39 40 42

2. GENERALISEERBAARHEIDSTHEORIE

45

Overzicht

45

Inleiding

45

Situering, basisconcepten en overzicht

45

(Statistisch) model van de generaliseerbaarheidstheorie Basismodel: gekruist opzet met 1 meetfacet Model voor gekruist opzet met 2 meetfacetten Model voor genest opzet met 1 meetfacet Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten

46 47 48 50 51

Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten

56 56

Decisiestudies (D-studies) Meetnauwkeurigheid Principes van de bepaling van de meetfoutvariantie Coëfficiënten van meetnauwkeurigheid Ontwerp D-studies met beoogde meetnauwkeurigheid

56 57 57 58 60

Extra

61

3. ITEMRESPONSTHEORIEËN

63

Overzicht

63

Inleiding

63

Situering, basisconcepten en aannamen Situering en basisconcepten Aannamen onderliggend aan IRT voor dichotome items

63 63 64

Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items Deterministische modellen Guttman model Stochastische modellen Normaalogiefmodel (Lord, 1953) Eén parameter logistisch model: Rasch model Basisformulering Multiplicatieve formulering Rasch Karakteristieken van item- en subjectparameters Specifieke objectiviteit: vergelijking tussen twee items Specifieke objectiviteit: enkel Rasch model Twee- en drie-parameter model

64 65 65 65 65 67 67 67 68 68 69 69

Schatting van de modelparameters: subjecten itemparameters Schatten van de subjectparameters Aannemelijkheid van een geheel van antwoordpatronen, Bij het Rasch model Eigenschappen van een maximale aannemelijkheidschatter

70 70 71 71 73

Testinformatie en testconstructie Informatiefunctie van een test Informatiefunctie van een item

73 73 74

Modeltoetsen Toets van Wright & Panachapakesan Toets van Andersen

74 74 75

Toepassingen Ontwerp mastery tests Informatiefunctie van een mastery test Mastery test: hoe?

75 76 76 76

Vertical equating Item bias Geautomatiseerd testen Voordelen Adaptief testen Fixed branching Model based branching Voordelen Vergelijking adaptieve test en conventionele test

4. SCHAALMETHODEN

78 78 79 79 79 80 80 81 82

83

Inleiding

83

Overzicht: welke schaaltechnieken/schaalcriteria?

83

Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927) Inleiding Overzicht Passende gegevens Gegevens: 1 individu Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-matrix van een groep (n = 200) Herordenen van de F-matrix Van frequenties (F-matrix) naar proporties (P-matrix) Van proporties (P-matrix) naar z-waarden (Z-matrix) Inleiding Wet van het vergelijkend oordeel (Law of comparative judgement, Thurstone) Van de P-matrix naar de Z-matrix Controle interne consistentie Stap 1: Z’-matrix Stap 2: P’-Matrix Stap 3: Vergelijking van de P- met de P’-matrix Betere toetsing Wat indien extreme proporties? Bepaling van de schaalwaarden van de items

83 83 84 84 84 85 85 85 85 86 86 86 89 90 90 90 90 91 91 92

Cumulatieve schalen (criterium) Dichotome items Bepaling van de toegestane antwoordpatronen Voorbeeld: 4 dichotome items Polychotome items Representatie van een item met 4 antwoordmogelijkheden Toegestane antwoordpatronen Toepassing als schaalcriterium Reproduceerbaarheidscoëfficiënt

92 93 93 94 94 94 95 96 96

Gelijkschijnende intervallen (Thurstone en Chave, 1929) Situering Gegevens Model

96 96 97 97

Berekening kwartielen Voorbeeld Problematische aspecten

98 98 98

Successieve intervallen volgens Edwards Gegevens Model Overzicht Schatting van de intervalbreedtes Gegevens (frequentie) Cumulatieve proportionele matrix (P-matrix) Z-matrix Middelste intervallen Extreme intervallen Schaalwaarde en ambiguïteitswaarde van de items Schaalwaarde intervalgrenzen Schaalwaarde kwartielen voor item 1 Problematische aspecten

99 99 99 99 100 100 100 100 100 101 102 102 102 103

Successieve intervallen volgens Thurstone

103

Summated ratings Likert Model Schaling antwoordcategorieën Gegevens Φ-coëfficiënt Voorbeeld

103 103 104 105 105 106

0. Psychometrie Verantwoordelijk lesgevers   

De Corte Wilfried Leonard Vanbrabant Sanne Roels

Leerstof Leerstof = alles wat in de les gezegd wordt (slides overgeslagen = niet kennen)

Vragen? Als je iets wil weten/hebben/kwijt wil over psychometrie: zie Minerva

Situering Wat? Formele (i.e., wiskundig-statistische) theorie omtrent het meten in de psychologie Omvat 2 grotere delen: 

Testleer of testtheorie: formele theorie omtrent het meten (= getalwaarde) in de psychologie gegeven de gescoorde item-, test- of vragenlijstresponsen (hieruit vertrekken we)  voornaamste onderdelen:

o o



Klassieke testtheorie  Jaren ’40-‘50  Hoe nauwkeurig meten we?  Toespitsen op meetnauwkeurigheid/precisie  Enkel toevallige meetfouten (betrouwbaarheid) Generaliseerbaarheidstheorie  Veralgemening KTT: nauwkeurigheid, maar ook systematisch Itemresponstheorieën  Van recentere datum  Respons en achterliggende oorzaak van de respons

Schaalmethoden: meten (schalen) van psychologische objecten (e.g., scoren van item-, test- of vragenlijstresponsen) o Data opwaarderen tot interval-ratio niveau o Toekennen van getalwaarden aan niveaus van respons (gegevens die meestal op nominaal of ordinaal niveau verzameld worden)

0. Psychometrie

o

1

Overzicht van de lessen         

Les 1: Les 2 & 3: Les 4: Les 5: Les 6 & 7: Les 8: Les 9: Les 10: Les 11 & 12:

Formulering klassieke testtheorie (KTT) Betrouwbaarheid Validiteit en Itemanalyse Descriptief gebruik testscores Generaliseerbaarheidstheorie Itemresponstheorieën 1 Itemresponstheorieën 2 Schaalmethoden 1 Schaalmethoden 2

psfkt05 psbet05 psval05 psdes05 psgen05 psir105 psir205 pssm105 pssm205

Belang Belang: Psychologie is goeddeels een geheel van “theorieën in wording”. Om deze theorieën op hun adequaatheid te onderzoeken dienen de erin figurerende constructen vertaald te worden tot meetbare variabelen  

Constructen komen in theorieën voor en staan centraal in de psychologie Meetbare variabelen zijn noodzakelijk om te kijken of theorieën weerlegbaar zijn of niet

 Meten is weten!

(= vraagstuk van operationalisatie)

Waarom: Het meten van voor de psychologie relevante kenmerken (e.g., intelligentie, persoonlijkheid, faalangst) stelt speciale problemen 

De relevante kenmerken zijn slechts indirect observeerbaar via gerelateerd gedrag o Bv.: Stress op het werk = niet direct observeerbaar (abstracte wereld) o Dat gerelateerd gedrag helpt zicht te krijgen op die constructen



De meetresultaten zijn alles behalve nauwkeurig; meetfout is aanzienlijk o Zie ‘extra’ o De manier van meten dat vervat zit in dat construct kan tegenvallen

Extra



Nominaal: categorie/groep (bv. geslacht)



Ordinaal: volgorde, geen meetschaal (bv. rangschikking wielerwedstrijd)



Interval: meeteenheid, geen vast nulpunt (bv. temperatuur)



Ratio: meeteenheid, vast nulpunt (bv. lengte), schaal nog te kiezen



Absoluut: vaste meeteenheid, vast nulpunt (bv. aantal)

0. Psychometrie

Meetniveau: categorische vs. continue variabelen

2



Nominaal + ordinaal = categorische/discrete variabelen



Interval + ratio + absoluut = continue/numerieke/metrische variabelen



Opmerking: Likert-schalen (ordinaal) worden vaak als continue variabelen beschouwd vanaf 5-puntschalen en als de scores min of meer ~ N(0,1)

Voorbeeld intervalniveau volstrekt equivalent  vrij te kiezen nulpunt en meeteenheid (enkel verhoudingen tussen getalsverschillen zijn vast)

Intervalniveau:

A B C

3 5 8

3x4 5x4 8x4

+5 +5 +5

= 17 = 25 = 37

eenheid nulpunt

Voorbeeld van een construct: “Verhaaltje over stress” Eisen op het werk

Copingstijl Belasting/spanning

Mate van autonomie

Stress Sociale stress

 ovaaltjes = constructen (hypothetisch begrip)

Moderatie: 

Sociale steun



Copingstijl  aard van relatie is anders bij verschillende copingstijlen

 Stress proberen te meten via gerelateerd gedrag MAAR: Theorieën gaan over constructen die niet direct geobserveerd kunnen worden  

Bv.: IQ, karaktereigenschappen, … Men moet ze gaan vertalen in meetbare constructen door metingen te ontwerpen o Bv. bij stress: operationalisatie via observatie en vragenlijsten

 Meetbare variabelen voor élk construct ontwerpen

!!!

PSYCHOMETRIE = OPERATIONALISEREN VAN CONSTRUCTEN

!!!

0. Psychometrie

Bv. de score op een vragenlijst toont aan wat de score is voor een bepaald construct

3

4

0. Psychometrie

1. Formulering Klassieke Testtheorie Document psfkt05

Overzicht       

Wat is een psychologische test? Klassieke testtheorie als meetmodel Formulering van de klassieke testtheorie Betrouwbaarheid: definitie, bepaling en toepassingen Validiteit Itemanalyse Beschrijvend gebruik van testscores

Wat is een psychologische test? 

Solliciteert een steekproef van gedragingen (testgedrag = antwoord)



Het testgedrag wordt onder gestandaardiseerde omstandigheden verkregen



Er zijn duidelijk gespecificeerde regels om het bekomen testgedrag te vertalen (schalen) tot testscores. Het niveau van schalen (meten) kan variëren (tussen verschillende testen). o Scoring is aan duidelijke specifieke regels gebonden o Schalen = meten = scoren o Meestal nominaal/ordinaal



Bv.: totaalscore bij MC o Gewogen score waarbij gewicht van de items op voorhand wordt vastgelegd o Validiteit komt ook aan bod bij KTT, maar niet als prioriteit

Verklarende noot

Laag

 





Nominaal, bv. beroep (= categorieën) Ordinaal, meeste metingen in de psychologie (verschillende varianten van het kenmerk labelen  gradatie binnen het niveau van een kenmerk + orde blijft behouden bij het toekennen van getallen, bv. hoog – laag) Interval o Geen vast nulpunt o Meeteenheid arbitrair o Bv. temperatuur o Bewerkingen: optellen, aftrekken Ratio, bv. lengte

1. Formulering Klassieke Testtheorie

MEETNIVEAUS

Hoog

5

 via model of theorie tot hoger meetniveau schaling kunnen komen

Klassieke testtheorie als meetmodel 

Klassiek meetmodel:

o o o o

KTT: men gaat een model opstellen met een achterliggend echt construct Item – respons theorie Latent kenmerk T = de ‘true score’ en aldus niet observeerbaar Ook de meetfout E is niet direct te observeren



De testscore X is meestal een



De klassieke testtheorie spitst zich toe op de testscore (somscore) en stelt geen model voorop omtrent de relatie tussen de respons op de individuele testitems en het beoogde latente kenmerk o De betekenis van het latente kenmerk heeft een andere invulling en heeft niets te maken met de in se beoogde meting o Bv. IQ als true score: intelligentie ≠ betekenis achterliggend construct



De klassieke testtheorie beoogt in eerste instantie het probleem van de meetnauwkeurigheid aan te pakken o = problemen met validiteit o Men gaat niet veel aandacht schenken aan de relatie tussen de testscore en het latente kenmerk, maar wel aan de relatie tussen de testscore en de meetfout

a priori gewogen somscore empirisch



De formulering van de KTT gebeurt m.b.v. kansveranderlijken (KV.): Symbool

Betekenis

Xj

Testscore subject j

Ej

Foutscore subject j

X

Testscore van een willekeurig (random) gekozen subject

E

Foutscore van het willekeurig (random) gekozen subject

* Subscript = individu Geen subscript = ad random gekozen subject van de populatie Grote letter: verschil tussen variabelen die wordt gepresenteerd door een kansveranderlijke Kleine letter: de waarde die daaraan gegeven wordt


Formulering van de klassieke testtheorie

6

Verklarende noot KANSVERANDERLIJKEN 

Discrete vs. continue kansveranderlijken o

Discrete kansveranderlijke U  Met elke mogelijke waarde u van U is een kans, P(U = u) = f(u), geassocieerd  eindig aantal mogelijke waarden  Voorbeeld: het aantal ogen van een dobbelsteen

o

Continue kansveranderlijke V  Met elke mogelijke waarde v van V is een kansdichtheid, g(v)dv, geassocieerd  oneindig aantal mogelijke waarden  Voorbeeld: lengte

KANSDICHTHEIDSFUNCTIES: f(u), g(v) Met

∑

,

respectievelijk

∫ DISTRIBUTIE- OF VERDELINGSFUNCTIE VAN EEN KANSVERANDERLIJKE: F(X = t) = P(X ≤ t) 

Discrete kansveranderlijke:

∑



Continue kansveranderlijke:

∫


DICHTHEIDSFUNCTIE (DENSITEITSFUNCTIE) f(v)

7

(CUMMULATIEVE) DISTRIBUTIEFUNCTIE (VERDELINGSFUNCTIE) F(v)

VERWACHTING (GEMIDDELDE) VAN DE KANSVERANDERLIJKE 

Verwachting van V: E(V) o

V discreet:

∑ 1) 2)

o

∑

Waarde van Vx zijn kans Som van al deze producten nemen

V continu:

∫ 1) 2)

Waarden van Vx zijn kansdichtheid Dichtheidsfunctie

VARIANTIE EN COVARIANTIE VAN DE KANSVERANDERLIJKE Variantie van V: Var(V): E [ ( V – E(V) ) ² ] o

Idee van heterogeniteit van een kansveranderlijke van de populatie

o V discreet: ∑

[(

) ]

o V continu: ∫ 

[(

) ]

Covariantie van V en W: Cov(V, W) = E [ ( V – E(V) ) ( W – E(W) ) ]




8

CALCULUS KANSVERANDERLIJKEN Regels i.v.m. verwachting E 

a: constante



E(a) = a



E(aX) = aE(X)



E(a + X) = a + E(X)



E(X + Y) = E(X) + E(Y)



Is



X, Y, Y1, …, Yk : kansveranderlijken

∑

∑

(∑

, dan is

)

∑

o

Bv.

o

De coëfficiënten zijn hier niet noodzakelijk 1 en mintekens kunnen voorkomen

X en Y onafhankelijk => E(XY) = E(X) E(Y) o

Enkel en alleen als X en Y onafhankelijk zijn

o

Covariantie = 0

Regels i.v.m. covariantie en variantie Cov(X, X) = Var(X)



Cov(X + Y, Y) = Cov(Y, Y) zo Cov(X, Y) = 0



Var(a ± X) = Var(X)



Var(aX) = a²Var(X)



Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)



∑

∑

//

Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y)

∑

( )

o

= subscript van de eerste samengestelde kansveranderlijke

o

= subscript van de tweede samengestelde kansveranderlijke

o

 o

Bewijs:

[ [

] (

)

]




9

ANDERE NOTATIE VOOR VERWACHTING, VARIANTIE EN COVARIANTIE

    Bijgevolg:

     EXTRA 

Wat is de covariantie van een kansveranderlijke Z die een som is van andere kansveranderlijken, met een kansveranderlijke Y die een som is van dezelfde kansveranderlijke?



Bv.

en o 

Z = algebraïsche som van



Y = de som van de zelfde oorspronkelijke kansveranderlijken maar met andere coëfficiënten

o



Covariantie (Z, Y) ? o

Beroep doen op een matrix: een geordende tabel met waarden  Variantie-covariantiematrix

en

,


en

10

o

We gaan deze matrix vermenigvuldigen met een vector (rij of kolom vector) 



De gewichten waarmee coëfficiënten

en

gecombineerd worden in Z zijn

Dus: (a, b) o = product van de elementen uit de rijvector met overeenstemmende elementen in de matrix

 1e kolom

[ ]

 2e kolom

 Nieuwe vector

Formulering KTT: 3 stappen ! Let op voor de notatie !  

= de verwachting van de kansveranderlijke (de verwachte waarde is een constante) = de meetfout

1. FORMULERING KTT VOOR 1 SUBJECT EN 1 TEST , met

als de ware testscore van subject j

gedefinieerd als met

( ): de verwachte waarde van

over (oneindig veel) replicaties

als de meetfout

! De true score

Gevolg 1:

heeft niets te maken met een latent construct  het is niets anders dan een wiskundig gedefinieerde entiteit (en is dus niet de verwachte waarde) !

( )



De over replicaties verwachte meetfout voor subject j = 0



KTT spitst zich bijgevolg toe op toevallige meetfouten (want: bij systematische meetfouten zou de verwachting niet 0 zijn)



Gevolg 2:

( )

(


en

,

)

11



De variantie van de testscore van subject j is gelijk aan de variantie van de meetfout

( )

Merk tevens op dat gevolg 1 impliceert dat:

(

)

[

( )]

Alternatieve notatie

( ) ( ) : de standaardmeetfout voor subject j ; ook nog de voorwaardelijke meetprecisie genoemd

2. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN 1 TEST , met en : de testscore, de ware score en de foutscore van een toevallig uit de populatie gekozen subject o

De kansveranderlijke X zonder subscript kan variëren over 2 dimensies: over replicaties en subjecten



De ware score varieert nu over de subjecten en daarom wordt ervoor de notatie voor een kansariabele (i.e., T) gebruikt



De definitie

( )

blijft behouden

(

Gevolg 1: 

( ))

De verwachte foutscore over replicaties en het geheel van subjecten is 0

( )

Gevolg 2: 

De variantie van de foutscore over subjecten en replicaties is gelijk aan het gemiddelde over personen van de individuele meetfoutvarianties



Betekent: de variantie van de kansveranderlijke over personen en replicaties



[ (

)

(

)

(

) ( )

]

[

( )]




12



Voeren we de alternatieve notatie

(

schrijven: o

voor

in, dan is gevolg 2 ook als volgt te

)

: de standaardmeetfout van de test

(= wortel van de variantie die kan variëren over

personen en replicaties)

Gevolg 3: 

De correlaties tussen de foutscores en de ware scores is gelijk aan nul



Merk op dat

en dat

de variantie is van de ware testscores binnen de

populatie van subjecten: 

= de true score die varieert over personen

Bemerk ook dat gevolg 3 bewezen is zo we kunnen aantonen dat

[(

)(

[(

)]

)

] (

( (

(

))

(

(

))

)

)

( )



De verwachte (of gemiddelde) testscore (over personen en replicaties) is gelijk aan de verwachte (of gemiddelde) ware score



In alternatieve notatie:

met

en


Gevolg 4:

13

Gevolg 5: 

De variantie van de testscores (over personen en replicaties) is gelijk aan de som van de variantie van de ware scores en de variantie van de foutscores (meetfouten)



In alternatieve notatie:

met

en

SAMENGEVAT:

(

1. (

2.

( ))

)

3. 4. 5. 3. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN VOOR MEERDERE TESTS Voor elk van de tests (aangeduid met subscripts g, h) wordt de hiervoor gegeven karakterisering gehandhaafd Dus, voor bijvoorbeeld test g geldt opnieuw dat:

, met

,

en

: de

testscore, de ware score en de foutscore van een toevallig (aselect) uit de populatie gekozen subject op de test g. 

Bovenop de hiervoor genoemde gevolgen 1 tot 5 voor elke test afzonderlijk kan, zo verondersteld wordt dat voor verschillende tests g en h de testscores en van een aselect gekozen individu onafhankelijk (en dus niet covariëren) van elkaar verdeeld zijn, nu ook het volgende bewezen worden (voor de testen g en h):

Gevolg 6: 

(

)

De meetfouten van de ene test zijn niet gecorreleerd met de ware scores van de andere test




14

Gevolg 7: 

(

)

De meetfouten van de ene test zijn niet gecorreleerd met de meetfouten van de andere test

Recapitulatie verder te gebruiken notatie De meetfoutvariantie (= variantie van de foutscores/meetfouten van een test) De standaardmeetfout van een test (= de standaardafwijking van de foutscores van een test) De variantie van de testscores van een test De standaardafwijking van de testscores van een test De correlatie van de testscores en ware scores van een test De covariantie van de testscores en de ware scores van een test Bemerk dat bijvoorbeeld De covariantie van de meetfout en de ware scores van een test Bemerk dat

Betrouwbaarheid Document psbet05

Definitie van de betrouwbaarheid van een test 

De betrouwbaarheid van een test wordt gedefinieerd als maat voor de onvoorwaardelijke meetprecisie

en wordt gezien als een



Het model van de klassieke testtheorie (KTT) impliceert dat

⁄

:


 Het is de gekwadrateerde correlatie van de testscore X . de true score T

15



Omdat



Probleem: Bovenstaande formule laat niet toe de betrouwbaarheid te schatten omdat noch noch gekend zijn



Oplossing: invoeren van de notie van paralleltests: o

⁄ , is de betrouwbaarheid eveneens gelijk aan

De tests X en X’ zijn paralleltests wanneer voor elk subject j de ware testscores en

aan elkaar gelijk zijn en de twee tests dezelfde meetfoutvariantie

hebben o

Uit de definitie van paralleltests volgt dat zo X en X’ paralleltests zijn, ze dezelfde verwachte (gemiddelde) testscore en dezelfde testscorevariantie hebben:

o  variantie van de geobserveerde score: voor elke deeltest dezelfde waarde




16



Zo X’ een paralleltest is van X, dan is de betrouwbaarheid van X,

, gelijk aan

 dit is in principe wel observeerbaar

De betrouwbaarheid van de test X en van (X’) is gelijk aan de correlatie tussen de testscores van tests X en X’

(*) Men gebruikt hier een regel van calculus van kansveranderlijken die we niet besproken hebben (komt na vectoren, matrices, …)

Omdat voor elk subject T = T’, is Bij de formulering van KTT voor meerdere tests zagen we dat

Daarnet toonden we dat



Merk op dat de betrouwbaarheid van een test een niet-negatieve grootheid is, die ten hoogste gelijk is aan 1



In de praktijk wordt (een populatiegrootheid) geschat via de steekproefschatter ̂ met de correlatie tussen de scores op beide testen zoals bekomen bij een (representatieve) steekproef

NOOT: NOTATIE POPULATIE- EN STEEKPROEFGROOTHEDEN 

Zoals hiervoor aangegeven, worden populatiegrootheden middels Griekse letters genoteerd


Bijgevolg is

17

De corresponderende grootheden, zoals berekend aan de hand van steekproefgegevens, worden middels Romeinse letter dan wel via het plaatsen van een ‘hoedje’ bovenop de Griekse letter aangeduid Voorbeelden: o en ̂

of

en ̂

of

o

NOOT: ONDERSCHEID SCHATTER – SCHATTING 

Schatter: de regel aan de hand waarvan je een kwantiteit bepaalt (bv. rekenkundig gemiddelde)



Schatting: daadwerkelijke waarde die je bekomt als je de schatter toepast op een specifieke steekproef

 Dit onderscheid wordt in de psychometrie niet gemaakt 

Methoden om betrouwbaarheid te schatten Betrouwbaarheid = onvoorwaardelijke meetprecisie, nauwkeurigheid

 Verschillende methoden: 1.

M.b.v. twee paralleltests X en X’. De resulterende schatting equivalentiecoëfficiënt

̂

is een

2. Twee afnames van dezelfde test (met tijdsinterval). De correlatie tussen de twee testscores, wordt een stabiliteitscoëfficiënt genoemd 3. M.b.v. één test die uit k parallele delen met gekende betrouwbaarheid, , bestaat. De resulterende betrouwbaarheid (in de zin van interne consistentie), , wordt via de

4. M.b.v. één test die uit k parallele delen met ongekende betrouwbaarheid bestaat. De betrouwbaarheid (interne consistentie), , wordt bepaald via coëfficiënt α (Cronbach’s α)

SPEARMAN-BROWN FORMULE 

Testscore op de test, X, is gelijk aan de som van de testscores delen en de betrouwbaarheid van zo’n deel , is gekend:

op de k parallelle

(allemaal dezelfde betrouwbaarheid),


Spearman-Brown formule verkregen:

18

∑



Betrouwbaarheid van de test X is, per definitie, gelijk aan

⁄

met

∑

en

∑ o

?

∑

∑

∑

Voor de k parallelle delen is en h,

. Ook is voor 2 willekeurige delen, g

voor elk subject zodat

 alle deeltesten hebben dezelfde truescore en dezelfde variantie !

o

?

∑

∑

Voor de k parallelle delen is

∑

. Ook is voor 2 willekeurige delen, g

 Bijgevolg is:

De betrouwbaarheid van 1 parallel deel, , is gelijk aan

! Belangrijk te onthouden bij paralleltesten !

 Elke waarde van de verschillende paralleltesten is gelijk


en h,

19

Toepassing 1: Bepaling betrouwbaarheid m.b.v. Spearman-Brown formule 

Stel test X bestaat uit 5 parallelle delen, .40



Betrouwbaarheid test X is dan



Een test die uit meerdere parallelle delen bestaat, is minstens zo betrouwbaar als de individuele deeltesten o



Is

, elk met betrouwbaarheid, , gelijk aan

zo

Ja, want



 Hoe meer items, hoe hoger de betrouwbaarheid ( ), bv. MC-examen vs. schriftelijk examen



Stel test X heeft een betrouwbaarheid van .30. Met hoeveel aan X parallelle tests moet X uitgebreid worden om een test te bekomen die een betrouwbaarheid van minstens .80 heeft?



M.a.w. wat is de minimale waarde voor k zodat



.06  k (= het aantal deeltesten) moet minstens 10 zijn


Toepassing 2: Verlengen test voor voldoende betrouwbaarheid

20

Toepassing 3: Betrouwbaarheid van een deeltest 

Stel test X, bestaande uit 3 parallelle delen, heeft een betrouwbaarheid van .90. Wat is de betrouwbaarheid van de parallelle delen?



Noteren we

voor de betrouwbaarheid van X en

voor de (onbekende)

betrouwbaarheid van de deeltests, dan laat de Spearman-Brown formule zien dat volgende gelijkheden moet voldoen:

 dus:

aan de

= .75

VERKLARENDE NOOT Rekenkundig gemiddelde 

, ̅:

Het rekenkundig gemiddelde van n testscores

∑

̅

Steekproefvariantie De steekproefvariantie van n testscores

COËFFICIËNT 

̅

∑

:

(= CHRONBACH’S ALFA)

Zo een test, X, uit k parallelle delen met ongekende betrouwbaarheid bestaat, dan kan getoond worden dat de betrouwbaarheid van de test X, , gelijk is aan:

( *∑ *



,

∑

)

(

∑

)

 teller = 2 x geheel vd. cov.

= som van de varianties van de deeltesten van test X = variantie van de geobserveerde scores van de totaaltest X

De bovenstaande gelijkheid geldt tevens zo de delen

essentieel equivalent zijn

 dus: als de deeltesten niet meer parallel zijn, maar wel essentieel equivalent, kun je ook nog de betrouwbaarheid bepalen



De delen geldt dat



en

zijn essentieel , met

equivalent zo voor

en

een constante (die kan variëren over de betrokken deeltesten)

Bemerk dat de delen een verschillende foutvariantie kunnen hebben

! Examen: als deeltesten parallel zijn, zijn ze dan essentieel equivalent? JA! (noodzakelijk!)




21



Zo delen niet essentieel equivalent (en niet parallel) zijn, maar wel voldoen aan

en , met en onderschatting van de betrouwbaarheid. 

Praktisch belang: coëfficiënt zin van interne consistentie)

, dan levert coëfficiënt

een

is de meest gebruikte maat voor de betrouwbaarheid (in de

Bepaling coëfficiënt ∑



De formule voor ,



In de praktijk zijn enkel steekproefgegevens beschikbaar. M.b.v. deze laatste gegevens wordt met

geschat als ̂

(

(

), betreft populatiegrootheden

∑

)

(̂ is de schatter van )

de steekproefvariantie van de totale testscores en bv.

de steekproefvariantie

van de testscores op deeltest g.



Steekproefgegevens



Rekenkundig gemiddelde totaaltestscores: ̂


Voorbeeld berekening ̂

22



(Steekproef)variantie totaaltestscores:



(Steekproef)variantie deeltestscores

:

d



(Steekproef)varianties deeltestscores



Bijgevolg kan de betrouwbaarheid voor test X geschat worden als

̂



∑

(

Omdat 0.98

)

:

(

niet essentieel

) equivalent zijn, is de betrouwbaarheid van X minstens

Betrouwbaarheid voor dichotoom gescoorde deeltests (items) 

Voor een dichotoom gescoorde deeltest is de variantie (in de populatie) van de deeltestscores, , gelijk aan , met de kans dat deeltest (item) goed beantwoord wordt In het geval van dichotoom gescoorde deeltests kan de betrouwbaarheid bijgevolg als volgt geschat worden: ∑ (



De formule en Richardson (1937).

)

(

∑

(

∑

)

) staat bekend als de coëfficiënt KR20 van Kuder




23

Voorbeeld berekening KR20



∑

(

)



De schatter voor KR20 , ̂



We hebben ̅



Bijgevolg ̂

VERKLARENDE

de

( )

̂ en ∑

,

kan (

, is:

betrouwbaarheid

∑

( (

)

)

geschat

worden

als

(minstens)

)

NOOT



Een binaire kansveranderlijke, Y, heeft als mogelijke waarden 1 en 0



De verwachte waarde van Y is met P(Y = 1) de kans dat Y gelijk is aan 1. Voor steekproefgegevens wordt de populatiewaarde, observaties waarvoor Y de waarde 1 heeft.

, geschat via

, de proportie



De variantie van Y,



Voor steekproefgegevens met N observaties wordt de populatiewaarde van de variantie,

, is:

[

]

, geschat als

Toepassingen van betrouwbaarheid BEPALING STANDAARDMEETFOUT Standaardmeetfout


Dichotome (binaire) kansveranderlijken

is de standaardafwijking/standaarddeviatie van de foutscore

24



De betrouwbaarheid van een test is gelijk aan



Bijgevolg is



De standaardmeetfout,



De steekproefschatter voor

√

, is dan ook ,

̂

√

, is

SCHATTEN WARE SCORE 

De eerste benadering sluit aan op de 1 subject formulering van de KTT en resulteert in een schatter, ̂ , voor de waarde van de ware score voor het subject j gegeven de waarde voor de geobserveerde score van het subject j.



De tweede benadering sluit aan op de populatie formulering van de KTT en resulteert in de zogenaamde regressieschatter ( ̂ | ) voor de verwachte waarde van de ware score T gegeven dat (= conditioneel) de geobserveerde score X gelijk is aan .



Mits zekere assumpties leiden de benaderingen tot een betrouwbaarheidsinterval voor de waarde van de ware score.

Eerste benadering 

De waarde van de ware score van subject j wordt geschat als ̂ van de voor het subject j geobserveerde score .



Om het betrouwbaarheidsinterval (in %) voor te bekomen veronderstellen we dat de verdeling van de geobserveerde score van een bepaald maar willekeurig



, normaal is met verwachting

Deze assumptie impliceert dat

en variantie

Ofwel:

o

Ofwel:

o

Ofwel:

(

⁄

⁄

( ⁄

)

(i.e.,

)

standaard normaal verdeeld is en dat er een kans

is dat: o

de waarde

⁄

⁄

)


gekozen individu j,

, met

⁄

25



(

Uit

⁄

⁄

)

⁄

het

de standaard normaal verdeling, volgt dat een 

betrouwbaarheidsinterval voor

Vervangen we nu

⁄

⁄

is.

door de actueel geobserveerde score

dan bekomen we het volgende, geschatte ⁄

de percentielpunt van

en

door de schatter

,

betrouwbaarheidsinterval voor :

⁄

Voorbeeld: 

In een steekproef van subjecten is de spreiding (standaarddeviatie) van de geobserveerde scores, , gelijk aan 4, de geschatte betrouwbaarheid van de test, ̂, bedraagt 0.75, en subject 7 heeft een geobserveerde score, , van 15. Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?



Uit en ̂ volgt dat ̂ . De benodigde √ √ percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, , gegeven een geobserveerde score van 15, gelijk aan

.

Of nog,

Tweede benadering 

Sluit aan bij de populatieredenering van de KTT



Zo verondersteld wordt dat de regressie van T op X lineair is, dan is de regressie(functie) van T op X gelijk aan Score T = de verwachte waarde van x



aangezien

,

en

̂



De (regressie)schatter voor de verwachte score ̂ is



Bemerk dat de ordening van de subjecten op grond van de geschatte verwachte ware score dezelfde is als de ordening op grond van de geobserveerde testscores.

̂

VERKLARENDE NOOT: REGRESSIEFUNCTIE 

Zijn X en Y twee kansvariabelen, dan is de regressie(functie) van X op Y gedefinieerd als de (conditionele) verwachting van X, gegeven dat Y gelijk is aan y,


o

26



Als X en Y gezamenlijk bivariaat normaal verdeeld zijn (d.i. dan is de regressie(functie) van X op Y lineair.

),

o

Met verwachting

o o

N2: 2 kansveranderlijken: bivariaatverdeling (x< y gezamenlijk bivariaat verdeeld) Vet: vector = kolomvector met 2 elementen

en variantie/covariantiematrix

(

)



In dat geval is de (conditionele) verdeling van X gegeven Y = y (i.e., de verdeling van X|y) eveneens normaal verdeeld.



Voorts is in dat geval: o

⏟

(cfr. Statistiek II: E(X) = β0 + β1)

⏟

⏟



Tenslotte is de (conditionele) variantie van X, gegeven Y = y, gelijk aan:



Samengevat:  univariaat verdeeld met conditionele verwachting en conditionele variantie

Vergelijking benadering 1 en benadering 2 Enkel wanneer de geobserveerde score groter is dan het gemiddelde, is ̂ geschat door de 1ste benadering groter dan wanneer geschat door de 2de benadering. Wanneer de geobserveerde score kleiner is dan het gemiddelde, gebeurt het omgekeerde. (Hoe kleiner de betrouwbaarheid, hoe sterker de regressie naar het gemiddelde) Wat bepaalt de breedte bij



Standaardmeetfout (

de 2de benadering?

Standaardschattingsfout (

) )

De standaardschattingsfout is sowieso kleiner dan de standaardmeetfout, dus dat impliceert een kleiner interval bij de 2de benadering.

BEPALING STANDAARDSCHATTINGSFOUT 

de 1ste benadering?

(PRECISIE WAARMEE DE WARE SCORE GESCHAT WORDT)

De standaardschattingsfout, , is de vierkantswortel uit de conditionele variantie van de ware score T gegeven de waarde x voor de geobserveerde score X. o De standaardschattingsfout is de precisie waarmee de ware score geschat wordt, oftewel de conditionele spreiding.




27



Zijn X en T gezamenlijk normaal verdeeld, dan is



Uit

volgt dat

√

√ √

√

zodat

√

met de standaardmeetfout (minstens gelijk – en meestal hoger – dan de standaardschattingsfout) o



De variantie van de true scores kan nooit groter zijn dan de variantie van de geobserveerde scores (verhouding 0-1)

De (steekproef)schatter van

,

√̂

, is

o

Deze schatter kan gebruikt worden bij een alternatieve bepaling van het 100( ) % betrouwbaarheidsinterval voor de ware score van subject j, tj

o

Het 100(

̂

) % betrouwbaarheidsinterval is:

̂

⁄

⁄

Voorbeeld: 

In een steekproef van subjecten is ̅ , , Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?



Uit

en ̂ ̂

volgt dat

̂

√ en is

en

.

. Voorts is ̂

√

√̂

√

. De

benodigde percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, een geobserveerde score van 15, gelijk aan

̂

⁄

, gegeven

̂

⁄

Of nog,

CORRECTIE VOOR ATTENUATIE (CORRELATIE WARE SCORES TEST X MET WARE SCORES TEST Y) 

Attenuatie: De correlatie tussen de geobserveerde scores is altijd kleiner dan (of gelijk aan) de correlatie tussen de true scores.



Meetfouten hebben tot gevolg dat de correlatie/samenhang tussen twee tests (metingen), X en Y, lager uitvalt dan de werkelijke correlatie/samenhang, dus:

{ met

de correlatie van de geobserveerde scores, gedeeld door een getal kleiner dan 1.


(Volledige betrouwbaarheid: standaardmeetfout en standaardschattingsfout = 0)

28



√

o

√

De validiteitscoëfficiënt betrouwbaarheid van die test.

√

√

van een test kan nooit groter zijn dan de wortel van de √

√

want

Voorbeeld: 

Stel dat twee tests, X en Y, bij een steekproef van subjecten afgenomen worden. Voor deze steekproefgegevens zijn de geschatte betrouwbaarheden voor X en Y, ̂ en ̂ , beide gelijk aan 0.80. De berekening van de correlatie tussen de scores op X en Y resulteert in een waarde 0.40 ( i.e., ̂ )



Toepassing van de correctie voor attenuatie levert in dat geval de volgende geschatte waarde op voor de correlatie tussen de ware scores van X en Y: √̂



√̂

Correctie voor attenuatie kan ook beperkt worden tot één van de twee metingen (e.g., X representeert intelligentie en Y correspondeert met lengte): o



√

Lengte = perfect betrouwbaar te meten: niet nodig (true score van Y = Y zelf)

Bovenstaand speciaal geval laat ook zien dat de validiteitscoëfficiënt van een test (hier de correlatie van de test, X, met een willekeurig andere meting, Y) nooit groter kan zijn dan de wortel uit de betrouwbaarheid van de test

√

√

, want

 er wordt een bovengrens opgelegd

PRECISIE VAN VERSCHILSCORES Niet te kennen

Enkele problemen i.v.m. de klassieke test / betrouwbaarheidstheorie De formule voor de betrouwbaarheid van een test X,

, laat duidelijk zien dat

betrouwbaarheid geen karakteristiek van enkel de test is. De betrouwbaarheid varieert al naargelang de heterogeniteit van de populatie in termen van de ware testscores. Bv: De true score op een test numerieke intelligentie zal niet zo’n grote spreiding hebben bij studenten exacte wetenschappen, i.t.t. studenten psychologie. De betrouwbaarheid van de test is dus afhankelijk van de variantie in de betrekkelijke populatie, wat maakt dat de test een grotere betrouwbaarheid heeft voor studenten exacte wetenschappen dan voor studenten psychologie.




29



Soms wordt ook het volgend speciaal geval van de formule voor correctie voor attenuatie als probleem genoemd, maar dit is geen geldige formule! o

√

√

Normaal gezien is de correlatie tussen dezelfde test gelijk aan 1, maar door deze formule wordt hij groter dan 1!

Validiteit Document psval05

Definitie en traditionele validiteitsstrategieën 

Validiteit: de mate waarin de test datgene meet wat hij pretendeert te meten.



Traditioneel zijn er 4 benaderingen die geassocieerd zijn met verschillende nagestreefde doeleinden, namelijk de: o o o o



Inhoudsvaliditeit Constructvaliditeit Criteriumvaliditeit Concurrente validiteit

Nu wordt de namelijk de: o o

validiteitsproblematiek

vaak

vanuit

2

perspectieven

benaderd,

Validiteit van de meting op zich Validiteit van de meting in een beslissingscontext

Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Binnen het perspectief van ‘validiteit van de meting op zich’ zijn er 2 hoofdbenaderingen: o o 



Inhoudsvaliditeit Constructvaliditeit

De inhoudsvaliditeit is de mate waarin het testgegenereerde gedrag (d.i. het geheel aan responsen) een representatieve steekproef vormt m.b.t. het te meten kenmerk. o

Bv: Motivatie (intrinsiek – extrinsiek); een test is niet valide als we maar één van beiden meten  dat onderscheid moet dus in het meetinstrument vervat zitten

o

De problematiek van inhoudsvaliditeit generaliseerbaarheidstheorie.

is

verwant

aan

die

van

de

Bij constructvaliditeit stelt men zich de vraag of de test het beoogde construct meet. o

De constructgeoriënteerde validiteitsstrategie benaderingen (~ moeder van alle validiteiten)

overkoepelt

de

andere




30

o

Constructvalidering gebeurt a.d.h.v. een nomologisch netwerk i.v.m. het construct. In het bijzonder door na te gaan of de meting de in het nomologisch netwerk vooropgestelde interrelaties heeft met de metingen van andere constructen.   



Nomologisch = algemene regels gevend Dus kijken of de metingen van die constructen (bv. stress – burnout – gezondheidsklachten) correleren met elkaar Bijvoorbeeld:

Een veelgebruikte benadering hierbij is de Multitrek Multimethode (MTMM) aanpak van Campbell en Fiske (1959)  Er zijn verschillende soorten metingen (= indicatoren) voor eenzelfde construct  Er worden 2 vragen gesteld: o Werd er gemeten volgens dezelfde methode? o Is het een meting van hetzelfde construct (= zelfde trek)?  De correlatie van twee verschillende metingen van eenzelfde construct = de validiteit


MTMM-benadering

31



Bij de MTMM-benadering wordt er een onderscheid gemaakt tussen: o

Convergente validiteit  Kunnen we de verwachte verbanden aantonen? (homotrekheteromethode; validiteitsdiagonalen)  Metingen van eenzelfde kenmerk door verschillende methoden: correleren goed met elkaar, want correleren wat moet correleren

o

Divergente validiteit:  Zijn die verbanden die er niet mogen zijn er ook echt niet? (heterotrekmonomethode en heterotrek-heteromethode)  lage correlatie = goede/hoge validiteit  Metingen van verschillende kenmerken met dezelfde methode hebben slechts een kleine correlatie (kleiner dan de correlaties van de metingen van hetzelfde kenmerk met verschillende methodes), want niet correleren wat niet mag correleren

Interpretatie van de MTMM correlatiematrix: o

Zijn de correlaties in de betrouwbaarheidsdiagonaal de grootste?   Autocorrelaties van een construct met zichzelf (methode 1 – A1 vs. methode 1 – A1)

o

Zijn de correlaties in de validiteitsdiagonaal voldoende hoog?   Correlaties tussen dezelfde trekken, maar met andere methodes (methode 1 – A1 vs. methode 3 – A3)




32

Binnen de heteromethode blokken dienen de validiteitscoëfficiënten hoger te zijn dan de andere waarden in het blok.

o

Validiteitscoëfficiënten moeten hoger zijn dan de waarden in de heterotrekmonomethode driehoeken.

Vraag: Hoeveel procent van de variantie kan worden toegewezen aan het construct, hoeveel aan de methode en hoeveel aan de meetfout?

 Variantie van het construct > variantie van de methode > variantie van de meetfout 

De interpretatie van MTMM matrices blijft, ondanks de voornoemde principes, problematisch. Er is een betere benadering mogelijk via structurele vergelijkingsmodellen.




o

33

Validiteit van de meting in een beslissingscontext: criteriumvaliditeit 

Principe: correleren de testscores met de scores van een andere (directe) meting van het kenmerk of met scores van een ander, nomologisch gerelateerd kenmerk?



Predictieve validiteit vs. gelijktijdige (concurrente) validiteit



Bij predictieve validiteit is range restrictie vaak een probleem. o



Range restrictieprobleem: de correlatie tussen de test en het criterium wordt te laag geschat omdat voor het criterium enkel scores beschikbaar zijn voor de voor de test ‘geslaagde’ subjecten. De spreiding van de scores op de test is ingeperkt. 

Bv: Toelatingsproef geneeskunde met X = drempelscore en Y = resultaten 1ste Bachelorstudenten  een goede toelatingsproef heeft een hoge validiteit (hier: 0.40)



Directe range restrictie vs. ste  1 test is selectiecriterium

indirecte range restrictie  3de test geldt als selectiecriterium

Er bestaan formules voor de correctie van range restrictie. Bvb.: formule voor de correctie van de directe range restrictie m.b.t. de predictor, X:

(

√

) (

)

de spreiding (standaarddeviatie) van de testscores in de totale groep de spreiding van de testscores in de geselecteerde groep de correlatie tussen de predictor X en de criteriumvariabele in de geselecteerde groep de voor range restrictie gecorrigeerde correlatie (correlatie tussen de test en het criterium) 

Voorbeeld: TC = kritieke testscore  ≥12/20 mag aan de studie beginnen o rTC = correlatie tussen de test en het criterium (enkel voor diegenen met ≥12) o  Onderschatting: niet iedereen zit er in  directe range districtie!  Ook indirect mogelijk: op grond van een derde meting (niet op grond v. T)


Met:

34



Besluit: De validiteit van een test is een eerder gebrekkige indicator van de waarde van een test in een beslissingscontext



Een meer adequate benadering via de zogenaamde utiliteitstheorie (betere manier dan de validiteitcoëfficiënt om de waarde van testgebruik te bepalen en uit te drukken): o o o

Taylor & Russell: schatten van de succesratio van testgebaseerde selecties  Bv: toelatingsproef geneeskunde Brogden en Cronbach & Gleser: utiliteit (geldwaarde) van een testgebaseerde selectie De Corte: Integratie van beide voorgaande aspecten en uitbreiding naar gefaseerde testgebaseerde selecties

Itemanalyse Document psval05 

Itemanalyse = onderzoek naar de psychometrische kwaliteit van de items (de bespreking is hier beperkt tot de procedures die aansluiten bij de KTT)



Doel? Een subset (uit een set items) selecteren van items met gemiddelde moeilijkheidsgraad en goede discrimineerbaarheid (homogene set verkrijgen), en dit ten behoeve van de samenstelling van de definitieve set



Itemanalyse omvat: o o o

De descriptieve analyse van de itemresponsen (e.g. de itemmoeilijkheid) De analyse van de samenhang van de items met de test(totaal)score De studie van de relatie tussen de items onderling

Descriptieve analyse van de itemresponsen



Stel een multiple choice item met 4 antwoordalternatieven: A, B (correct), C en D. In het optimaal geval zal elk van de drie distractoren even populair zijn. o



Populariteit van een distractor: percentage van de subjecten dat de distractor kiest.

Voorbeeld: 55% lost het item correct op; de optimale populariteit van de distractoren is dan .



De resultaten van de distractoranalyse kunnen best bekeken worden in het licht van andere itemanalyseresultaten (bv.: itemmoeilijkheid).


DISTRACTORANALYSE (MC-ITEM)

35

ITEMMOEILIJKHEID: P-WAARDE 

De p-waarde is het percentage van de subjecten dat het item correct oplost (of onderschrijft). Hoe hoger de p-waarde, hoe gemakkelijker het item.  Bij dichotoom gescoorde items van een attitudevragenlijst wordt de p-waarde ook wel de (basis)populariteit van een item genoemd (of ook: de proportie individuen dat akkoord gaat met het item)





Er zijn evidente relaties tussen de itemmoeilijkheid en o

De itemvariantie (té makkelijke of moeilijke items zorgen voor een lage variantie)  Cf. de variantie van de scores van een dichotoom item wordt geschat als:

o

De itemdiscriminatie

In het algemeen zijn items met een gemiddelde moeilijkheid te verkiezen (want deze laten de grootste variantie zien)

ITEMVARIANTIE 

Er is een onderscheid tussen metrische items (minstens op intervalniveau) en dichotoom gescoorde items



Bij metrische items kan de itemvariantie van item i,

, geschat worden via de

∑

Met:    

J xij

, met:

het aantal subjecten de score van subject j op item i de gemiddelde itemscore op item i

Voor dichotome items is de steekproefschatter voor de itemvariantie,

(

, gelijk aan:

) Met: 

de moeilijkheid van item i

Samenhang item-testtotaalscore: itemdiscriminatie 

Itemdiscriminatie: In hoeverre onderscheidt een item individuen met een hoge totaalscore van individuen met een lage totaalscore?  ook: itemhomogeniteit (cfr. de notie van interne consistentie)


steekproefschatter,

36

De samenhang tussen score item i (Xi) en de testtotaalscore (T) is voor metrische items gelijk aan de correlatie



De waarde van

is te schatten via de productmomentcorrelatiecoëfficiënt

∑ √(∑

(

(

Met:  

)( ) ) (∑

(

) )

o

Scores van 8 (i.e., J = 8) subjecten op 4 items

o

De correlatie item 1-tesstotaalscore

√(∑

(

(

is:

)( ) ) (∑

) (

) )

√

De item-testtotaalscorecorrelatie geeft een wat geflatteerd beeld van de samenhang omdat het item de totaalscore mee bepaalt. Daarom wordt, vooral in het geval dat de test weinig items telt, vaak gebruikt gemaakt van de item-restcorrelatie. o

De item-restcorrelatie voor item i is de correlatie tussen de scores op item i en de totaalscore verminderd met de score op het item 



)

Voorbeeld:

∑



:

de score voor subject j op item i de testtotaalscore van subject j (heeft niets te maken met een ‘true score’) de gemiddelde totaalscore de gemiddelde score voor item i

  

:

Voor het voorbeeld is de item-restcorrelatie voor item 1 gelijk aan 0.836

Is het item dichotoom, dan kan de samenhang item-totaalscore bepaald worden door middel van de punt-biseriële correlatiecoëfficiënt :




37

√ Met 

de gemiddelde testscore van de subjecten die item i correct oplossen



de gemiddelde testscore van de subjecten die het item fout oplossen de moeilijkheid van item i

 

Voor steekproefgegevens wordt de waarde van de punt-biseriële correlatiecoëfficiënt op de gebruikelijke manier geschat



Andere soms gebruikte maten voor de samenhang item-totaalscore zijn: o

De biseriële correlatie tussen een dichotoom item en een metrische totaalscore  Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van itemscores

o

De Ф (phi-) coëfficiënt wanneer zowel de item- als de totaalscore dichotoom zijn (zie ook verder bij schaaltechnieken)

o

De tetrachorische correlatie wanneer zowel de item- als de totaalscore dichotoom zijn  Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van item- en totaalscores

Studie van de relatie tussen de items onderling De

samenhang

tussen

de

items

(inter)itemcorrelatiematrix R, met

o 

onderling

(

wordt )

bepaald

m.b.v.

de

(R = vet: matrix)

Deze (inter)itemcorrelatiematrix is het uitgangspunt voor factoranalyse

Voor metrische items is het algemeen element van R, (

) (het item in de k-de rij en de l-de

kolom) gelijk aan de productmomentcorrelatiecoëfficiënt:

∑ √(∑ 

(

(

)( ) ) (∑

) (

) )

Voor dichotome items wordt het algemeen element van R, m.b.v. de Ф-coëfficiënt of de tetrachorische correlatiecoëfficiënt berekend




38

Beschrijvend/descriptief gebruik van testscores Document psdes05 

Hierbij wordt er een onderscheid gemaakt tussen: o

De transformatie van ruwe testscores tot:  Standaardscores  Percentielscores  Genormaliseerde scores

o

Normering: het opstellen van normtabellen en het situeren van ruwe scores t.o.v. normscores

Transformatie van ruwe testscores 

Op zich zegt een ruwe score weinig of niks. Ze wordt dan ook vaak getransformeerd tot een score die duidelijker aangeeft hoe het individu zich situeert t.a.v. de individuen van een adequaat gekozen referentiegroep



Om een dergelijke transformatie te kunnen uitvoeren, moet het gemiddelde en de spreiding/standaarddeviatie (of de verdeling van de testscores) binnen de referentiegroep gekend zijn



Sommige transformaties zijn lineair (i.e. van de soort: ), waarbij het (eventueel) metrisch niveau van de oorspronkelijke scores wordt behouden

LINEAIRE TRANSFORMATIES



Gegeven: o

Het gemiddelde ( ) en de spreiding ( ) van de ruwe scores in de referentiegroep

o

Het gemiddelde ( scores

) en spreiding (

De conversie van de ruwe scores X naar de getransformeerde scores X(t) gaat dan:

(

)

Eerst de ruwe scores standaardiseren Dan vermenigvuldigen met de beoogde deviatie



) van de beoogde, getransformeerde

Dan optellen met het gemiddelde dat je beoogt

Voorbeelden: o

Omzetting naar standaard- of Z-scores (scores met

(

)

en

):




39

o

Omzetting naar T-scores (scores met

(

en

):

)

NIET-LINEAIRE TRANSFORMATIES 

De toepassing van de in de psychometrie gebruikelijke niet-lineaire transformaties veronderstelt dat de distributie (frequentie) van de ruwe scores binnen de referentiegroep gegeven is o o o o



Percentielscores Decielscores Genormaliseerde standaard- of T-scores Stanines (Standard nines)

Opgelet: hier kan het meetniveau veranderen o

Dus: je moet niet enkel het gemiddelde en de spreiding kennen, maar ook de frequentieverdeling van de scores binnen de referentiegroep

Percentielscores 

De percentielscore van het subject j, Pj, geassocieerd met de ruwe score, Xj, is gelijk aan het percentage personen in de groep (d.i. de representatieve steekproef en dus niet op grond van de populatie) dat dezelfde of een lagere ruwe score behaalt



De percentielscore wordt in het algemeen berekend als:

Fj

 

fj J

)

de cumulatieve frequentie behorend bij ruwe score Xj (d.i. het aantal subjecten met een score ten hoogste gelijk aan Xj) de frequentie waarmee de ruwe score Xj voorkomt het aantal subjecten in de groep

Voorbeeld: berekening percentielscore

(

)




Met 

(

40

Decielscores 

De decielscore, Dj, geassocieerd met de ruwe score Xj, is gelijk aan:

(

)



+1

wanneer

géén geheel getal is



+0

wanneer

een geheel getal is

( ) het grootste geheel getal dat kleiner of gelijk is aan

Met 

Voorbeelden: o

( )

o

( )

o

( )

Noot: Standaardnormaaldensiteit en standaardnormaalverdeling 

Standaarnormaaldensiteitsfunctie:



Standaardnormaaldistributiefunctie



De functie Z (d.i. [



De inverse van , genoteerd als heeft als element een proportie en als beeld de met deze proportie overeenstemmende waarde van de standaardscore

met met

√

∫

Genormaliseerde scores 

Principe: De ruwe scores worden zo getransformeerd dat de verdeling van de getransformeerde scores (nagenoeg) normaal is



Werkwijze: 1.

Omzetten van de ruwe scores

naar percentielscores

2. Omzetten van de percentielscores

(

via: 

naar genormaliseerde standaard(normaal)scores

)


heeft als domein de mogelijke waarden voor de standaard(normaal)score ]) en als codomein de mogelijke waarden voor een proportie (d.i. [ ])

Deze zijn nagenoeg normaal verdeeld

41



I.e.,

is de normaalscore zodat

% van de waarden van een

standaardnormaal verdeelde kansvariabele beneden de waarde 

Dit is de kwantielfunctie van de normaalverdeling

3. Omzetten van de genormaliseerde standaardscores

naar scores met het gewenste

(

gemiddelde en spreiding via de transformatie: Met 

vallen

)

voor de standaardnormaalscores

Voorbeeld:

 P naar Z tabel gebruiken

 Zj = 1,555 = 1,6

Stanines 

Staninescores worden bekomen via een lineaire transformatie van de genormaliseerde standaardscores



De staninescore, (

, geassocieerd met een genormaliseerde standaardscore,

, is:

)

Met : de naar het dichtstbijzijnde gehele getal afgeronde waarde van (≠ trunceren) Is



Voorbeeld:

dan

//

Is

, dan

Normering 

Normeringonderzoek wordt uitgevoerd teneinde de verdeling te kennen van de testscores binnen één of meerdere vooraf afgebakende referentie- of normgroepen. De




42

zo bekomen verdeling wordt meestal samengevat in een zogenaamde normtabel (dit is het resultaat) Het normeringsonderzoek omvat gebruikelijk de volgende stappen: 1.

Het vastleggen van de beoogde referentiegroepen of –populaties

2. Keuze van de nauwkeurigheid waarmee we de waarde van de populatieparameters wensen te schatten (deze stap wordt vaak vergeten) 

Voorbeeld populatieparameter: het gemiddelde / de variantie van de testscores binnen de referentiegroep



Voorbeeld nauwkeurigheid: Stel dat de mogelijke testscores liggen tussen 50 en 150. Dan kunnen we bijvoorbeeld vooropstellen dat de (geschatte) standaardfout van het gemiddelde ̅ , (i.e., de geschatte ̅ standaarddeviatie van de steekproevenverdeling van ̅ , of nog: de geschatte standaardfout van het rekenkundig gemiddelde ), ten hoogste gelijk is aan 2

3. Afleiden van de minimale steekproefgrootte, gegeven de vooropgestelde nauwkeurigheid en de (geschatte) waarde van de variantie van de testscores, , binnen de normgroep 

Voorbeeld: Stel dat we, uitgaand van de vorige situatie, vinden dat (we weten de waarde van de variantie van de testscores dus ook de standaarddeviatie

en zo kunnen we

van de geobserveerde ruwe scores in een steekproef

weten).

Gelet op de vereiste nauwkeurigheid dat , is het benodigd aantal subjecten, J, te bepalen door het oplossen van de volgende vergelijking:

√

√ Het benodigd aantal subjecten is dus minimaal 100. 4. Trekken van de benodigde steekproeven, met als doel een steekproef te trekken die representatief is voor de vooraf gestelde populatie:   

Aselecte steekproeven (elk element uit de populatie heeft dezelfde kans om in de steekproef terecht te komen) Gestratificeerde steekproeven (eerst een onderverdeling/strata maken, dan daaruit aselect een steekproef trekken) Cluster- of getrapte steekproef (een onderverdeling van de onderverdeling van de onderverdeling maken, dan aselect een steekproef trekken)




43

5. Berekening van de vereiste testscorestatistieken aan de hand van de bekomen steekproefgegevens en bundeling ervan in normtabellen Voorbeeld: normtabellen rekenvaardigheid




44

2. Generaliseerbaarheidstheorie Document psgen05

Overzicht 

Situering, basisconcepten en overzicht o Generaliseerbaarheidstheorie = een veralgemening van de K.T.T.



(Statistisch) model van de generaliseerbaarheidstheorie



Generaliseerbaarheidsstudies (G-studies): bepaling variantiecomponenten o Met als doel het schatten van kwantiteiten om nieuwe testinstrumenten te ontwikkelen (met nauwkeurigheid!)



Decisiestudies coëfficiënt



En verder …

(D-studies):

schatten

meetfoutvariantie

en

generaliseerbaarheids-

Inleiding 

Naast niet-systematische meetfouten zijn er ook systematische meetfouten oftewel meetaspecten die het resultaat beïnvloeden



Er kan pas vanaf 2 meetfacetten sprake zijn van een interactie-effect (bv: examenvorm én student)



De generaliseerbaarheidstheorie biedt een veralgemening van de klassieke betrouwbaarheidstheorie via de modellering van de bronnen van systematische meetfouten of systematische meetvariatie



 In het bijzonder laat deze generaliseerbaarheidstheorie toe het belang van de diverse fouten meetvariatiebronnen te bepalen



Er wordt aandacht besteed aan zowel toevallige als systematische meetfouten o



Systematische meetfouten zijn variaties in het meetresultaat te wijten aan een echt kenmerk van de meting

Hierbij is er sprake van een onderscheid (bv: meting kennis psychometrie) tussen: o

Object van meting: de entiteit waarop het te meten kenmerk betrekking heeft Bv: de studenten

o

Meetfacetten: aspecten of componenten die het meetresultaat mee bepalen Bv: examenvorm, beoordelaar

2. Generaliseerbaarheidstheorie

Situering, basisconcepten en overzicht

45



Daarnaast wordt er ook een onderscheid gemaakt tussen: o

Populatie: het geheel van meetobjecten

o

Universum: de set van alle mogelijke metingen over het geheel (van de combinaties van de niveaus) van de meetfacetten voor 1 bepaald object Bv: 20 examenvragen en 10 beoordelaars  universum is 200: geheel van 200 mogelijke metingen/scores die je zou kunnen bekomen



De universumscore

(

) is de verwachte meetscore, over het universum, van het

object van meting

(Statistisch) model van de generaliseerbaarheidstheorie Hét model van de generaliseerbaarheidstheorie bestaat niet. Er zijn, naargelang de eigen aard van de meetsituatie, vele modellen mogelijk. o



Men wil meetinstrumenten ontwerpen die de beoogde generaliseerbaarheid (nauwkeurigheid, betrouwbaarheid) hebben

De modellen variëren m.b.t.: o

Het aantal meetfacetten

o

De aard van de meetfacetten: fixed vs. random meetfacetten

o



Fixed: tellen maar een beperkt aantal niveaus (bv. soort examens: MC, open boek, open vragen en mondeling)



Random: niet beperkt?

De opzet waarin de meetfacetten onderling gecombineerd worden (d.i. factoren die een aantal niveaus hebben): 

Meetfacetten kunnen volledig gekruist zijn (factoriële opzet): elke beoordelaar beoordeelt hetzelfde deel en hetzelfde aantal vragen (elk niveau van ene meetfacet combineren met zelfde niveaus van het andere meetfacet (bv. altijd 3 dezelfde beoordelaars))  per definitie gebalanceerd



Meetfacetten kunnen volledig genest zijn (volledig geneste of hiërarchische opzet): elke beoordelaar beoordeelt een ander gedeelte van de vragen, maar wel hetzelfde aantal (bv. elk niveau van examenvraag is geassocieerd met verschillende beoordelaars (bv. V1 beoordelaars 1 tot 3 en V2 beoordelaars 4 tot 6))  Bv: v(b) = vragen genest binnen het facet beoordelaar



Meetfacetten kunnen deels gekruist en deels genest zijn




46

Basismodel: gekruist opzet met 1 meetfacet  elk subject krijgt dezelfde vragen 

: meetscore van de student (meetobject) op examenvorm  gemiddelde universumscore  effect van het object van meting  effect van het meetfacet  residu  Er zijn altijd wel een paar fouten/een beetje ruis (+ interactie-effect, maar dat kan niet in het model worden gestoken)



het populatiegemiddelde (verwachte waarde) van universumscores (bv. de verwachte score voor alle studenten en alle examenvragen)



de universumscore van het object van meting (cfr. ware score) (bv. de verwachte score voor alle niveaus van het meetfacet, dus alle vragen)



de populatiescore voor niveau moeilijkheidsgraad van de examenvorm)

het

meetfacet

(cfr.

is een constante;



en zijn kansvariabelen met waarden die verdeeld zijn/variëren over respectievelijk de populatie (bv: studenten) en het universum (bv: geheel van mogelijke examenvormen)



Ook

is een kansveranderlijke met verwachting o



representeert de toevallige meetfout

Verwachting van de effecten: o

De verwachte waarde van het effect van het meetobject is 0:

( o

)

De verwachte waarde van het effect van het meetfacet is 0:

( 

en variantie

)

Variantie van de effecten: o

De variantie van het effect van het meetobject komt overeen met de universumscorevariantie:

[

⏟

]




van

de

47

o

De variantie van het effect van het meetfacet komt overeen met de variantie van de populatiescores geassocieerd met de (verschillende) niveaus van het meetfacet:

[ o



⏟

]

De variantie van de meetscores is:

Variantie van de meetscores =  De variantie van de meetscores = De variantie t.g.v. verschillen tussen meetobjecten (universumvariantie) + De variantie t.g.v. verschillen tussen de niveaus van het meetfacet (d.i. de systematische variantie die niets te maken heeft met de meting zelf m.b.t. een bepaald kenmerk, maar er wel effect op heeft) + De rest (variantie van de meetfout, toe te schrijven aan een toevallige meetfout of interactie-effecten)



De varianties



De gebruikelijke manier om het opzet aan te duiden is o o

,

en

worden de variantiecomponenten van het model genoemd

De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met het meetniveau Elk model heeft een factor die correspondeert met het object van meting + meetfacetten …



De meetobjecten (d.i. de niveaus van het object van meting) worden gescoord onder elke combinatie van niveaus van de meetfacetten



Bijvoorbeeld: Stel 3 examenvormen psychometrie en 2 assistenten die de examens verbeteren. Elke student (meetobject) beantwoordt de 3 examenvormen en alle examens worden door beide assistenten verbeterd  er zijn 3 verschillende variatiebronnen: o

Meetfacet examenvorm met 3 niveaus

o

Meetfacet beoordelaar met 2 niveaus

o

Object van meting

de student

Dus 6 combinaties van de niveaus van de meetfacetten en per student hebben we 6 scores:  elke willekeurige score:


Model voor gekruist opzet met 2 meetfacetten

48



gemiddelde universumscore effect van het object van meting s effect van meetfacet v

E=0

effect van meetfacet b student x examen effect student x beoordelaar effect examen x beoordelaar effect

Interactie-effecten: slechts 1 meting per subject

residu, toevallige meetfout (niet volledig zuiver) 

het populatiegemiddelde (de verwachte waarde) van de universumscores



de universumscore van het object van meting (cfr. ware score)



de populatiescore voor niveau van het meetfacet examenvorm (cfr. moeilijkheidsgraad examenvorm)



de populatiescore voor niveau (cfr. strengheid beoordelaars)



de gemiddelde score (over de beoordelaars) voor meetobject en niveau van het meetfacet examenvorm (de moeilijkheidsgraad van de examenvorm kan variëren over studenten)



de gemiddelde score (over de examenvormen) voor meetobject en niveau van het meetfacet beoordelaar (strengheid beoordelaars kan variëren over studenten)



de gemiddelde score (over studenten) voor examenvorm beoordeeld door beoordelaar (moeilijkheidsgraad examenvorm kan variëren over beoordelaars) is opnieuw een constante, terwijl





,

,

,

,

en

is eveneens een kansveranderlijke met verwachting

Verwachting van de effecten:

⏟

kansvariabelen zijn. en variantie




van het meetfacet beoordelaar

49



Variantie van de effecten: o

 variantie van de universumscores

o

 variantie t.g.v. examenvormen

o

 variantie t.g.v. beoordelaars

o  variantie t.g.v. het variëren van de moeilijkheidsgraad van de examenvormen over studenten o

…



De variantiecomponenten van het model zijn nu:



Tenslotte is, analoog , de variantie van de meetscores en kan getoond worden dat die variantie van de meetscores:

,

,

,

,

,

,

 

Dit is een goede meetmethode, want het grootste deel van de variantie wordt verklaard door de universumvariantie



De gebruikelijke manier om het opzet aan te duiden is o De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met examenvragen en beoordelaars (factor gekruist met 2 meetfacetten)

Model voor genest opzet met 1 meetfacet





 Elke student krijgt hetzelfde aantal vragen, maar niet dezelfde Een factor, (meetfacet of object van meting), is genest binnen een andere factor, (meetfacet of object van meting) zo … o

Meerdere niveaus van met elk niveau van b geassocieerd zijn

o

Verschillende niveaus van met elk niveau van geassocieerd zijn

Bijvoorbeeld: Voor het examen psychometrie zijn 500 vragen gemaakt. Elke student krijgt een verschillende steekproef van 10 vragen uit dit totaal o

Object van meting: studenten,

o

Meetfacet: examenvragen, Maar: elke student krijgt een verschillende set van 10 vragen  Meetfacet examenvragen is genest binnen studenten


( )

50



Bovenstaand opzet wordt gebruikelijk genoteerd als meetfacet genest is binnen studenten,

om aan te geven dat het

 Er is dus een interactie tussen het meetfacet en het object van meting 

Is

de score van student op vraag , dan is het passend model: de gemiddelde universumscore, effect van student residu, toevallige meetfout







Merk op dat het effect van het meetfacet vragen, ( ), niet kan onderscheiden worden van de toevallige fout, , en daarom niet gemodelleerd wordt (want het meetfacet is genest binnen het subject) en

zijn kansveranderlijken met een verwachting

De variantiecomponenten van het model zijn o

en

en

met:

, de variantie geassocieerd met het student-effect

o 

Opnieuw is de variantie van de meetscores:  o

= de variantie van de meetscore

o

= de variantie van de echte toevallige meetfout

+ de variantie van de

interactie van en + de variantie van het meetfacet

Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten Bijvoorbeeld: Studenten zijn meetobjecten, (open) examenvragen meetfacet en beoordelaars het tweede meetfacet.



Er zijn verschillende types van dergelijke geneste opzetten: o

of

o

( )

o

(

o o

vormen het eerste

(

of

( )

)

of

(

)( )

=

( ( ))

of

(

) )( )

( ( ))

 verschillende meetfacetten zijn op verschillende manieren genest




51



Bemerk dat opzetten waarin het aspect i.v.m. het object van meting genest is binnen een meetfacet (e.g., ) niet voorkomen. Dergelijke opzetten scheppen problemen om de variantiecomponent geassocieerd met het object van meting te schatten

Type 1:

(of:

)



Object van meting gekruist met meetfacet examenvragen dat genest zit in meetfacet beoordelaars



Voorbeeld: Elke student krijgt alle vragen (met, bv. ) en alle studenten worden door iedere beoordelaar (met, bv ) beoordeeld, maar beoordelaar 1 verbetert enkel de vragen 1 en 2, terwijl beoordelaar 2 enkel de vragen 3 en 4 beoordeelt

Model: gemiddelde universumscore effect van student effect van beoordelaar

zit genest in  er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT

student x beoordelaar effect vragen x beoordelaar effect

Interactie-effecten: verwachting = 0

 genest, dus zonder +

residu, toevallige meetfout x ), 2de interactie-effect



Variantie van de meetscores:



Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en beoordelaar


 puur residuele fout, interactie-effect ( x ( x )

52

Type 2:

(of:

)



Het meetfacet examenvragen dat genest zit in het object van meting, gekruist met het meetfacet beoordelaars



Voorbeeld: Elke student krijgt een verschillende set van vragen, , en alle examens worden door iedere beoordelaar, , verbeterd

Model: gemiddelde universumscore effect van student effect van beoordelaar

zit genest in  er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT

student x beoordelaar effect student x vragen effect

Interactie-effecten: verwachting = 0

 genest, dus zonder +

residu, toevallige meetfout x ), 2de interactie-effect






Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en student

Type 3: 

(

)

(of:

(

))

Het meetfacet examenvragen zit genest in de kruising van het object van meting met het meetfacet beoordelaars 

Voorbeeld: Elke student wordt door iedere beoordelaar geëvalueerd, maar de set van gescoorde vragen is verschillend voor iedere combinatie van de niveaus van en (de beoordelaars verbeteren telkens 2 verschillende vragen)


 puur residuele fout, interactie-effect ( x ( x )

53

(

Model:

) gemiddelde universumscore effect van student effect van beoordelaar student x beoordelaar effect

Interactie-effect: verwachting = 0

residu, toevallige meetfout  puur residuele fout, interactie-effect ( x ( x )

x ), 2de interactie-effect






Het effect van de examenvraag is genest binnen de gekruiste opzet van het meetobject en het meetfacet beoordelaars, waardoor er geen genest interactie-effect is

Type 4: 

(

)( ) = (

)( )

De kruising van het meetfacet examenvragen met het meetfacet beoordelaars zit genest in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort alle aan de student gestelde vragen (er zijn verschillende vragen en elke vraag wordt door dezelfde 2 beoordelaars beoordeeld) 2. Generaliseerbaarheidstheorie



54

(

Model:

Er is geen interactie tussen en want deze zit genest in

)( ) gemiddelde universumscore

 je moet dus erbij nemen

effect van student student x vragen effect


student x beoordelaar effect residu, toevallige meetfout  puur residuele fout, interactie-effect ( x ( x )







Het gekruiste opzet tussen het meetfacet examenvragen en meetfacet beoordelaars zit genest binnen het meetobject, wat betekent dat er wel interactie-effecten zijn

Type 5: 

( ( ))

(of:

( ( )) )

Het meetfacet examenvragen zit genest in het meetfacet beoordelaars, dat op zijn beurt genest zit in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort slechts een deel van de aan de student gestelde vragen (er zijn 2 verschillende beoordelaars en elke beoordelaar beoordeelt 2 verschillende vragen)

Model:

( ( )) gemiddelde universumscore

Er is geen interactie terug te vinden tussen en want zit genest in , die genest zit in  je moet dus

erbij nemen

effect van student student x beoordelaar effect


residu, toevallige meetfout  puur residuele fout, interactie-effect ( x ( x )





55




Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten 

Doel: schatten van de variantiecomponenten voor een zo ruim mogelijk universum van meetscores (d.i., m.b.t. zo veel mogelijk relevante meetfacetten)



Opmerking: Een volledig gekruist opzet laat, in vergelijking met (partieel) geneste opzetten, de schatting van een groter aantal variantiecomponenten toe



De actuele bepaling van de waarde van de variantiecomponenten gebeurt m.b.v. procedures uit de variantie-analyse  dit is een methode van data-analyse o

De methode is een speciaal geval voor de analyse van responsvariabelen volgens het algemeen lineair model



Voorbeeld: Een G-studie aan de hand van een volledig gekruist opzet ( x x ) van studenten ( ), vragen ( ) en beoordelaars ( ) levert, na toepassing van variantie-analyse de volgende schattingen (notatie: met een hoedje) van de variantiecomponenten:



De schattingen van de variantiecomponenten wijzen op twee problemen: o

Aanzienlijke verschillen in de moeilijkheid tussen de examenvormen

o

De moeilijkheid van de examenvormen varieert aanzienlijk van student tot student



Doel: gebruik van de in de G-studie bekomen schatting van de variantiecomponenten voor beslissingen i.v.m. de samenstelling van een meetinstrument met een aanvaardbare nauwkeurigheid. De beslissingen betreffen o.m. het vereiste aantal niveaus voor de meetfacetten (Hoeveel vragen? Hoeveel beoordelaars? Welke vorm?)



M.b.t. de nauwkeurigheid van de meting wordt een onderscheid gemaakt tussen de nauwkeurigheid van: o

Relatieve metingen: de onderlinge positie van de meetobjecten t.o.v. elkaar (relatieve positie)  meting beogen op intervalniveau


Decisiestudies (D-studies)

56

o

Absolute metingen: (een schatting van) de absolute universumscore (dit is t.b.v. de vergelijking met een drempelwaarde)  meting beogen op rationiveau Bv: examenuitslag vergelijken met een vooropgestelde drempelwaarde

Meetnauwkeurigheid 

In de KTT kent men twee maten voor de meetnauwkeurigheid: o

Onvoorwaardelijke meetnauwkeurigheid: de betrouwbaarheid

o

Voorwaardelijke meetnauwkeurigheid

( 

)

met:

(standaardmeetfout) met:

√

Bij de generaliseerbaarheidstheorie wordt de meetnauwkeurigheid van een D-studie in het algemeen gedefinieerd als:

 Merk op: men gebruikt universumscores i.p.v. truescores



De variantie van de meetfout is afhankelijk van / verschillend naargelang: o

De opzet van de studie (combinatie van meetfacetten)

o

Het aantal niveaus van de meetfacetten

o

De aard van de meting (d.i. relatieve vs. absolute meting)

Principes van de bepaling van de meetfoutvariantie Bij de bepaling van de meetfoutvariantie bij een relatieve meting ( ), spelen enkel de variantiecomponenten i.v.m. de interactie van de meetfacetten met het object van meting een rol, omdat enkel deze effecten de relatieve orde van de meetobjecten verstoren o

Voorbeeld: Bij een gekruist opzet ( x

x ) met

object van meting, zijn enkel de componenten 

en ,

als meetfacetten en het en

belangrijk

Bij de bepaling van de meetfoutvariantie bij een absolute meting ( ), spelen alle variantiecomponenten, uitgezonderd de component i.v.m. het meetobject, een rol o

Voorbeeld: Bij een gekruist opzet ( x belangrijk

x ) zijn de componenten

,

en




57



Zowel bij de relatieve als bij de absolute meting is de bijdrage van een relevante variantiecomponent tot de meetfoutvariantie omgekeerd evenredig met het aantal (combinaties van) niveaus van de meetfacetten die met de component geassocieerd zijn o

Voorbeeld 1: Bij een gekruist opzet ( x

x ) met

en

object van meting, is niveaus voor de meetfacetten o

als meetfacetten en het , met

en

en in de D-studie

Voorbeeld 2: Bij datzelfde opzet ( x

x ) met

en

als meetfacetten en

object van meting, is

, met

het aantal niveaus voor de meetfacetten o

Voorbeeld 3: Bij een genest opzet

o

het en

en in de D-studie

x ( ) met

en

object van meting, is niveaus voor de meetfacetten

het aantal

als meetfacetten en

, met

en

het

het aantal

en in de D-studie

Voorbeeld 4: Bij datzelfde opzet

x ( ) met

en

als meetfacetten en

object van meting, is aantal niveaus voor de meetfacetten

, met

en

het het

en in de D-studie

Coëfficiënten van meetnauwkeurigheid 

M.b.t. relatieve metingen wordt de meetnauwkeurigheid van een meetprocedure uitgedrukt via de generaliseerbaarheidscoëfficiënt, , met:



De componenten van

(dit is

en

beoogde

) worden geschat via de in een

passende G-studie bekomen waarden voor de variantiecomponenten De -coëfficiënt stemt overeen met de verwachte waarde van de gekwadrateerde correlatie tussen de geobserveerde scores en de universumscores van de meetobjecten

= ( o

) Voorbeeld 1: Stel dat een -studie voor een gekruist opzet met en als meetfacetten en het object van meting resulteerde in de volgende schattingen van de variantiecomponenten:




58

We plannen een -studie met een gekruist opzet waarbij de studenten, , allen dezelfde twee examenvragen, , afleggen, verbeterd door dezelfde twee beoordelaars, . In dat geval is:

Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:

̂

o

̂ ̂

Voorbeeld 2: Gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met een gedeeltelijk genest opzet, , met twee examenvormen ( ) en vier beoordelaars ( ):

Voor dit opzet geldt de volgende decompositie:

en is

̂

̂


o

Voorbeeld 3: Nog steeds gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met het volgende gedeeltelijk genest opzet, , met vijf examenvormen ( ) en drie beoordelaars ( ):

Voor dit opzet geldt de volgende decompositie:


̂

̂ ̂

59

̂

̂

en is

̂

̂


̂



̂ ̂

M.b.t. absolute metingen wordt de meetnauwkeurigheid meetprocedure uitgedrukt via de index of dependability, , met:

van

een

beoogde

Ontwerp D-studies met beoogde meetnauwkeurigheid 

Doel: het ontwerpen van meetprocedures m.b.v. een D-studie zodat de meting voldoende nauwkeurig is (d.w.z. zodat de G-coëfficiënt voldoende hoog is)



Voorbeeld: Aansluitend op de volgende -studie plan ik een meting a.d.h.v. een gekruist opzet ( x x ), zodat de generaliseerbaarheidscoëfficiënt minstens 0.80 is

 Er zijn minstens 4 beoordelaars en 5 vragen nodig

̂

̂ ̂

̂


 Hoeveel examenvormen en/of beoordelaars moet ik minstens inschakelen zodat de Gcoëfficiënt minstens x is?

̂

60



Generaliseerbaarheidstheorie voor het opzetten met zowel fixed (bv: het hele curriculum beschikbaar, maar we hebben enkel het vak psychometrie nodig) als random meetfacetten.



Generaliseerbaarheidstheorie voor ongebalanceerde opzetten (d.i. het opzetten met ongelijke aantallen facetniveaus genest binnen een ander facet)



Multivariate generaliseerbaarheidstheorie


Extra

61

62


3. Itemresponstheorieën Document psir105 Document psir205

Overzicht 

Situering, basisconcepten en aannamen



Soorten Itemresponstheorieën



Schatting subjecten itemparameters



Testinformatie en testconstructie



Modeltoetsen



Toepassingen: o o

Geautomatiseerd testen Adaptief testen

Inleiding 

Dit wordt ook wel de Moderne Testtheorie genoemd



De focus ligt op gescoord itemgedrag; men probeert expliciet de relatie tussen het gescoorde item en het latent kenmerk te modelleren

Situering, basisconcepten en aannamen Situering en basisconcepten 

Itemresponstheorieën betreffen de samenhang tussen het gescoord responsgedrag op een testitem (d.i. het gescoord antwoord op testitem ) en de positie van het subject m.b.t. het vermoede, onderliggende latent kenmerk (d.i. de trekscore van subject op trek )  en zijn kansvariabelen



De samenhang tussen het gescoord antwoord op testitem individu wordt gedefinieerd m.b.v. de regressiefunctie



De regressiefunctie (voor het geheel van mogelijke waarden van ) wordt ook de Itemkarakteristieke functie of curve (IKF) of traceline van het item genoemd



Er wordt een onderscheid gemaakt voor itemresponstheorieën voor metrisch en discreet gescoorde items o

Bij metrische items is het responsgedrag continu en wordt het metrisch (dus op interval of ratio niveau) gescoord

o

Bij discrete items is het responsgedrag discreet en wordt het nominaal gescoord (bv: juist (score 1) of fout (score 0) bij dichotome items)

3. Itemresponstheorieën

en de trekscore van een

63



Itemresponstheorieën kunnen ook opgedeeld worden in latente klassenmodellen (de trek is discreet, d.w.z. met een beperkt aantal mogelijke waarden) en latente trekmodellen (de trek is continu)  Vanaf hier enkel aandacht voor unidimensionele latente trekmodellen voor discrete (meer bepaald, dichotome) items

Aannamen onderliggend aan IRT voor dichotome items 

De itemrespons is een functie van een onderliggend continu latent kenmerk



De items zijn unidimensioneel: één enkele latente trek volstaat om de samenhang tussen de items te verklaren (d.w.z. dat de items lokaal onafhankelijk zijn)

met

:

de (voorwaardelijke) kans om item correct op te lossen, gegeven de waarde voor de trek



Al naargelang het IRT model wordt ook een specifieke aanname omtrent de aard van de regressiefunctie gemaakt



Bemerk dat met dichotome items:

 Er zijn maar twee mogelijke uitkomsten

Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items



Er wordt een onderscheid itemresponstheorieën:

gemaakt

tussen

verschillende

modellen

voor

o

Deterministische modellen (de kans heeft maar 2 mogelijke waarden 0 en 1)

o

Probabilistische/stochastische modellen (de kans neemt alle mogelijke waarden aan tussen 0 en 1) 

Parametrische modellen (bij deze modellen is de regressiefunctie gekenmerkt door een aantal parameters, er wordt verwezen naar de items)



Niet-parametrische modellen (de functie is niet belast met items)

Hierna worden enkel de meer gebruikelijke parametrische modellen behandeld




64

Deterministische modellen GUTTMAN MODEL 

Oudste model: ca. 1940 (context: attitudemetingen)



Regressiefunctie

gedefinieerd als:

{



met

de itemmoeilijkheid

Opmerking: dit is niet echt een realistisch model, want het laat maar twee kansen toe, nl. 0 en 1 (het is dus te simpel)

Stochastische modellen NORMAALOGIEFMODEL (LORD, 1953) De regressiefunctie (IKF)

[ met

is:

]

∫

(

√

)∫

⁄

de standaardnormaaldistributiefunctie de standaardnormaaldichtheidsfunctie

 Normaalogiefmodel met 2 itemparameters met waarde 1




65

[

]

Zeer slecht item, want het discrimineert niet. Waar je je ook bevindt op het -continuüm, je hebt altijd evenveel kans om het item correct op te lossen

Dit is het makkelijkste item Dit is het moeilijkste item Zeer slecht item, maar beter als traceline (1), want het discrimineert minimum



is een waarde om te discrimineren tussen een hoge en lage waarde op de trek: hoe hoger, hoe preciezer het item discrimineert



Bij een parameter gaat het over de moeilijkheid van een item: hoe hoger, hoe meer rechts de traceline zich bevindt  hoe hoger de waarde

o

Waar je je ook bevindt op het continuüm, … 

Je hebt altijd meer kans om item (3) op te lossen dan item (4)



Je hebt altijd meer kans om item (5) op te lossen dan item (6)

Parameters: 

: parameter van de discriminatieve kracht van het item



: parameter i.v.m. de moeilijkheid van het item

o

Als

o

Als

o

(( Als

[

[

{

]

voor alle waarden voor

dan is:

]

[ [

]]

[ [ [

]] [ ]

]


o

moet zijn

66

[ [ (



]

√

)] √

 De helling van de raaklijn voor 

is evenredig met

))

Er is echter een numeriek probleem met het normaalogiefmodel: De waarde van de standaardnormaaldistributiefunctie is niet analytisch evalueerbaar (het is met andere woorden moeilijk uit te rekenen wat de waarde is van die functie)

o

Echter:

met o

: de logistische functie

Dus:

[

]

[

]

Eén parameter logistisch model: Rasch model BASISFORMULERING 

Alle items hebben dezelfde discriminatieve kracht en dan houd je maar 1 parameter over



Regressiefunctie (IKF) van het model is:

[ met

constant voor alle

(

]

) (

)

kan vervangen worden door

(want de

discriminatieve kracht is voor elk item gelijk)



Noteer: o

: subject abilit : itemmoeilijkheid

{

(

dan

) (

)

Subject ability = de plaats van het subject op het onderliggend continuüm

 

Immers:

: :

itemgemakkelijkheid subject ability

De relatie tussen en is omgekeerd (kunnen nooit negatieve waarden zijn)


MULTIPLICATIEVE FORMULERING RASCH

67

Opmerking:

i.t.t.

KARAKTERISTIEKEN VAN ITEM- EN SUBJECTPARAMETERS 

Parameters kunnen bepaald worden tot op een additieve resp. multiplicatieve constante:

( ) ( ) 

Item- resp. subjectparameters kunnen onafhankelijk van elkaar bepaald worden: specifieke objectiviteit  Welke steekproef we ook gebruiken om de parameters te schatten, de geschatte parameters zullen altijd dezelfde waarden hebben, op de constante na (afh. van de formulering). D.w.z. dat we dezelfde schaling zullen vinden

SPECIFIEKE OBJECTIVITEIT: VERGELIJKING TUSSEN TWEE ITEMS 

Odd =

:

de kans om het item juist op te lossen in verhouding tot de kans om het item verkeerd op te lossen



⁄

Odds-ratio voor het oplossen van item vs. :



⁄

{ }



De verhouding tussen de itemgemakkelijkheden is constant, ongeacht de latente trekscore van de subjecten. Vergelijk met de moeilijkheidswaarden zoals gedefinieerd in de KTT



Dus bij de vergelijking tussen 2 objecten:

⁄ ⁄


⁄ ⁄

68

SPECIFIEKE OBJECTIVITEIT: ENKEL RASCH MODEL



Veronderstelling: tracelines hebben dezelfde helling



Maar: welke van de items de moeilijkste is, hangt af van individu tot individu o

Subject v vindt item i het moeilijkst om op te lossen, terwijl subject w item j het moeilijkst vindt (?)  dat verschil mag niet bij het Rasch model: dus geen sprake van specif. object.

o

De helling van de traceline van de 2 items is verschillend (en beide items hebben dus een verschillende discriminatieve kracht)

o

Bij het tweede item j is de kans groter dan 0 om het item juist op te lossen, zelfs al scoor je oneindig laag

Twee- en drie-parameter model 

Traceline = discrimineerbaarheid van het item (hoe steiler de helling, hoe beter discrimineerbaar)



Er is geen specifieke objectiviteit meer, maar de modellen zijn realistischer



Twee-parameter model:

]

 De tracelines hebben een verschillende helling; dit heeft te maken met de aparameter 

Drie-parameter model: (Opgesteld om te vermijden dat mensen juist antwoorden door te gissen)

[

]

met

: gis-coëfficiënt


[

69

Schatting van de modelparameters: subjecten itemparameters 

De modelparameters omvatten het geheel van de item- en de subjectparameters



Bv: Rasch model



o

Itemparameters: de set , of de formulering van het model

o

Subjectparameters: de set

,

met = 1, …, of

(aantal items), al naargelang

met = 1, …,

(aantal subjecten)

In wat volgt, bekijken we eerst het geval waar de itemparameterwaarden bekend (reeds geschat) zijn en enkel nog de subjectparameters dienen bepaald te worden

Schatten van de subjectparameters 

De itemparameterwaarden zijn reeds bekend/geschat



Het schatten van de subjectparameters gebeurt m.b.v. de methode/het principe van de maximale aannemelijkheid (vgl. met ‘methode van de kleinste kwadranten’, Statistiek II)



Aannemelijkheid (likelihood): kans van het antwoordpatroon



Notatie: {



Voorbeeld: Voor het antwoordpatroon is de aannemelijkheid (cfr. principe van lokale onafhankelijkheid)



Alle drie de componenten kunnen op dezelfde manier worden uitgedrukt (niet soms P, soms Q)



DUS:

∏ Bemerk dat de aannemelijkheid (likelihood) functie is van de waarde van 

Dus: de aannemelijkheid (de kans om het item juist op te lossen) varieert naargelang de waarde van


o

met bijvoorbeeld

70



We gaan de hoogste score van corresponderend met de hoogste aannemelijkheid (max. likelihood) gebruiken als schatter



(( Opmerking:



Schatten van de subjectparameter betekent zo bepalen dat maximaal is. M.a.w. bepaal of met:

[

{∏

∑

{ (

}

)

∑

(

)}

] : natuurlijke logaritme van de likelihood

{

(een functie van )

}

∑

))

Aannemelijkheid van een geheel van antwoordpatronen,



 de subjecten zijn onderling onafhankelijk, iedere rij is een subject

(

)

∏

∏

 functie van het geheel van subjectparameters

BIJ HET RASCH MODEL Eigenlijk geen parameter meer

 Kans om het item juist op te lossen

Kans om het item fout op te lossen

∏ ∏



]

[

]

∏

heeft waarde 0 of waarde 1; deze formule klopt voor beide waarden

De likelihood ( ∏ ) is functie van de waarde van de subjectparameter multiplicatieve formulering) of van (basisformulering)

Voorbeeld: Schatting

(in de

, gegeven Hoe hoger, hoe moeilijker het item



Gegeven:

en


o

[

71

Itemgemakkelijkheid



Dus:



Probleem: Bepaal



Oplossing: Iteratieve methode



Illustratie berekening aannemelijkheid:

∏

zo, dat

Stel, bijvoorbeeld:

{



De aannemelijkheid

:



Stel, anderzijds,



De aannemelijkheid

maximaal is

{ :

 hier is de aannemelijkheid al heel wat groter

Enzovoort voor andere waarden voor



Overzicht:

……

Maximale aannemelijkheid wordt geprefereerd (toepasbaar; psychometrie), maar anders is methode van de kleinste kwadraten (statistiek) ook goed.  Dezelfde schatting van de parameters




72

Eigenschappen van een maximale aannemelijkheidschatter 

Is ̂ een MA-schatter voor , dan is ̂ : o

Consistent:

(| ̂

|

)

De schatter ̂ convergeert naar (de ware waarde van) naarmate  het convergeert naar de exacte parameterwaarde naarmate het op een groeiend aantal items gebaseerd is = consistent

o

Efficiënt: De variantie van de steekproevenverdeling van ̂ (

̂)

is asymptotisch

minimaal  asymptotisch minimaal (bij groeiend aantal items): zo klein mogelijk (~gekenmerkt door een steekproevenverdeling met de kleinste variantie)

o

(Asymptotisch) normaal verdeeld  als het op een groeiend aantal items gebaseerd is, neigt het meer en meer naar een normaalverdeling (de steekproevenverdeling van )

o

Functie van een voldoende statistiek: Een voldoende statistiek is een functie van de data (d.i. de gescoorde itemantwoorden) die alle informatie bevatten die nodig is om de waarde van de parameter te schatten (Statistiek II)  

Schatters zijn realisaties van kansveranderlijken Bv.: Om mijn schatter te bekomen, is de statistiek ( ̅) voldoende. Ik heb de afzonderlijke scores niet nodig (een statistiek = elke functie van de data (1 element = een statistiek, som = een statistiek, …)

Testinformatie en testconstructie Informatiefunctie van een test De meetprecisie (hoeveelheid info) van een test als functie van de waarde van (~ voorwaardelijke meetprecisie uit de KTT)

:

̂

(

∑

) (

)

ALGEMEEN: hoe preciezer je dit kan schatten, hoe smaller de steekproevenverdeling

ALGEMEEN: generieke vergelijking (geldt voor elke likelihoodschatter)

∑

RASCH: geldt enkel voor het Rasch-model

met Bemerk dat

een functie is van

omdat

en

dat zijn




73

Informatiefunctie van een item 

De meetprecisie (hoeveelheid info) van een item als functie van de waarde van

:

RASCH: geldt enkel voor het Rasch-model



Bemerk dat

maximaal is als

(dit is een kans van 0.50 om het item correct op te lossen)



Voor welke waarde van item) maximaal zijn?  Als

zal de waarde van

(= de informatiefunctie van een

precies gelijk is aan de moeilijkheidswaarde van het item



Bemerk dat we, gegeven een schatting voor en de itemparameters, de meetprecisie van elk item (ook een nog niet aangeboden item) kunnen berekenen



Dit is een gegeven van groot praktisch belang voor de testconstructie: de test kan aan het individu aangepast worden (adaptief testen)

Modeltoetsen 

De informatiefunctie (van een toets of item) berekenen is niet beperkt tot het Raschmodel, maar kan ook bij andere modellen gebruikt worden, zoals het twee- en drieparameter model. Het Rasch-model is enkel simpeler



Om na te trekken of de assumpties van een IRT-model in overeenstemming zijn met de data (testen op houdbaarheid), zijn tientallen procedures en toetsen ontwikkeld



Toetsen die natrekken of een itemcollectie voldoet aan de vereisten van het Raschmodel: o

Toets van Wright & Panachapakesan

o

Toets van Andersen

Toets van Wright & Panachapakesan [

]

∑

De gestandaardiseerde frequentie wordt gesommeerd

∑

Met [

   

[

( )] ]

( ) ( )

⁄




: aantal items

74



: aantal scoregroepen (d.i. groepen van individuen met dezelfde totaalscore)



: aantal individuen in scoregroep



: aantal individuen uit scoregroep

dat item

correct beantwoordt

(= binomiale kansveranderlijke) 

: de uit het model afgeleide kans dat een individu uit scoregroep item oplost

 Wanneer de toetsgrootheid > de kritieke waarde, wordt de nulhypothese verworpen

Toets van Andersen 

De toets is toepasbaar als de individuen op grond van een ander kenmerk dan hun testscore in groepen kunnen ingedeeld worden o



Bv.: man-vrouw, leeftijd, kleur van ogen, …

De toets is eveneens een

[

(

]

toets: ̂

∏ ̂

De volledige matrix (bv. groene + bruine + blauwe ogen)

) Bv. de groep met blauwe ogen

Met

̂ :

de met geschatte parameterwaarden samenhangende likelihood

̂

van de data van subgroep j de geschatte likelihood voor het geheel van de subgroepen

:

Toepassingen Er zijn verschillende toepassingen mogelijk van de itemresponstheorieën: o

Ontwerp mastery tests

o

Vertical equating: het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben

o

Item bias: natrekken of testitems bepaalde subjectgroepen benadelen

o

Adaptief testen: testen op maat van het individu 

Een test is adaptief zo de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items




75

Ontwerp mastery tests 

Dit is het ontwerpen van een test die zo goed mogelijk discrimineert tussen individuen die onder een bepaalde vooraf opgestelde kritieke waarde scoren en individuen die erboven scoren



Masters hebben een trekwaarde

zodat

Non-masters:

o

De trekwaarde moet minstens gelijk zijn aan een vooropgestelde kritieke waarde (drempel), bv. je slaagt voor het examen psychometrie als je minstens 10/20 haalt

o

Bij non-masters ligt de score lager dan die kritieke drempelwaarde



Een mastery test is een test met een speciale informatiefunctie. Het is namelijk een test die bijzonder goed discrimineert tussen masters en non-masters, en die m.a.w. zeer gevoelig is (een grote informatiewaarde heeft) in de nabijheid van de waarde voor de latente trek



Deze test wordt vooral toegepast in een educatieve context  Elk examen beoogt een masterytest te zijn

INFORMATIEFUNCTIE VAN EEN MASTERY TEST



Als we over schattingen van de itemparameterwaarden beschikken, dan kunnen we technieken voor het oplossen van 0-1 lineair programmeringsproblemen aanwenden Verklarende noot: (0-1) lineair programmeringsprobleem o

Een programmeringsprobleem is een probleem waarbij een functie van de probleemvariabelen (d.i. de doelfunctie) moet geoptimaliseerd (gemaximaliseerd of geminimaliseerd) worden


MASTERY TEST: HOE?

76

o

Constrained programmeringsprobleem: het optimum van de doelfunctie moet gevonden worden onder de conditie dat de oplossingswaarden voor de probleemvariabelen aan een aantal restricties voldoen

o

Lineair programmeringsprobleem: de doelfunctie en restricties zijn lineair in de probleemvariabelen (anders: niet-lineair programmeringsprobleem)

o

(0-1) programmeringsprobleem: alleen de waarden 0 en 1 zijn toegelaten voor de probleemvariabelen (dit geldt zowel voor een lineair als een niet-lineair programmeringsprobleem)

o

Voorbeeld niet-lineair programmeringsprobleem: (niet-lineaire doelfunctie) Mits (lineaire restrictie) (lineaire restrictie) Met

de set van probleemvariabelen

Oplossing: en waarde voor de doelfunctie 

met -

als geoptimaliseerde

Benadering 1: Opstellen van een test met zo weinig mogelijk items die toch voldoende onderscheid maakt tussen masters en non-masters. D.w.z. een zo kort mogelijke test die voldoende informatie biedt voor gelijk aan (d.i. een informatiewaarde minstens gelijk aan ):

∑ Mits

∑

o

: item i wordt toegelaten in de test

o

: item i wordt niet toegelaten in de test

o



De informatiewaarde van een test is iets minder dan het geheel aan informatiewaarden van de items. Het doel is dus om die items die voldoende informatie bieden in de test te steken

Benadering 2: Opstellen van een test die maximaal uit items bestaat en toch zo goed als mogelijk een onderscheid maakt tussen masters en non-masters:


Kritieke drempelwaarde voor de trek

Mits

77

∑ o

Met, zoals voorheen, probleem:

de set van (0-1) variabelen van het programmeringswaarbij

o

: item i wordt toegelaten in de test

o

: item i wordt niet toegelaten in de test

Vertical equating 

Dit is het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben (Vertical equating kan je hanteren als items voldoen aan het Rasch model)



Stel testen A en B, met



In het Rasch model:

(̂

 

̂

̂

∑

gemeenschappelijke items Itemmoeilijkheden

) en (̂ (̂

̂

̂

) zijn identiek (op een additieve constante

na)

)

Bijvoorbeeld: Numerieke intelligentie bij kinderen

A = 5-7 jaar

en

B = 8-12 jaar

o

Vraag ontwikkelingspsychologie: Groeit numerieke vaardigheid met de leeftijd? (Hoe evolueert de 1e categorie t.o.v. de 2e categorie?)

o

2 verschillende testen die minimum een aantal items gelijk hebben (test A en B)  subjectgroepen situeren op eenzelfde schaal: kan niet bij KTT (enkel binnen subjectgroepvergelijking)

o

Binnen de KTT zijn dit soort vragen moeilijk op te lossen

Item bias 

Natrekken of testitems bepaalde subjectgroepen benadelen



Differential Item Functioning (DIF) als indicatie voor item bias: gegeven dezelfde waarde voor de trek heeft de ene groep systematisch minder kans om het item correct op te lossen dan de andere groep Bijvoorbeeld: numerieke vaardigheden -

Bovenste lijn = mannen Onderste lijn = vrouwen

 De kans om het item correct op te lossen is voor vrouwen kleiner dan voor mannen (discriminatie)


 Is het zo dat een bepaalde test vrouwen, zwarten, allochtonen, … discrimineert?

78



Nagaan van DIF: Vergelijk de itemparameterschattingen bekomen via aparte analyses van de subgroepdata

Geautomatiseerd testen 

Testafname, scoring en (eventueel) omscoring naar normen gebeurt computergestuurd



Bijvoorbeeld: o RAVEN MATRICES / WAIS o MMPI / CATELL16PF

 ability  persoonlijkheid

VOORDELEN 

Afname en scoring zonder personeel



Grotere standaardisatie van de afnamecondities



Snelheid van de afname en de scoring: onmiddellijk scores, normen en profielen



Flexibiliteit in testafname (de test kan aangepast worden aan specifieke noden)



Gemakkelijk bijhouden van data en updaten van normen



Testbeveiliging: geen boekjes die verdwijnen

Adaptief testen 

Testen op maat van het individu. Een test is adaptief als de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items  De aanbieding van het volgende testitem is in functie van het voorafgaande responsgedrag Er zijn verschillende types van adaptief testen: o

Fixed branching

o

Model based branching  

Vooral power (capaciteiten, bekwaamheden) Meestal IRT-gebaseerd 3. Itemresponstheorieën



79

FIXED BRANCHING



Zelfde aantal items per subject (en iedereen begint met hetzelfde item)



De boomstructuur ligt vast (voor het geheel van items)



Keuzes zijn irreversibel



Na elk antwoord is de keuze beperkt tot 2 items (eenvoudig geval) o

Bv.: wanneer iemand item 2 juist beantwoordde, kan deze item 4 niet meer krijgen



Problematische estimatie subject ability



Bv: De boom is 20 items ‘diep’, maar proefpersonen krijgen mogelijk 20 verschillende items

MODEL BASED BRANCHING 

 Vooral power (capaciteiten, bekwaamheden); meestal IRT-gebaseerd



Power (geen speed) tests  praktische beperking voor het soort kenmerken dat je kan meten



Begin: fixed branching Eventueel: Bayesiaans algoritme



Eens {

} kan een schatting ̂ (een eerste initiële schatting), van de subjectparameter

via maximum likelihood bepaald worden en kan de keuze van het volgend item via infomaximalisatie berekend worden (als het subject altijd juist (de waarde van een trek van een individu)

of fout blijft antwoorden, kan men geen 1e initiële schatting maken)

Het aantal items is niet vast per subject, want de test wordt geconstrueerd op maat van het individu (het proces van convergerende schattingen zal sneller gaan bij het ene individu dan bij de ander)

o

( ̂ ) : de informatiewaarde van item

, vertrekkende van de gegeven schatting voor

 doel: item met de meeste informatiewaarde bekomen




80



Voorbeeld Model Based Branching: o

o

Startitems: 

Populatiegemiddelde

 

Normgemiddelde Bayesiaans

We kunnen pas een schatting maken als het individu min. 1 juist en 1 fout antwoord heeft gegeven, omdat we pas een eindige waarde verkrijgen na 1 juist en 1 fout antwoord van het subject (niemand is oneindig slim of oneindig dom)

Item met gestandaardiseerde moeilijkheid van 1.65 (slechts 5% antwoordt juist)



Cfr. geautomatiseerd testen



Power van de test is hoger o

± 50% tijdsefficiënt (bij andere testen moet je eerst alle items door)

o

Uniforme meetaccuraatheid (IRT)

o

Globaal accurater



Meer gemotiveerde subjecten



Item-bias kan nagegaan worden



Vertical equating mogelijk (IRT)



Nog grotere testbeveiliging: geen communicatie over items meer mogelijk


VOORDELEN

81

VERGELIJKING ADAPTIEVE TEST EN CONVENTIONELE TEST Meet overal even accuraat


Nauwkeuriger in het midden

82

4. Schaalmethoden Document pssm105 Document pssm205

Inleiding 

Doel: gegeven passende gegevens, schalen (meten) van psychologische objecten volgens een bepaald model (theorie) o Passende gegevens: gegevens van een meetniveau dat niet groter is dan categorisch of ordinaal niveau  overzetten naar een hoger intervalniveau



Assumptie: unidimensionaliteit  d.w.z. dat er wordt aangenomen dat de te schalen objecten wezenlijk in slechts één, enkelvoudig aspect van elkaar verschillen o

 multidimensionaliteit: de te schalen objecten bevatten meerdere aspecten



Schaaltechniek vs. schaalcriterium: bij een schaalcriterium ligt de klemtoon niet op de schaling van de objecten (= het daadwerkelijk toewijzen van scores aan objecten) maar op het natrekken van het vooropgesteld model



Belang: constructie van attitudevragenlijsten, enz.

Overzicht: welke schaaltechnieken/schaalcriteria? 

Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)



Cumulatieve schalen (criterium) (eerste IRT, Guttman, ca. 1940)



Gelijkschijnende intervallen (Thurstone en Chave, 1929)



Successieve intervallen volgens Edwards



Successieve intervallen volgens Thurstone (Wet van het categorisch oordeel)



Summated ratings techniek van Likert (1932)

Inleiding 

Bijvoorbeeld: het historisch belang van bepaalde figuren schalen

4. Schaalmethoden

Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)

83

Overzicht      

Passende gegevens Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen Van frequenties naar proporties (P-matrix) Van proporties naar z-waarden (Z-matrix)  Interval-meetniveau Schaalwaarde items bepalen Controle interne consistentie

Passende gegevens  Paren toevoegen aan onze objecten:

GEGEVENS: 1 INDIVIDU -

N = Napoleon C = Caesar R = Rousseau V = Voltaire E = Einstein

 De rijstimulus wordt verkozen boven de kolomstimulus 0: preferentie kolomstimulus 1: preferentie rijstimulus Bv.:

Einstein boven Voltaire Voltaire boven Caesar En toch Caesar boven Einstein  intransiviteit

Vóór aggregatie: Zijn er intransiviteiten? Zijn er schendingen op de regel van de intransitiviteit? o

Verklarende noot: intransiviteiten 



Het keuzepatroon van het individu moet transitief zijn als we de situatie unidimensioneel bekijken

Dus:

(R,V) (V,E) (R,E)

V E E



Daartoe vervolledigen van de gegevensmatrix (onderdriehoek): a.d.h.v. de gegevens uit de bovendriehoek, individu per individu



Alle schendingen over de individuen optellen (men wil die eruit halen)

4. Schaalmethoden



84

Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-MATRIX VAN EEN GROEP (N = 200)  De frequentiematrix geeft aan hoeveel keer de rijstimulus boven de kolomstimulus verkozen werd Ordenen van de totaliteit van het geheel van de stimuli Als er 186 voor Caesar hebben gekozen, dan hebben de overige 14 personen voor Napoleon gekozen Totaal van de afwijzingen Som van de verkozenen en afwijzingen

 

∑

:

totaal afgewezen

∑

:

totaal verkozen (aantal keer dat een rijstimulus verkozen wordt boven de kolomstimulus; marginale frequentie)



Bovendriehoek eerst invullen en dan kun je gemakkelijk de onderdriehoek vervolledigen (som = N)



Merk op:

HERORDENEN VAN DE F-MATRIX

 ! ordinale schaling van de objecten !

Van frequenties (F-matrix) naar proporties (P-matrix)

Als je moet kiezen tussen bv. Einstein en Einstein, kies je het ene moment voor de ene Einstein en het andere moment voor de andere Einstein

4. Schaalmethoden

 Proporties uitgedrukt in standaarnormaaldeviaties

85

Van proporties (P-matrix) naar z-waarden (Z-matrix)  Interval-meetniveau

INLEIDING 

Waarom? In plaats van een ordinale, beogen we een interval meting



Achtergrond: Law of comparative judgement (Thurstone, 1927)



Praktisch: zie tabel

WET VAN HET VERGELIJKEND OORDEEL (LAW OF COMPARATIVE JUDGEMENT, THURSTONE) Individuele oordelen



en

: (normaalverdeelde) kansveranderlijken i.v.m. het oordeel (rating)

Stimulus en : {

(̅

)

(̅

)



Vergelijkende oordelen 

: vergelijkend oordeel stimulus

(̅ (Zo (

)

) 

Het individueel oordeel van stimulus heeft een grotere variantie (en spreiding) dan het individueel oordeel van stimulus

Het verschil van 2 (normaal verdeelde) kansveranderlijken is ook een (normaal verdeelde) kansveranderlijke

vs.

) het verschil van 2 individuele oordelen is enkel normaal verdeeld als de 2 kansveranderlijken bivariaat normaal verdeeld zijn (niet per definitie)

4. Schaalmethoden



86



: Gestandaardiseerd equivalent

̅





is standaardnormaalverdeeld

De proportie stimulus verkozen boven stimulus is gelijk aan de kans dat een standaardnormaalverdeelde kansveranderlijke kleiner is dan de standaardscore !

((

) ̅

(

Kennen we 

) ̅

(

)

)

(

)

?

JA, want bij de standaardnormaalverdeling is er een éénduidige correspondentie tussen en

zodat we, gegeven

(

)

,

kunnen bepalen

als:

( 

Bijgevolg, daar kwantielfunctie)

) gekend is, kan

bepaald worden a.d.h.v. de z-tabel (

is een

 Als we de proportie kennen, kunnen we via de tabel vinden wat de waarde is van het overeenstemmende equivalent van



Bijvoorbeeld: o

Stel

, dan is de corresponderende waarde

o

Stel

, dan is de corresponderende waarde

4. Schaalmethoden

 Dan: de proporties omzetten naar -waarden

87

Tabel omzetting P-waarde naar z-waarde

Wat weten we nu over ̅ en ̅ ? 

̅

Daar

, volgt dat:

̅ ̅

̅ ̅



̅

Op de meeteenheid (

) na kunnen we het verschil in schaalwaarde van stimulus

en

afleiden uit Wat omtrent

?



(

) ( )

(

( 

(

)

) )

Correlatie tussen de 2 kansveranderlijken die de individuele oordelen representeren

Bijgevolg is:

Samenvattend

̅

Standaardnormaalscore (= waarde van het bijhorend kwantiel)

̅ √

Wortel uit de variantie

4. Schaalmethoden



(

)

88

Case V: het beste onderdeel van ‘Law of Comparative Judgement’  2 bijkomende veronderstellingen/assumpties De standaarddeviaties van de kansveranderlijken zijn voor alle individuele oordelen gelijk

√ Stel {

}

{ ̅ ̅

√ √

De kansveranderlijken zijn niet gecorreleerd



De keuze van de meeteenheid is vrij bij schaling op intervalniveau! (dus kiezen we hier √ )  je mag de meeteenheid vrij kiezen (deze varieert niet meer voor paren van stimuli)

VAN DE P-MATRIX NAAR DE Z-MATRIX P-matrix

Intervalschalen die van elkaar verschillen op gebied van meeteenheid en nulpunt

Z-matrix

̅

̅

̅

̅

̅

̅

De z-waarden zijn symmetrisch over de diagonaal

̅

̅

̅

̅

̅

̅

De stimulus met de laagste schaalwaarde wijzen we de waarde 0 toe

4. Schaalmethoden

̅

Dus: alle 3 equivalent

89

Controle interne consistentie 

Nagaan of hetgeen dat we hebben vergeleken wel unidimensioneel is (screening): we kijken of de aannames realistisch zijn  We komen tot een nominaal niveau.





̅ reconstrueren

pseudo P

pseudo Z

STAP 1: Z’-MATRIX  reconstructie van de Z-matrix Schaalwaarde van de stimuli

STAP 2: P’-MATRIX  corresponderende gereconstrueerde proportiematrix (P-matrix)

4. Schaalmethoden

STAP 3: VERGELIJKING VAN DE P- MET DE P’-MATRIX

90



Gemiddelde absolute verschil P vs. P’: (0.057 + 0.012 + … + 0.094) / 10 = 0.0684 o o

Wanneer het verschil > 0,05 is  aanname onterecht Wanneer het verschil < 0,05 is  aanname terecht

BETERE TOETSING Zie slide 24 en 25: niet te kennen

WAT INDIEN EXTREME PROPORTIES? 

Bijvoorbeeld: wanneer je er Hitler zou bijnemen (niemand verkiest hem)

P-matrix

 Stel dat bij een bepaald paar (hier: Einstein – Caesar) iedereen voor dezelfde stimulus kiest, dan krijgen we een extreme proportie

4. Schaalmethoden

Z-matrix

91

 Dat systeem werkt niet meer bij extreme proporties (en oneindige waarde gaat niet) 

Zie z-tabel: het verschil tussen P0.001 en P0.002 is meer dan 200 honderdsten, wat erg groot is in de vergelijking met de verschillen tussen andere waarden in de tabel. Er is symmetrie, dus hetzelfde geldt voor P0.998 en P0.999  ook

en

Bijvoorbeeld: -0.789

Verschillenmatrix 3 schattingen o.b.v. dezelfde kwantiteit, nl. N – E

Gemiddelde schaalwaarden voor de verschillende schattingen

De schaalwaarde van V is -0,901 keer groter dan die van R

Bij de verschillenmatrix moet je beginnen met de onderste rij: die is het verschil met de waarde van de rij erboven

Bepaling van de schaalwaarden van de items 

̅

̅  We kiezen het nulpunt zo dat ̅



̅

̅

̅

̅

(want minst populair?)

⏟ ̅



̅

̅

̅

⏟ ̅



̅

̅

̅

⏟

Cumulatieve schalen (criterium) 

Kenmerken: o

De schaal is uni-dimensioneel (alle items doen vraag naar hetzelfde aspect)

o

Items hebben een welbepaalde monotone traceline (= weergave van de regressie)

4. Schaalmethoden

̅

92

* o

* Vanaf een bepaalde waarde wordt

o

Met voor

: kans dat men akkoord gaat met het item, op voorwaarde de waarde



De cumulatieve schaaltechniek van Guttman is in eerste instantie een schaalcriterium (manier om een vooropgestelde hypothese te toetsen), geen (metrische) schaaltechniek



De schaal is cumulatief  dat wil zeggen dat er een beperkt aantal responspatronen zijn (hier: akkoord (1) vs. niet akkoord (0))



Bijvoorbeeld: dichotome items: o

# toegestane responspatronen = # items + 1

(niet: 2# items)



 # items = 5



 # toegestane responspatronen = 5 + 1 = 6 (niet: 25 = 32)

Dichotome items BEPALING VAN DE TOEGESTANE ANTWOORDPATRONEN



3 stappen: o

Bepaal de basispopulariteit van de items

o

Maak een ordening naar dalende populariteit (proportie individuen uit de steekproef die akkoord gaan)  volgorde van de tracelines

o

De orde van de tracelines bepaalt de toegestane antwoordpatronen

Er moet verder geen rekening worden gehouden met de exacte waarden van de populariteit van de items, enkel de ordening is van belang voor de bepaling van het aantal toegestane antwoordpatronen

4. Schaalmethoden



93

VOORBEELD: 4 DICHOTOME ITEMS



Toegestane responspatronen: 4 items + 1 = 5 I. II. III. IV. V.



Responsvector (0, 0, 0, 0); kans dat een individu in gebied I akkoord gaat met één van de items (0, 1, 0, 0) (1, 1, 0, 0) (1, 1, 0, 1) (1, 1, 1, 1)

Met elk van de vijf zones stemt een bepaald antwoordpatroon overeen. Alle andere antwoordpatronen mogen niet voorkomen!

Polychotome items

Geen tussenliggende kansen

4. Schaalmethoden

REPRESENTATIE VAN EEN ITEM MET 4 ANTWOORDMOGELIJKHEDEN

94



Bv: ik ga … helemaal akkoord (0) – akkoord (1) – niet akkoord (2) – helemaal niet akkoord (3)  # tracelines = # antwoordalternatieven – 1 (overgang is het ene antwoord naar het andere)

TOEGESTANE ANTWOORDPATRONEN Frequentie Kolommen: percentage individuen die kozen voor een bepaald item Bv.: cumulatieve populariteit = 40 + 30 = 70 (je moet kijken naar wat er naast staat)



Cumulatieve populariteit: de populariteit van deze of een hogere antwoordcategorie



Je kan die tracelines in een tabel zetten o

8 deelgebieden (7 + 1): Voor elk deelgebied kunnen we nu vaststellen – a.d.h.v. de tracelines – wat de toegestane antwoordpatronen zijn

4. Schaalmethoden

*

95

Toepassing als schaalcriterium

1e lijn = empirisch antwoordpatroon 2e lijn = theoretisch antwoordpatroon

Voor het aantal fouten: zie

*

vorige pagina

 Totaal fouten: 2 + 0 + 2 + 0 + 2 = 6 De totale score = som item 1 + item 2 + item 3

Reproduceerbaarheidscoëfficiënt 

TAF: totaal aantal fouten



TAMF: totaal aantal mogelijke fouten (aantal items x aantal subjecten) o

Bv: hier: 3 items x 5 subjecten = 15



Reproduceerbaarheidscoëfficiënt =



Bijvoorbeeld: hier:  Dit is te laag om te geloven (aanvaarden) dat de items voldoen aan het idee van cumulatieve schalen (minstens 0.80, liefst meer dan 0.90)

Gelijkschijnende intervallen (Thurstone en Chave, 1929)



De methode der gelijkschijnende intervallen werd oorspronkelijk ontwikkeld door Thurstone en Chave (1929)



De methode van paarsgewijze vergelijking is enkel toepasbaar als het aantal te schalen objecten klein is (nadeel van die methode) o

Bv: 200 items;

4. Schaalmethoden

Situering

96



Bij de ontwikkeling van een attitudeschaal vertrekt men evenwel vaak van een groot aantal items o



Een mogelijke oplossing hier is dat we enkel die items overhouden die zorgen voor een grote spreiding

Om de items voor de definitieve schaal te selecteren, willen we de schaalwaarde én de eenduidigheid of ambiguïteit van de items kennen o

Bv: qua inhoud is “student zijn is fantastisch” ambigue

Gegevens 

De te schalen stimuli (d.i. beweringen in de context van de attitudemeting) worden één per één aan beoordelaars voorgelegd



Taak van de beoordelaars: het plaatsen van elke stimulus op een reeds in intervallen opgedeeld positief/negatief continuüm of rating schaal. Elke stimulus dient geplaatst te worden in het interval dat het beste overeenstemt met de positief/negatieve inhoud van de bewering  Rating vraagt uiteindelijk een ordinale meting van het individu. We proberen niet te veel niveaus te gebruiken en meestal een oneven aantal om een middelpunt te creëren



De rating schaal (of, attitudecontinuüm) wordt, in geval van bv. 11 intervallen, gebruikelijk als volgt verankerd: interval 1 – extreem negatief, interval 6 – neutraal, interval 11 – extreem positief



Per bewering wordt de frequentieverdeling van de antwoorden van de beoordelaars opgesteld; dit zijn de vertrekgegevens

Model



Assumpties: o

De beoordelaars percipiëren de intervallen van het attitudecontinuüm als gelijk van breedte

o

De schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als respectievelijk de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling

Uit de initiële set van beweringen wordt een subset geselecteerd zodat de geselecteerde beweringen goed spreiden over het gehele attitudecontinuüm en dat ze alle een lage ambiguïteit hebben

4. Schaalmethoden



97

Berekening kwartielen 

{

p-de kwartiel: Met: 

}

: de schaalwaarde van de ondergrens van het interval waarbinnen het kwartiel ligt : het aantal subjecten : de cumulatieve frequentie van de beoordelingen tot aan de ondergrens van : de frequentie aanstrepingen binnen het interval : de breedte van het interval (waarbinnen het kwartiel zich bevindt)

   

VOORBEELD

 Proporties  Cumulatieve frequentie  Cumulatieve proporties

{

}

o

{

o

{

}

o

{

}



Ambiguïteit:



Schaalwaarde:

}

Problematische aspecten 

In de praktijk gebeurt het vaak dat de beoordelaars nogal wat beweringen in de extreme intervallen stapelen: het end-effect



Hoewel dit end-effect samenhangt met de gegevensinzamelingsprocedure, suggereert het eveneens dat de intervallen niet als gelijk van breedte gepercipieerd worden

4. Schaalmethoden



98



Het een en ander wordt bevestigd wanneer de schaalwaarden van stimuli, bepaald volgens de methode der gelijkschijnende intervallen, vergeleken worden met de schaalwaarden van diezelfde stimuli zoals verkregen via de methode der paarsgewijze vergelijking



 Ontwikkeling van de techniek van successieve intervallen

Successieve intervallen volgens Edwards Gegevens 

Dezelfde methode van gegevensverzameling en bijgevolg ook dezelfde gegevens als bij de methode der gelijkschijnende intervallen

Model 

Assumpties: o De frequentieverdeling van de ratings is een normaalverdeling o De verdeling van de ratings binnen de extreme intervallen is symmetrisch



Methode der gelijkschijnende intervallen: de schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling



De 1ste en de 2de assumptie zijn tegenstrijdig: ze zijn in principe niet verenigbaar (inconsistentie) Hoe verder komen?

Overzicht Verschillende stappen: o

o

Schatting van de intervalbreedtes 

Middelste intervallen



Extreme intervallen (bv. interval 1 (links) en interval 7 (rechts))



 schaalwaarde intervalgrenzen

Schaalwaarde en ambiguïteitswaarde van de items

4. Schaalmethoden



99

Schatting van de intervalbreedtes GEGEVENS (FREQUENTIE)

 Totaal: 500 beoordelaars

CUMULATIEVE PROPORTIONELE MATRIX (P-MATRIX)

Q1: 0,25

Q2: 0,50

Q3: 0,75

Z-MATRIX

MIDDELSTE INTERVALLEN  Alles behalve het eerste en het laatste interval

4. Schaalmethoden

Breedte middelste interval

100

 Soms laat een interval geen schatting toe, als het niet gebruikt is door een subject

EXTREME INTERVALLEN  Het eerste en het laatste interval



Bij extreme intervallen kunnen we niet zoals hierboven te werk gaan, dan zouden we een onderschatting maken. De ondergrens van het eerste interval is namelijk 0. Om dit op te lossen, nemen we de helft van de breedte van de proportie. Eigenlijk doen we met deze correctie nog altijd een onderschatting, maar in de praktijk voldoet dit

Opgelet: dit is een onderschatting!

4. Schaalmethoden

Breedte eerste interval

101

Breedte laatste interval

Schaalwaarde en ambiguïteitswaarde van de items SCHAALWAARDE INTERVALGRENZEN

De ondergrens (nulpunt) is het punt dat de geschatte helft is, niet de werkelijke helft!

SCHAALWAARDE KWARTIELEN VOOR ITEM 1

}

{



}

{

}

{

}

Ambiguïteit:  Wanneer is de ambiguïteit voldoende laag? Dit kunnen we niet vooraf bepalen omdat het afhangt van het aantal intervallen dat we gebruiken



4. Schaalmethoden

{

Schaalwaarde:

102

Problematische aspecten 

Het model is niet consistent: een aantal assumpties zijn onderling niet verenigbaar.



De praktijk wijst uit dat het end-effect op zijn best slechts partieel opgevangen wordt o In de zin van het niet overeenstemmen van de intervalschatting van de extreme stimuli volgens paarsgewijze vergelijking en de successieve intervallen



Een modelmatig attractievere variant is de ‘methode der successieve intervallen’ (Thurstone)

Successieve intervallen volgens Thurstone NIET TE KENNEN !!

Summated ratings Likert 

Schaalconstructie en –afname (responsfase) gebeuren in 1 keer



De items zijn duidelijk positief of negatief van inhoud (het individu wordt direct naar zijn mening gevraagd)  er zijn dus geen neutrale items



De items hebben een monotone traceline

 Volledig niet akkoord: positief item met een lage waarde voor trek negatief item met een hoge waarde voor trek 

Gegevens: scores op de verschillende antwoordmogelijkheden (1 – 5)



Model



Schaalconstructie

OF



Voor elk item genereren de antwoordcategorieën een partitie (d.i. een opdeling van intervalletjes van het onderliggend attitude-item) van het attitudecontinuüm o De antwoorden zijn item per item normaal verdeeld



Niemand zegt dat de intervallen niet kunnen verschillen van item tot items: de schaling van de intervalgrenzen kan variëren van item tot item (verschillende partities)

4. Schaalmethoden

Model

103

ITEM 1

ITEM 2

ITEM 3

Schaling antwoordcategorieën 

Er is een hele hoge correlatie (

) gevonden, dus vanaf nu werken met

standaarscores 

Berekenen van de totaalscores met geschaalde scores



Bv: individu 1

totaalscore individu 1

Responsen en hun verdeling zijn een normaalverdeling (binnen de populatie althans) ≠ gelijkschijnende of successieve intervallen (andere frequentieverdeling; hier: antwoordcategorieën)

zie boven 0.35 + 0.30 0.35 + (½ 0.30)

4. Schaalmethoden



VNA: 0.7 NA: 0.2 ? : 0.3

104



Nadien kijken we welke items goed discrimineren (d.i. een item dat een gelijksoortige opdeling weergeeft voor de gemeten steekproef en voor de totaalscore van de individuen)  die in de lijst laten

Gegevens

27% met hoogste score

27% met laagste score



: alle individuen die op grond van score op een bepaald item zich als pro hebben laten kennen (pro voor dat item)



: pro voor dat item, ondanks contra groep



: contra voor dat item, ondanks pro groep



: alle individuen die op grond van score op een bepaald item zich als contra hebben laten kennen (contra voor dat item)

 Een perfecte overeenstemming laat enkel individuen zien in 

en

We proberen 5 antwoordmogelijkheden te reduceren tot 2: De dichotomiseringslijn zo dat o

maximaal is

Hier: (129 + 101) – (51 + 23) = 156

Φ-coëfficiënt De discriminatieve kracht van het item:

√ 

Echter: let steeds op de betekenis van de cellen A, B, C en D !!

4. Schaalmethoden



105

 Trucje:

Voorbeeld Een negatief item:

Bijvoorbeeld: 50 items (P) en (C) Alle items die onvoldoende discrimineren (

), laten we vallen

32 items (P) en (C) op grond van de totaalscores van de behouden items … Tot het proces stopt!

4. Schaalmethoden



106

Academiejaar PSYCHOMETRIE LESSEN + NOTA S. 0. Psychometrie. Dr. Wilfried De Corte Door: Delfien Vansteelandt

Recommend Documents