Academiejaar 2013-2014
PSYCHOMETRIE
0. Psychometrie
LESSEN + NOTA’S
Dr. Wilfried De Corte | Door: Delfien Vansteelandt
0
Inhoudsopgave 0. PSYCHOMETRIE
1
Verantwoordelijk lesgevers
1
Leerstof
1
Vragen?
1
Situering
1
Overzicht van de lessen
2
Belang
2
Extra Meetniveau: categorische vs. continue variabelen Voorbeeld intervalniveau Voorbeeld van een construct: “Verhaaltje over stress”
2 2 3 3
1. FORMULERING KLASSIEKE TESTTHEORIE
5
Overzicht
5
Wat is een psychologische test? Verklarende noot Meetniveaus
5 5 5
Klassieke testtheorie als meetmodel
6
Formulering van de klassieke testtheorie Verklarende noot Kansveranderlijken Kansdichtheidsfuncties: f(u), g(v) Distributie- of verdelingsfunctie van een kansveranderlijke: F(X = t) = P(X ≤ t) Dichtheidsfunctie (densiteitsfunctie) f(v) (Cummulatieve) Distributiefunctie (verdelingsfunctie) F(v) Verwachting (gemiddelde) van de kansveranderlijke Variantie en covariantie van de kansveranderlijke Calculus kansveranderlijken Andere notatie voor verwachting, variantie en covariantie Extra Formulering KTT: 3 stappen 1. Formulering KTT voor 1 subject en 1 test 2. Formulering KTT voor een populatie van subjecten en 1 test 3. Formulering KTT voor een populatie van subjecten en voor meerdere tests Recapitulatie verder te gebruiken notatie
6 7 7 7 7 7 8 8 8 9 10 10 11 11 12 14 15
Betrouwbaarheid Definitie van de betrouwbaarheid van een test Noot: notatie populatie- en steekproefgrootheden Noot: onderscheid schatter – schatting Methoden om betrouwbaarheid te schatten Spearman-Brown formule Verklarende noot Coëfficiënt (= Chronbach’s alfa) Verklarende noot Toepassingen van betrouwbaarheid Bepaling standaardmeetfout Schatten ware score Verklarende noot: Regressiefunctie Bepaling standaardschattingsfout (precisie waarmee de ware score geschat wordt) Correctie voor attenuatie (correlatie ware scores test X met ware scores test Y) Precisie van verschilscores Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie
15 15 17 18 18 18 21 21 24 24 24 25 26 27 28 29 29
Validiteit Definitie en traditionele validiteitsstrategieën Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Validiteit van de meting in een beslissingscontext: criteriumvaliditeit
30 30 30 34
Itemanalyse Descriptieve analyse van de itemresponsen Distractoranalyse (mc-item) Itemmoeilijkheid: p-waarde Itemvariantie Samenhang item-testtotaalscore: itemdiscriminatie Studie van de relatie tussen de items onderling
35 35 35 36 36 36 38
Beschrijvend/descriptief gebruik van testscores Transformatie van ruwe testscores Lineaire transformaties Niet-lineaire transformaties Normering
39 39 39 40 42
2. GENERALISEERBAARHEIDSTHEORIE
45
Overzicht
45
Inleiding
45
Situering, basisconcepten en overzicht
45
(Statistisch) model van de generaliseerbaarheidstheorie Basismodel: gekruist opzet met 1 meetfacet Model voor gekruist opzet met 2 meetfacetten Model voor genest opzet met 1 meetfacet Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten
46 47 48 50 51
Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten
56 56
Decisiestudies (D-studies) Meetnauwkeurigheid Principes van de bepaling van de meetfoutvariantie Coëfficiënten van meetnauwkeurigheid Ontwerp D-studies met beoogde meetnauwkeurigheid
56 57 57 58 60
Extra
61
3. ITEMRESPONSTHEORIEËN
63
Overzicht
63
Inleiding
63
Situering, basisconcepten en aannamen Situering en basisconcepten Aannamen onderliggend aan IRT voor dichotome items
63 63 64
Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items Deterministische modellen Guttman model Stochastische modellen Normaalogiefmodel (Lord, 1953) Eén parameter logistisch model: Rasch model Basisformulering Multiplicatieve formulering Rasch Karakteristieken van item- en subjectparameters Specifieke objectiviteit: vergelijking tussen twee items Specifieke objectiviteit: enkel Rasch model Twee- en drie-parameter model
64 65 65 65 65 67 67 67 68 68 69 69
Schatting van de modelparameters: subject- en itemparameters Schatten van de subjectparameters Aannemelijkheid van een geheel van antwoordpatronen, Bij het Rasch model Eigenschappen van een maximale aannemelijkheidschatter
70 70 71 71 73
Testinformatie en testconstructie Informatiefunctie van een test Informatiefunctie van een item
73 73 74
Modeltoetsen Toets van Wright & Panachapakesan Toets van Andersen
74 74 75
Toepassingen Ontwerp mastery tests Informatiefunctie van een mastery test Mastery test: hoe?
75 76 76 76
Vertical equating Item bias Geautomatiseerd testen Voordelen Adaptief testen Fixed branching Model based branching Voordelen Vergelijking adaptieve test en conventionele test
4. SCHAALMETHODEN
78 78 79 79 79 80 80 81 82
83
Inleiding
83
Overzicht: welke schaaltechnieken/schaalcriteria?
83
Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927) Inleiding Overzicht Passende gegevens Gegevens: 1 individu Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-matrix van een groep (n = 200) Herordenen van de F-matrix Van frequenties (F-matrix) naar proporties (P-matrix) Van proporties (P-matrix) naar z-waarden (Z-matrix) Inleiding Wet van het vergelijkend oordeel (Law of comparative judgement, Thurstone) Van de P-matrix naar de Z-matrix Controle interne consistentie Stap 1: Z’-matrix Stap 2: P’-Matrix Stap 3: Vergelijking van de P- met de P’-matrix Betere toetsing Wat indien extreme proporties? Bepaling van de schaalwaarden van de items
83 83 84 84 84 85 85 85 85 86 86 86 89 90 90 90 90 91 91 92
Cumulatieve schalen (criterium) Dichotome items Bepaling van de toegestane antwoordpatronen Voorbeeld: 4 dichotome items Polychotome items Representatie van een item met 4 antwoordmogelijkheden Toegestane antwoordpatronen Toepassing als schaalcriterium Reproduceerbaarheidscoëfficiënt
92 93 93 94 94 94 95 96 96
Gelijkschijnende intervallen (Thurstone en Chave, 1929) Situering Gegevens Model
96 96 97 97
Berekening kwartielen Voorbeeld Problematische aspecten
98 98 98
Successieve intervallen volgens Edwards Gegevens Model Overzicht Schatting van de intervalbreedtes Gegevens (frequentie) Cumulatieve proportionele matrix (P-matrix) Z-matrix Middelste intervallen Extreme intervallen Schaalwaarde en ambiguïteitswaarde van de items Schaalwaarde intervalgrenzen Schaalwaarde kwartielen voor item 1 Problematische aspecten
99 99 99 99 100 100 100 100 100 101 102 102 102 103
Successieve intervallen volgens Thurstone
103
Summated ratings Likert Model Schaling antwoordcategorieën Gegevens Φ-coëfficiënt Voorbeeld
103 103 104 105 105 106
0. Psychometrie Verantwoordelijk lesgevers
De Corte Wilfried Leonard Vanbrabant Sanne Roels
Leerstof Leerstof = alles wat in de les gezegd wordt (slides overgeslagen = niet kennen)
Vragen? Als je iets wil weten/hebben/kwijt wil over psychometrie: zie Minerva
Situering Wat? Formele (i.e., wiskundig-statistische) theorie omtrent het meten in de psychologie Omvat 2 grotere delen:
Testleer of testtheorie: formele theorie omtrent het meten (= getalwaarde) in de psychologie gegeven de gescoorde item-, test- of vragenlijstresponsen (hieruit vertrekken we) voornaamste onderdelen:
o o
Klassieke testtheorie Jaren ’40-‘50 Hoe nauwkeurig meten we? Toespitsen op meetnauwkeurigheid/precisie Enkel toevallige meetfouten (betrouwbaarheid) Generaliseerbaarheidstheorie Veralgemening KTT: nauwkeurigheid, maar ook systematisch Itemresponstheorieën Van recentere datum Respons en achterliggende oorzaak van de respons
Schaalmethoden: meten (schalen) van psychologische objecten (e.g., scoren van item-, test- of vragenlijstresponsen) o Data opwaarderen tot interval-ratio niveau o Toekennen van getalwaarden aan niveaus van respons (gegevens die meestal op nominaal of ordinaal niveau verzameld worden)
0. Psychometrie
o
1
Overzicht van de lessen
Les 1: Les 2 & 3: Les 4: Les 5: Les 6 & 7: Les 8: Les 9: Les 10: Les 11 & 12:
Formulering klassieke testtheorie (KTT) Betrouwbaarheid Validiteit en Itemanalyse Descriptief gebruik testscores Generaliseerbaarheidstheorie Itemresponstheorieën 1 Itemresponstheorieën 2 Schaalmethoden 1 Schaalmethoden 2
psfkt05 psbet05 psval05 psdes05 psgen05 psir105 psir205 pssm105 pssm205
Belang Belang: Psychologie is goeddeels een geheel van “theorieën in wording”. Om deze theorieën op hun adequaatheid te onderzoeken dienen de erin figurerende constructen vertaald te worden tot meetbare variabelen
Constructen komen in theorieën voor en staan centraal in de psychologie Meetbare variabelen zijn noodzakelijk om te kijken of theorieën weerlegbaar zijn of niet
Meten is weten!
(= vraagstuk van operationalisatie)
Waarom: Het meten van voor de psychologie relevante kenmerken (e.g., intelligentie, persoonlijkheid, faalangst) stelt speciale problemen
De relevante kenmerken zijn slechts indirect observeerbaar via gerelateerd gedrag o Bv.: Stress op het werk = niet direct observeerbaar (abstracte wereld) o Dat gerelateerd gedrag helpt zicht te krijgen op die constructen
De meetresultaten zijn alles behalve nauwkeurig; meetfout is aanzienlijk o Zie ‘extra’ o De manier van meten dat vervat zit in dat construct kan tegenvallen
Extra
Nominaal: categorie/groep (bv. geslacht)
Ordinaal: volgorde, geen meetschaal (bv. rangschikking wielerwedstrijd)
Interval: meeteenheid, geen vast nulpunt (bv. temperatuur)
Ratio: meeteenheid, vast nulpunt (bv. lengte), schaal nog te kiezen
Absoluut: vaste meeteenheid, vast nulpunt (bv. aantal)
0. Psychometrie
Meetniveau: categorische vs. continue variabelen
2
Nominaal + ordinaal = categorische/discrete variabelen
Interval + ratio + absoluut = continue/numerieke/metrische variabelen
Opmerking: Likert-schalen (ordinaal) worden vaak als continue variabelen beschouwd vanaf 5-puntschalen en als de scores min of meer ~ N(0,1)
Voorbeeld intervalniveau volstrekt equivalent vrij te kiezen nulpunt en meeteenheid (enkel verhoudingen tussen getalsverschillen zijn vast)
Intervalniveau:
A B C
3 5 8
3x4 5x4 8x4
+5 +5 +5
= 17 = 25 = 37
eenheid nulpunt
Voorbeeld van een construct: “Verhaaltje over stress” Eisen op het werk
Copingstijl Belasting/spanning
Mate van autonomie
Stress Sociale stress
ovaaltjes = constructen (hypothetisch begrip)
Moderatie:
Sociale steun
Copingstijl aard van relatie is anders bij verschillende copingstijlen
Stress proberen te meten via gerelateerd gedrag MAAR: Theorieën gaan over constructen die niet direct geobserveerd kunnen worden
Bv.: IQ, karaktereigenschappen, … Men moet ze gaan vertalen in meetbare constructen door metingen te ontwerpen o Bv. bij stress: operationalisatie via observatie en vragenlijsten
Meetbare variabelen voor élk construct ontwerpen
!!!
PSYCHOMETRIE = OPERATIONALISEREN VAN CONSTRUCTEN
!!!
0. Psychometrie
Bv. de score op een vragenlijst toont aan wat de score is voor een bepaald construct
3
4
0. Psychometrie
1. Formulering Klassieke Testtheorie Document psfkt05
Overzicht
Wat is een psychologische test? Klassieke testtheorie als meetmodel Formulering van de klassieke testtheorie Betrouwbaarheid: definitie, bepaling en toepassingen Validiteit Itemanalyse Beschrijvend gebruik van testscores
Wat is een psychologische test?
Solliciteert een steekproef van gedragingen (testgedrag = antwoord)
Het testgedrag wordt onder gestandaardiseerde omstandigheden verkregen
Er zijn duidelijk gespecificeerde regels om het bekomen testgedrag te vertalen (schalen) tot testscores. Het niveau van schalen (meten) kan variëren (tussen verschillende testen). o Scoring is aan duidelijke specifieke regels gebonden o Schalen = meten = scoren o Meestal nominaal/ordinaal
Bv.: totaalscore bij MC o Gewogen score waarbij gewicht van de items op voorhand wordt vastgelegd o Validiteit komt ook aan bod bij KTT, maar niet als prioriteit
Verklarende noot
Laag
Nominaal, bv. beroep (= categorieën) Ordinaal, meeste metingen in de psychologie (verschillende varianten van het kenmerk labelen gradatie binnen het niveau van een kenmerk + orde blijft behouden bij het toekennen van getallen, bv. hoog – laag) Interval o Geen vast nulpunt o Meeteenheid arbitrair o Bv. temperatuur o Bewerkingen: optellen, aftrekken Ratio, bv. lengte
1. Formulering Klassieke Testtheorie
MEETNIVEAUS
Hoog
5
via model of theorie tot hoger meetniveau schaling kunnen komen
Klassieke testtheorie als meetmodel
Klassiek meetmodel:
o o o o
KTT: men gaat een model opstellen met een achterliggend echt construct Item – respons theorie Latent kenmerk T = de ‘true score’ en aldus niet observeerbaar Ook de meetfout E is niet direct te observeren
De testscore X is meestal een
De klassieke testtheorie spitst zich toe op de testscore (somscore) en stelt geen model voorop omtrent de relatie tussen de respons op de individuele testitems en het beoogde latente kenmerk o De betekenis van het latente kenmerk heeft een andere invulling en heeft niets te maken met de in se beoogde meting o Bv. IQ als true score: intelligentie ≠ betekenis achterliggend construct
De klassieke testtheorie beoogt in eerste instantie het probleem van de meetnauwkeurigheid aan te pakken o = problemen met validiteit o Men gaat niet veel aandacht schenken aan de relatie tussen de testscore en het latente kenmerk, maar wel aan de relatie tussen de testscore en de meetfout
a priori gewogen somscore empirisch
De formulering van de KTT gebeurt m.b.v. kansveranderlijken (KV.): Symbool
Betekenis
Xj
Testscore subject j
Ej
Foutscore subject j
X
Testscore van een willekeurig (random) gekozen subject
E
Foutscore van het willekeurig (random) gekozen subject
* Subscript = individu Geen subscript = ad random gekozen subject van de populatie Grote letter: verschil tussen variabelen die wordt gepresenteerd door een kansveranderlijke Kleine letter: de waarde die daaraan gegeven wordt
1. Formulering Klassieke Testtheorie
Formulering van de klassieke testtheorie
6
Verklarende noot KANSVERANDERLIJKEN
Discrete vs. continue kansveranderlijken o
Discrete kansveranderlijke U Met elke mogelijke waarde u van U is een kans, P(U = u) = f(u), geassocieerd eindig aantal mogelijke waarden Voorbeeld: het aantal ogen van een dobbelsteen
o
Continue kansveranderlijke V Met elke mogelijke waarde v van V is een kansdichtheid, g(v)dv, geassocieerd oneindig aantal mogelijke waarden Voorbeeld: lengte
KANSDICHTHEIDSFUNCTIES: f(u), g(v) Met
∑
,
respectievelijk
∫ DISTRIBUTIE- OF VERDELINGSFUNCTIE VAN EEN KANSVERANDERLIJKE: F(X = t) = P(X ≤ t)
Discrete kansveranderlijke:
∑
Continue kansveranderlijke:
∫
1. Formulering Klassieke Testtheorie
DICHTHEIDSFUNCTIE (DENSITEITSFUNCTIE) f(v)
7
(CUMMULATIEVE) DISTRIBUTIEFUNCTIE (VERDELINGSFUNCTIE) F(v)
VERWACHTING (GEMIDDELDE) VAN DE KANSVERANDERLIJKE
Verwachting van V: E(V) o
V discreet:
∑ 1) 2)
o
∑
Waarde van Vx zijn kans Som van al deze producten nemen
V continu:
∫ 1) 2)
Waarden van Vx zijn kansdichtheid Dichtheidsfunctie
VARIANTIE EN COVARIANTIE VAN DE KANSVERANDERLIJKE Variantie van V: Var(V): E [ ( V – E(V) ) ² ] o
Idee van heterogeniteit van een kansveranderlijke van de populatie
o V discreet: ∑
[(
) ]
o V continu: ∫
[(
) ]
Covariantie van V en W: Cov(V, W) = E [ ( V – E(V) ) ( W – E(W) ) ]
1. Formulering Klassieke Testtheorie
8
CALCULUS KANSVERANDERLIJKEN Regels i.v.m. verwachting E
a: constante
E(a) = a
E(aX) = aE(X)
E(a + X) = a + E(X)
E(X + Y) = E(X) + E(Y)
Is
X, Y, Y1, …, Yk : kansveranderlijken
∑
∑
(∑
, dan is
)
∑
o
Bv.
o
De coëfficiënten zijn hier niet noodzakelijk 1 en mintekens kunnen voorkomen
X en Y onafhankelijk => E(XY) = E(X) E(Y) o
Enkel en alleen als X en Y onafhankelijk zijn
o
Covariantie = 0
Regels i.v.m. covariantie en variantie Cov(X, X) = Var(X)
Cov(X + Y, Y) = Cov(Y, Y) zo Cov(X, Y) = 0
Var(a ± X) = Var(X)
Var(aX) = a²Var(X)
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
∑
∑
//
Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y)
∑
( )
o
= subscript van de eerste samengestelde kansveranderlijke
o
= subscript van de tweede samengestelde kansveranderlijke
o
o
Bewijs:
[ [
] (
)
]
1. Formulering Klassieke Testtheorie
9
ANDERE NOTATIE VOOR VERWACHTING, VARIANTIE EN COVARIANTIE
Bijgevolg:
EXTRA
Wat is de covariantie van een kansveranderlijke Z die een som is van andere kansveranderlijken, met een kansveranderlijke Y die een som is van dezelfde kansveranderlijke?
Bv.
en o
Z = algebraïsche som van
Y = de som van de zelfde oorspronkelijke kansveranderlijken maar met andere coëfficiënten
o
Covariantie (Z, Y) ? o
Beroep doen op een matrix: een geordende tabel met waarden Variantie-covariantiematrix
en
,
1. Formulering Klassieke Testtheorie
en
10
o
We gaan deze matrix vermenigvuldigen met een vector (rij of kolom vector)
De gewichten waarmee coëfficiënten
en
gecombineerd worden in Z zijn
Dus: (a, b) o = product van de elementen uit de rijvector met overeenstemmende elementen in de matrix
1e kolom
[ ]
2e kolom
Nieuwe vector
Formulering KTT: 3 stappen ! Let op voor de notatie !
= de verwachting van de kansveranderlijke (de verwachte waarde is een constante) = de meetfout
1. FORMULERING KTT VOOR 1 SUBJECT EN 1 TEST , met
als de ware testscore van subject j
gedefinieerd als met
( ): de verwachte waarde van
over (oneindig veel) replicaties
als de meetfout
! De true score
Gevolg 1:
heeft niets te maken met een latent construct het is niets anders dan een wiskundig gedefinieerde entiteit (en is dus niet de verwachte waarde) !
( )
De over replicaties verwachte meetfout voor subject j = 0
KTT spitst zich bijgevolg toe op toevallige meetfouten (want: bij systematische meetfouten zou de verwachting niet 0 zijn)
Gevolg 2:
( )
(
1. Formulering Klassieke Testtheorie
en
,
)
11
De variantie van de testscore van subject j is gelijk aan de variantie van de meetfout
( )
Merk tevens op dat gevolg 1 impliceert dat:
(
)
[
( )]
Alternatieve notatie
( ) ( ) : de standaardmeetfout voor subject j ; ook nog de voorwaardelijke meetprecisie genoemd
2. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN 1 TEST , met en : de testscore, de ware score en de foutscore van een toevallig uit de populatie gekozen subject o
De kansveranderlijke X zonder subscript kan variëren over 2 dimensies: over replicaties en subjecten
De ware score varieert nu over de subjecten en daarom wordt ervoor de notatie voor een kansariabele (i.e., T) gebruikt
De definitie
( )
blijft behouden
(
Gevolg 1:
( ))
De verwachte foutscore over replicaties en het geheel van subjecten is 0
( )
Gevolg 2:
De variantie van de foutscore over subjecten en replicaties is gelijk aan het gemiddelde over personen van de individuele meetfoutvarianties
Betekent: de variantie van de kansveranderlijke over personen en replicaties
[ (
)
(
)
(
) ( )
]
[
( )]
1. Formulering Klassieke Testtheorie
12
Voeren we de alternatieve notatie
(
schrijven: o
voor
in, dan is gevolg 2 ook als volgt te
)
: de standaardmeetfout van de test
(= wortel van de variantie die kan variëren over
personen en replicaties)
Gevolg 3:
De correlaties tussen de foutscores en de ware scores is gelijk aan nul
Merk op dat
en dat
de variantie is van de ware testscores binnen de
populatie van subjecten:
= de true score die varieert over personen
Bemerk ook dat gevolg 3 bewezen is zo we kunnen aantonen dat
[(
)(
[(
)]
)
] (
( (
(
))
(
(
))
)
)
( )
De verwachte (of gemiddelde) testscore (over personen en replicaties) is gelijk aan de verwachte (of gemiddelde) ware score
In alternatieve notatie:
met
en
1. Formulering Klassieke Testtheorie
Gevolg 4:
13
Gevolg 5:
De variantie van de testscores (over personen en replicaties) is gelijk aan de som van de variantie van de ware scores en de variantie van de foutscores (meetfouten)
In alternatieve notatie:
met
en
SAMENGEVAT:
(
1. (
2.
( ))
)
3. 4. 5. 3. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN VOOR MEERDERE TESTS Voor elk van de tests (aangeduid met subscripts g, h) wordt de hiervoor gegeven karakterisering gehandhaafd Dus, voor bijvoorbeeld test g geldt opnieuw dat:
, met
,
en
: de
testscore, de ware score en de foutscore van een toevallig (aselect) uit de populatie gekozen subject op de test g.
Bovenop de hiervoor genoemde gevolgen 1 tot 5 voor elke test afzonderlijk kan, zo verondersteld wordt dat voor verschillende tests g en h de testscores en van een aselect gekozen individu onafhankelijk (en dus niet covariëren) van elkaar verdeeld zijn, nu ook het volgende bewezen worden (voor de testen g en h):
Gevolg 6:
(
)
De meetfouten van de ene test zijn niet gecorreleerd met de ware scores van de andere test
1. Formulering Klassieke Testtheorie
14
Gevolg 7:
(
)
De meetfouten van de ene test zijn niet gecorreleerd met de meetfouten van de andere test
Recapitulatie verder te gebruiken notatie De meetfoutvariantie (= variantie van de foutscores/meetfouten van een test) De standaardmeetfout van een test (= de standaardafwijking van de foutscores van een test) De variantie van de testscores van een test De standaardafwijking van de testscores van een test De correlatie van de testscores en ware scores van een test De covariantie van de testscores en de ware scores van een test Bemerk dat bijvoorbeeld De covariantie van de meetfout en de ware scores van een test Bemerk dat
Betrouwbaarheid Document psbet05
Definitie van de betrouwbaarheid van een test
De betrouwbaarheid van een test wordt gedefinieerd als maat voor de onvoorwaardelijke meetprecisie
en wordt gezien als een
Het model van de klassieke testtheorie (KTT) impliceert dat
⁄
:
1. Formulering Klassieke Testtheorie
Het is de gekwadrateerde correlatie van de testscore X . de true score T
15
Omdat
Probleem: Bovenstaande formule laat niet toe de betrouwbaarheid te schatten omdat noch noch gekend zijn
Oplossing: invoeren van de notie van paralleltests: o
⁄ , is de betrouwbaarheid eveneens gelijk aan
De tests X en X’ zijn paralleltests wanneer voor elk subject j de ware testscores en
aan elkaar gelijk zijn en de twee tests dezelfde meetfoutvariantie
hebben o
Uit de definitie van paralleltests volgt dat zo X en X’ paralleltests zijn, ze dezelfde verwachte (gemiddelde) testscore en dezelfde testscorevariantie hebben:
o variantie van de geobserveerde score: voor elke deeltest dezelfde waarde
1. Formulering Klassieke Testtheorie
16
Zo X’ een paralleltest is van X, dan is de betrouwbaarheid van X,
, gelijk aan
dit is in principe wel observeerbaar
De betrouwbaarheid van de test X en van (X’) is gelijk aan de correlatie tussen de testscores van tests X en X’
(*) Men gebruikt hier een regel van calculus van kansveranderlijken die we niet besproken hebben (komt na vectoren, matrices, …)
Omdat voor elk subject T = T’, is Bij de formulering van KTT voor meerdere tests zagen we dat
Daarnet toonden we dat
Merk op dat de betrouwbaarheid van een test een niet-negatieve grootheid is, die ten hoogste gelijk is aan 1
In de praktijk wordt (een populatiegrootheid) geschat via de steekproefschatter ̂ met de correlatie tussen de scores op beide testen zoals bekomen bij een (representatieve) steekproef
NOOT: NOTATIE POPULATIE- EN STEEKPROEFGROOTHEDEN
Zoals hiervoor aangegeven, worden populatiegrootheden middels Griekse letters genoteerd
1. Formulering Klassieke Testtheorie
Bijgevolg is
17
De corresponderende grootheden, zoals berekend aan de hand van steekproefgegevens, worden middels Romeinse letter dan wel via het plaatsen van een ‘hoedje’ bovenop de Griekse letter aangeduid Voorbeelden: o en ̂
of
en ̂
of
o
NOOT: ONDERSCHEID SCHATTER – SCHATTING
Schatter: de regel aan de hand waarvan je een kwantiteit bepaalt (bv. rekenkundig gemiddelde)
Schatting: daadwerkelijke waarde die je bekomt als je de schatter toepast op een specifieke steekproef
Dit onderscheid wordt in de psychometrie niet gemaakt
Methoden om betrouwbaarheid te schatten Betrouwbaarheid = onvoorwaardelijke meetprecisie, nauwkeurigheid
Verschillende methoden: 1.
M.b.v. twee paralleltests X en X’. De resulterende schatting equivalentiecoëfficiënt
̂
is een
2. Twee afnames van dezelfde test (met tijdsinterval). De correlatie tussen de twee testscores, wordt een stabiliteitscoëfficiënt genoemd 3. M.b.v. één test die uit k parallele delen met gekende betrouwbaarheid, , bestaat. De resulterende betrouwbaarheid (in de zin van interne consistentie), , wordt via de
4. M.b.v. één test die uit k parallele delen met ongekende betrouwbaarheid bestaat. De betrouwbaarheid (interne consistentie), , wordt bepaald via coëfficiënt α (Cronbach’s α)
SPEARMAN-BROWN FORMULE
Testscore op de test, X, is gelijk aan de som van de testscores delen en de betrouwbaarheid van zo’n deel , is gekend:
op de k parallelle
(allemaal dezelfde betrouwbaarheid),
1. Formulering Klassieke Testtheorie
Spearman-Brown formule verkregen:
18
∑
Betrouwbaarheid van de test X is, per definitie, gelijk aan
⁄
met
∑
en
∑ o
?
∑
∑
∑
Voor de k parallelle delen is en h,
. Ook is voor 2 willekeurige delen, g
voor elk subject zodat
alle deeltesten hebben dezelfde truescore en dezelfde variantie !
o
?
∑
∑
Voor de k parallelle delen is
∑
. Ook is voor 2 willekeurige delen, g
Bijgevolg is:
De betrouwbaarheid van 1 parallel deel, , is gelijk aan
! Belangrijk te onthouden bij paralleltesten !
Elke waarde van de verschillende paralleltesten is gelijk
1. Formulering Klassieke Testtheorie
en h,
19
Toepassing 1: Bepaling betrouwbaarheid m.b.v. Spearman-Brown formule
Stel test X bestaat uit 5 parallelle delen, .40
Betrouwbaarheid test X is dan
Een test die uit meerdere parallelle delen bestaat, is minstens zo betrouwbaar als de individuele deeltesten o
Is
, elk met betrouwbaarheid, , gelijk aan
zo
Ja, want
Hoe meer items, hoe hoger de betrouwbaarheid ( ), bv. MC-examen vs. schriftelijk examen
Stel test X heeft een betrouwbaarheid van .30. Met hoeveel aan X parallelle tests moet X uitgebreid worden om een test te bekomen die een betrouwbaarheid van minstens .80 heeft?
M.a.w. wat is de minimale waarde voor k zodat
.06 k (= het aantal deeltesten) moet minstens 10 zijn
1. Formulering Klassieke Testtheorie
Toepassing 2: Verlengen test voor voldoende betrouwbaarheid
20
Toepassing 3: Betrouwbaarheid van een deeltest
Stel test X, bestaande uit 3 parallelle delen, heeft een betrouwbaarheid van .90. Wat is de betrouwbaarheid van de parallelle delen?
Noteren we
voor de betrouwbaarheid van X en
voor de (onbekende)
betrouwbaarheid van de deeltests, dan laat de Spearman-Brown formule zien dat volgende gelijkheden moet voldoen:
dus:
aan de
= .75
VERKLARENDE NOOT Rekenkundig gemiddelde
, ̅:
Het rekenkundig gemiddelde van n testscores
∑
̅
Steekproefvariantie De steekproefvariantie van n testscores
COËFFICIËNT
̅
∑
:
(= CHRONBACH’S ALFA)
Zo een test, X, uit k parallelle delen met ongekende betrouwbaarheid bestaat, dan kan getoond worden dat de betrouwbaarheid van de test X, , gelijk is aan:
( *∑ *
,
∑
)
(
∑
)
teller = 2 x geheel vd. cov.
= som van de varianties van de deeltesten van test X = variantie van de geobserveerde scores van de totaaltest X
De bovenstaande gelijkheid geldt tevens zo de delen
essentieel equivalent zijn
dus: als de deeltesten niet meer parallel zijn, maar wel essentieel equivalent, kun je ook nog de betrouwbaarheid bepalen
De delen geldt dat
en
zijn essentieel , met
equivalent zo voor
en
een constante (die kan variëren over de betrokken deeltesten)
Bemerk dat de delen een verschillende foutvariantie kunnen hebben
! Examen: als deeltesten parallel zijn, zijn ze dan essentieel equivalent? JA! (noodzakelijk!)
1. Formulering Klassieke Testtheorie
21
Zo delen niet essentieel equivalent (en niet parallel) zijn, maar wel voldoen aan
en , met en onderschatting van de betrouwbaarheid.
Praktisch belang: coëfficiënt zin van interne consistentie)
, dan levert coëfficiënt
een
is de meest gebruikte maat voor de betrouwbaarheid (in de
Bepaling coëfficiënt ∑
De formule voor ,
In de praktijk zijn enkel steekproefgegevens beschikbaar. M.b.v. deze laatste gegevens wordt met
geschat als ̂
(
(
), betreft populatiegrootheden
∑
)
(̂ is de schatter van )
de steekproefvariantie van de totale testscores en bv.
de steekproefvariantie
van de testscores op deeltest g.
Steekproefgegevens
Rekenkundig gemiddelde totaaltestscores: ̂
1. Formulering Klassieke Testtheorie
Voorbeeld berekening ̂
22
(Steekproef)variantie totaaltestscores:
(Steekproef)variantie deeltestscores
:
d
(Steekproef)varianties deeltestscores
Bijgevolg kan de betrouwbaarheid voor test X geschat worden als
̂
∑
(
Omdat 0.98
)
:
(
niet essentieel
) equivalent zijn, is de betrouwbaarheid van X minstens
Betrouwbaarheid voor dichotoom gescoorde deeltests (items)
Voor een dichotoom gescoorde deeltest is de variantie (in de populatie) van de deeltestscores, , gelijk aan , met de kans dat deeltest (item) goed beantwoord wordt In het geval van dichotoom gescoorde deeltests kan de betrouwbaarheid bijgevolg als volgt geschat worden: ∑ (
De formule en Richardson (1937).
)
(
∑
(
∑
)
) staat bekend als de coëfficiënt KR20 van Kuder
1. Formulering Klassieke Testtheorie
23
Voorbeeld berekening KR20
∑
(
)
De schatter voor KR20 , ̂
We hebben ̅
Bijgevolg ̂
VERKLARENDE
de
( )
̂ en ∑
,
kan (
, is:
betrouwbaarheid
∑
( (
)
)
geschat
worden
als
(minstens)
)
NOOT
Een binaire kansveranderlijke, Y, heeft als mogelijke waarden 1 en 0
De verwachte waarde van Y is met P(Y = 1) de kans dat Y gelijk is aan 1. Voor steekproefgegevens wordt de populatiewaarde, observaties waarvoor Y de waarde 1 heeft.
, geschat via
, de proportie
De variantie van Y,
Voor steekproefgegevens met N observaties wordt de populatiewaarde van de variantie,
, is:
[
]
, geschat als
Toepassingen van betrouwbaarheid BEPALING STANDAARDMEETFOUT Standaardmeetfout
1. Formulering Klassieke Testtheorie
Dichotome (binaire) kansveranderlijken
is de standaardafwijking/standaarddeviatie van de foutscore
24
De betrouwbaarheid van een test is gelijk aan
Bijgevolg is
De standaardmeetfout,
De steekproefschatter voor
√
, is dan ook ,
̂
√
, is
SCHATTEN WARE SCORE
De eerste benadering sluit aan op de 1 subject formulering van de KTT en resulteert in een schatter, ̂ , voor de waarde van de ware score voor het subject j gegeven de waarde voor de geobserveerde score van het subject j.
De tweede benadering sluit aan op de populatie formulering van de KTT en resulteert in de zogenaamde regressieschatter ( ̂ | ) voor de verwachte waarde van de ware score T gegeven dat (= conditioneel) de geobserveerde score X gelijk is aan .
Mits zekere assumpties leiden de benaderingen tot een betrouwbaarheidsinterval voor de waarde van de ware score.
Eerste benadering
De waarde van de ware score van subject j wordt geschat als ̂ van de voor het subject j geobserveerde score .
Om het betrouwbaarheidsinterval (in %) voor te bekomen veronderstellen we dat de verdeling van de geobserveerde score van een bepaald maar willekeurig
, normaal is met verwachting
Deze assumptie impliceert dat
en variantie
Ofwel:
o
Ofwel:
o
Ofwel:
(
⁄
⁄
( ⁄
)
(i.e.,
)
standaard normaal verdeeld is en dat er een kans
is dat: o
de waarde
⁄
⁄
)
1. Formulering Klassieke Testtheorie
gekozen individu j,
, met
⁄
25
(
Uit
⁄
⁄
)
⁄
het
de standaard normaal verdeling, volgt dat een
betrouwbaarheidsinterval voor
Vervangen we nu
⁄
⁄
is.
door de actueel geobserveerde score
dan bekomen we het volgende, geschatte ⁄
de percentielpunt van
en
door de schatter
,
betrouwbaarheidsinterval voor :
⁄
Voorbeeld:
In een steekproef van subjecten is de spreiding (standaarddeviatie) van de geobserveerde scores, , gelijk aan 4, de geschatte betrouwbaarheid van de test, ̂, bedraagt 0.75, en subject 7 heeft een geobserveerde score, , van 15. Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?
Uit en ̂ volgt dat ̂ . De benodigde √ √ percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, , gegeven een geobserveerde score van 15, gelijk aan
.
Of nog,
Tweede benadering
Sluit aan bij de populatieredenering van de KTT
Zo verondersteld wordt dat de regressie van T op X lineair is, dan is de regressie(functie) van T op X gelijk aan Score T = de verwachte waarde van x
aangezien
,
en
̂
De (regressie)schatter voor de verwachte score ̂ is
Bemerk dat de ordening van de subjecten op grond van de geschatte verwachte ware score dezelfde is als de ordening op grond van de geobserveerde testscores.
̂
VERKLARENDE NOOT: REGRESSIEFUNCTIE
Zijn X en Y twee kansvariabelen, dan is de regressie(functie) van X op Y gedefinieerd als de (conditionele) verwachting van X, gegeven dat Y gelijk is aan y,
1. Formulering Klassieke Testtheorie
o
26
Als X en Y gezamenlijk bivariaat normaal verdeeld zijn (d.i. dan is de regressie(functie) van X op Y lineair.
),
o
Met verwachting
o o
N2: 2 kansveranderlijken: bivariaatverdeling (x< y gezamenlijk bivariaat verdeeld) Vet: vector = kolomvector met 2 elementen
en variantie/covariantiematrix
(
)
In dat geval is de (conditionele) verdeling van X gegeven Y = y (i.e., de verdeling van X|y) eveneens normaal verdeeld.
Voorts is in dat geval: o
⏟
(cfr. Statistiek II: E(X) = β0 + β1)
⏟
⏟
Tenslotte is de (conditionele) variantie van X, gegeven Y = y, gelijk aan:
Samengevat: univariaat verdeeld met conditionele verwachting en conditionele variantie
Vergelijking benadering 1 en benadering 2 Enkel wanneer de geobserveerde score groter is dan het gemiddelde, is ̂ geschat door de 1ste benadering groter dan wanneer geschat door de 2de benadering. Wanneer de geobserveerde score kleiner is dan het gemiddelde, gebeurt het omgekeerde. (Hoe kleiner de betrouwbaarheid, hoe sterker de regressie naar het gemiddelde) Wat bepaalt de breedte bij
Standaardmeetfout (
de 2de benadering?
Standaardschattingsfout (
) )
De standaardschattingsfout is sowieso kleiner dan de standaardmeetfout, dus dat impliceert een kleiner interval bij de 2de benadering.
BEPALING STANDAARDSCHATTINGSFOUT
de 1ste benadering?
(PRECISIE WAARMEE DE WARE SCORE GESCHAT WORDT)
De standaardschattingsfout, , is de vierkantswortel uit de conditionele variantie van de ware score T gegeven de waarde x voor de geobserveerde score X. o De standaardschattingsfout is de precisie waarmee de ware score geschat wordt, oftewel de conditionele spreiding.
1. Formulering Klassieke Testtheorie
27
Zijn X en T gezamenlijk normaal verdeeld, dan is
Uit
volgt dat
√
√ √
√
zodat
√
met de standaardmeetfout (minstens gelijk – en meestal hoger – dan de standaardschattingsfout) o
De variantie van de true scores kan nooit groter zijn dan de variantie van de geobserveerde scores (verhouding 0-1)
De (steekproef)schatter van
,
√̂
, is
o
Deze schatter kan gebruikt worden bij een alternatieve bepaling van het 100( ) % betrouwbaarheidsinterval voor de ware score van subject j, tj
o
Het 100(
̂
) % betrouwbaarheidsinterval is:
̂
⁄
⁄
Voorbeeld:
In een steekproef van subjecten is ̅ , , Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?
Uit
en ̂ ̂
volgt dat
̂
√ en is
en
.
. Voorts is ̂
√
√̂
√
. De
benodigde percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, een geobserveerde score van 15, gelijk aan
̂
⁄
, gegeven
̂
⁄
Of nog,
CORRECTIE VOOR ATTENUATIE (CORRELATIE WARE SCORES TEST X MET WARE SCORES TEST Y)
Attenuatie: De correlatie tussen de geobserveerde scores is altijd kleiner dan (of gelijk aan) de correlatie tussen de true scores.
Meetfouten hebben tot gevolg dat de correlatie/samenhang tussen twee tests (metingen), X en Y, lager uitvalt dan de werkelijke correlatie/samenhang, dus:
{ met
de correlatie van de geobserveerde scores, gedeeld door een getal kleiner dan 1.
1. Formulering Klassieke Testtheorie
(Volledige betrouwbaarheid: standaardmeetfout en standaardschattingsfout = 0)
28
√
o
√
De validiteitscoëfficiënt betrouwbaarheid van die test.
√
√
van een test kan nooit groter zijn dan de wortel van de √
√
want
Voorbeeld:
Stel dat twee tests, X en Y, bij een steekproef van subjecten afgenomen worden. Voor deze steekproefgegevens zijn de geschatte betrouwbaarheden voor X en Y, ̂ en ̂ , beide gelijk aan 0.80. De berekening van de correlatie tussen de scores op X en Y resulteert in een waarde 0.40 ( i.e., ̂ )
Toepassing van de correctie voor attenuatie levert in dat geval de volgende geschatte waarde op voor de correlatie tussen de ware scores van X en Y: √̂
√̂
Correctie voor attenuatie kan ook beperkt worden tot één van de twee metingen (e.g., X representeert intelligentie en Y correspondeert met lengte): o
√
Lengte = perfect betrouwbaar te meten: niet nodig (true score van Y = Y zelf)
Bovenstaand speciaal geval laat ook zien dat de validiteitscoëfficiënt van een test (hier de correlatie van de test, X, met een willekeurig andere meting, Y) nooit groter kan zijn dan de wortel uit de betrouwbaarheid van de test
√
√
, want
er wordt een bovengrens opgelegd
PRECISIE VAN VERSCHILSCORES Niet te kennen
Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie De formule voor de betrouwbaarheid van een test X,
, laat duidelijk zien dat
betrouwbaarheid geen karakteristiek van enkel de test is. De betrouwbaarheid varieert al naargelang de heterogeniteit van de populatie in termen van de ware testscores. Bv: De true score op een test numerieke intelligentie zal niet zo’n grote spreiding hebben bij studenten exacte wetenschappen, i.t.t. studenten psychologie. De betrouwbaarheid van de test is dus afhankelijk van de variantie in de betrekkelijke populatie, wat maakt dat de test een grotere betrouwbaarheid heeft voor studenten exacte wetenschappen dan voor studenten psychologie.
1. Formulering Klassieke Testtheorie
29
Soms wordt ook het volgend speciaal geval van de formule voor correctie voor attenuatie als probleem genoemd, maar dit is geen geldige formule! o
√
√
Normaal gezien is de correlatie tussen dezelfde test gelijk aan 1, maar door deze formule wordt hij groter dan 1!
Validiteit Document psval05
Definitie en traditionele validiteitsstrategieën
Validiteit: de mate waarin de test datgene meet wat hij pretendeert te meten.
Traditioneel zijn er 4 benaderingen die geassocieerd zijn met verschillende nagestreefde doeleinden, namelijk de: o o o o
Inhoudsvaliditeit Constructvaliditeit Criteriumvaliditeit Concurrente validiteit
Nu wordt de namelijk de: o o
validiteitsproblematiek
vaak
vanuit
2
perspectieven
benaderd,
Validiteit van de meting op zich Validiteit van de meting in een beslissingscontext
Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Binnen het perspectief van ‘validiteit van de meting op zich’ zijn er 2 hoofdbenaderingen: o o
Inhoudsvaliditeit Constructvaliditeit
De inhoudsvaliditeit is de mate waarin het testgegenereerde gedrag (d.i. het geheel aan responsen) een representatieve steekproef vormt m.b.t. het te meten kenmerk. o
Bv: Motivatie (intrinsiek – extrinsiek); een test is niet valide als we maar één van beiden meten dat onderscheid moet dus in het meetinstrument vervat zitten
o
De problematiek van inhoudsvaliditeit generaliseerbaarheidstheorie.
is
verwant
aan
die
van
de
Bij constructvaliditeit stelt men zich de vraag of de test het beoogde construct meet. o
De constructgeoriënteerde validiteitsstrategie benaderingen (~ moeder van alle validiteiten)
overkoepelt
de
andere
1. Formulering Klassieke Testtheorie
30
o
Constructvalidering gebeurt a.d.h.v. een nomologisch netwerk i.v.m. het construct. In het bijzonder door na te gaan of de meting de in het nomologisch netwerk vooropgestelde interrelaties heeft met de metingen van andere constructen.
Nomologisch = algemene regels gevend Dus kijken of de metingen van die constructen (bv. stress – burnout – gezondheidsklachten) correleren met elkaar Bijvoorbeeld:
Een veelgebruikte benadering hierbij is de Multitrek Multimethode (MTMM) aanpak van Campbell en Fiske (1959) Er zijn verschillende soorten metingen (= indicatoren) voor eenzelfde construct Er worden 2 vragen gesteld: o Werd er gemeten volgens dezelfde methode? o Is het een meting van hetzelfde construct (= zelfde trek)? De correlatie van twee verschillende metingen van eenzelfde construct = de validiteit
1. Formulering Klassieke Testtheorie
MTMM-benadering
31
Bij de MTMM-benadering wordt er een onderscheid gemaakt tussen: o
Convergente validiteit Kunnen we de verwachte verbanden aantonen? (homotrekheteromethode; validiteitsdiagonalen) Metingen van eenzelfde kenmerk door verschillende methoden: correleren goed met elkaar, want correleren wat moet correleren
o
Divergente validiteit: Zijn die verbanden die er niet mogen zijn er ook echt niet? (heterotrekmonomethode en heterotrek-heteromethode) lage correlatie = goede/hoge validiteit Metingen van verschillende kenmerken met dezelfde methode hebben slechts een kleine correlatie (kleiner dan de correlaties van de metingen van hetzelfde kenmerk met verschillende methodes), want niet correleren wat niet mag correleren
Interpretatie van de MTMM correlatiematrix: o
Zijn de correlaties in de betrouwbaarheidsdiagonaal de grootste? Autocorrelaties van een construct met zichzelf (methode 1 – A1 vs. methode 1 – A1)
o
Zijn de correlaties in de validiteitsdiagonaal voldoende hoog? Correlaties tussen dezelfde trekken, maar met andere methodes (methode 1 – A1 vs. methode 3 – A3)
1. Formulering Klassieke Testtheorie
32
Binnen de heteromethode blokken dienen de validiteitscoëfficiënten hoger te zijn dan de andere waarden in het blok.
o
Validiteitscoëfficiënten moeten hoger zijn dan de waarden in de heterotrekmonomethode driehoeken.
Vraag: Hoeveel procent van de variantie kan worden toegewezen aan het construct, hoeveel aan de methode en hoeveel aan de meetfout?
Variantie van het construct > variantie van de methode > variantie van de meetfout
De interpretatie van MTMM matrices blijft, ondanks de voornoemde principes, problematisch. Er is een betere benadering mogelijk via structurele vergelijkingsmodellen.
1. Formulering Klassieke Testtheorie
o
33
Validiteit van de meting in een beslissingscontext: criteriumvaliditeit
Principe: correleren de testscores met de scores van een andere (directe) meting van het kenmerk of met scores van een ander, nomologisch gerelateerd kenmerk?
Predictieve validiteit vs. gelijktijdige (concurrente) validiteit
Bij predictieve validiteit is range restrictie vaak een probleem. o
Range restrictieprobleem: de correlatie tussen de test en het criterium wordt te laag geschat omdat voor het criterium enkel scores beschikbaar zijn voor de voor de test ‘geslaagde’ subjecten. De spreiding van de scores op de test is ingeperkt.
Bv: Toelatingsproef geneeskunde met X = drempelscore en Y = resultaten 1ste Bachelorstudenten een goede toelatingsproef heeft een hoge validiteit (hier: 0.40)
Directe range restrictie vs. ste 1 test is selectiecriterium
indirecte range restrictie 3de test geldt als selectiecriterium
Er bestaan formules voor de correctie van range restrictie. Bvb.: formule voor de correctie van de directe range restrictie m.b.t. de predictor, X:
(
√
) (
)
de spreiding (standaarddeviatie) van de testscores in de totale groep de spreiding van de testscores in de geselecteerde groep de correlatie tussen de predictor X en de criteriumvariabele in de geselecteerde groep de voor range restrictie gecorrigeerde correlatie (correlatie tussen de test en het criterium)
Voorbeeld: TC = kritieke testscore ≥12/20 mag aan de studie beginnen o rTC = correlatie tussen de test en het criterium (enkel voor diegenen met ≥12) o Onderschatting: niet iedereen zit er in directe range districtie! Ook indirect mogelijk: op grond van een derde meting (niet op grond v. T)
1. Formulering Klassieke Testtheorie
Met:
34
Besluit: De validiteit van een test is een eerder gebrekkige indicator van de waarde van een test in een beslissingscontext
Een meer adequate benadering via de zogenaamde utiliteitstheorie (betere manier dan de validiteitcoëfficiënt om de waarde van testgebruik te bepalen en uit te drukken): o o o
Taylor & Russell: schatten van de succesratio van testgebaseerde selecties Bv: toelatingsproef geneeskunde Brogden en Cronbach & Gleser: utiliteit (geldwaarde) van een testgebaseerde selectie De Corte: Integratie van beide voorgaande aspecten en uitbreiding naar gefaseerde testgebaseerde selecties
Itemanalyse Document psval05
Itemanalyse = onderzoek naar de psychometrische kwaliteit van de items (de bespreking is hier beperkt tot de procedures die aansluiten bij de KTT)
Doel? Een subset (uit een set items) selecteren van items met gemiddelde moeilijkheidsgraad en goede discrimineerbaarheid (homogene set verkrijgen), en dit ten behoeve van de samenstelling van de definitieve set
Itemanalyse omvat: o o o
De descriptieve analyse van de itemresponsen (e.g. de itemmoeilijkheid) De analyse van de samenhang van de items met de test(totaal)score De studie van de relatie tussen de items onderling
Descriptieve analyse van de itemresponsen
Stel een multiple choice item met 4 antwoordalternatieven: A, B (correct), C en D. In het optimaal geval zal elk van de drie distractoren even populair zijn. o
Populariteit van een distractor: percentage van de subjecten dat de distractor kiest.
Voorbeeld: 55% lost het item correct op; de optimale populariteit van de distractoren is dan .
De resultaten van de distractoranalyse kunnen best bekeken worden in het licht van andere itemanalyseresultaten (bv.: itemmoeilijkheid).
1. Formulering Klassieke Testtheorie
DISTRACTORANALYSE (MC-ITEM)
35
ITEMMOEILIJKHEID: P-WAARDE
De p-waarde is het percentage van de subjecten dat het item correct oplost (of onderschrijft). Hoe hoger de p-waarde, hoe gemakkelijker het item. Bij dichotoom gescoorde items van een attitudevragenlijst wordt de p-waarde ook wel de (basis)populariteit van een item genoemd (of ook: de proportie individuen dat akkoord gaat met het item)
Er zijn evidente relaties tussen de itemmoeilijkheid en o
De itemvariantie (té makkelijke of moeilijke items zorgen voor een lage variantie) Cf. de variantie van de scores van een dichotoom item wordt geschat als:
o
De itemdiscriminatie
In het algemeen zijn items met een gemiddelde moeilijkheid te verkiezen (want deze laten de grootste variantie zien)
ITEMVARIANTIE
Er is een onderscheid tussen metrische items (minstens op intervalniveau) en dichotoom gescoorde items
Bij metrische items kan de itemvariantie van item i,
, geschat worden via de
∑
Met:
J xij
, met:
het aantal subjecten de score van subject j op item i de gemiddelde itemscore op item i
Voor dichotome items is de steekproefschatter voor de itemvariantie,
(
, gelijk aan:
) Met:
de moeilijkheid van item i
Samenhang item-testtotaalscore: itemdiscriminatie
Itemdiscriminatie: In hoeverre onderscheidt een item individuen met een hoge totaalscore van individuen met een lage totaalscore? ook: itemhomogeniteit (cfr. de notie van interne consistentie)
1. Formulering Klassieke Testtheorie
steekproefschatter,
36
De samenhang tussen score item i (Xi) en de testtotaalscore (T) is voor metrische items gelijk aan de correlatie
De waarde van
is te schatten via de productmomentcorrelatiecoëfficiënt
∑ √(∑
(
(
Met:
)( ) ) (∑
(
) )
o
Scores van 8 (i.e., J = 8) subjecten op 4 items
o
De correlatie item 1-tesstotaalscore
√(∑
(
(
is:
)( ) ) (∑
) (
) )
√
De item-testtotaalscorecorrelatie geeft een wat geflatteerd beeld van de samenhang omdat het item de totaalscore mee bepaalt. Daarom wordt, vooral in het geval dat de test weinig items telt, vaak gebruikt gemaakt van de item-restcorrelatie. o
De item-restcorrelatie voor item i is de correlatie tussen de scores op item i en de totaalscore verminderd met de score op het item
)
Voorbeeld:
∑
:
de score voor subject j op item i de testtotaalscore van subject j (heeft niets te maken met een ‘true score’) de gemiddelde totaalscore de gemiddelde score voor item i
:
Voor het voorbeeld is de item-restcorrelatie voor item 1 gelijk aan 0.836
Is het item dichotoom, dan kan de samenhang item-totaalscore bepaald worden door middel van de punt-biseriële correlatiecoëfficiënt :
1. Formulering Klassieke Testtheorie
37
√ Met
de gemiddelde testscore van de subjecten die item i correct oplossen
de gemiddelde testscore van de subjecten die het item fout oplossen de moeilijkheid van item i
Voor steekproefgegevens wordt de waarde van de punt-biseriële correlatiecoëfficiënt op de gebruikelijke manier geschat
Andere soms gebruikte maten voor de samenhang item-totaalscore zijn: o
De biseriële correlatie tussen een dichotoom item en een metrische totaalscore Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van itemscores
o
De Ф (phi-) coëfficiënt wanneer zowel de item- als de totaalscore dichotoom zijn (zie ook verder bij schaaltechnieken)
o
De tetrachorische correlatie wanneer zowel de item- als de totaalscore dichotoom zijn Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van item- en totaalscores
Studie van de relatie tussen de items onderling De
samenhang
tussen
de
items
(inter)itemcorrelatiematrix R, met
o
onderling
(
wordt )
bepaald
m.b.v.
de
(R = vet: matrix)
Deze (inter)itemcorrelatiematrix is het uitgangspunt voor factoranalyse
Voor metrische items is het algemeen element van R, (
) (het item in de k-de rij en de l-de
kolom) gelijk aan de productmomentcorrelatiecoëfficiënt:
∑ √(∑
(
(
)( ) ) (∑
) (
) )
Voor dichotome items wordt het algemeen element van R, m.b.v. de Ф-coëfficiënt of de tetrachorische correlatiecoëfficiënt berekend
1. Formulering Klassieke Testtheorie
38
Beschrijvend/descriptief gebruik van testscores Document psdes05
Hierbij wordt er een onderscheid gemaakt tussen: o
De transformatie van ruwe testscores tot: Standaardscores Percentielscores Genormaliseerde scores
o
Normering: het opstellen van normtabellen en het situeren van ruwe scores t.o.v. normscores
Transformatie van ruwe testscores
Op zich zegt een ruwe score weinig of niks. Ze wordt dan ook vaak getransformeerd tot een score die duidelijker aangeeft hoe het individu zich situeert t.a.v. de individuen van een adequaat gekozen referentiegroep
Om een dergelijke transformatie te kunnen uitvoeren, moet het gemiddelde en de spreiding/standaarddeviatie (of de verdeling van de testscores) binnen de referentiegroep gekend zijn
Sommige transformaties zijn lineair (i.e. van de soort: ), waarbij het (eventueel) metrisch niveau van de oorspronkelijke scores wordt behouden
LINEAIRE TRANSFORMATIES
Gegeven: o
Het gemiddelde ( ) en de spreiding ( ) van de ruwe scores in de referentiegroep
o
Het gemiddelde ( scores
) en spreiding (
De conversie van de ruwe scores X naar de getransformeerde scores X(t) gaat dan:
(
)
Eerst de ruwe scores standaardiseren Dan vermenigvuldigen met de beoogde deviatie
) van de beoogde, getransformeerde
Dan optellen met het gemiddelde dat je beoogt
Voorbeelden: o
Omzetting naar standaard- of Z-scores (scores met
(
)
en
):
1. Formulering Klassieke Testtheorie
39
o
Omzetting naar T-scores (scores met
(
en
):
)
NIET-LINEAIRE TRANSFORMATIES
De toepassing van de in de psychometrie gebruikelijke niet-lineaire transformaties veronderstelt dat de distributie (frequentie) van de ruwe scores binnen de referentiegroep gegeven is o o o o
Percentielscores Decielscores Genormaliseerde standaard- of T-scores Stanines (Standard nines)
Opgelet: hier kan het meetniveau veranderen o
Dus: je moet niet enkel het gemiddelde en de spreiding kennen, maar ook de frequentieverdeling van de scores binnen de referentiegroep
Percentielscores
De percentielscore van het subject j, Pj, geassocieerd met de ruwe score, Xj, is gelijk aan het percentage personen in de groep (d.i. de representatieve steekproef en dus niet op grond van de populatie) dat dezelfde of een lagere ruwe score behaalt
De percentielscore wordt in het algemeen berekend als:
Fj
fj J
)
de cumulatieve frequentie behorend bij ruwe score Xj (d.i. het aantal subjecten met een score ten hoogste gelijk aan Xj) de frequentie waarmee de ruwe score Xj voorkomt het aantal subjecten in de groep
Voorbeeld: berekening percentielscore
(
)
1. Formulering Klassieke Testtheorie
Met
(
40
Decielscores
De decielscore, Dj, geassocieerd met de ruwe score Xj, is gelijk aan:
(
)
+1
wanneer
géén geheel getal is
+0
wanneer
een geheel getal is
( ) het grootste geheel getal dat kleiner of gelijk is aan
Met
Voorbeelden: o
( )
o
( )
o
( )
Noot: Standaardnormaaldensiteit en standaardnormaalverdeling
Standaarnormaaldensiteitsfunctie:
Standaardnormaaldistributiefunctie
De functie Z (d.i. [
De inverse van , genoteerd als heeft als element een proportie en als beeld de met deze proportie overeenstemmende waarde van de standaardscore
met met
√
∫
Genormaliseerde scores
Principe: De ruwe scores worden zo getransformeerd dat de verdeling van de getransformeerde scores (nagenoeg) normaal is
Werkwijze: 1.
Omzetten van de ruwe scores
naar percentielscores
2. Omzetten van de percentielscores
(
via:
naar genormaliseerde standaard(normaal)scores
)
1. Formulering Klassieke Testtheorie
heeft als domein de mogelijke waarden voor de standaard(normaal)score ]) en als codomein de mogelijke waarden voor een proportie (d.i. [ ])
Deze zijn nagenoeg normaal verdeeld
41
I.e.,
is de normaalscore zodat
% van de waarden van een
standaardnormaal verdeelde kansvariabele beneden de waarde
Dit is de kwantielfunctie van de normaalverdeling
3. Omzetten van de genormaliseerde standaardscores
naar scores met het gewenste
(
gemiddelde en spreiding via de transformatie: Met
vallen
)
voor de standaardnormaalscores
Voorbeeld:
P naar Z tabel gebruiken
Zj = 1,555 = 1,6
Stanines
Staninescores worden bekomen via een lineaire transformatie van de genormaliseerde standaardscores
De staninescore, (
, geassocieerd met een genormaliseerde standaardscore,
, is:
)
Met : de naar het dichtstbijzijnde gehele getal afgeronde waarde van (≠ trunceren) Is
Voorbeeld:
dan
//
Is
, dan
Normering
Normeringonderzoek wordt uitgevoerd teneinde de verdeling te kennen van de testscores binnen één of meerdere vooraf afgebakende referentie- of normgroepen. De
1. Formulering Klassieke Testtheorie
42
zo bekomen verdeling wordt meestal samengevat in een zogenaamde normtabel (dit is het resultaat) Het normeringsonderzoek omvat gebruikelijk de volgende stappen: 1.
Het vastleggen van de beoogde referentiegroepen of –populaties
2. Keuze van de nauwkeurigheid waarmee we de waarde van de populatieparameters wensen te schatten (deze stap wordt vaak vergeten)
Voorbeeld populatieparameter: het gemiddelde / de variantie van de testscores binnen de referentiegroep
Voorbeeld nauwkeurigheid: Stel dat de mogelijke testscores liggen tussen 50 en 150. Dan kunnen we bijvoorbeeld vooropstellen dat de (geschatte) standaardfout van het gemiddelde ̅ , (i.e., de geschatte ̅ standaarddeviatie van de steekproevenverdeling van ̅ , of nog: de geschatte standaardfout van het rekenkundig gemiddelde ), ten hoogste gelijk is aan 2
3. Afleiden van de minimale steekproefgrootte, gegeven de vooropgestelde nauwkeurigheid en de (geschatte) waarde van de variantie van de testscores, , binnen de normgroep
Voorbeeld: Stel dat we, uitgaand van de vorige situatie, vinden dat (we weten de waarde van de variantie van de testscores dus ook de standaarddeviatie
en zo kunnen we
van de geobserveerde ruwe scores in een steekproef
weten).
Gelet op de vereiste nauwkeurigheid dat , is het benodigd aantal subjecten, J, te bepalen door het oplossen van de volgende vergelijking:
√
√ Het benodigd aantal subjecten is dus minimaal 100. 4. Trekken van de benodigde steekproeven, met als doel een steekproef te trekken die representatief is voor de vooraf gestelde populatie:
Aselecte steekproeven (elk element uit de populatie heeft dezelfde kans om in de steekproef terecht te komen) Gestratificeerde steekproeven (eerst een onderverdeling/strata maken, dan daaruit aselect een steekproef trekken) Cluster- of getrapte steekproef (een onderverdeling van de onderverdeling van de onderverdeling maken, dan aselect een steekproef trekken)
1. Formulering Klassieke Testtheorie
43
5. Berekening van de vereiste testscorestatistieken aan de hand van de bekomen steekproefgegevens en bundeling ervan in normtabellen Voorbeeld: normtabellen rekenvaardigheid
1. Formulering Klassieke Testtheorie
44
2. Generaliseerbaarheidstheorie Document psgen05
Overzicht
Situering, basisconcepten en overzicht o Generaliseerbaarheidstheorie = een veralgemening van de K.T.T.
(Statistisch) model van de generaliseerbaarheidstheorie
Generaliseerbaarheidsstudies (G-studies): bepaling variantiecomponenten o Met als doel het schatten van kwantiteiten om nieuwe testinstrumenten te ontwikkelen (met nauwkeurigheid!)
Decisiestudies coëfficiënt
En verder …
(D-studies):
schatten
meetfoutvariantie
en
generaliseerbaarheids-
Inleiding
Naast niet-systematische meetfouten zijn er ook systematische meetfouten oftewel meetaspecten die het resultaat beïnvloeden
Er kan pas vanaf 2 meetfacetten sprake zijn van een interactie-effect (bv: examenvorm én student)
De generaliseerbaarheidstheorie biedt een veralgemening van de klassieke betrouwbaarheidstheorie via de modellering van de bronnen van systematische meetfouten of systematische meetvariatie
In het bijzonder laat deze generaliseerbaarheidstheorie toe het belang van de diverse fout- en meetvariatiebronnen te bepalen
Er wordt aandacht besteed aan zowel toevallige als systematische meetfouten o
Systematische meetfouten zijn variaties in het meetresultaat te wijten aan een echt kenmerk van de meting
Hierbij is er sprake van een onderscheid (bv: meting kennis psychometrie) tussen: o
Object van meting: de entiteit waarop het te meten kenmerk betrekking heeft Bv: de studenten
o
Meetfacetten: aspecten of componenten die het meetresultaat mee bepalen Bv: examenvorm, beoordelaar
2. Generaliseerbaarheidstheorie
Situering, basisconcepten en overzicht
45
Daarnaast wordt er ook een onderscheid gemaakt tussen: o
Populatie: het geheel van meetobjecten
o
Universum: de set van alle mogelijke metingen over het geheel (van de combinaties van de niveaus) van de meetfacetten voor 1 bepaald object Bv: 20 examenvragen en 10 beoordelaars universum is 200: geheel van 200 mogelijke metingen/scores die je zou kunnen bekomen
De universumscore
(
) is de verwachte meetscore, over het universum, van het
object van meting
(Statistisch) model van de generaliseerbaarheidstheorie Hét model van de generaliseerbaarheidstheorie bestaat niet. Er zijn, naargelang de eigen aard van de meetsituatie, vele modellen mogelijk. o
Men wil meetinstrumenten ontwerpen die de beoogde generaliseerbaarheid (nauwkeurigheid, betrouwbaarheid) hebben
De modellen variëren m.b.t.: o
Het aantal meetfacetten
o
De aard van de meetfacetten: fixed vs. random meetfacetten
o
Fixed: tellen maar een beperkt aantal niveaus (bv. soort examens: MC, open boek, open vragen en mondeling)
Random: niet beperkt?
De opzet waarin de meetfacetten onderling gecombineerd worden (d.i. factoren die een aantal niveaus hebben):
Meetfacetten kunnen volledig gekruist zijn (factoriële opzet): elke beoordelaar beoordeelt hetzelfde deel en hetzelfde aantal vragen (elk niveau van ene meetfacet combineren met zelfde niveaus van het andere meetfacet (bv. altijd 3 dezelfde beoordelaars)) per definitie gebalanceerd
Meetfacetten kunnen volledig genest zijn (volledig geneste of hiërarchische opzet): elke beoordelaar beoordeelt een ander gedeelte van de vragen, maar wel hetzelfde aantal (bv. elk niveau van examenvraag is geassocieerd met verschillende beoordelaars (bv. V1 beoordelaars 1 tot 3 en V2 beoordelaars 4 tot 6)) Bv: v(b) = vragen genest binnen het facet beoordelaar
Meetfacetten kunnen deels gekruist en deels genest zijn
2. Generaliseerbaarheidstheorie
46
Basismodel: gekruist opzet met 1 meetfacet elk subject krijgt dezelfde vragen
: meetscore van de student (meetobject) op examenvorm gemiddelde universumscore effect van het object van meting effect van het meetfacet residu Er zijn altijd wel een paar fouten/een beetje ruis (+ interactie-effect, maar dat kan niet in het model worden gestoken)
het populatiegemiddelde (verwachte waarde) van universumscores (bv. de verwachte score voor alle studenten en alle examenvragen)
de universumscore van het object van meting (cfr. ware score) (bv. de verwachte score voor alle niveaus van het meetfacet, dus alle vragen)
de populatiescore voor niveau moeilijkheidsgraad van de examenvorm)
het
meetfacet
(cfr.
is een constante;
en zijn kansvariabelen met waarden die verdeeld zijn/variëren over respectievelijk de populatie (bv: studenten) en het universum (bv: geheel van mogelijke examenvormen)
Ook
is een kansveranderlijke met verwachting o
representeert de toevallige meetfout
Verwachting van de effecten: o
De verwachte waarde van het effect van het meetobject is 0:
( o
)
De verwachte waarde van het effect van het meetfacet is 0:
(
en variantie
)
Variantie van de effecten: o
De variantie van het effect van het meetobject komt overeen met de universumscorevariantie:
[
⏟
]
2. Generaliseerbaarheidstheorie
van
de
47
o
De variantie van het effect van het meetfacet komt overeen met de variantie van de populatiescores geassocieerd met de (verschillende) niveaus van het meetfacet:
[ o
⏟
]
De variantie van de meetscores is:
Variantie van de meetscores = De variantie van de meetscores = De variantie t.g.v. verschillen tussen meetobjecten (universumvariantie) + De variantie t.g.v. verschillen tussen de niveaus van het meetfacet (d.i. de systematische variantie die niets te maken heeft met de meting zelf m.b.t. een bepaald kenmerk, maar er wel effect op heeft) + De rest (variantie van de meetfout, toe te schrijven aan een toevallige meetfout of interactie-effecten)
De varianties
De gebruikelijke manier om het opzet aan te duiden is o o
,
en
worden de variantiecomponenten van het model genoemd
De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met het meetniveau Elk model heeft een factor die correspondeert met het object van meting + meetfacetten …
De meetobjecten (d.i. de niveaus van het object van meting) worden gescoord onder elke combinatie van niveaus van de meetfacetten
Bijvoorbeeld: Stel 3 examenvormen psychometrie en 2 assistenten die de examens verbeteren. Elke student (meetobject) beantwoordt de 3 examenvormen en alle examens worden door beide assistenten verbeterd er zijn 3 verschillende variatiebronnen: o
Meetfacet examenvorm met 3 niveaus
o
Meetfacet beoordelaar met 2 niveaus
o
Object van meting
de student
Dus 6 combinaties van de niveaus van de meetfacetten en per student hebben we 6 scores: elke willekeurige score:
2. Generaliseerbaarheidstheorie
Model voor gekruist opzet met 2 meetfacetten
48
gemiddelde universumscore effect van het object van meting s effect van meetfacet v
E=0
effect van meetfacet b student x examen effect student x beoordelaar effect examen x beoordelaar effect
Interactie-effecten: slechts 1 meting per subject
residu, toevallige meetfout (niet volledig zuiver)
het populatiegemiddelde (de verwachte waarde) van de universumscores
de universumscore van het object van meting (cfr. ware score)
de populatiescore voor niveau van het meetfacet examenvorm (cfr. moeilijkheidsgraad examenvorm)
de populatiescore voor niveau (cfr. strengheid beoordelaars)
de gemiddelde score (over de beoordelaars) voor meetobject en niveau van het meetfacet examenvorm (de moeilijkheidsgraad van de examenvorm kan variëren over studenten)
de gemiddelde score (over de examenvormen) voor meetobject en niveau van het meetfacet beoordelaar (strengheid beoordelaars kan variëren over studenten)
de gemiddelde score (over studenten) voor examenvorm beoordeeld door beoordelaar (moeilijkheidsgraad examenvorm kan variëren over beoordelaars) is opnieuw een constante, terwijl
,
,
,
,
en
is eveneens een kansveranderlijke met verwachting
Verwachting van de effecten:
⏟
kansvariabelen zijn. en variantie
2. Generaliseerbaarheidstheorie
van het meetfacet beoordelaar
49
Variantie van de effecten: o
variantie van de universumscores
o
variantie t.g.v. examenvormen
o
variantie t.g.v. beoordelaars
o variantie t.g.v. het variëren van de moeilijkheidsgraad van de examenvormen over studenten o
…
De variantiecomponenten van het model zijn nu:
Tenslotte is, analoog , de variantie van de meetscores en kan getoond worden dat die variantie van de meetscores:
,
,
,
,
,
,
Dit is een goede meetmethode, want het grootste deel van de variantie wordt verklaard door de universumvariantie
De gebruikelijke manier om het opzet aan te duiden is o De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met examenvragen en beoordelaars (factor gekruist met 2 meetfacetten)
Model voor genest opzet met 1 meetfacet
Elke student krijgt hetzelfde aantal vragen, maar niet dezelfde Een factor, (meetfacet of object van meting), is genest binnen een andere factor, (meetfacet of object van meting) zo … o
Meerdere niveaus van met elk niveau van b geassocieerd zijn
o
Verschillende niveaus van met elk niveau van geassocieerd zijn
Bijvoorbeeld: Voor het examen psychometrie zijn 500 vragen gemaakt. Elke student krijgt een verschillende steekproef van 10 vragen uit dit totaal o
Object van meting: studenten,
o
Meetfacet: examenvragen, Maar: elke student krijgt een verschillende set van 10 vragen Meetfacet examenvragen is genest binnen studenten
2. Generaliseerbaarheidstheorie
( )
50
Bovenstaand opzet wordt gebruikelijk genoteerd als meetfacet genest is binnen studenten,
om aan te geven dat het
Er is dus een interactie tussen het meetfacet en het object van meting
Is
de score van student op vraag , dan is het passend model: de gemiddelde universumscore, effect van student residu, toevallige meetfout
Merk op dat het effect van het meetfacet vragen, ( ), niet kan onderscheiden worden van de toevallige fout, , en daarom niet gemodelleerd wordt (want het meetfacet is genest binnen het subject) en
zijn kansveranderlijken met een verwachting
De variantiecomponenten van het model zijn o
en
en
met:
, de variantie geassocieerd met het student-effect
o
Opnieuw is de variantie van de meetscores: o
= de variantie van de meetscore
o
= de variantie van de echte toevallige meetfout
+ de variantie van de
interactie van en + de variantie van het meetfacet
Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten Bijvoorbeeld: Studenten zijn meetobjecten, (open) examenvragen meetfacet en beoordelaars het tweede meetfacet.
Er zijn verschillende types van dergelijke geneste opzetten: o
of
o
( )
o
(
o o
vormen het eerste
(
of
( )
)
of
(
)( )
=
( ( ))
of
(
) )( )
( ( ))
verschillende meetfacetten zijn op verschillende manieren genest
2. Generaliseerbaarheidstheorie
51
Bemerk dat opzetten waarin het aspect i.v.m. het object van meting genest is binnen een meetfacet (e.g., ) niet voorkomen. Dergelijke opzetten scheppen problemen om de variantiecomponent geassocieerd met het object van meting te schatten
Type 1:
(of:
)
Object van meting gekruist met meetfacet examenvragen dat genest zit in meetfacet beoordelaars
Voorbeeld: Elke student krijgt alle vragen (met, bv. ) en alle studenten worden door iedere beoordelaar (met, bv ) beoordeeld, maar beoordelaar 1 verbetert enkel de vragen 1 en 2, terwijl beoordelaar 2 enkel de vragen 3 en 4 beoordeelt
Model: gemiddelde universumscore effect van student effect van beoordelaar
zit genest in er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT
student x beoordelaar effect vragen x beoordelaar effect
Interactie-effecten: verwachting = 0
genest, dus zonder +
residu, toevallige meetfout x ), 2de interactie-effect
Variantie van de meetscores:
Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en beoordelaar
2. Generaliseerbaarheidstheorie
puur residuele fout, interactie-effect ( x ( x )
52
Type 2:
(of:
)
Het meetfacet examenvragen dat genest zit in het object van meting, gekruist met het meetfacet beoordelaars
Voorbeeld: Elke student krijgt een verschillende set van vragen, , en alle examens worden door iedere beoordelaar, , verbeterd
Model: gemiddelde universumscore effect van student effect van beoordelaar
zit genest in er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT
student x beoordelaar effect student x vragen effect
Interactie-effecten: verwachting = 0
genest, dus zonder +
residu, toevallige meetfout x ), 2de interactie-effect
Variantie van de meetscores:
Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en student
Type 3:
(
)
(of:
(
))
Het meetfacet examenvragen zit genest in de kruising van het object van meting met het meetfacet beoordelaars
Voorbeeld: Elke student wordt door iedere beoordelaar geëvalueerd, maar de set van gescoorde vragen is verschillend voor iedere combinatie van de niveaus van en (de beoordelaars verbeteren telkens 2 verschillende vragen)
2. Generaliseerbaarheidstheorie
puur residuele fout, interactie-effect ( x ( x )
53
(
Model:
) gemiddelde universumscore effect van student effect van beoordelaar student x beoordelaar effect
Interactie-effect: verwachting = 0
residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x )
x ), 2de interactie-effect
Variantie van de meetscores:
Het effect van de examenvraag is genest binnen de gekruiste opzet van het meetobject en het meetfacet beoordelaars, waardoor er geen genest interactie-effect is
Type 4:
(
)( ) = (
)( )
De kruising van het meetfacet examenvragen met het meetfacet beoordelaars zit genest in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort alle aan de student gestelde vragen (er zijn verschillende vragen en elke vraag wordt door dezelfde 2 beoordelaars beoordeeld) 2. Generaliseerbaarheidstheorie
54
(
Model:
Er is geen interactie tussen en want deze zit genest in
)( ) gemiddelde universumscore
je moet dus erbij nemen
effect van student student x vragen effect
Interactie-effect: verwachting = 0
student x beoordelaar effect residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x )
x ), 2de interactie-effect
Variantie van de meetscores:
Het gekruiste opzet tussen het meetfacet examenvragen en meetfacet beoordelaars zit genest binnen het meetobject, wat betekent dat er wel interactie-effecten zijn
Type 5:
( ( ))
(of:
( ( )) )
Het meetfacet examenvragen zit genest in het meetfacet beoordelaars, dat op zijn beurt genest zit in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort slechts een deel van de aan de student gestelde vragen (er zijn 2 verschillende beoordelaars en elke beoordelaar beoordeelt 2 verschillende vragen)
Model:
( ( )) gemiddelde universumscore
Er is geen interactie terug te vinden tussen en want zit genest in , die genest zit in je moet dus
erbij nemen
effect van student student x beoordelaar effect
Interactie-effect: verwachting = 0
residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x )
2. Generaliseerbaarheidstheorie
x ), 2de interactie-effect
55
Variantie van de meetscores:
Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten
Doel: schatten van de variantiecomponenten voor een zo ruim mogelijk universum van meetscores (d.i., m.b.t. zo veel mogelijk relevante meetfacetten)
Opmerking: Een volledig gekruist opzet laat, in vergelijking met (partieel) geneste opzetten, de schatting van een groter aantal variantiecomponenten toe
De actuele bepaling van de waarde van de variantiecomponenten gebeurt m.b.v. procedures uit de variantie-analyse dit is een methode van data-analyse o
De methode is een speciaal geval voor de analyse van responsvariabelen volgens het algemeen lineair model
Voorbeeld: Een G-studie aan de hand van een volledig gekruist opzet ( x x ) van studenten ( ), vragen ( ) en beoordelaars ( ) levert, na toepassing van variantie-analyse de volgende schattingen (notatie: met een hoedje) van de variantiecomponenten:
De schattingen van de variantiecomponenten wijzen op twee problemen: o
Aanzienlijke verschillen in de moeilijkheid tussen de examenvormen
o
De moeilijkheid van de examenvormen varieert aanzienlijk van student tot student
Doel: gebruik van de in de G-studie bekomen schatting van de variantiecomponenten voor beslissingen i.v.m. de samenstelling van een meetinstrument met een aanvaardbare nauwkeurigheid. De beslissingen betreffen o.m. het vereiste aantal niveaus voor de meetfacetten (Hoeveel vragen? Hoeveel beoordelaars? Welke vorm?)
M.b.t. de nauwkeurigheid van de meting wordt een onderscheid gemaakt tussen de nauwkeurigheid van: o
Relatieve metingen: de onderlinge positie van de meetobjecten t.o.v. elkaar (relatieve positie) meting beogen op intervalniveau
2. Generaliseerbaarheidstheorie
Decisiestudies (D-studies)
56
o
Absolute metingen: (een schatting van) de absolute universumscore (dit is t.b.v. de vergelijking met een drempelwaarde) meting beogen op rationiveau Bv: examenuitslag vergelijken met een vooropgestelde drempelwaarde
Meetnauwkeurigheid
In de KTT kent men twee maten voor de meetnauwkeurigheid: o
Onvoorwaardelijke meetnauwkeurigheid: de betrouwbaarheid
o
Voorwaardelijke meetnauwkeurigheid
(
)
met:
(standaardmeetfout) met:
√
Bij de generaliseerbaarheidstheorie wordt de meetnauwkeurigheid van een D-studie in het algemeen gedefinieerd als:
Merk op: men gebruikt universumscores i.p.v. truescores
De variantie van de meetfout is afhankelijk van / verschillend naargelang: o
De opzet van de studie (combinatie van meetfacetten)
o
Het aantal niveaus van de meetfacetten
o
De aard van de meting (d.i. relatieve vs. absolute meting)
Principes van de bepaling van de meetfoutvariantie Bij de bepaling van de meetfoutvariantie bij een relatieve meting ( ), spelen enkel de variantiecomponenten i.v.m. de interactie van de meetfacetten met het object van meting een rol, omdat enkel deze effecten de relatieve orde van de meetobjecten verstoren o
Voorbeeld: Bij een gekruist opzet ( x
x ) met
object van meting, zijn enkel de componenten
en ,
als meetfacetten en het en
belangrijk
Bij de bepaling van de meetfoutvariantie bij een absolute meting ( ), spelen alle variantiecomponenten, uitgezonderd de component i.v.m. het meetobject, een rol o
Voorbeeld: Bij een gekruist opzet ( x belangrijk
x ) zijn de componenten
,
en
2. Generaliseerbaarheidstheorie
57
Zowel bij de relatieve als bij de absolute meting is de bijdrage van een relevante variantiecomponent tot de meetfoutvariantie omgekeerd evenredig met het aantal (combinaties van) niveaus van de meetfacetten die met de component geassocieerd zijn o
Voorbeeld 1: Bij een gekruist opzet ( x
x ) met
en
object van meting, is niveaus voor de meetfacetten o
als meetfacetten en het , met
en
en in de D-studie
Voorbeeld 2: Bij datzelfde opzet ( x
x ) met
en
als meetfacetten en
object van meting, is
, met
het aantal niveaus voor de meetfacetten o
Voorbeeld 3: Bij een genest opzet
o
het en
en in de D-studie
x ( ) met
en
object van meting, is niveaus voor de meetfacetten
het aantal
als meetfacetten en
, met
en
het
het aantal
en in de D-studie
Voorbeeld 4: Bij datzelfde opzet
x ( ) met
en
als meetfacetten en
object van meting, is aantal niveaus voor de meetfacetten
, met
en
het het
en in de D-studie
Coëfficiënten van meetnauwkeurigheid
M.b.t. relatieve metingen wordt de meetnauwkeurigheid van een meetprocedure uitgedrukt via de generaliseerbaarheidscoëfficiënt, , met:
De componenten van
(dit is
en
beoogde
) worden geschat via de in een
passende G-studie bekomen waarden voor de variantiecomponenten De -coëfficiënt stemt overeen met de verwachte waarde van de gekwadrateerde correlatie tussen de geobserveerde scores en de universumscores van de meetobjecten
= ( o
) Voorbeeld 1: Stel dat een -studie voor een gekruist opzet met en als meetfacetten en het object van meting resulteerde in de volgende schattingen van de variantiecomponenten:
2. Generaliseerbaarheidstheorie
58
We plannen een -studie met een gekruist opzet waarbij de studenten, , allen dezelfde twee examenvragen, , afleggen, verbeterd door dezelfde twee beoordelaars, . In dat geval is:
Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
̂
o
̂ ̂
Voorbeeld 2: Gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met een gedeeltelijk genest opzet, , met twee examenvormen ( ) en vier beoordelaars ( ):
Voor dit opzet geldt de volgende decompositie:
en is
̂
̂
Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
o
Voorbeeld 3: Nog steeds gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met het volgende gedeeltelijk genest opzet, , met vijf examenvormen ( ) en drie beoordelaars ( ):
Voor dit opzet geldt de volgende decompositie:
2. Generaliseerbaarheidstheorie
̂
̂ ̂
59
̂
̂
en is
̂
̂
Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
̂
̂ ̂
M.b.t. absolute metingen wordt de meetnauwkeurigheid meetprocedure uitgedrukt via de index of dependability, , met:
van
een
beoogde
Ontwerp D-studies met beoogde meetnauwkeurigheid
Doel: het ontwerpen van meetprocedures m.b.v. een D-studie zodat de meting voldoende nauwkeurig is (d.w.z. zodat de G-coëfficiënt voldoende hoog is)
Voorbeeld: Aansluitend op de volgende -studie plan ik een meting a.d.h.v. een gekruist opzet ( x x ), zodat de generaliseerbaarheidscoëfficiënt minstens 0.80 is
Er zijn minstens 4 beoordelaars en 5 vragen nodig
̂
̂ ̂
̂
2. Generaliseerbaarheidstheorie
Hoeveel examenvormen en/of beoordelaars moet ik minstens inschakelen zodat de Gcoëfficiënt minstens x is?
̂
60
Generaliseerbaarheidstheorie voor het opzetten met zowel fixed (bv: het hele curriculum beschikbaar, maar we hebben enkel het vak psychometrie nodig) als random meetfacetten.
Generaliseerbaarheidstheorie voor ongebalanceerde opzetten (d.i. het opzetten met ongelijke aantallen facetniveaus genest binnen een ander facet)
Multivariate generaliseerbaarheidstheorie
2. Generaliseerbaarheidstheorie
Extra
61
62
2. Generaliseerbaarheidstheorie
3. Itemresponstheorieën Document psir105 Document psir205
Overzicht
Situering, basisconcepten en aannamen
Soorten Itemresponstheorieën
Schatting subject- en itemparameters
Testinformatie en testconstructie
Modeltoetsen
Toepassingen: o o
Geautomatiseerd testen Adaptief testen
Inleiding
Dit wordt ook wel de Moderne Testtheorie genoemd
De focus ligt op gescoord itemgedrag; men probeert expliciet de relatie tussen het gescoorde item en het latent kenmerk te modelleren
Situering, basisconcepten en aannamen Situering en basisconcepten
Itemresponstheorieën betreffen de samenhang tussen het gescoord responsgedrag op een testitem (d.i. het gescoord antwoord op testitem ) en de positie van het subject m.b.t. het vermoede, onderliggende latent kenmerk (d.i. de trekscore van subject op trek ) en zijn kansvariabelen
De samenhang tussen het gescoord antwoord op testitem individu wordt gedefinieerd m.b.v. de regressiefunctie
De regressiefunctie (voor het geheel van mogelijke waarden van ) wordt ook de Itemkarakteristieke functie of curve (IKF) of traceline van het item genoemd
Er wordt een onderscheid gemaakt voor itemresponstheorieën voor metrisch en discreet gescoorde items o
Bij metrische items is het responsgedrag continu en wordt het metrisch (dus op interval of ratio niveau) gescoord
o
Bij discrete items is het responsgedrag discreet en wordt het nominaal gescoord (bv: juist (score 1) of fout (score 0) bij dichotome items)
3. Itemresponstheorieën
en de trekscore van een
63
Itemresponstheorieën kunnen ook opgedeeld worden in latente klassenmodellen (de trek is discreet, d.w.z. met een beperkt aantal mogelijke waarden) en latente trekmodellen (de trek is continu) Vanaf hier enkel aandacht voor unidimensionele latente trekmodellen voor discrete (meer bepaald, dichotome) items
Aannamen onderliggend aan IRT voor dichotome items
De itemrespons is een functie van een onderliggend continu latent kenmerk
De items zijn unidimensioneel: één enkele latente trek volstaat om de samenhang tussen de items te verklaren (d.w.z. dat de items lokaal onafhankelijk zijn)
met
:
de (voorwaardelijke) kans om item correct op te lossen, gegeven de waarde voor de trek
Al naargelang het IRT model wordt ook een specifieke aanname omtrent de aard van de regressiefunctie gemaakt
Bemerk dat met dichotome items:
Er zijn maar twee mogelijke uitkomsten
Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items
Er wordt een onderscheid itemresponstheorieën:
gemaakt
tussen
verschillende
modellen
voor
o
Deterministische modellen (de kans heeft maar 2 mogelijke waarden 0 en 1)
o
Probabilistische/stochastische modellen (de kans neemt alle mogelijke waarden aan tussen 0 en 1)
Parametrische modellen (bij deze modellen is de regressiefunctie gekenmerkt door een aantal parameters, er wordt verwezen naar de items)
Niet-parametrische modellen (de functie is niet belast met items)
Hierna worden enkel de meer gebruikelijke parametrische modellen behandeld
3. Itemresponstheorieën
64
Deterministische modellen GUTTMAN MODEL
Oudste model: ca. 1940 (context: attitudemetingen)
Regressiefunctie
gedefinieerd als:
{
met
de itemmoeilijkheid
Opmerking: dit is niet echt een realistisch model, want het laat maar twee kansen toe, nl. 0 en 1 (het is dus te simpel)
Stochastische modellen NORMAALOGIEFMODEL (LORD, 1953) De regressiefunctie (IKF)
[ met
is:
]
∫
(
√
)∫
⁄
de standaardnormaaldistributiefunctie de standaardnormaaldichtheidsfunctie
Normaalogiefmodel met 2 itemparameters met waarde 1
3. Itemresponstheorieën
65
[
]
Zeer slecht item, want het discrimineert niet. Waar je je ook bevindt op het -continuüm, je hebt altijd evenveel kans om het item correct op te lossen
Dit is het makkelijkste item Dit is het moeilijkste item Zeer slecht item, maar beter als traceline (1), want het discrimineert minimum
is een waarde om te discrimineren tussen een hoge en lage waarde op de trek: hoe hoger, hoe preciezer het item discrimineert
Bij een parameter gaat het over de moeilijkheid van een item: hoe hoger, hoe meer rechts de traceline zich bevindt hoe hoger de waarde
o
Waar je je ook bevindt op het continuüm, …
Je hebt altijd meer kans om item (3) op te lossen dan item (4)
Je hebt altijd meer kans om item (5) op te lossen dan item (6)
Parameters:
: parameter van de discriminatieve kracht van het item
: parameter i.v.m. de moeilijkheid van het item
o
Als
o
Als
o
(( Als
[
[
{
]
voor alle waarden voor
dan is:
]
[ [
]]
[ [ [
]] [ ]
]
3. Itemresponstheorieën
o
moet zijn
66
[ [ (
]
√
)] √
De helling van de raaklijn voor
is evenredig met
))
Er is echter een numeriek probleem met het normaalogiefmodel: De waarde van de standaardnormaaldistributiefunctie is niet analytisch evalueerbaar (het is met andere woorden moeilijk uit te rekenen wat de waarde is van die functie)
o
Echter:
met o
: de logistische functie
Dus:
[
]
[
]
Eén parameter logistisch model: Rasch model BASISFORMULERING
Alle items hebben dezelfde discriminatieve kracht en dan houd je maar 1 parameter over
Regressiefunctie (IKF) van het model is:
[ met
constant voor alle
(
]
) (
)
kan vervangen worden door
(want de
discriminatieve kracht is voor elk item gelijk)
Noteer: o
: subject abilit : itemmoeilijkheid
{
(
dan
) (
)
Subject ability = de plaats van het subject op het onderliggend continuüm
Immers:
: :
itemgemakkelijkheid subject ability
De relatie tussen en is omgekeerd (kunnen nooit negatieve waarden zijn)
3. Itemresponstheorieën
MULTIPLICATIEVE FORMULERING RASCH
67
Opmerking:
i.t.t.
KARAKTERISTIEKEN VAN ITEM- EN SUBJECTPARAMETERS
Parameters kunnen bepaald worden tot op een additieve resp. multiplicatieve constante:
( ) ( )
Item- resp. subjectparameters kunnen onafhankelijk van elkaar bepaald worden: specifieke objectiviteit Welke steekproef we ook gebruiken om de parameters te schatten, de geschatte parameters zullen altijd dezelfde waarden hebben, op de constante na (afh. van de formulering). D.w.z. dat we dezelfde schaling zullen vinden
SPECIFIEKE OBJECTIVITEIT: VERGELIJKING TUSSEN TWEE ITEMS
Odd =
:
de kans om het item juist op te lossen in verhouding tot de kans om het item verkeerd op te lossen
⁄
Odds-ratio voor het oplossen van item vs. :
⁄
{ }
De verhouding tussen de itemgemakkelijkheden is constant, ongeacht de latente trekscore van de subjecten. Vergelijk met de moeilijkheidswaarden zoals gedefinieerd in de KTT
Dus bij de vergelijking tussen 2 objecten:
⁄ ⁄
3. Itemresponstheorieën
⁄ ⁄
68
SPECIFIEKE OBJECTIVITEIT: ENKEL RASCH MODEL
Veronderstelling: tracelines hebben dezelfde helling
Maar: welke van de items de moeilijkste is, hangt af van individu tot individu o
Subject v vindt item i het moeilijkst om op te lossen, terwijl subject w item j het moeilijkst vindt (?) dat verschil mag niet bij het Rasch model: dus geen sprake van specif. object.
o
De helling van de traceline van de 2 items is verschillend (en beide items hebben dus een verschillende discriminatieve kracht)
o
Bij het tweede item j is de kans groter dan 0 om het item juist op te lossen, zelfs al scoor je oneindig laag
Twee- en drie-parameter model
Traceline = discrimineerbaarheid van het item (hoe steiler de helling, hoe beter discrimineerbaar)
Er is geen specifieke objectiviteit meer, maar de modellen zijn realistischer
Twee-parameter model:
]
De tracelines hebben een verschillende helling; dit heeft te maken met de aparameter
Drie-parameter model: (Opgesteld om te vermijden dat mensen juist antwoorden door te gissen)
[
]
met
: gis-coëfficiënt
3. Itemresponstheorieën
[
69
Schatting van de modelparameters: subject- en itemparameters
De modelparameters omvatten het geheel van de item- en de subjectparameters
Bv: Rasch model
o
Itemparameters: de set , of de formulering van het model
o
Subjectparameters: de set
,
met = 1, …, of
(aantal items), al naargelang
met = 1, …,
(aantal subjecten)
In wat volgt, bekijken we eerst het geval waar de itemparameterwaarden bekend (reeds geschat) zijn en enkel nog de subjectparameters dienen bepaald te worden
Schatten van de subjectparameters
De itemparameterwaarden zijn reeds bekend/geschat
Het schatten van de subjectparameters gebeurt m.b.v. de methode/het principe van de maximale aannemelijkheid (vgl. met ‘methode van de kleinste kwadranten’, Statistiek II)
Aannemelijkheid (likelihood): kans van het antwoordpatroon
Notatie: {
Voorbeeld: Voor het antwoordpatroon is de aannemelijkheid (cfr. principe van lokale onafhankelijkheid)
Alle drie de componenten kunnen op dezelfde manier worden uitgedrukt (niet soms P, soms Q)
DUS:
∏ Bemerk dat de aannemelijkheid (likelihood) functie is van de waarde van
Dus: de aannemelijkheid (de kans om het item juist op te lossen) varieert naargelang de waarde van
3. Itemresponstheorieën
o
met bijvoorbeeld
70
We gaan de hoogste score van corresponderend met de hoogste aannemelijkheid (max. likelihood) gebruiken als schatter
(( Opmerking:
Schatten van de subjectparameter betekent zo bepalen dat maximaal is. M.a.w. bepaal of met:
[
{∏
∑
{ (
}
)
∑
(
)}
] : natuurlijke logaritme van de likelihood
{
(een functie van )
}
∑
))
Aannemelijkheid van een geheel van antwoordpatronen,
de subjecten zijn onderling onafhankelijk, iedere rij is een subject
(
)
∏
∏
functie van het geheel van subjectparameters
BIJ HET RASCH MODEL Eigenlijk geen parameter meer
Kans om het item juist op te lossen
Kans om het item fout op te lossen
∏ ∏
]
[
]
∏
heeft waarde 0 of waarde 1; deze formule klopt voor beide waarden
De likelihood ( ∏ ) is functie van de waarde van de subjectparameter multiplicatieve formulering) of van (basisformulering)
Voorbeeld: Schatting
(in de
, gegeven Hoe hoger, hoe moeilijker het item
Gegeven:
en
3. Itemresponstheorieën
o
[
71
Itemgemakkelijkheid
Dus:
Probleem: Bepaal
Oplossing: Iteratieve methode
Illustratie berekening aannemelijkheid:
∏
zo, dat
Stel, bijvoorbeeld:
{
De aannemelijkheid
:
Stel, anderzijds,
De aannemelijkheid
maximaal is
{ :
hier is de aannemelijkheid al heel wat groter
Enzovoort voor andere waarden voor
Overzicht:
……
Maximale aannemelijkheid wordt geprefereerd (toepasbaar; psychometrie), maar anders is methode van de kleinste kwadraten (statistiek) ook goed. Dezelfde schatting van de parameters
3. Itemresponstheorieën
72
Eigenschappen van een maximale aannemelijkheidschatter
Is ̂ een MA-schatter voor , dan is ̂ : o
Consistent:
(| ̂
|
)
De schatter ̂ convergeert naar (de ware waarde van) naarmate het convergeert naar de exacte parameterwaarde naarmate het op een groeiend aantal items gebaseerd is = consistent
o
Efficiënt: De variantie van de steekproevenverdeling van ̂ (
̂)
is asymptotisch
minimaal asymptotisch minimaal (bij groeiend aantal items): zo klein mogelijk (~gekenmerkt door een steekproevenverdeling met de kleinste variantie)
o
(Asymptotisch) normaal verdeeld als het op een groeiend aantal items gebaseerd is, neigt het meer en meer naar een normaalverdeling (de steekproevenverdeling van )
o
Functie van een voldoende statistiek: Een voldoende statistiek is een functie van de data (d.i. de gescoorde itemantwoorden) die alle informatie bevatten die nodig is om de waarde van de parameter te schatten (Statistiek II)
Schatters zijn realisaties van kansveranderlijken Bv.: Om mijn schatter te bekomen, is de statistiek ( ̅) voldoende. Ik heb de afzonderlijke scores niet nodig (een statistiek = elke functie van de data (1 element = een statistiek, som = een statistiek, …)
Testinformatie en testconstructie Informatiefunctie van een test De meetprecisie (hoeveelheid info) van een test als functie van de waarde van (~ voorwaardelijke meetprecisie uit de KTT)
:
̂
(
∑
) (
)
ALGEMEEN: hoe preciezer je dit kan schatten, hoe smaller de steekproevenverdeling
ALGEMEEN: generieke vergelijking (geldt voor elke likelihoodschatter)
∑
RASCH: geldt enkel voor het Rasch-model
met Bemerk dat
een functie is van
omdat
en
dat zijn
3. Itemresponstheorieën
73
Informatiefunctie van een item
De meetprecisie (hoeveelheid info) van een item als functie van de waarde van
:
RASCH: geldt enkel voor het Rasch-model
Bemerk dat
maximaal is als
(dit is een kans van 0.50 om het item correct op te lossen)
Voor welke waarde van item) maximaal zijn? Als
zal de waarde van
(= de informatiefunctie van een
precies gelijk is aan de moeilijkheidswaarde van het item
Bemerk dat we, gegeven een schatting voor en de itemparameters, de meetprecisie van elk item (ook een nog niet aangeboden item) kunnen berekenen
Dit is een gegeven van groot praktisch belang voor de testconstructie: de test kan aan het individu aangepast worden (adaptief testen)
Modeltoetsen
De informatiefunctie (van een toets of item) berekenen is niet beperkt tot het Raschmodel, maar kan ook bij andere modellen gebruikt worden, zoals het twee- en drieparameter model. Het Rasch-model is enkel simpeler
Om na te trekken of de assumpties van een IRT-model in overeenstemming zijn met de data (testen op houdbaarheid), zijn tientallen procedures en toetsen ontwikkeld
Toetsen die natrekken of een itemcollectie voldoet aan de vereisten van het Raschmodel: o
Toets van Wright & Panachapakesan
o
Toets van Andersen
Toets van Wright & Panachapakesan [
]
∑
De gestandaardiseerde frequentie wordt gesommeerd
∑
Met [
[
( )] ]
( ) ( )
⁄
3. Itemresponstheorieën
: aantal items
74
: aantal scoregroepen (d.i. groepen van individuen met dezelfde totaalscore)
: aantal individuen in scoregroep
: aantal individuen uit scoregroep
dat item
correct beantwoordt
(= binomiale kansveranderlijke)
: de uit het model afgeleide kans dat een individu uit scoregroep item oplost
Wanneer de toetsgrootheid > de kritieke waarde, wordt de nulhypothese verworpen
Toets van Andersen
De toets is toepasbaar als de individuen op grond van een ander kenmerk dan hun testscore in groepen kunnen ingedeeld worden o
Bv.: man-vrouw, leeftijd, kleur van ogen, …
De toets is eveneens een
[
(
]
toets: ̂
∏ ̂
De volledige matrix (bv. groene + bruine + blauwe ogen)
) Bv. de groep met blauwe ogen
Met
̂ :
de met geschatte parameterwaarden samenhangende likelihood
̂
van de data van subgroep j de geschatte likelihood voor het geheel van de subgroepen
:
Toepassingen Er zijn verschillende toepassingen mogelijk van de itemresponstheorieën: o
Ontwerp mastery tests
o
Vertical equating: het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben
o
Item bias: natrekken of testitems bepaalde subjectgroepen benadelen
o
Adaptief testen: testen op maat van het individu
Een test is adaptief zo de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items
3. Itemresponstheorieën
75
Ontwerp mastery tests
Dit is het ontwerpen van een test die zo goed mogelijk discrimineert tussen individuen die onder een bepaalde vooraf opgestelde kritieke waarde scoren en individuen die erboven scoren
Masters hebben een trekwaarde
zodat
Non-masters:
o
De trekwaarde moet minstens gelijk zijn aan een vooropgestelde kritieke waarde (drempel), bv. je slaagt voor het examen psychometrie als je minstens 10/20 haalt
o
Bij non-masters ligt de score lager dan die kritieke drempelwaarde
Een mastery test is een test met een speciale informatiefunctie. Het is namelijk een test die bijzonder goed discrimineert tussen masters en non-masters, en die m.a.w. zeer gevoelig is (een grote informatiewaarde heeft) in de nabijheid van de waarde voor de latente trek
Deze test wordt vooral toegepast in een educatieve context Elk examen beoogt een masterytest te zijn
INFORMATIEFUNCTIE VAN EEN MASTERY TEST
Als we over schattingen van de itemparameterwaarden beschikken, dan kunnen we technieken voor het oplossen van 0-1 lineair programmeringsproblemen aanwenden Verklarende noot: (0-1) lineair programmeringsprobleem o
Een programmeringsprobleem is een probleem waarbij een functie van de probleemvariabelen (d.i. de doelfunctie) moet geoptimaliseerd (gemaximaliseerd of geminimaliseerd) worden
3. Itemresponstheorieën
MASTERY TEST: HOE?
76
o
Constrained programmeringsprobleem: het optimum van de doelfunctie moet gevonden worden onder de conditie dat de oplossingswaarden voor de probleemvariabelen aan een aantal restricties voldoen
o
Lineair programmeringsprobleem: de doelfunctie en restricties zijn lineair in de probleemvariabelen (anders: niet-lineair programmeringsprobleem)
o
(0-1) programmeringsprobleem: alleen de waarden 0 en 1 zijn toegelaten voor de probleemvariabelen (dit geldt zowel voor een lineair als een niet-lineair programmeringsprobleem)
o
Voorbeeld niet-lineair programmeringsprobleem: (niet-lineaire doelfunctie) Mits (lineaire restrictie) (lineaire restrictie) Met
de set van probleemvariabelen
Oplossing: en waarde voor de doelfunctie
met -
als geoptimaliseerde
Benadering 1: Opstellen van een test met zo weinig mogelijk items die toch voldoende onderscheid maakt tussen masters en non-masters. D.w.z. een zo kort mogelijke test die voldoende informatie biedt voor gelijk aan (d.i. een informatiewaarde minstens gelijk aan ):
∑ Mits
∑
o
: item i wordt toegelaten in de test
o
: item i wordt niet toegelaten in de test
o
De informatiewaarde van een test is iets minder dan het geheel aan informatiewaarden van de items. Het doel is dus om die items die voldoende informatie bieden in de test te steken
Benadering 2: Opstellen van een test die maximaal uit items bestaat en toch zo goed als mogelijk een onderscheid maakt tussen masters en non-masters:
3. Itemresponstheorieën
Kritieke drempelwaarde voor de trek
Mits
77
∑ o
Met, zoals voorheen, probleem:
de set van (0-1) variabelen van het programmeringswaarbij
o
: item i wordt toegelaten in de test
o
: item i wordt niet toegelaten in de test
Vertical equating
Dit is het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben (Vertical equating kan je hanteren als items voldoen aan het Rasch model)
Stel testen A en B, met
In het Rasch model:
(̂
̂
̂
∑
gemeenschappelijke items Itemmoeilijkheden
) en (̂ (̂
̂
̂
) zijn identiek (op een additieve constante
na)
)
Bijvoorbeeld: Numerieke intelligentie bij kinderen
A = 5-7 jaar
en
B = 8-12 jaar
o
Vraag ontwikkelingspsychologie: Groeit numerieke vaardigheid met de leeftijd? (Hoe evolueert de 1e categorie t.o.v. de 2e categorie?)
o
2 verschillende testen die minimum een aantal items gelijk hebben (test A en B) subjectgroepen situeren op eenzelfde schaal: kan niet bij KTT (enkel binnen subjectgroepvergelijking)
o
Binnen de KTT zijn dit soort vragen moeilijk op te lossen
Item bias
Natrekken of testitems bepaalde subjectgroepen benadelen
Differential Item Functioning (DIF) als indicatie voor item bias: gegeven dezelfde waarde voor de trek heeft de ene groep systematisch minder kans om het item correct op te lossen dan de andere groep Bijvoorbeeld: numerieke vaardigheden -
Bovenste lijn = mannen Onderste lijn = vrouwen
De kans om het item correct op te lossen is voor vrouwen kleiner dan voor mannen (discriminatie)
3. Itemresponstheorieën
Is het zo dat een bepaalde test vrouwen, zwarten, allochtonen, … discrimineert?
78
Nagaan van DIF: Vergelijk de itemparameterschattingen bekomen via aparte analyses van de subgroepdata
Geautomatiseerd testen
Testafname, scoring en (eventueel) omscoring naar normen gebeurt computergestuurd
Bijvoorbeeld: o RAVEN MATRICES / WAIS o MMPI / CATELL16PF
ability persoonlijkheid
VOORDELEN
Afname en scoring zonder personeel
Grotere standaardisatie van de afnamecondities
Snelheid van de afname en de scoring: onmiddellijk scores, normen en profielen
Flexibiliteit in testafname (de test kan aangepast worden aan specifieke noden)
Gemakkelijk bijhouden van data en updaten van normen
Testbeveiliging: geen boekjes die verdwijnen
Adaptief testen
Testen op maat van het individu. Een test is adaptief als de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items De aanbieding van het volgende testitem is in functie van het voorafgaande responsgedrag Er zijn verschillende types van adaptief testen: o
Fixed branching
o
Model based branching
Vooral power (capaciteiten, bekwaamheden) Meestal IRT-gebaseerd 3. Itemresponstheorieën
79
FIXED BRANCHING
Zelfde aantal items per subject (en iedereen begint met hetzelfde item)
De boomstructuur ligt vast (voor het geheel van items)
Keuzes zijn irreversibel
Na elk antwoord is de keuze beperkt tot 2 items (eenvoudig geval) o
Bv.: wanneer iemand item 2 juist beantwoordde, kan deze item 4 niet meer krijgen
Problematische estimatie subject ability
Bv: De boom is 20 items ‘diep’, maar proefpersonen krijgen mogelijk 20 verschillende items
MODEL BASED BRANCHING
Vooral power (capaciteiten, bekwaamheden); meestal IRT-gebaseerd
Power (geen speed) tests praktische beperking voor het soort kenmerken dat je kan meten
Begin: fixed branching Eventueel: Bayesiaans algoritme
Eens {
} kan een schatting ̂ (een eerste initiële schatting), van de subjectparameter
via maximum likelihood bepaald worden en kan de keuze van het volgend item via infomaximalisatie berekend worden (als het subject altijd juist (de waarde van een trek van een individu)
of fout blijft antwoorden, kan men geen 1e initiële schatting maken)
Het aantal items is niet vast per subject, want de test wordt geconstrueerd op maat van het individu (het proces van convergerende schattingen zal sneller gaan bij het ene individu dan bij de ander)
o
( ̂ ) : de informatiewaarde van item
, vertrekkende van de gegeven schatting voor
doel: item met de meeste informatiewaarde bekomen
3. Itemresponstheorieën
80
Voorbeeld Model Based Branching: o
o
Startitems:
Populatiegemiddelde
Normgemiddelde Bayesiaans
We kunnen pas een schatting maken als het individu min. 1 juist en 1 fout antwoord heeft gegeven, omdat we pas een eindige waarde verkrijgen na 1 juist en 1 fout antwoord van het subject (niemand is oneindig slim of oneindig dom)
Item met gestandaardiseerde moeilijkheid van 1.65 (slechts 5% antwoordt juist)
Cfr. geautomatiseerd testen
Power van de test is hoger o
± 50% tijdsefficiënt (bij andere testen moet je eerst alle items door)
o
Uniforme meetaccuraatheid (IRT)
o
Globaal accurater
Meer gemotiveerde subjecten
Item-bias kan nagegaan worden
Vertical equating mogelijk (IRT)
Nog grotere testbeveiliging: geen communicatie over items meer mogelijk
3. Itemresponstheorieën
VOORDELEN
81
VERGELIJKING ADAPTIEVE TEST EN CONVENTIONELE TEST Meet overal even accuraat
3. Itemresponstheorieën
Nauwkeuriger in het midden
82
4. Schaalmethoden Document pssm105 Document pssm205
Inleiding
Doel: gegeven passende gegevens, schalen (meten) van psychologische objecten volgens een bepaald model (theorie) o Passende gegevens: gegevens van een meetniveau dat niet groter is dan categorisch of ordinaal niveau overzetten naar een hoger intervalniveau
Assumptie: unidimensionaliteit d.w.z. dat er wordt aangenomen dat de te schalen objecten wezenlijk in slechts één, enkelvoudig aspect van elkaar verschillen o
multidimensionaliteit: de te schalen objecten bevatten meerdere aspecten
Schaaltechniek vs. schaalcriterium: bij een schaalcriterium ligt de klemtoon niet op de schaling van de objecten (= het daadwerkelijk toewijzen van scores aan objecten) maar op het natrekken van het vooropgesteld model
Belang: constructie van attitudevragenlijsten, enz.
Overzicht: welke schaaltechnieken/schaalcriteria?
Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)
Cumulatieve schalen (criterium) (eerste IRT, Guttman, ca. 1940)
Gelijkschijnende intervallen (Thurstone en Chave, 1929)
Successieve intervallen volgens Edwards
Successieve intervallen volgens Thurstone (Wet van het categorisch oordeel)
Summated ratings techniek van Likert (1932)
Inleiding
Bijvoorbeeld: het historisch belang van bepaalde figuren schalen
4. Schaalmethoden
Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)
83
Overzicht
Passende gegevens Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen Van frequenties naar proporties (P-matrix) Van proporties naar z-waarden (Z-matrix) Interval-meetniveau Schaalwaarde items bepalen Controle interne consistentie
Passende gegevens Paren toevoegen aan onze objecten:
GEGEVENS: 1 INDIVIDU -
N = Napoleon C = Caesar R = Rousseau V = Voltaire E = Einstein
De rijstimulus wordt verkozen boven de kolomstimulus 0: preferentie kolomstimulus 1: preferentie rijstimulus Bv.:
Einstein boven Voltaire Voltaire boven Caesar En toch Caesar boven Einstein intransiviteit
Vóór aggregatie: Zijn er intransiviteiten? Zijn er schendingen op de regel van de intransitiviteit? o
Verklarende noot: intransiviteiten
Het keuzepatroon van het individu moet transitief zijn als we de situatie unidimensioneel bekijken
Dus:
(R,V) (V,E) (R,E)
V E E
Daartoe vervolledigen van de gegevensmatrix (onderdriehoek): a.d.h.v. de gegevens uit de bovendriehoek, individu per individu
Alle schendingen over de individuen optellen (men wil die eruit halen)
4. Schaalmethoden
84
Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-MATRIX VAN EEN GROEP (N = 200) De frequentiematrix geeft aan hoeveel keer de rijstimulus boven de kolomstimulus verkozen werd Ordenen van de totaliteit van het geheel van de stimuli Als er 186 voor Caesar hebben gekozen, dan hebben de overige 14 personen voor Napoleon gekozen Totaal van de afwijzingen Som van de verkozenen en afwijzingen
∑
:
totaal afgewezen
∑
:
totaal verkozen (aantal keer dat een rijstimulus verkozen wordt boven de kolomstimulus; marginale frequentie)
Bovendriehoek eerst invullen en dan kun je gemakkelijk de onderdriehoek vervolledigen (som = N)
Merk op:
HERORDENEN VAN DE F-MATRIX
! ordinale schaling van de objecten !
Van frequenties (F-matrix) naar proporties (P-matrix)
Als je moet kiezen tussen bv. Einstein en Einstein, kies je het ene moment voor de ene Einstein en het andere moment voor de andere Einstein
4. Schaalmethoden
Proporties uitgedrukt in standaarnormaaldeviaties
85
Van proporties (P-matrix) naar z-waarden (Z-matrix) Interval-meetniveau
INLEIDING
Waarom? In plaats van een ordinale, beogen we een interval meting
Achtergrond: Law of comparative judgement (Thurstone, 1927)
Praktisch: zie tabel
WET VAN HET VERGELIJKEND OORDEEL (LAW OF COMPARATIVE JUDGEMENT, THURSTONE) Individuele oordelen
en
: (normaalverdeelde) kansveranderlijken i.v.m. het oordeel (rating)
Stimulus en : {
(̅
)
(̅
)
Vergelijkende oordelen
: vergelijkend oordeel stimulus
(̅ (Zo (
)
)
Het individueel oordeel van stimulus heeft een grotere variantie (en spreiding) dan het individueel oordeel van stimulus
Het verschil van 2 (normaal verdeelde) kansveranderlijken is ook een (normaal verdeelde) kansveranderlijke
vs.
) het verschil van 2 individuele oordelen is enkel normaal verdeeld als de 2 kansveranderlijken bivariaat normaal verdeeld zijn (niet per definitie)
4. Schaalmethoden
86
: Gestandaardiseerd equivalent
̅
is standaardnormaalverdeeld
De proportie stimulus verkozen boven stimulus is gelijk aan de kans dat een standaardnormaalverdeelde kansveranderlijke kleiner is dan de standaardscore !
((
) ̅
(
Kennen we
) ̅
(
)
)
(
)
?
JA, want bij de standaardnormaalverdeling is er een éénduidige correspondentie tussen en
zodat we, gegeven
(
)
,
kunnen bepalen
als:
(
Bijgevolg, daar kwantielfunctie)
) gekend is, kan
bepaald worden a.d.h.v. de z-tabel (
is een
Als we de proportie kennen, kunnen we via de tabel vinden wat de waarde is van het overeenstemmende equivalent van
Bijvoorbeeld: o
Stel
, dan is de corresponderende waarde
o
Stel
, dan is de corresponderende waarde
4. Schaalmethoden
Dan: de proporties omzetten naar -waarden
87
Tabel omzetting P-waarde naar z-waarde
Wat weten we nu over ̅ en ̅ ?
̅
Daar
, volgt dat:
̅ ̅
̅ ̅
̅
Op de meeteenheid (
) na kunnen we het verschil in schaalwaarde van stimulus
en
afleiden uit Wat omtrent
?
(
) ( )
(
(
(
)
) )
Correlatie tussen de 2 kansveranderlijken die de individuele oordelen representeren
Bijgevolg is:
Samenvattend
̅
Standaardnormaalscore (= waarde van het bijhorend kwantiel)
̅ √
Wortel uit de variantie
4. Schaalmethoden
(
)
88
Case V: het beste onderdeel van ‘Law of Comparative Judgement’ 2 bijkomende veronderstellingen/assumpties De standaarddeviaties van de kansveranderlijken zijn voor alle individuele oordelen gelijk
√ Stel {
}
{ ̅ ̅
√ √
De kansveranderlijken zijn niet gecorreleerd
De keuze van de meeteenheid is vrij bij schaling op intervalniveau! (dus kiezen we hier √ ) je mag de meeteenheid vrij kiezen (deze varieert niet meer voor paren van stimuli)
VAN DE P-MATRIX NAAR DE Z-MATRIX P-matrix
Intervalschalen die van elkaar verschillen op gebied van meeteenheid en nulpunt
Z-matrix
̅
̅
̅
̅
̅
̅
De z-waarden zijn symmetrisch over de diagonaal
̅
̅
̅
̅
̅
̅
De stimulus met de laagste schaalwaarde wijzen we de waarde 0 toe
4. Schaalmethoden
̅
Dus: alle 3 equivalent
89
Controle interne consistentie
Nagaan of hetgeen dat we hebben vergeleken wel unidimensioneel is (screening): we kijken of de aannames realistisch zijn We komen tot een nominaal niveau.
̅ reconstrueren
pseudo P
pseudo Z
STAP 1: Z’-MATRIX reconstructie van de Z-matrix Schaalwaarde van de stimuli
STAP 2: P’-MATRIX corresponderende gereconstrueerde proportiematrix (P-matrix)
4. Schaalmethoden
STAP 3: VERGELIJKING VAN DE P- MET DE P’-MATRIX
90
Gemiddelde absolute verschil P vs. P’: (0.057 + 0.012 + … + 0.094) / 10 = 0.0684 o o
Wanneer het verschil > 0,05 is aanname onterecht Wanneer het verschil < 0,05 is aanname terecht
BETERE TOETSING Zie slide 24 en 25: niet te kennen
WAT INDIEN EXTREME PROPORTIES?
Bijvoorbeeld: wanneer je er Hitler zou bijnemen (niemand verkiest hem)
P-matrix
Stel dat bij een bepaald paar (hier: Einstein – Caesar) iedereen voor dezelfde stimulus kiest, dan krijgen we een extreme proportie
4. Schaalmethoden
Z-matrix
91
Dat systeem werkt niet meer bij extreme proporties (en oneindige waarde gaat niet)
Zie z-tabel: het verschil tussen P0.001 en P0.002 is meer dan 200 honderdsten, wat erg groot is in de vergelijking met de verschillen tussen andere waarden in de tabel. Er is symmetrie, dus hetzelfde geldt voor P0.998 en P0.999 ook
en
Bijvoorbeeld: -0.789
Verschillenmatrix 3 schattingen o.b.v. dezelfde kwantiteit, nl. N – E
Gemiddelde schaalwaarden voor de verschillende schattingen
De schaalwaarde van V is -0,901 keer groter dan die van R
Bij de verschillenmatrix moet je beginnen met de onderste rij: die is het verschil met de waarde van de rij erboven
Bepaling van de schaalwaarden van de items
̅
̅ We kiezen het nulpunt zo dat ̅
̅
̅
̅
̅
(want minst populair?)
⏟ ̅
̅
̅
̅
⏟ ̅
̅
̅
̅
⏟
Cumulatieve schalen (criterium)
Kenmerken: o
De schaal is uni-dimensioneel (alle items doen vraag naar hetzelfde aspect)
o
Items hebben een welbepaalde monotone traceline (= weergave van de regressie)
4. Schaalmethoden
̅
92
* o
* Vanaf een bepaalde waarde wordt
o
Met voor
: kans dat men akkoord gaat met het item, op voorwaarde de waarde
De cumulatieve schaaltechniek van Guttman is in eerste instantie een schaalcriterium (manier om een vooropgestelde hypothese te toetsen), geen (metrische) schaaltechniek
De schaal is cumulatief dat wil zeggen dat er een beperkt aantal responspatronen zijn (hier: akkoord (1) vs. niet akkoord (0))
Bijvoorbeeld: dichotome items: o
# toegestane responspatronen = # items + 1
(niet: 2# items)
# items = 5
# toegestane responspatronen = 5 + 1 = 6 (niet: 25 = 32)
Dichotome items BEPALING VAN DE TOEGESTANE ANTWOORDPATRONEN
3 stappen: o
Bepaal de basispopulariteit van de items
o
Maak een ordening naar dalende populariteit (proportie individuen uit de steekproef die akkoord gaan) volgorde van de tracelines
o
De orde van de tracelines bepaalt de toegestane antwoordpatronen
Er moet verder geen rekening worden gehouden met de exacte waarden van de populariteit van de items, enkel de ordening is van belang voor de bepaling van het aantal toegestane antwoordpatronen
4. Schaalmethoden
93
VOORBEELD: 4 DICHOTOME ITEMS
Toegestane responspatronen: 4 items + 1 = 5 I. II. III. IV. V.
Responsvector (0, 0, 0, 0); kans dat een individu in gebied I akkoord gaat met één van de items (0, 1, 0, 0) (1, 1, 0, 0) (1, 1, 0, 1) (1, 1, 1, 1)
Met elk van de vijf zones stemt een bepaald antwoordpatroon overeen. Alle andere antwoordpatronen mogen niet voorkomen!
Polychotome items
Geen tussenliggende kansen
4. Schaalmethoden
REPRESENTATIE VAN EEN ITEM MET 4 ANTWOORDMOGELIJKHEDEN
94
Bv: ik ga … helemaal akkoord (0) – akkoord (1) – niet akkoord (2) – helemaal niet akkoord (3) # tracelines = # antwoordalternatieven – 1 (overgang is het ene antwoord naar het andere)
TOEGESTANE ANTWOORDPATRONEN Frequentie Kolommen: percentage individuen die kozen voor een bepaald item Bv.: cumulatieve populariteit = 40 + 30 = 70 (je moet kijken naar wat er naast staat)
Cumulatieve populariteit: de populariteit van deze of een hogere antwoordcategorie
Je kan die tracelines in een tabel zetten o
8 deelgebieden (7 + 1): Voor elk deelgebied kunnen we nu vaststellen – a.d.h.v. de tracelines – wat de toegestane antwoordpatronen zijn
4. Schaalmethoden
*
95
Toepassing als schaalcriterium
1e lijn = empirisch antwoordpatroon 2e lijn = theoretisch antwoordpatroon
Voor het aantal fouten: zie
*
vorige pagina
Totaal fouten: 2 + 0 + 2 + 0 + 2 = 6 De totale score = som item 1 + item 2 + item 3
Reproduceerbaarheidscoëfficiënt
TAF: totaal aantal fouten
TAMF: totaal aantal mogelijke fouten (aantal items x aantal subjecten) o
Bv: hier: 3 items x 5 subjecten = 15
Reproduceerbaarheidscoëfficiënt =
Bijvoorbeeld: hier: Dit is te laag om te geloven (aanvaarden) dat de items voldoen aan het idee van cumulatieve schalen (minstens 0.80, liefst meer dan 0.90)
Gelijkschijnende intervallen (Thurstone en Chave, 1929)
De methode der gelijkschijnende intervallen werd oorspronkelijk ontwikkeld door Thurstone en Chave (1929)
De methode van paarsgewijze vergelijking is enkel toepasbaar als het aantal te schalen objecten klein is (nadeel van die methode) o
Bv: 200 items;
4. Schaalmethoden
Situering
96
Bij de ontwikkeling van een attitudeschaal vertrekt men evenwel vaak van een groot aantal items o
Een mogelijke oplossing hier is dat we enkel die items overhouden die zorgen voor een grote spreiding
Om de items voor de definitieve schaal te selecteren, willen we de schaalwaarde én de eenduidigheid of ambiguïteit van de items kennen o
Bv: qua inhoud is “student zijn is fantastisch” ambigue
Gegevens
De te schalen stimuli (d.i. beweringen in de context van de attitudemeting) worden één per één aan beoordelaars voorgelegd
Taak van de beoordelaars: het plaatsen van elke stimulus op een reeds in intervallen opgedeeld positief/negatief continuüm of rating schaal. Elke stimulus dient geplaatst te worden in het interval dat het beste overeenstemt met de positief/negatieve inhoud van de bewering Rating vraagt uiteindelijk een ordinale meting van het individu. We proberen niet te veel niveaus te gebruiken en meestal een oneven aantal om een middelpunt te creëren
De rating schaal (of, attitudecontinuüm) wordt, in geval van bv. 11 intervallen, gebruikelijk als volgt verankerd: interval 1 – extreem negatief, interval 6 – neutraal, interval 11 – extreem positief
Per bewering wordt de frequentieverdeling van de antwoorden van de beoordelaars opgesteld; dit zijn de vertrekgegevens
Model
Assumpties: o
De beoordelaars percipiëren de intervallen van het attitudecontinuüm als gelijk van breedte
o
De schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als respectievelijk de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling
Uit de initiële set van beweringen wordt een subset geselecteerd zodat de geselecteerde beweringen goed spreiden over het gehele attitudecontinuüm en dat ze alle een lage ambiguïteit hebben
4. Schaalmethoden
97
Berekening kwartielen
{
p-de kwartiel: Met:
}
: de schaalwaarde van de ondergrens van het interval waarbinnen het kwartiel ligt : het aantal subjecten : de cumulatieve frequentie van de beoordelingen tot aan de ondergrens van : de frequentie aanstrepingen binnen het interval : de breedte van het interval (waarbinnen het kwartiel zich bevindt)
VOORBEELD
Proporties Cumulatieve frequentie Cumulatieve proporties
{
}
o
{
o
{
}
o
{
}
Ambiguïteit:
Schaalwaarde:
}
Problematische aspecten
In de praktijk gebeurt het vaak dat de beoordelaars nogal wat beweringen in de extreme intervallen stapelen: het end-effect
Hoewel dit end-effect samenhangt met de gegevensinzamelingsprocedure, suggereert het eveneens dat de intervallen niet als gelijk van breedte gepercipieerd worden
4. Schaalmethoden
98
Het een en ander wordt bevestigd wanneer de schaalwaarden van stimuli, bepaald volgens de methode der gelijkschijnende intervallen, vergeleken worden met de schaalwaarden van diezelfde stimuli zoals verkregen via de methode der paarsgewijze vergelijking
Ontwikkeling van de techniek van successieve intervallen
Successieve intervallen volgens Edwards Gegevens
Dezelfde methode van gegevensverzameling en bijgevolg ook dezelfde gegevens als bij de methode der gelijkschijnende intervallen
Model
Assumpties: o De frequentieverdeling van de ratings is een normaalverdeling o De verdeling van de ratings binnen de extreme intervallen is symmetrisch
Methode der gelijkschijnende intervallen: de schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling
De 1ste en de 2de assumptie zijn tegenstrijdig: ze zijn in principe niet verenigbaar (inconsistentie) Hoe verder komen?
Overzicht Verschillende stappen: o
o
Schatting van de intervalbreedtes
Middelste intervallen
Extreme intervallen (bv. interval 1 (links) en interval 7 (rechts))
schaalwaarde intervalgrenzen
Schaalwaarde en ambiguïteitswaarde van de items
4. Schaalmethoden
99
Schatting van de intervalbreedtes GEGEVENS (FREQUENTIE)
Totaal: 500 beoordelaars
CUMULATIEVE PROPORTIONELE MATRIX (P-MATRIX)
Q1: 0,25
Q2: 0,50
Q3: 0,75
Z-MATRIX
MIDDELSTE INTERVALLEN Alles behalve het eerste en het laatste interval
4. Schaalmethoden
Breedte middelste interval
100
Soms laat een interval geen schatting toe, als het niet gebruikt is door een subject
EXTREME INTERVALLEN Het eerste en het laatste interval
Bij extreme intervallen kunnen we niet zoals hierboven te werk gaan, dan zouden we een onderschatting maken. De ondergrens van het eerste interval is namelijk 0. Om dit op te lossen, nemen we de helft van de breedte van de proportie. Eigenlijk doen we met deze correctie nog altijd een onderschatting, maar in de praktijk voldoet dit
Opgelet: dit is een onderschatting!
4. Schaalmethoden
Breedte eerste interval
101
Breedte laatste interval
Schaalwaarde en ambiguïteitswaarde van de items SCHAALWAARDE INTERVALGRENZEN
De ondergrens (nulpunt) is het punt dat de geschatte helft is, niet de werkelijke helft!
SCHAALWAARDE KWARTIELEN VOOR ITEM 1
}
{
}
{
}
{
}
Ambiguïteit: Wanneer is de ambiguïteit voldoende laag? Dit kunnen we niet vooraf bepalen omdat het afhangt van het aantal intervallen dat we gebruiken
4. Schaalmethoden
{
Schaalwaarde:
102
Problematische aspecten
Het model is niet consistent: een aantal assumpties zijn onderling niet verenigbaar.
De praktijk wijst uit dat het end-effect op zijn best slechts partieel opgevangen wordt o In de zin van het niet overeenstemmen van de intervalschatting van de extreme stimuli volgens paarsgewijze vergelijking en de successieve intervallen
Een modelmatig attractievere variant is de ‘methode der successieve intervallen’ (Thurstone)
Successieve intervallen volgens Thurstone NIET TE KENNEN !!
Summated ratings Likert
Schaalconstructie en –afname (responsfase) gebeuren in 1 keer
De items zijn duidelijk positief of negatief van inhoud (het individu wordt direct naar zijn mening gevraagd) er zijn dus geen neutrale items
De items hebben een monotone traceline
Volledig niet akkoord: positief item met een lage waarde voor trek negatief item met een hoge waarde voor trek
Gegevens: scores op de verschillende antwoordmogelijkheden (1 – 5)
Model
Schaalconstructie
OF
Voor elk item genereren de antwoordcategorieën een partitie (d.i. een opdeling van intervalletjes van het onderliggend attitude-item) van het attitudecontinuüm o De antwoorden zijn item per item normaal verdeeld
Niemand zegt dat de intervallen niet kunnen verschillen van item tot items: de schaling van de intervalgrenzen kan variëren van item tot item (verschillende partities)
4. Schaalmethoden
Model
103
ITEM 1
ITEM 2
ITEM 3
Schaling antwoordcategorieën
Er is een hele hoge correlatie (
) gevonden, dus vanaf nu werken met
standaarscores
Berekenen van de totaalscores met geschaalde scores
Bv: individu 1
totaalscore individu 1
Responsen en hun verdeling zijn een normaalverdeling (binnen de populatie althans) ≠ gelijkschijnende of successieve intervallen (andere frequentieverdeling; hier: antwoordcategorieën)
zie boven 0.35 + 0.30 0.35 + (½ 0.30)
4. Schaalmethoden
VNA: 0.7 NA: 0.2 ? : 0.3
104
Nadien kijken we welke items goed discrimineren (d.i. een item dat een gelijksoortige opdeling weergeeft voor de gemeten steekproef en voor de totaalscore van de individuen) die in de lijst laten
Gegevens
27% met hoogste score
27% met laagste score
: alle individuen die op grond van score op een bepaald item zich als pro hebben laten kennen (pro voor dat item)
: pro voor dat item, ondanks contra groep
: contra voor dat item, ondanks pro groep
: alle individuen die op grond van score op een bepaald item zich als contra hebben laten kennen (contra voor dat item)
Een perfecte overeenstemming laat enkel individuen zien in
en
We proberen 5 antwoordmogelijkheden te reduceren tot 2: De dichotomiseringslijn zo dat o
maximaal is
Hier: (129 + 101) – (51 + 23) = 156
Φ-coëfficiënt De discriminatieve kracht van het item:
√
Echter: let steeds op de betekenis van de cellen A, B, C en D !!
4. Schaalmethoden
105
Trucje:
Voorbeeld Een negatief item:
Bijvoorbeeld: 50 items (P) en (C) Alle items die onvoldoende discrimineren (
), laten we vallen
32 items (P) en (C) op grond van de totaalscores van de behouden items … Tot het proces stopt!
4. Schaalmethoden
106