PSYCHOMETRIE FEEDBACKBUNDEL ACADEMIEJAAR 2009–2010
1
Algemeen
Rekenmachines Indien mogelijk, gebruik een standaard model, dit betekent geen grafische rekenmachine. Indien u echt geen andere mogelijkheid hebt, gebruik dan toch uw grafisch toestel. Hou er rekening mee dat we het geheugen van uw toestel zullen controleren tijdens het examen. Afronden Op het examen wordt gevraagd dat u afrondt tot op 3 cijfers na de komma. De klassieke afrondingsregels zijn geldig, waarbij naar boven wordt afgerond vanaf (dus inclusief) .5. Zijn de bewijzen te kennen of te begrijpen? Als u de bewijzen begrijpt, zult u ze ook kunnen opschrijven. Ze zullen niet op zich gevraagd worden, maar kunnen natuurlijk wel van pas komen bij het oplossen van andere problemen. Moeten we ’verschilscores’ kennen? Te kennen leerstof is enkel wat in de les besproken is geweest. De antwoorden op vragen die niet beantwoord werden, zijn meestal terug te vinden in de cursus van Statistiek I, of in de cursus van psychometrie zelf.
2
Formulering Klassieke Testtheorie
slide 20 Cov (X+Y, Y) = Cov (Y,Y) zo Cov (X,Y) = 0. Wat wil deze calculusregel eigenlijk zeggen? Als de covariantie tussen X en Y gelijk is aan nul, is er geen verband tussen deze variabelen. Dit impliceert dat Cov(X + Y, Y ) gelijk is aan Cov(Y, Y ), aangezien X en Y geen verband vertonen.
3
Betrouwbaarheid
slide 9 Op de vierde regel staat: σYg Yh = ρYg Yh σYg σYh . Ik begrijp niet hoe men hiertoe komt. Dit is afgeleid uit de formule van correlatie, wat ook op slide 4 van ’Betrouwbaarheid’ staat, namelijk: σ 0 ρXX 0 = σXX,X σ 0 X
Hoe kom je aan k(k-1) in de formule voor de noemer? Het aantal mogelijke paren van testen met g > h, is k(k−1) . We moeten echter 2 keer alle mogelijke 2 covarianties nemen waarvoor geldt dat g > h, dus die “gedeeld door twee” valt weg.
1
slide 22 Hoe kan je zien of deeltesten al dan niet essentieel τ equivalent zijn? Kan getoetst worden via zgn. confirmatorische factoranalyse/ structurele vergelijkingsmodellen (zie Toegepaste Data-analyse of Data-analyse II).
slide 25 Hoe komen we aan die eerste stap? Zie statistiek I, variantie van binomiale variabele, en voorgaande slide, alsook slide 18 van de bundel Formulering KTT. Voor een dichotome kansvariabele Y kunnen de mogelijke uitkomsten voorgesteld worden door 0 en 1 respectievelijk. Wanneer 1 succes aanduidt en π de kans op succes (= de verwachting van Y, zie vorige slide), dan kunnen we de variantie als volgt berekenen: (1 − π)2 × P (Y = 1) + (0 − π)2 × P (Y = 0) We weten dat P (Y = 1) = π, wat impliceert dat P (Y = 0) = 1 − π.
slide 32 Uit het in het geel aangeduide op slide 32 volgt de vierde regel op dezelfde slide. Het lukt me niet deze omzetting te maken. Xj − tj P z α2 ≤ ≤ z 1−α = 1 − α 2 σ Ej h i BI = z α2 × σEj ≤ Xj − tj ≤ z 1−α × σEj 2 h i = −Xj + z α2 × σEj ≤ −tj ≤ −Xj + z 1−α × σEj 2 h i = Xj − z α2 × σEj ≥ tj ≥ Xj − z 1−α × σEj 2 h i = Xj − z 1−α × σEj ≤ tj ≤ Xj − z α2 × σEj 2 h i = Xj + z α2 × σEj ≤ tj ≤ Xj + z 1−α × σEj 2
Denk er hierbij aan dat −z 1−α gelijk is aan +z α2 , namelijk −1.96. 2
slide 45 Waarom niet? De formule op de slide wordt soms aangevoerd, terwijl dit in principe geen geldige formule is. De afleiding van de formule -die gebeurt op slide 40- is niet meer mogelijk daar we in σXX = σTX TX + σTX EX + σEX TX + σEX EX niet langer kunnen stellen dat σEX EX = 0.
2
4
Validiteit en Itemanalyse
slide 5-6 Bij de MTMM matrix staat: ’Zijn de correlaties in de validiteitsdiagonaal voldoende hoog?’ Wanneer wordt zo’n correlatie als ”voldoende hoog”beschouwd? Voldoende hoog is lager dan de betrouwbaarheidsdiagonaal maar hoger dan alle andere correlaties in de matrix.
slide 5 Wat wordt hier bedoeld met de divergente validiteit, wat moet je met wat vergelijken? Divergente validiteit slaat op de correlatie tussen metingen van verschillende trekken aan de hand van gelijke /verschillende methodes. Logischerwijze zou deze correlatie laag moeten zijn. In de MTMM matrix gaat het dus over de heterotraitmonomethod driehoeken en de heterotraitheteromethod driehoeken. Ook al gebruik je dezelfde methode om twee verschillende trekken te meten, die correlatie zou laag moeten zijn (lage correlatie duidt op hoge/ goede divergente validiteit). Ook verschillende methodes om verschillende trekken te meten zouden lage correlaties moeten vertonen, meer nog, de laagste van de hele matrix.
slide 6 Op slide 6 staat dat de MTMM benadering onderscheid maakt tussen convergente en divergente validiteit. Heeft divergente validiteit dan betrekking op de correlaties die je terug vindt in de heterotrekmonomethode driehoeken en heterotrek-heteromethode driehoeken? En convergente validiteit op de correlaties op de betrouwbaarheids - en validiteitsdiagonalen? Convergente validiteit wordt beoordeeld aan de hand van de correlatie tussen dezelfde trekken gemeten aan de hand van een verschillende methode (monotrek-heteromethode) (terug te vinden in de validiteitsdiagonaal). Als deze correlaties hoog zijn, spreken we van een goede convergente validiteit. De betrouwbaarheidsdiagonaal zegt iets over de betrouwbaarheid van de meting, en behoort dus niet tot convergente validiteit. Divergente validiteit daarentegen wordt beoordeeld aan de hand van de correlatie tussen verschillende trekken gemeten aan de hand van identieke of verschillende methodes (terug te vinden in de heterotrek-monomethode en heterotrek-heteromethode driehoeken).
slide 12 Kunt u wat meer uitleg geven over range restriction? We gaan uit van de situatie waarin 2 variabelen (bijvoorbeeld een test, T , en een criterium, C) een correlatie gelijk aan ρ hebben in de populatie. Wanneer we een toevallige steekproef nemen uit deze populatie, dan zal de steekproefcorrelatie, r, een goed idee geven van de waarde van ρ. Mochten we evenwel enkel subjecten opnemen in de steekproef die een testscore hebben die minstens gelijk is aan tc , dan zal de bekomen steekproefcorrelatie aanzienlijk lager zijn dan ρ. In zo’n geval spreken we van directe range restrictie: de spreiding van de scores op de test is ingeperkt door enkel subjecten met een score minstens gelijk aan tc in de steekproef op te nemen en deze variantiebeperking in de testscores leidt tot een verlaagde correlatie met het criterium.
3
Indirecte range restrictie doet zich voor wanneer we de correlatie bekijken tussen T en C bij een steekproef van subjecten die geselecteerd zijn op grond van een derde variabele, Z, die samenhangt met zowel T als C. Ook in zo’n geval valt de steekproefcorrelatie lager uit dan ρ. Figuur 1 verduidelijkt het een en het ander. In de populatie van kandidaten (a), is er een substanti¨ele correlatie tussen test en criterium. Als mensen worden geselecteerd op basis van hun testscores, wordt de spreiding van de predictor beperkt. Spreidingsdiagram (b) toont het effect van selectie van kandidaten met een score hoger dan 60 op de test. De correlatie tussen score en criterium ligt veel lager voor de groep met een testscore hoger dan 60 dan voor de totale populatie. Variantiebeperking voor het criterium leidt tot een gelijkaardig effect. Dit ziet u op spreidingsdiagram (c). Ten slotte toont spreidingsdiagram (d) het effect van variantiebeperking voor zowel test als criterium. Hier zakt de gelijktijdige validiteitco¨effici¨ent tot bijna nul. Wat wordt er verstaan onder ‘indirecte range restrictie’? Wanneer de samenhang tussen 2 metingen X en Y bekeken wordt bij subjecten die allen boven een kritieke drempel scoren op een derde variabele Z (die correleert met X en Y ), dan spreekt men van indirecte range restrictie omdat de range van scores op zowel X en Y beperkt is in vergelijking met de range van scores voor een niet op Z geselecteerde groep.
slide 14 Ik snap niet goed de bedoeling van de utiliteitstheorie (met geldwaarde)? De utiliteitstheorie omvat betere manieren (in vergelijking met de validiteitscoefficient) om de waarde van testgebruik (ook nog de utiliteit van dit testgebruik genoemd) te bepalen en uit te drukken. Wat Brogden betreft is onder meer gezegd dat de gemiddelde testscore van de testgeselecteerden uitgedrukt in standaardscorevorm gelijk is aan φ(xc )/[1 − Φ(xc )] zo de testscores normaal verdeeld zijn, waarbij xc de cutscore is (i.e. de testgeselecteerden hebben een testscore die minstens gelijk is aan xc ), en φ(.) en Φ(.) de standaardnormaal densiteit- en de standaardnormaal distributiefunctie representeren. De gemiddelde testscore van de testgeselecteerden, in standaardscorevorm, is op zich een indicatie van de utiliteit van een testgebaseerde selectie. Als we selecteren zonder test, dit betekent at random, gaan we ervan uit dat de gemiddelde testscore (als we achteraf een test zouden afnemen) van de ’randomgeselecteerden’ nul zou zijn. Vertrekkend van de in standaardscorevorm uitgedrukte gemiddelde testscore van de geselecteerden kan ook de gemiddelde criteriumscore van deze subjecten geschat worden, waarbij dat laatste gemiddelde eventueel in geldwaarde kan uitgedrukt worden. Stellen we de in standaardscorevorm uitgedrukte gemid(s) delde testscore van de geselecteerden voor als µX , dan is de in geld uitgedrukte meerwaarde m.b.t. het (s) criterium te schrijven als ρXY σY µX , met ρXY de validiteit van de test X bij de voorspelling van het criterium Y , en σY de in geldwaarde uitgedrukte standaarddeviatie van het criterium (bijv. prestatie op het werk) in de kandidaatgroep.
slide 22 Hoe wordt de itemrestcorrelatie uitgerekend? Hieronder vindt u de gegevens van de scores van 8 personen op een test bestaande uit 4 items. Deze tabel komt overeen met die op slide 21.
4
item
1 2 3 4
1 8 4 7 9
2 6 4 6 5
3 4 3 5 7
4 7 3 7 8
5 5 3 4 6
6 9 4 7 9
7 7 4 8 5
8 6 2 7 4
Op basis van de gegevens uit deze tabel is het mogelijk om de item-testtotaalscorecorrelaties en de itemrestcorrelaties van de verschillende items te berekenen. We berekenen eerst de gemiddelde score voor elk item, de testtotaalscore voor elk subject en de gemiddelde testtotaalscore.
item
Totaalscore
1 2 3 4
1 8 4 7 9 28
2 6 4 6 5 21
3 4 3 5 7 19
4 7 3 7 8 25
5 5 3 4 6 18
6 9 4 7 9 29
7 7 4 8 5 24
8 6 2 7 4 19
x ¯ 6.5 3.375 6.375 6.625 22.875
De item-restcorrelatie is de correlatie tussen de “score op een item” en de “totaalscore - score op dat specifieke item”. De item-restcorrelatie voor item 1 is dus de correlatie tussen (8, 6, 4, 7, 5, 9, 7, 6) en (20, 15, 15, 18, 13, 20, 17, 13). De item-restcorrelaties voor item 1 ziet er dan als volgt uit: rX1 R = =
[(8 − 6.5) × (20 − 16.375)] + [(6 − 6.5) × (15 − 16.375)] + ... + [(6 − 6.5) × (13 − 16.375)] √ 18 × 55.875 26.504 √ = 0.836, 18 × 55.875
waarbij Σ81 (rj − r¯)2 = (20 − 16.375)2 + (15 − 16.375)2 + ... + (13 − 16.375)2 = 55.875
slide 23 De formule voor de punt-biseri¨ele correlatieco¨effici¨ent staat op deze slide anders dan op het formuleblad. Welke formule moeten we gebruiken? (i)
(o)
De formule die op het formuleblad staat is de juiste. Op de slide zou dus eigenlijk µX − µX in de teller van de breuk moeten staan. Dat is ook wat er staat in het bestand ”psval05c.pdf”.
slide 24 Wat is het verschil tussen de phi-co¨effic¨ent en de tetrachorische correlatieco¨effici¨ent? Bij allebei wordt vermeld dat zowel het item als de totaalscore dichotoom zijn. Wanneer wordt welke co¨effici¨ent gebruikt? De tetrachorische correlatie is een correlatie tussen een dichotome item- en totaalscore, die verondersteld worden het resultaat te zijn van het dichotomiseren van een geobserveerde continue distributie. Voor het berekenen van de phi-co¨effici¨ent, wordt de score op het item (oorspronkelijk in 5 categorieen) gedichotomiseerd. Dit kun je zien op het einde van het hoofdstuk schaalmethoden.
5
5
Beschrijvend gebruik testscores
slide 11-12 Hoe komt men van Pj naar Zj via die formule? Via de z-tabel, die wordt gegeven op het examen. Deze tabel vind je ook terug op Minerva in de map ’Aanvullend’.
6
Generaliseerbaarheidstheorie
slide 4 Wat is het onderscheid tussen ‘fixed’ en ‘random’ meetfacetten? Een random meetfacet is er een in dewelke de particuliere gekozen steekproef van niveaus van het meetfacet (bv. van beoordelaars) niet als van belang verondersteld wordt. In deze context zou het dus perfect legitiem zijn een andere steekproef te beschouwen - uit dezelfde populatie (bv. van beoordelaars) weliswaar. Daarentegen wordt een meetfacet als fixed bekeken wanneer men enkel ge¨ınteresseerd is in de actueel in het onderzoek betrokken niveaus van het meetfacet.
slide 5 Er staan telkens bij die modellen sommen onder elkaar geschreven, bijvoorbeeld op slide 5 staat er Xsv = µ + µs − µ + µv − µ + esv Wat wordt hier precies mee bedoeld? Moeten we dit eigenlijk naast elkaar schrijven? Dit zijn de componenten waaruit de score Xsv is opgebouwd. Die staan onder elkaar zodat bij iedere component de uitleg ernaast kan staan. Deze componenten worden dan gebruikt om te bepalen uit welke variantiecomponenten de variantie van X bestaat (zie slide 7).
slide 26 Waarom doet men −µs bij student maal vraag effect en student maal beoordelaar effect? Als we dit volledig uitschrijven voor de interactie tussen beoordelaar en student, krijgen we: µsb − µ − (µs − µ).
slide 34 Om de absolute meetfoutvariantie te berekenen: klopt het dat je na de variantiecomponenten v; b en vb (gedeeld door nv; nb en nv*nb) daar nog eens de relatieve meetfoutvariantie moet bij optellen? Maar bij de relatieve meetfoutvariantie zitten er toch componenten die interageren met het object van de meting (s)? En bij de uitleg van absolute meetfoutvariantie staat er dat alle componenten behalve die met s erbij betrokken worden (slide 33). Dit is toch enigszins contradictorisch? Voor meetfoutvariantie bij absolute meting spelen ALLE variantiecomponenten mee, uitgezonderd die van het meetobject. Dit betekent dat de interacties tussen de meetfacetten en het object van meting WEL een rol spelen bij de bepaling van de meetfoutvariantie van absolute metingen. De interactie tussen de
6
moeilijkheid van de vragen en het individu wordt bijvoorbeeld ook in rekening gebracht bij een absolute meting. Dus bij absolute meting speelt alles mee, behalve variantie van het hoofdeffect van het object van meting, terwijl bij relatieve meting alleen de interacties met het object van meting meespelen.
slide 38 Op slide 38 van de generaliseerbaarheidstheorie staat er als uitkomst 0.143, maar als je dat uitrekent, bekom je toch 0.193? Inderdaad. Op slide 39 is de uitkomst dan 0.673.
slide 44 Die oefening hoe moet je die G-co¨effici¨ent berekenen? Moet je daar random getallen proberen? Hier werden G-co¨effici¨enten berekend voor alle mogelijke combinaties van aantal beoordelaars (max. 5) en aantal vormen (max. 5). G = .8139 is de G-co¨effi¨ent voor 4 beoordelaars en 5 vormen. Wanneer we een meetprocedure willen ontwikkelen waarvan de meetnauwkeurigheid voldoende hoog is, weten we niet altijd vooraf hoeveel niveaus per meetfacet vereist zijn. Hiertoe kunnen we verschillende D-studies uitvoeren, waarbij we telkens voor een ander aantal niveau’s per meetfacet een generaliseerbaarheidsco¨effici¨ent gaan berekenen. De D-studies die ons de hoogste G-co¨effici¨ent leveren, geven ons een indicatie hoe we best onze meetprocedure samenstellen. In ons geval hier, is een meetprocedure op basis van een gekruist opzet met 4 beoordelaars en 5 examenvormen voldoende nauwkeurig om de gewenste graad van generalisatie te bereiken.
7
Itemresponstheorie¨en 1
slide 12 Waaraan is die e gelijk? e = limn→∞ 1 +
1 n n
≈ 2.7183
slide 13-14 Bij het hoofdstuk van itemresponstheorieen spreekt men bij de basisformulering van het raschmodel dat 1.7abi itemmoeilijkheid is en bij de multiplicatieve formulering van rasch spreekt men van itemgemakkelijkheid. Is itemgemakkelijkheid gelijk aan itemmoeilijkheid? Of is het anders geoperationaliseerd? Itemgemakkelijkheid en itemmoeilijkheid zijn het omgekeerde van elkaar. e−σi = i met σi = 1.7abi . Hoe hoger σi (itemmoeilijkheid), hoe lager i (itemgemakkelijkheid).
slide 16 Wat is eigenlijk ’specifieke objectiviteit’? Specifieke objectiviteit houdt in dat item- en subjectparameters onafhankelijk van elkaar bepaald kunnen worden. Stel dat we twee steekproeven T1 en T2 hebben, bestaande uit items uit een Rasch collectie. De beide
7
steekproeven T1 en T2 worden aangeboden aan twee steekproeven van subjecten, S1 en S2 . Op basis van de eigenschap van ’specifieke objectiviteit’ kunnen we dan stellen dat de itemparameterwaarden voor, bijvoorbeeld T1 , op een multiplicatieve of additieve (al naargelang het gaat om de parameters aansluitend op de multiplicatieve dan wel de additieve formulering van het model) constante na, (nagenoeg) identiek zullen zijn wanneer ze apart op grond van de gegevens van S1 en S2 geschat worden. Hetzelfde geldt voor de subjectparameters. De subjectparameters voor de subjecten uit, bijv., S1 , geschat op grond van enkel de antwoorden op de T1 items, zijn op een multiplicatieve dan wel een additieve (naargelang de modelformulering) constante na nagenoeg identiek aan de subjectparameterwaarden zoals bepaald op grond van de antwoorden op enkel de items uit T2 .
slide 26 Wat is de iteratieve methode? De iteratieve methode vertrekt van een schatting van een parameter, en past die steeds opnieuw aan, tot de schatting stabiel blijft. Zo poogt men dichter bij de “echte” waarde van de parameter te komen (“convergeren”).
slide 30 Waarvoor staan en η? We kunnen en η zien als twee, willekeurig te kiezen, kleine getallen. Kiezen we bijvoorbeeld = 0.001 en η = 0.1, dan kunnen we de uitdrukking op de slide als volgt lezen: De kans dat het absoluut verschil tussen de geschatte en de eigenlijke parameterwaarde kleiner is dan 0.001 is groter dan 0.9 voor n (i.e., het aantal observaties) voldoende groot (i.e., voor n > N ). Wat betekent asymptotisch normaal verdeeld? Naarmate n− > ∞, zal de verdeling van de schatter steeds beter een normaalverdeling benaderen.
8
Itemresponstheorie¨en 2
slide 2 Op de slides staat vermeld dat we, wanneer we een gegeven schatting voor trek v hebben, de meetprecisie van elk item kunnen berekenen, ook al van een niet aangeboden item. Hoe wordt dit gedaan? Hier wordt verondersteld dat de itemparameters al gekend zijn, waardoor men dus op een eenduidige manier de informatiefunctie - die enkel nog een functie is van θv - kan berekenen. Op deze manier kunnen we bepalen welk (nog niet aangeboden) item het meest informatie heeft, gegeven de voorlopige schatting van de latente trek (van het subject). Wanneer we dit item vervolgens aanbieden, wat het geval is bij adaptieve testen, kunnen we de juiste waarde van de latente trek voor het subject verder bepalen.
slide 4 De toetsen van Wright & Panachapakesan en Anderson trekken na of een itemcollectie voldoet aan de vereisten van het Rasch model, maar op basis van welke uitkomst/ bewerking wordt dit besluit genomen?
8
De toets van Wright en Panachapakesan toetst de nulhypothese dat een itemcollectie voldoet aan de assumpties van het Rasch model. Als de berekende waarde van de toetsstatistiek kleiner is dan de kritische waarde, wordt de nulhypothese aanvaard. Indien de berekende waarde van de toetsstatistiek groter is dan de kritieke waarde, wordt de nulhypothese verworpen. De kritieke waarde vind je in de tabel van de χ2 -verdeling met het desbetreffende aantal vrijheidsgraden.
slide 9 Ik snap de betekenis van de twee voorwaarden in formulevorm niet goed. De eerste regel omvat de doelfunctie. xi neemt ofwel de waarde 1 aan, indien we het item opnemen in de test, ofwel 0, indien we het item niet opnemen in de test. Het doel is hier dus een test ontwikkelen met zo weinig mogelijk items, want de som van alle xi moet minimaal zijn. De tweede regel is de voorwaarde, de restrictie, die we opleggen. De restrictie impliceert dat de test minstens een bepaalde informatiewaarde heeft, Icrit , gegeven de kritische trekwaarde, θcrit . Dit is de θ-waarde die iemand minstens moet hebben om beoordeeld te worden als master. Telkens een item opgenomen wordt in de test (xi = 1), wordt de informatiewaarde van dat item voor trekwaarde θcrit meegeteld in de berekening van de totale informatiewaarde van de test.
slide 10 Ik snap niet goed waarom dit 0-1 lineair programma te maken heeft met die mastery tests, en wat dit precies is. θcrit is de kritische theta-waarde: de θ-waarde die de subjecten hebben als ze een master genoemd worden, of de θ-waarde die iemand moet hebben om beoordeeld te worden als master. Icrit is de informatiewaarde van θcrit . Op slide 12 wordt de doelfunctie gemaximaliseerd onder voorwaarde dat ΣIi xi ≤ l. Daarbij correspondeert xi opnieuw (i.e., zoals in het voorbeeld op slide 9) met een 0-1 probleemvariabele. Als we het programmeringsprobleem oplossen vinden we dan voor welke items xi gelijk is aan 1 (wat betekent dat deze items opgenomen worden in de test) en voor welke items de bijhorende probleemvariabele gelijk is aan 0 (i.e., deze item worden niet opgenomen).
slide 19 Waarom begint het model pas met model based branching en informatiemaximalisatie na 1 juist en 1 fout antwoord? Stel: we hebben een collectie van items die voldoet aan het Rasch model. De likelihood van een antwoordpatroon wordt dan bepaald als het product van de kansen dat de items al dan niet correct worden opgelost, afhankelijk van het responspatroon, en gegeven een bepaalde waarde op de latente trek. Indien een subject vier keer op rij fout antwoordt, bereken de likelihood (in symbolen), en zoek uit welke waarde van λv deze likelihood maximaliseert. Welke waarde van θv komt hiermee overeen?
slide 20 Op de tekening van de boomstructuur staan cijfers in kadertjes die stijgen, is dit de proportie correct of de proportie niet-opgelost?
9
Deze cijfers weerspiegelen de moeilijkheid van de items. 50 betekent gemiddelde moeilijkheidsgraasd: 50% van normgroep lost dit item (niet) correct op. 70 is een moeilijker item: 70% van de normgroep lost dit niet op, en dit hangt samen met een z-score van .52 (zie z-tabel).
9
Schaalmethoden 1
slide 7 Staat hier geen fout in de tabel? Moet de waarde 1.310 niet 1.35 zijn? Inderdaad.
slide 17 √ Case V: Waarom maken we hier een overgang van −z0 σ 2 naar −z0 ? Bij een intervalmeting mag men de meeteenheid vrij kiezen. Hier wordt
1 √ σ 2
als meeteenheid gekozen.
slide 19 Bij de Z-matrix staan er drie schalingen, de som, M en M+0.711. Hoe bepaal je 0.711? Is dit om alles positief te maken? Inderdaad. De schaalwaarde van het minst populaire te schalen subject/ object, zoals bepaald bij het herordenen van de F-matrix, stellen we gelijk aan 0. Dit is mogelijk omdat we op intervalniveau meten en impliceert dus dat we ook bij alle andere schaalwaarden .711 optellen.
slide 20 Bij de controle van de interne consistentie worden de schaalwaarden van elkaar afgetrokken om een Zmatrix te bekomen. Ik snap de redenering van die stap niet zo goed. De Z-waarden in de matrix op slide 19 zijn eigenlijk verschillen tussen schaalwaarden. Bijvoorbeeld, -0.013 is het verschil tussen de schaalwaarde van E en die van N. Zo ook is 1.514 gelijk aan het verschil tussen de schaalwaarde van E en die van V. Dit zagen we op slide 17, bij case V. De som van de eerste rij wordt dan(SE −SE )+(SE −SN )+(SE −SV )+(SE −SR )+(SE −SR ). In de kolom M staat dan telkens de schaalwaarde van het object in die rij - het gemiddelde van alle andere schaalwaarden (eerste rij: .793 is de schaalwaarde van E - het gemiddelde van alle andere schaalwaarden). Aangezien we op intervalniveau meten, mogen we een aanpassing doen van het nulpunt en laten we telkens (-gem van alle schaalwaarden) vallen. De laatste kolom bevat dus de schaalwaarden. Gegeven die schaalwaarden stellen we een Zmatrix op, waarbij de elementen opnieuw gelijk zijn aan het verschil tussen de bekomen schaalwaarden (opnieuw gebaseerd op de wet van het vergelijkend oordeel en case V). Voorbeeld: .754 = 1.504 − .750 of SE − SV .
10
slide 23 Hoe groot mag het absoluut verschil zijn tussen P en P’, opdat nog zou voldaan zijn aan de assumpties? Wanneer het gemiddeld absoluut verschil kleiner is dan .03 of .05, dan zeggen we dat voldaan is aan de assumpties. Maar, zoals gezegd in de les, blijft dit geen echt goed criterium.
slide 28 Waarom wordt er bij de methode van paarsgewijze vergelijkingen bij de extreme proporties de porportie 0,999 vervangen door +∞ en niet door de overeenkomstige z-waarde in de tabel? Voor proporties hoger dan .98 of kleiner dan .02 wordt de z-waarde minder stabiel. Voor eenzelfde verschil in proportie, krijg je een veel groter verschil in z-waarden voor extreme proporties. Vb: Z(.98) = 2.054, Z(.99)=2.326 vergelijken met Z(.50) = .000 en Z(.51)=.025.
10
Schaalmethoden 2
slide 8 Polychotome Items: hoe weet je hier hoe je de tracelines moet ordenen op basis van de cumulatieve populariteit? (Hoe weet je dat item 3 o.a. de eerste traceline moet zijn, en item 2 o.a. de tweede, ...) De attitudeschaal loopt van links naar rechts van negatief tot positief. Dit is in analogie met de onderliggende trek in IRT: hoe linkser op de θ-schaal, hoe lager iemand zich bevindt op de onderliggende trek. De traceline die helemaal links komt te liggen, komt overeen met de meest populaire itemovergang. Bijvoorbeeld, op slide 7 zien we dat (in de tabel Cumulatieve populariteit) de overgang van antwoordcategorie 0 naar 1 voor item 3 de meest populaire is; de eerste (meest linkse) traceline is die voor item 3, van categorie 0 naar 1. De redenering hierachter is dat iemand die redelijk negatief scoort op een bepaalde attitude, toch al veel kans maakt deze overgang te maken. Vervolgens komt de tweede meest populaire overgang/ traceline, dit is voor item 2 de overgang van antwoordcategorie 0 naar 1. De minst populaire overgang vertaalt zich in de laatste, meest rechtse, traceline, en dit is de overgang van categorie 1 naar 2 op item 1. Zelfs de mensen met een heel positieve attitude maken deze overgang niet vaak.
slide 17 Bij het berekenen van de kwartielen, hoe weten we welk kwartiel juist in welk interval ligt ? Q2 staat voor het tweede kwartiel, dus 50%, en in de rij van cP (cumulatieve proportie) zien we dat Q2 in interval 3.5-4.5 ligt, dit loopt immers van .47 tot .74%. Zo ligt ook Q1, dit is 25%, in interval 1.5-2.5, in percentages is dit .15-.35%.
slide 41 Ik snap de weging niet, en hoe worden de totaalscore en de dichotomiseringslijn bepaald? De getallen die in de kolommen “Weging” staan, verwijzen naar de score die een subject krijgt indien hij/zij die bepaalde antwoordcategorie aanduidt voor dit item. Als iemand volledig akkoord gaat met een positieve uitspraak over een attitude, krijgt die persoon +2 (of 5). Iemand die akkoord gaat met een
11
negatief item, heeft een negatieve attitude en krijgt daarom als score op dit item -2 (of 1, de laagste score in ieder geval). De som van de scores op alle items is de totaalscore. Op basis van die totaalscore worden twee groepen gevormd: de Pro-groep en de Contra-groep, dit zijn de 27% subjecten met de hoogste totaalscore en de 27% laagste totaalscores, respectievelijk. De Pro-groep is dus de groep subjecten met de positieve attitude, terwijl de Contra-groep de groep is met een uitgesproken negatieve attitude. Om te weten of de antwoorden op een item samenhangen met de antwoorden op de volledige test, gaan we de dichotomiseringslijn zo tekenen dat (A+D) - (B+C) maximaal is. Indien het item correct meet, zou de Pro-groep vooral aan de “akkoord” -zijde van het attitudecontinuum voorkomen (vak A), en de Contragroep vooral aan de “niet akkoord”-kant (vak D), in geval we een positief item hebben. Gegeven een negatief item, zou de Pro-groep vooral aan de “niet akkoord”-kant moeten antwoorden, dus dit wordt dan vak A (zie slide 43).
slide 42 Wat bedoelt men precies met discriminatieve kracht? Het gaat hier om de mate waarin het responspatroon van een item samenhangt met de totaalscore. Het is dus een maat van homogeniteit of interne consistentie.
11
Oefening paarsgewijze vergelijkingen (zonder extreme proporties)
Bij de tweede oefening staat een fout. Als berekening voor het gemiddelde absoluut verschil P vs P’ staat er (0.086 + 0.064 + 0.183 + 0.06 + 0.144 + 0.056)/6 = 0.099. Dit moet uiteraard (0.022 + 0.016 + 0.001 + 0.01 + 0.009 + 0.016)/6 = 0.012) zijn.
12