Samenvatting psychometrie Deel I Hoofdstuk 4: constructie van items en kwantificering van reacties 4.1 Van de respondent gevraagde activiteit Basiskader psychologie: Gedrag= functie (persoon, situatie) o Persoon: niet observeerbare, psychologische eigenschappen o Situatie= items Basiselementen van vragenlijsten= items o = de stimuli waarop de respondenten reageren Uit hun reactie (observeerbare gedrag) trachten het niveau van de geteste persoon af te leiden op een niet- observeerbare psychologische eigenschap Theoretische opdrachten o Bv. weg door doolhof, blokkenleggen, mentale rotatie ,… o Veel voorkomend in intelligentie testen o Rekenopdrachten en taalvraagstukken o Theoretische verkeersproblemen o Met behulp van theoretische opdrachten worden cognitieve capaciteiten en cognitieve vaardigheden gemeten Capaciteiten: mentale vermogens met een duidelijk erfelijk component. relatief stabiele kenmerken Vaardigheden: bevatten ook erfelijk component maar zijn voor belangrijk deel te leren meer door oefening te beïnvloeden o Antwoorden zijn goed of fout en soms gedeeltelijk goed of fout Stellingen o Onderzochte dient aan te geven of hij al dan niet akkoord gaat met de stelling of in hoeverre hij ermee akkoord gaat o Meten van persoonlijkheidstrekken, opinies, houdingen en voorkeuren o Antwoorden zijn niet goed of fout maar geven de positie aan van de respondent op de schaal van de veronderstelde eigenschap Vragen o Meten van opinies, houdingen en voorkeuren o Open en gesloten vragen o Antwoorden bieden informatie over eigenschappen. Ze zijn niet goed of fout, amar geven een standpunt/houding aan Praktijkproeven o Meting van capaciteit en vaardigheden o Bv. psycholoog registreert en interpreteert de reacties van de sollicitant o Reacties te classificeren als fout/goed of als adequaat/ niet adequaat Andere mogelijkheden o Projectietest: persoonlijkheid in kaart brengen er wordt een zo vrij mogelijke reactie gevraagd 4.2 Vorm waarin het antwoord wordt gegeven 2 mogelijkheden o Respondent bepaalt geheel zelf hoe hij reageert Open vraag, opdracht, essayvorm 1
o Respondent kiest uit een beperkt aantal door de testconstructeur geformuleerde reacties Gesloten vraag, multiple choice, Veel voorkomende opinie: open vraagvorm superieur aan meerkeuze vraagvorm (face validity: open vragen zijn rijker dan gesloten vragen)
Open vragen Respondent kan laten zien wat hij kan/weet Antwoorden bieden meer informatie Beoordelen en categoriseren van antwoorden is tijdrovend Werken met categorisatiesysteem Interpretatie van onderzoek heeft grote invloed (subjectiviteit) Minstens 2 onafhankelijke beoordeelaarsinterbeoordeelaarsbetrouwbaarheid Beantwoorden van vragen vergt veel tijd voor respondent Antwoorden zijn niet altijd relevant voor de meting van de bedoelde eigenschap Niet alle respondenten zijn evengoed in staat om gedachten op papier te zetten Kans op verkeerd begrijpen van vragen
Lagere betrouwbaarheid (door subjectieve interpretatie)
Meting van hogere cognitieve vaardigheden (maar mag niet worden overschat)
Gesloten vragen Doet primair beroep op geheugen Antwoorden bieden minder informatie Categoriseren is weinig tijdrovend
Interpretatie van onderzoeker heeft geen rol (objectief)
Beantwoorden gaat snel Geen kans om op irrelevante zaken in te gaan
Kans op verkeerd begrijpen van stellingen is kleiner Dillema bij vragen: specifieke of algemene beschrijvingen Hogere betrouwbaarheid (want door snelheid zijn er meer vragen mogelijk) Betere validiteit (Betere dekking van bedoelde eigenschap) Uitvoerig vooronderzoek noodzakelijk - Moeilijkheid: bedenken van onjuiste alternatieven - Inschatten van moeilijkheidsgraad items lastig Veel aandacht besteden aan formulering vragen Kans dat respondent louter door raden veel goede antwoorden heeft - Correctie voor raden - Bv. 2 items kiezen uit 6 alternatieven, beide moeten juist zijn opdat de vraag correct opgelost is Enkel eenvoudige cognitieve vaardigheden kunnen gemeten worden (empirisch onderzoek bewijst tegendeel, vaak betere predictoren)
een effectieve open vraag o de vraag moet kort en helder zijn o instructie moet duidelijk maken dat antwoorden kort dienen te zijn 2
4.3 Itemvormen: het speciale geval van geprecodeerde items 4.3.1 Items voor prestatieniveautests in prestatieniveautesten wordt vaak gebruik gemaakt van meerkeuze- items aantal opinies is vrijwel nooit groter dan 5 doorgaans is 1 oplossing goed en zijn de andere fout stam: eerste deel van item, wat een uitspraak bevat die aangevuld moet worden met een gegeven optie gesleutelde respons: het goede antwoord afleiders: de foute antwoorden grote variantie binnen meerkeuze antwoordvorm (hier: 3 principes) o kiezen eenvoudigste vorm= twee keuzevorm (bv. ja/nee, juist/fout) (in)correcte antwoordvorm: slechts één van de antwoorden is de (on)juiste Meest/minst juiste antwoordvorm: meest/ minst plausibele antwoord kiezen Verschillende antwoordvorm: uit een aantal antwoordmogelijkheden moet men één/meer antwoorden kiezen die een juist antwoord zijn op de gestelde vraag Complexe vormen: o.a. gecombineerde antwoordvorm 2 stellingen (a en B) opgenomen die verbonden zijn door een conjunctie (C). Deelnemer moest zeggen welke (A, B, en/of C) juist is o Rangschikken Keuzemogelijkheden plaatsen volgens de volgorde van juistheid, toepasbaarheid of voorkeur Vooral bij meting van interesses en motieven Voordeel: verkrijgen van veel informatie (ook partiële informatie) o Toeschrijven (= matching) 2 rijen met woorden, telkens moet de juiste combinatie gemaakt worden Voordeel: door de compacte vraagvorm wordt veel informatie door één opgave verzameld Nadeel: keuzes zijn niet onafhankelijk van elkaar : hoe minder onzekere combinaties overblijven, hoe meer kans op juistheid bij raden Oplossing: bij één van de rijen meer alternatieven aanbieden 4.3.2 items voor test voor gedragswijze Gedragswijze: persoonlijkheidsvragenlijsten en attitudetests Item is vaak een uitspraak waarbij de respondent kan aangeven in welke mate hij het met de uitspraak eens is Aanwijzingen bij prestatievorm o Zorg dat respondent niet in verleiding kan komen kruisje te zetten tussen twee keuzemogelijkheden in o Meest bekend: likert items (items met 5 antwoordmogelijkheden) Kan worden gevarieerd Even aantal: geen neutrale categorie Proefpersoon moet kleur bekennen, geen toevlucht in veilige optie Neutrale categorie kan nodig zijn indien geen mening op de stelling o Men is doorgaans niet / nauwelijks in staat om meer dan 7 nuanceringen te onderscheiden o Verbale aanduidingen Elke nuancering benoemen: kan door verschillende deelnemers verschillend geïnterpreteerd worden Enkel de twee uitersten benoemen: meer kans op verschillende interpretatie
3
4.4 Kwantificering van antwoorden 4.4.1 Kwantificering, diverse informatiebronnen Reacties van respondenten zijn in eerste instantie kwalitatief van aard o Moeilijk om systematisch onderzoek te doen naar de kwaliteit van de items/ vragenlijst Kwalitatieve reacties dienen in getallen te worden omgezet o Getallen moeten een indicatie geven van de psychologische werkelijkheid met betrekking tot de te meten eigenschap Bv. iemand die 3 aanduid op likert schaal, moet hogere score hebben dan iemand die 2 aanduid Vervolgens door statistische berekeningen op deze scores vaststellen of er een voor een meting gewenste systematiek in het gedrag aanwezig is o Systematiek aanwezig: test heeft goede meeteigenschappen o Systematiek niet aanwezig: items hebben reacties ontlokt die geen zinvolle indicatie vormen van de te meten eigenschap Sommige stromingen in de psychologie verzette zich tegen kwantificering in het algemeen o Gebruikers van projectieve testen: kwantificering van gedrag zou leiden tot onaanvaardbare reductie van de betekenis en relevantie van de reacties o Dit kan kloppen, maar de rijkdom kan ook het zich ontnemen van de relevantie Kwantificering leidt tot reductie o Zo krijg je beter zicht op constante en systematische kenmerken van de respondent o Aangepast aan de vraagstelling Alle informatiebronnen die voor een beslissing worden gebruikt dienen aan dezelfde kwaliteitseisen te voldoen 4.4.2 Itemscores Kwalificering van kwalitatieve reacties op items: o Veronderstelling: de antwoordcategorieën van een item kunnen geordend worden op een continuüm dat staat voor de psychologische eigenschap die met de test wordt gemeten o Vervolgens worden aan de categorieën getallen toegekend Bv. juiste antwoord krijgt meer punten dan foute antwoorden Bv. laagste krijgt 1 punt, hoogste 5 Dichotoom item: item met twee antwoordcategorieën Polytoom item: item met minstens 3 antwoordcategorieën o Richting van het continuüm is afhankelijk van de formulering van de stam van het item ! oneens zijn met een stelling kan indicatief zijn voor beide extremen op latente trek o Bv. “roken op café verbieden is goed”niet akkoord kan wijzen op: ‘ze mogen overal roken’ ‘ze mogen nergens openbaar roken’ Scores= de aan antwoordcategorieën toegekende getallen o Alleen de ordening is van belang, geen verhoudingen/ afstanden o Dus in principe enkel ordinaal maar in praktijk vaak gebruikt als intervalsschaal Alle items uit dezelfde test krijgen dezelfde scores toegekend o Zo wordt voorkomen dat bij statistische analyse items verschillend gewogen wordt o Bij gelijke scoring zijn de items getalsmatig gelijk o Normaal wordt er gewerkt met gelijke gewichten, ongelijke gewichten enkel als theorie dit staaft Soms worden gewichten van items via statistische analyses uit de gegevens afgeleid o Bv. hoger gewicht naarmate het item hoger correleert met de somscore
4
4.5 Beoordeling van de kwaliteit van items in vooronderzoek Test constructie onderzoek kent ruwweg twee fasen o Vooronderzoek: in een kleine steekproef worden de reacties van proefpersonen op de eerste versie van de items geanalyseerd Steekproefgrootte ligt tussen de 20 en 100 proefpersonen Steekproef hoeft niet altijd representatief te zijn Slecht functionerende items kunnen verwijderd of vervangen worden Doel: eerste kwaliteitsscreening items o Hoofdonderzoek Grote, representatieve steekproef Steekproefgrootte: 500 tot 2000 proefpersonen Populatie wordt vaak opgesplitst in verscheidene deelgroepen, welke allen groot genoeg dienen te zijn Steekproef moet hele populatie representeren Ook als sommige deelgroepen van nature kleiner zijn dan de andere, verdient het aanbeveling om uit elke groep een even grote steekproef te nemen Strata= de deelgroepen Gestratificeerde steekproef= steekproef met deelgroepen Er kunnen nog items uit de test wegvallen, maar minder dan in het vooronderzoek Hoofddoel: kwaliteit van de gehele test vaststellen in verband met het gebruik ervan in de beoogde populatie Testprestatie voor gehele steekproef en voor de relevante deelgroepen worden weergegeven in frequentieverdelingen waarmee de prestaties van individuen vergeleken kunnen worden Doel: kwaliteitsbepaling items en test+ opstellen normen 4.5.1 vooronderzoek van Dichotome items De frequentieverdeling van reacties op de items kan informatief zijn bij de beoordeling van de kwaliteit van het item o Vaak wordt gekeken naar de relatieve frequenties o P-waarde: relatieve frequentie op het goede antwoord o A-waarden: relatieve frequentie op de afleiders Een item op de studietoets heeft goed gefunctioneerd indien de meeste respondenten het goede alternatief hebben gekozen en de afleiders door de overige respondenten ongeveer even vaak werden gekozen De verdeling is informatief maar biedt niet het definitieve bewijs dat het item goed functioneert Mogelijke verdelingen: o Juiste alternatief wordt het meest gekozen, men kiest de afleiders ongeveer evenveel Ideale situatie o elk alternatief is evenveel gekozen : veel gegist Als iemand gist heeft elk antwoord dezelfde kans om gekozen te worden Om te weten of er daadwerkelijk grootschalig gegist is, is aanvullende evidentie nodig Evidentie kan worden verkregen van correlaties van het item met de andere items in de test (Volledig gegist: correlatie = 0) Inspectie van inhoud item (Item kan te moeilijk zijn of slecht geformuleerd) o Overgrote deel kiest juiste alternatief Item is te makkelijk of er wordt iets triviaals gevraagd (of bij examen: stof is goed gekend) Afleiders kunnen niet plausibel zijn o Ene afleider wordt meer gekozen (.6) dan juiste antwoord (.1) en tweede afleider (.3) 5
Eén van de afleiders kan een valstrik bevatten (zijn vooral vragen naar curiositeit) Bv. door naambekendheid een bepaalde afleider aanduiden De bewuste afleiders zouden juist kunnen zijn 4.5.2 vooronderzoek van polytome items Zie boek Blz. 142 voor vb. frequentieverdeling Verdeling I: meeste mensen zijn gematigd positief, alle antwoord categorieën worden benut o Er zijn respondenten die geen mening hebben o Er zijn grote voor en tegenstanders o Conclusie: item functioneert goed want er is een goede spreiding van respondenten over de categorieën heen Gemiddelde berekenen door een gewogen som van de itemscores o Per item de som van de itemscores berekenen waarbij elke score wordt gewogen met de relatieve frequentie o Ligt gemiddelde score boven neutrale categorie: reactie is in het algemeen positief Verdeling II: uitgesproken scheef o Items waarop personen zich niet van elkaar onderscheiden kunnen voor dit doel niet gebruikt worde; het item dient verwijderd te worden o Item is te populair/makkelijk als iedereen er positief op antwoord, te impopulair/moeilijk als iedereen er negatief op antwoord
Hoofdstuk 8: validiteit en betekenis Inleiding Een test is valide als hij aan zijn doel beantwoord Voor een goede validiteit is een goede betrouwbaarheid nodig, maar omgekeerd geldt dit niet o Valide test is betrouwbaar: Laag betrouwbare testscores kunnen niet valide zijn, ze geven vooral meetfouten weer o Betrouwbare test is niet noodzakelijk valide: betrouwbare test kan onbedoeld iets anders meten o Betrouwbaarheid is noodzakelijke maar niet voldoende voorwaarde voor de validiteit van een test Onderzoeker zal streven naar een test die en betrouwbaar en valide is 8.1 Het begrip validiteit Begrip validiteit heeft nooit een eenduidige betekenis gehad, maar wel gemeenschappelijk basisprincipe te onderkennen is de veelheid aan definities Validiteit= de mate waarin de test aan zijn doel beantwoord o Validiteit kan niet gezien worden als een eigenschap van de test zonder meer, maar eigenschap van het gebruik van een test o Het is mogelijk dat een test voor het ene doel zeer valide is en voor een ander doel niet o Verschillende doelen, dus verschillende vormen van validiteit Bij elke test gaan we ervan uit dat het testgedrag ons iets kan zeggen over ander gedrag dat buiten dit specifieke testgedrag ligt Valideringsproces: proces van het verzamelen van evidentie voor de rechtvaardiging van overgang van testgedrag naar iets anders Validiteit: mate waarin de rechtvaardiging is gevonden Validiteit wordt gekoppeld aan het doel om te testen o 2 mogelijkheden: test als voorspeller of test als operationalisering Test als voorspeller van ander gedrag 6
o Doel van het testen is primair de voorspelling van een bepaald gedrag of een prestatie buiten de testsituatie Voorspelling: het doen van uitspraken over feiten waarvoor we geen directe evidentie hebben, maar waarover we een conclusie formuleren op basis van de kennis van gegevens waarvan we veronderstellen dat ze met de feiten samenhangen Predictie: feiten liggen in de toekomst Paradictie: feiten liggen in het heden Postdictie: feiten liggen in het verleden De term predictie wordt gebruikt als overkoepelende term: het doen van een uitspraak voer niet waargenomen gedrag buiten de testsituatie o Ook al bestaat er een aantoonbare relatie tussen de begrippen, wanneer de test niet een zinvolle operationalisering is dan heeft de voorspelling weinig kans op slagen o Alleen wanneer zowel de test als het te voorspellen gedrag uitingen zijn van eigenschappen waartussen een aantoonbare relatie bestaat, kan de test een adequate voorspelling opleveren Test als operationalisering van een psychologisch begrip o Het gaat bij het testen expliciet om het theoretische begrip zelf Men zal gebruik moeten maken van hypothetische begrippen Doel is in eerste instantie de meting van de begrippen (bv. persoonlijkheidstrekken, attitude, …) o Wanneer de psychologische betekenis van de testprestatie wordt onderzocht, dan worden daarbij ook relaties met operationaliseringen van andere psychologische begrippen in de beschouwing getrokken. Een dergelijk ander begrip kan ook een te voorspellen criterium zijn. Ook al is het niet het primair doel, toch levert dergelijk onderzoek onmiskenbaar informatie op over het voorspellend vermogen van de test (bv. IQ- schoolprestaties) Predictieve validiteit en begripsvaliditeit o Alle variëteiten in het validiteitsbegrip vallen binnen een van deze beide soorten validiteit o Onderscheid is principieel niet nodig, eerder een praktisch, methodologisch onderscheid o Predictieve validiteit Voorspellend gebruik Centrale vraag: in hoeverre maakt de test daadwerkelijk en juiste voorspelling mogelijk o Begripsvaliditeit Het meten van eigenschappen Centrale vraag: in hoeverre dekt de test het bedoelde psychologische begrip o Testen als activiteit op zich heeft geen zin Onderscheid tussen predictieve en begripsvaliditeit niet altijd dwingend te maken (je kan een begrip testen maar er zal altijd een relatie met iets ander mee gemoeid zijn) Predictieve validering zou gezien kunnen worden als een specifieke vorm van begripsvalidering 8.2 Enkele andere onderscheidingen in validiteit 8.2.1 Vier belangrijke soorten validiteit Predictive validity o Wordt vastgesteld door na te gaan in welke mate de voorspellingen worden bevestigd door gegevens/ observaties verzameld op een later tijdstip o Bv. schoolkeuze, therapiekeuze, … o Het is heir voornamelijk temporeel (in toekomst) voorspellend opgevat o Predictieve validiteit in enge zin Concurrent validity
7
o Wordt beoordeeld door na te gaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens o Bv. het valideren van een test door de testresultaten van leerlingen te vergelijken met gelijktijdige prestatiebeoordelingen o Men moet vaak zijn toevlucht doen tot gelijktijdig criterium omdat het onmogelijk is om een toekomstig criterium te wachten Concurrent validiteit kan dus wel informatief zijn maar de betekenis is toch vaak beperkt als de voorspelling gericht is op een toekomstig criterium Inhoudsvaliditeit o Beoordelen hoezeer de inhoud van de test een geheel van situaties, kennisinhouden of vaardigheden representeert, waaruit met vetrekking tot de onderzochte persoon conclusies moeten worden getrokken o Vooral van toepassing bij onderwijskundig meten o Inhoudsvaliditeit is dus een indicatie van de mate waarin test het domein van mogelijke items representeert o Welke onderwerpen/ vaardigheden moeten worden opgenomen in het corresponderende itemdomein en wat is het gewicht van de diverse onderdelen ! best gebruik maken van interbeoordeelaars betrouwbaarheid o Belangrijk bezwaar: empirisch onderzoek ontbreekt vaak Items vormen vaak de verzameling van eerder gebruikte testen Validering van een nieuwe test aan oude testen krijgt zo het karakter van een cirkel redenering “mijn toets is valide want is vergelijkbaar met vroegere testen” o Het vaststellen van inhoudsvaliditeit is vooral een kwestie van oordeken o Komt dicht in de buurt van ‘face validiteit’ o Formele definitie: inhoudsvaliditeit= de sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein Totaalscore is in praktijk niet beschikbaar NIET R(test1, test2) R(Testi1, criterium) R(antwoordvorm1, antwoordvorm2) Deze definitie komt in feite neer op het bepalen van de samenhang tussen de scores op twee testen die verondersteld worden equivalent te zijn Correlatie is schatting betrouwbaarheid van de twee afzonderlijke testen Maar is deze betrouwbaarheidsschatting ook op te vatten als de schatting van de inhoudsvaliditeit? o Het is mogelijk dat beide testen niet representatief zijn Constructvaliditeit o Cronbach en Meehl o Ruimer dan begripsvaliditeit o Wordt geëvalueerd door te onderzoeken welke psychologische eigenschappen door de test worden gemeten Eigenschappen betreffen hypothetische constructen o Bestaat uit 3 onderdelen Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de testprestatie Het afleiden van toetsbare hypothesen uit de theorie die het construct verklaart Het uitvoeren van empirisch onderzoek om de hypothese te toetsen o Komt in de buurt van betekenisanalyse Betekenisanalyse impliceert voor een belangrijk deel exploratief onderzoek o Van begripsvalidering is pas sprake wanneer vragen naar de betekenis van de test alleen beantwoord kunnen worden door een gericht, confirmatief onderzoek naar de relatie 8
tussen de testscore en andere operationaliseringen van hetzelfde beoogde begrip en naar relaties met andere verwante begrippen De definitie van begripsvalidering is dus enger dan die van construct validiteit 8.2.2 andere onderscheidingen in het begrip validiteit Synthetische validiteit o Variant van begripsvaliditeit o Richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag in plaats van op het complexe criterium als geheel Bv. in plaats van op leidinggeven te richten, focussen op taak en doelgerichtheid o Zo wordt het probleem opgelost dat men voor de validering van een test tegen een complexe en vaak unieke functie over veel te weinig proefpersonen kan beschikken om het valideringsonderzoek te verrichten o Uit de afzonderlijke voorspellende elementen wordt vervolgens de voorspelling van de hele functie gesynthetiseerd o Criterium blijft het doel, maar wel stap gedaan richting begripsvalidering (want de vraag welk psychologisch fenomeen door de test wordt gemeten is van belang) Congruent validiteit o Geeft de mate aan waarin een test correleert met een andere test waarvan wordt aangenomen dat die dezelfde eigenschap meet o Niet het doel te voorspellen, maar nagaan in welke mate de test de beoogde eigenschap meet o Onderdeel van het proces van begripsvalidering Face validiteit o Gemeten naar de subjectieve indruk van de leek/ psycholoog, lijkt de relatie tussen test en criterium of de betekenis van de test zonder meer duidelijk o Deze indruk hoeft niet ondersteunt te worden door empirisch onderzoek o Men spreekt van indrukvaliditeit zolang hier nog geen empirische bevestiging van is gevonden o Niet altijd een nuttige, soms zelf vrij gevaarlijke eigenschap van een test Bv. Bourdon- Wiersma- test voor bepaling van epilepsie o Indien een test aantoonbaar voldoende predictieve of begripsvaliditeit heeft, is het zelfs wenselijk dat dit voor iedereen ook wel duidelijk is Kan motiverend werken o Lijkt op ‘transparantheid’ van een testprocedure Eerder een wenselijke dan een noodzakelijke eigenschap Incrementele validiteit o Betreft de verbetering van de voorspelling met behulp van een test ten opzichte van voorspellingen die kunnen worden gedaan op basis van veelal reeds aanwezige informatie o Biedt de test een meerwaarde 8.3 Predictieve validiteit Er wordt uitgegaan van een gegeven criterium Centrale vraag: hoe goed valt dit criterium te voorspellen o Criterium kan in toekomst, heden, verleden liggen o Meestal beschikt men niet over de criteriuminformatie, maar dient de test juist om die informatie te schatten Noodzakelijk om in een representatieve steekproef uit de beoogde populatie zowel testgegevens als criteriumgegevens te verzamelen en vervolgens de relatie tussen test en criterium vast te stellen Basismodel: 9
o Op basis van het genoemde empirisch onderzoek in een representatieve steekproef wordt de relatie onderzocht tussen de testprestaties en de later verzamelde criteriumprestaties o Bv. toegangsexamen (predictor) voorspelt prestatie in onderwijs (criterium) o Lineaire relatie is het eenvoudigste: Y=a+ b X A (intercept) geeft het snijpunt aan met de Y-as B (regressiegewicht) geeft de richtingscoëfficiënt aan o Voor het bepalen van de lineaire benadering wordt regressieanalyse gebruikt Bepalen van de rechte lijn die het beste past bij de punten wolk De gemiddelde gekwadrateerde verticale afstand van alle punten tot deze lijn is het kleinst o ^Y=a + b X X: de bekende testscore ^Y= de schatting van Y via de regressievergelijking Dus op basis van testprestatie kan een schatting gemaakt worden van criteriumprestatie 8.3.1 Nadere bepaling van criteriumbegrip Uiteindelijk criterium o Het uiteindelijke doel van een concrete procedure o Bv. bij selectie van studenten geneeskundeprofessionele bijdrage aan medische zorg o Zelden of nooit beschikbaar Tussentijdscriterium o Bv. prestaties op het eindexamen Onmiddellijk criterium o Bv. totaal behaalde studiepunten op het einde van het 1ste jaar 2 problemen bij deze 3-deling o Probleem aangaande tijd Uiteindelijk criterium ligt in de tijd ver verwijderd van het test tijdstip Andere 2 liggen er dichter bij o Abstractieniveau In hoeverre is het criterium beschikbaar, (duurt het niet te lang? Is het niet te veelomvattend) kan het worden geoperationaliseerd (is het meetbaar te maken?) of worden gekwantificeerd (is het nog zinvol in getallen uit te drukken?) o tijd en abstractieniveau van de doelstelling worden vaak onvoldoende gescheiden alternatief onderscheid: o uiteindelijke doel vallen rechtstreeks af te leiden uit de bestaansredenen van het instituut waarbinnen het voorspellend testgebruik plaatsvindt doel als zodanig is niet- psychologisch o conceptuele criterium ( meer concreet zichtbaar) een concretisering van het uiteindelijke organisatiedoel in termen van zichtbare resultaten vertegenwoordigt het laagste niveau van abstractie o criteriumgedrag o criteriummaat afgeleid van conceptueel criterium expliciete, ondubbelzinnige uitspraken/ scores die betrekking hebben op criteriumgedrag/-prestaties criteriumgedrag/-prestatie is waarneembaar en registreerbar en relevant voor het conceptuele criterium criteriumgedrag is te operationaliseren tot criteriummaat criteriummaat= score op een bepaalde schaal van een bepaalde test 10
zijn vaak kwantitatieve operationaliseringen van het criteriumgedrag belangrijk is dat de meting van een criterium aan dezelfde eisen van betrouwbaarheid en validiteit voldoet als de test waarmee dit criterium wordt vooropgesteld (inhouds)validiteit: van het organisatiedoel tot het criteriumgedrag validiteit wordt bepaald door de relatie tussen predictorscore (testscore) en criteriumscores vast te stellen o scores worden eerst gecorrigeerd voor onbetrouwbaarheid om daarna de relatie de relatie tussen gecorrigeerde scores te nemen als indicatie van validiteit geeft vaak een sterk geflatteerd beeld van de werkelijke validiteit relatie tussen criteriumgedrag en het achterliggende conceptuele criterium is niet voor empirisch onderzoek toegankelijk o pas nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld, kan de predictieve validiteit van de testprocedure worden bepaald in de praktijk wil men vaak weten wat de relatie is tussen een dichtbij gelegen criterium en een prestatiecriterium op een later tijdstip o relatie is vaak zwak o kwestie van beleid wat het best als conceptueel criterium genomen wordt o probleem bij keuze van criteriumgedragingen: de betrouwbaarheid van de maten is vaak omgekeerd evenredig aan hun relevantie
8.3.2 Opzet van een test of testbatterij met predictieve validiteit fase 1: operationalisering van het criterium o het operationeel maken van het criteriumgedrag in een zo exact mogelijke criteriummaat fase 2: Keuze en constructie van test o de keuze van de mogelijk geschikte test of de keuze of de constructie van mogelijk geschikte items, waaruit één/meer test kunnen worden samengesteld o de wijze van testconstructie is afhankelijk van omstandigheden, mogelijkheden tot verwerking en de theoretische aanpak van de onderzoeker fase 3: proefafneming van bestaande of nieuwe tests o wordt vaak overgeslagen o proefafneming van de bestaande of de nieuw te construeren tests op diverse groepen proefpersonen uit de populatie waarvoor de testprocedure wordt ontworpen bij een bestaande test is dit enkel nodig als de testprocedure plaatsvindt in een populatie die afwijkt van de populatie waarvoor de test oorspronkelijk is geconstrueerd onderzoek kan gevolgen hebben voor de bruikbaarheid van de test o populatie en steekproef steekproef dient een zo getrouw mogelijke afspiegeling te zijn van de populatie waarvoor de test uiteindelijk zal worden gebruikt afwijkingen tussen steekproeven en populatie qua gemiddelde minder erg dan que spreiding betrouwbaarheid en validiteit zijn gevoelig voor variatie in spreiding, niet voor variatie in gemiddelde representativiteit kan beter worden gegarandeerd als men vooraf rekening houdt met de samenstelling van de populatie naar voor de test belangrijke demografische en persoonlijke variabelen bv. als het onderscheid 50- en 50+ relevant is voor de te meten eigenschap, moet dit ook in rekening gebracht worden in steekproef (evenveel in elke categorie) =gestratificeerde steekproef
11
Stratificeren niet noodzakelijk als men aselect een grote steekproef uit de populatie trekt? (MAAR vaak zijn sommige deelgroepen minder makkelijk te bereiken) Steekproeven zijn vaak niet representatief wat leeftijd betreft en worden daarmee de voor vele psychologische eigenschappen belangrijke ontwikkelingsaspecten genegeerd Vooronderzoek: kleine steekproef die niet representatief hoeft te zijn is voldoende (bv. enkel de twee extreme leeftijdsgroepen) Hoofdonderzoek: behoeft een grote representatieve steekproef o Itemanalyse Bij het construeren van nieuwe testen Diverse aspecten van de test kunnen worden geanalyseerd (bv. moeilijkheidsgraad, correlatie van items met totaal score,…) Extreem moeilijke/makkelijke items zijn enkel gewenst als de test in de populatie de gehele schaal van de eigenschap dient te bestrijken en ook voor ‘extreme’ personen items dient te bevatten Moeilijkheid van een item op zich heeft niets te maken met wat het item meet of hoe betrouwbaar het item dit doet Homogene test verkrijgen door Factoranalyse De onderzoeker selecteert zelf rechtstreeks item op basis van hun onderlinge correlatie Chronbach’s apha: ondergrens voor de betrouwbaarheid Op basis van de in de derde fase verzamelde gegevens wordt de test in zijn definitieve vorm samengesteld fase 4: validatie van de testprocedure o het valideringsonderzoek: voetangels en klemmen de daadwerkelijke validatie van de test in plaats van voorspelling met toekomstig criterium wordt gekozen voor de opzet met een gelijktijdig criterium men hoopt hierbij de gegevens te kunnen generaliseren naar het bedoelde voorspellingsmodel longitudinaal onderzoek duurt lang waardoor het kostbaar is van hoeveel personen gaan uiteindelijk de criteriumscores ter beschikking komen? (bv. uitval) o gevolg: variatiebeperking op zowel predictor als criteriumvariabele o zowel betrouwbaarheid als validiteit zullen te laag worden geschat Mogelijks kunnen de testuitslagen bij een latere beoordelaar bekend raken o Contact minimatie van het criterium= Als de beoordelaar zijn oordelen door deze kennis laat beïnvloeden en zijn oordelen worden als criteriummaat in het valideringsonderzoek gebruikt, dan zijn testscores en criteriumscore niet meer onafhankelijk vastgesteld Correlatie zal kunstmatig hoog uitvallen Mogelijk restriction of range: extremen vallen wegbeperking in spreiding o vaststellen van de validiteit valideitscoëfficiënt = correlatie tussen testscore en criteriumscore er wordt aangenomen dat het verband tussen predictor en criterium goed door een rechte lijn kan worden benaderd uitzonderingen: kromlijnige relatie o lage testscore gaat gepaard met lage criteriumscore 12
o hoge testscore gaat gepaard met hogere criteriumscore o maar zeer hoge testscore gaat gepaard met lagere criteriumscore o gevolg: correlatie zal laag zijn o er moet gebruik gemaakt worden van een correlatiemaat die onafhankelijk is van vorm (bv. correlatieratio) heteroscedastische relatie o er is een verband tussen de lagere waarden van twee andere variabelen, maar niet voor de hogere waarden o bij zeer hoge waarden van X zijn bijna alle waarden van Y mogelijk o gebruik maken van correlatiecoëfficiënt die de gemiddelde relatie over de verschillende niveaus van de testscore weergeeft o [homoscedastische relaties: relaties die overal even sterk zijn] Tests kunnen voor voorspelling soms nuttig zijn als suppressor variabele ^Y= a+ bIXI-b2X2 criterium Y wordt voorspeld door testscore XI een positief gewicht bI te geven en er een deel van X2 van af te trekken, namelijk het deel dat nul correleert met Y gewichten (b) worden bepaald door regressieanalyse Bv. taalvaardigheid speelt rol bij test voor rekenvaardigheid Testscores kunnen functioneren als moderatorvariabele =variabele die zelf niet of nauwelijks hoeft te correleren met een criteriumscore Y, maar die wel de relatie van andere variabelen met Y beïnvloedt Indien men er geen rekening mee houdt, lijkt de correlatie tussen test X en criterium Y matig, maar in de afzonderlijke groepen (bv. mannen en vrouwen)ligt de relatie geheel anders Ze verduidelijken de relatie tussen test en criterium en maken ook duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen Apart geval: 2 variabelen apart met een criteriumvariabele Y correleren en bovendien nog een interactie effect op Y hebben (=moderated regression) Als beide variabele een hoge score te zien geven, wordt de correlatie met het criterium daardoor nog extra verhoogd =moderated regression fase 5: Samenstelling van de predictorbatterij o de tests waarvoor een goede validiteit is gevonden, worden gecombineerd in een maximaal voorspellende testbatterij o veel gebruikte statistische methode: meervoudige regressieanalyse testscores worden gewogen en opgeteld tot een voorspelling van criteriumscore Y ^Y = a + bIXI + b2X2 + … + bmXm Regressiegewicht is relatief groot als de test hoog correleert met criterium Y en laag met de andere tests o Ideaal: een batterij van tests die onderling laag correleren en allen hoog correleren met Y o Mutlipele correlatie drukt het succes van de gehele testbatterij voor de voorspelling van Y uit = de correlatie van de totaalscore gebaseerd op de hele testbatterij met het geobserveerde criterium fase 6: kruisvalidering o het statistische voorspellingsmodel (hier: regressiemodel) dat is gevonden op basis van de steekproefgegevens, wordt gecontroleerd op een nieuwe representatieve steekproef van proefpersonen afkomstig uit dezelfde populatie als de eerste steekproef o er wordt nagegaan of de geschatte regressiegewichten in beide steekproeven voldoende op elkaar lijken en of de multipele correlaties ongeveer gelijk zijn o reden voor de controle: 13
het uiteindelijk gekozen regressiemodel komt vaak tot stand na veel trial and error naarmate de onderzoeks steekproef kleiner is, leunt dit proberen sterker op de toevallige samenenstelling van deze steekproef en worden beslissingen over tussentijdse wijziging van het model genomen op basis van steeds onnauwkeuriger geschatte regressiegewichten naarmate er meer foute beslissingen genomen worden, treedt er meer kanskapitalisatie op bij een sterke mate van kanskapitalisatie past het gevonden regressiemodel heel goed bij de ene, toevallige steekproef, maar niet meer bij de populatie waaruit de steekproef is getrokken o onderzoeker probeert dus te voorkomen dat hij zoveel mogelijk modellen probeert kan het beste door zoveel mogelijk uit te gaan van een theorie of een rationele analyse o indruk krijgen van de mate waarin kanskapitalisatie zich heeft voorgedaan: een nieuwe steekproef uit de populatie trekken die even groot is als de eerste steekproef (duur en tijdrovend) de steekproef die men al heeft aselect opsplitsen in twee even grote deelsteekproeven het op basis van de eerste steekproef gekozen definitieve regressiemodel wordt in de tweede steekproef gebruikt om voor elke proefpersoon een schatting te maken van diens criteriumscore schatting wordt gecorreleerd met geobserveerde criteriumscore zodat een multipele correlatie wordt verkregen voor de tweede steekproef deze correlatie wordt vergeleken met die van de eerste steekproef weinig verschil in correlatiekanskapitalisatie heet geringe rol gehad o robuust model heeft meer kans om tot juiste beslissingen te leiden 8.3.3 Differentiatie in het criteriumonderzoek tests met een geringe validiteit kunnen soms toch nog een zinvolle bijdrage aan de beslissingen leveren een test met een behoorlijke validiteit heeft soms maar weinig effect validiteit van testen zijn vaak maar matig 5 redenen waarom veel validiteitscoëfficiënten (correlatie tussen test en criterium) zo laag zijn: 1. Geringe betrouwbaarheid van het criterium o Er wordt vaak veel aandacht besteed aan het maken van een betrouwbare test of testbatterij o Maar voor de constructie van een betrouwbare criteriummaat bestaat meestal minder aandacht o Probleem: men probeert met een betrouwbare predictor een criteriumscore te voorspellen die vooral uit meetfouten bestaat 2. Miskenning van een niet- lineaire relatie tussen predictor en criterium o Voordat de beslissing tot de aanname van lineariteit en homoscedasticiteit van de relatie wordt genomen, moet eerst worden onderzocht of deze eigenschappen de relatie wel recht doet o Kan het eenvoudigste door visuele inspectie van scatter plot o Het is beter om bijvoorbeeld voor elke waarde van de predictor variabele X uit de bijhorende verdeling van criteriumvariabele Y de meest waarschijnlijke waarde als voorspelling te nemen voor nieuwe gevallen 3. Negeren van de complexe samenstelling van groepen o De relatie tussen predictor en criterium kan verschillen voor verschillende deelgroepen o Indien dit wordt genegeerd, kunnen ernstige voorspellingsfouten gemaakt worden 14
o Van belang de juiste moderatorvariabelen of covariaten te vinden o Het kan ook zijn dat de sterkte van het verband in twee deelgroepen gelijk is, terwijl voor dezelfde predictorscore X de gemiddelde criteriumscore in de ene groep hoger is dan in de andere groep (zie figuur 8.4b Blz. 362) Twee verschillende voorspellingsmodellen zijn noodzakelijk o In het algemeen gaat het hier om de vraag of er kan uitgegaan worden van één voorspellingsmodel voor alle groepen of dat er per relevante groep een apart model nodig is 4. Negeren van de variabele betekenis van het criterium in verschillende organisaties o Hetzelfde criterium kan in verschillende organisaties geheel verschillende betekenissen hebben, terwijl de naam suggereert dat het om hetzelfde zou gaan Bv. zelfde type functie kan in verschillende organisaties anders worden ingevuld o De voorspellingsmodellen dienen zowel uiteenlopende predictoren als uiteenlopende criteriummaten te bevatten 5. Onterechte vereenvoudiging van het criterium o Er wordt vaak uitgegaan van een te eenvoudig beeld van het criterium o Een meer gedifferentieerde benadering is dan nodig om tot betere voorspellingen te komen o 2 mogelijkheden: Gevarieerd en complex criteriumgedrag wordt soms samengevat in een globale criteriummaat Elke nuance gaat verloren en een goede voorspelling van het criterium wordt lastig Criteriumgedrag is aan het moment van de vaststelling en meting gebonden en niet zonder meer generaliseerbaar in de tijd Eenvoudigste reden: mensen leren en ontwikkelen zich in de tijd Het is van belang dat naast de inhoud ook het moment van meting van het criterium in ogenschouw wordt genomen Ander aspect is dat men zich niet richt op een momentopname, maar op de veranderingen die optreden tussen 2 of meer momentopnamen Er wordt dan een dynamisch ipv een statisch criterium voorspelt 8.3.5 beperkingen van predictieve validiteit Predictoren die hoog correleren met het criterium en laag met andere predictoren krijgen een zwaar gewicht o Belangrijke vraag: leidt deze statistische selectie van predictoren ook altijd tot inzicht in de vraag waarom een testbatterij het criterium goed voorspelt? Soms zijn verbanden tussen tests en criteria erg doorzichtig (bv. rekenoefeningen voor rekenvaardigheid) Soms worden relaties gevonden die zich volledig aan het oog onttrekken Constructvaliditeit: doel: testpsychologie redden uit het slop van inhoudsloze correlatieberekeningen o Begripsvalidering met het oog op de wetenschappelijke onderbouwing van het meten met behulp van tests is een onmisbaar onderdeel van testconstructie o Door middel van empirisch onderzoek achterhaalt men hier wat de test precies meet Het blind toepassen van tests ter voorspelling van een criterium, zonder zich af te vragen waarom de voorspelling werkt, leidt niet noodzakelijk tot inzicht o Kritische en nieuwsgierige houding is voorwaarde voor verder onderzoek dat de predictieve validiteit kan verbeteren
15
Het blind afgaan op de grootste correlaties impliceert dat men eigenlijk alle mogelijke predictoren zou moeten onderzoeken op hun geschiktheid voor de voorspelling van het criterium Er kan sprake zijn van een unieke of zeldzame situatie, waarvoor niet of nauwelijks een criterium valt vast te stellen o Er bestaat weinig houvast voor voorspellingen op basis van testonderzoek o Er kunnen hypothesen worden gegenereerd over de mogelijke samenhang als de psycholoog inzicht heeft in de betekenis van het testgedrag o Door deze inzichten te benutten zijn psychologische uitspraken over de onderzochte mogelijk De psycholoog die zonder theorie te werk gaat kan in de knel komen bij de vraag de onderzochte te beschrijven Betekenisanalyse en begripsvaliditeit bieden een mogelijkheid om het ‘sacrosancte’ criterium van zijn voetstuk te halen en te analyseren Een strikt empirische opvatting van voorspellen leidt nooit tot verder inzicht in de vraag wat het criterium precies meet Conclusie: o predictieve validiteit is een onmisbaar begrip voor de praktijk van het voorspellend testgebruik, o maar een test krijgt pas een werkelijk nuttige functie als met deze empirische correlaties tevens een begripsanalyse gepaard gaat 8.4 Betekenis en begripsvaliditeit 8.4.1 Begripsvalidering aan begripsvalidering gaat meestal een proces van betekenisanalyse vooraf in de betekenisanalyse worden dezelfde fasen doorlopen als in de theorievorming en de toetsing van theorieën in algemene zin o beantwoording van de vraag wat een test/items zou kunnen betekenen begint met creatieve fase hierin tracht men een theorie te vinden of op te stellen die testgedrag kan verklaren verklaring is hypothetisch dus voorlopig om de theorie te bevestigen (=proces van begripsvalidering) dient een concrete, ondubbelzinnige voorspelling te worden geformuleerd van belang creatief: er wordt gezocht naar plausibele verklaringen. De procedure en methode zijn niet voorgeschreven en bindend voorspelling moet ondubbelzinnig te onderzoeken zijn er kan nooit definitief worden bewezen of een test al dan niet een bepaalde theoretische betekenis heeft even belangrijk alternatieve hypothesen te kunnen verwerpen als oorspronkelijke hypothese te kunnen accepteren in betekenisanalyse gaat het dus om het vinden van een theorie/ theoretisch begrip als verklaring voor het testgedrag (hypothesevorming) bij begripsvalidering gaat het om het empirisch bevestigen van deze verklaring (formuleren voorspellingen+ empirische toetsing o trekvalidering: in hoeverre kan het testgedrag verklaard worden met behulp van een persoonlijkheidstrek of een geschiktheid (gaat niet noodzakelijk om theorie) o nomologische validering: testgedrag wordt verklaard vanuit een psychologische theorie voordeel van inbedding van testgedrag in een nomologisch netwerk is dat de betekenis van de gevalideerde test in meer algemene psychologische termen kan worden beschreven 16
de mogelijkheid om testgedrag te relateren aan een nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan o in de realiteit wordt testgedrag doorgaans gevalideerd in termen van trekvalidering en niet in termen van nomologische validering o verschil tussen trekvalidering en nomologische validering is eerder gradueel dan principieel vaak ontbreekt een voldoende gedetailleerd en door onderzoek ondersteunde theorie over een eigenschap zodat testconstructie een wat exploratiever karakter heeft theorieën zijn vrijwel nooit af: de validering van de test kan een bijdrage leveren aan de verdere theorievorming en toetsing van een gegeven begrip bv. Stanford-Binet test: oorspronkelijk waren oordelen van leken het criterium, daarna werd testgedrag op zich het doel elke test behoort tot een conceptueel netwerk bv. Big five persoonlijkheidstest: niet puur een analyse van testgegevens, maar ook correlationeel en experimenteel onderzoek theorie is vaak een deel van itemconstructie facetdesign (vragenlijst constructie in 2 stappen) o onderscheiden van relevante eigenschappen o systematische constructie van items in gekruist design tests spelen in psychologische theorievorming vaak zelfs een dominante rol is eenmaal een trek/ nomologisch netwerk gekozen als potentiële verklaring van het testgedrag, dan start de fase van de begripsvalidering o voorspellingen formuleren om te toetsen of de vermoedens over de test juist zijn o twee soorten voorspellingen confirmerende validering ( bevestigen oorspronkelijke hypothese) discriminante validering (alternatieve verklaringen verwerpen) o begripsvalidering kan plaatsvinden doormiddel van correlationeel onderzoek of door experimenteel onderzoek 8.4.2 Betekenisanalyse: op zoek naar de betekenis meestal heeft onderzoeker minstens vage vermoedens en verwachtingen omtrent de te meten eigenschap die aan de constructie van de items ten grondslag hebben gelegen o vormt de basis voor de theorievorming over het testgedrag volgende stap in onderzoek is de test van begripsvalidering geen standaardmethode voorgeschreven, maar 2 suggesties : structuur en relatie onderzoek Structuuronderzoek o 2 manieren waarop een analyse van de structuurkenmerken van de test kan leiden tot een hypothetisch inzicht in de betekenis van het testgedrag Psychologische analyse van de inhoud van de items Bv. opdrachten zelf proberen op te lossen, proberen greep te krijgen op het oplossingsproces door proefpersonen hardop te laten denken, literatuur bestuderen, … Leidt tot iets wat veel lijkt op indrukvaliditeit o Verschil is dat uit deze analyse slechts veronderstellingen voortkomen en geen definitieve vaststellingen. Deze moeten verder getoetst worden De analyse van de formele kenmerken van de test Bv. keuzeantwoorden/vrije antwoorden, snelheidskarakter van de test, doel van de test is doorzichtig,…
17
Correlatie tussen de testscores op twee verschillende tijdstippen geeft informatie over de stabiliteit van de testprestatie (en dus ook over de eigenschap die de test zou meten) Relatieonderzoek (4 vormen) o Spreiding en normen Gegevens over spreiding en normen verzamelen en in verschillende groepen bestuderen Bv. verschil in variantie tussen 2 groepen; percentielnormen in twee groepen Levert vaak bruikbare indicaties op van wat de test meet o Experimenteel onderzoek Bv. de test voorleggen onder meer/ minder strenge tijdscondities en nagaan wat de effecten hiervan zijn op de testprestatie Effect van verschillende instructies op de testprestatie nagaan o Factoranalyse Wordt vaak gebruikt als explorerende methode om de informatie die in een groot aantal variabelen is vervat, samen te vatten in een geringer aantal nieuw te construeren variabelen Doel: samenvatting van informatie Onvermijdelijk gaat informatie verloren, maar men streeft ernaar dit verlies te minimaliseren Vereenvoudiging van gegevens leidt tot grotere mate van inzichtelijkheid Factor= gewogen soms van itemscores/testscores Gewichten worden zodanig bepaald dat de gewogen somscore (=factorscore) zoveel mogelijk inzicht verschaft in de afzonderlijke items/tests Bepaling van gewichten kan op diverse manieren tot stand komen Factoranalyse gaat uit van een tabel met correlaties/covarianties tussen e testscores Indien deze ongeveer nul zijn, dan zijn de testprestaties onafhankelijk van elkaar Alle correlaties maximaal: testen vertonen veel overlap Meestal zijn correlaties groter dan nul maar aanzienlijk kleiner dan één Komt zelden voor dat slechts één factor alle tests kan vertegenwoordigen Bij regressieanalyse worden de gewichten zodanig gekozen dat het criterium zo goed mogelijk wordt voorspeld, terwijl bij factoranalyse de gewichten zodanig worden gekozen dat de informatie in de testscores zo goed mogelijk wordt samengevat 3 soorten factoren Algemene factoren: vrijwel elke test hangt hier minder/ meer mee samen Groepsfactoren: vertegenwoordigen kleiner gedeelte van de tests Specifieke factoren: gekoppeld aan één test/ enkele items eruit Factoranalyse van een verzameling testscores biedt een handige methode voor de exploratie van de betekenis van de tests Met welke factoren correleert een test relatief hoog/ laag Bv. zie blz. 380 Het resultaat van factoranalyse is afhankelijk van enkele voorwaarden en uitgangspunten De soort en de hoeveelheid van de variabelen die men in de analyse opneemt o Uit factoranalyse kan nooit iets tevoorschijn komen wat men er van tevoren niet heeft ingestopt De steekproef waarop de analyse is uitgevoerd o Naarmate de steekproef met betrekking tot de te meten eigenschappen meer variatie vertoont, worden hogere correlaties tussen de testscores gevonden (spreiding hangt positief samen met correlatie) o De structuur van correlaties van de tests met de factoren kan veranderen over leeftijdsgroepen 18
Enkele wiskundige en technische vooronderstellingen die vaak een sterk arbitrair karakter hebben o Bv. aantal factoren dat men identificeert, streeft men naar afhankelijke/ onafhankelijke factoren, minimale hoeveelheid info die men per factor nastreeft,… o Hebben directe invloed op het resultaat en komen voort uit soms expliciete, maar vaak ook impliciete vooronderstellingen o Omdat factoren constructies van de onderzoeker zijn, zijn dergelijke keuzes arbitrair en dienen zij expliciet gemaakt te worden De interpretatie van de resultaten van de factoranalyse o Een weloverwogen naamgeving van factoren op basis van niet veel meer dan een subjectieve inhoudsanalyse van de tests zelf o Kritiek op factoranalyse komt meestal neer op het verwijt dat de onderzoeker zich van de vooronderstellingen en beperkingen te weinig bewust is o Voorspellende waarde van de test Er is een wisselwerking tussen betekenisanalyse en predictieve validiteit Predictieve validiteit kan niet buiten de betekenisanalyse Voorspellingen geven aanleiding tot zinvolle veronderstellingen over de testbetekenis Zowel het structuur onderzoek als het relatieonderzoek dragen bij tot een voorlopige formulering van een antwoord op de betekenisvraag 8.4.3 Alternatieve verklaringen Begripsvalidering vindt zowel plaats door een bevestiging van de oorspronkelijke hypothese als het verwerpen van concurrerende hypothesen die alternatieve verklaringen voor het testgedrag geven Bij predictieve validiteit is een lage correlatie algemeen ongewenst, bij begripsvalidering is ze soms wel gewenst (bv. om uit te sluiten dat de test iets anders meet) De waarde van het verwerpen van alternatieve verklaringen is niet altijd even groot o Hangt af van de precisie van het experimentele opzet Bv. slordig opzet kan leiden tot verwerping goede alternatieve verklaringen o Hangt af van de plausibiliteit van de alternatieve verklaring Wisselwerking tussen test en inhoudelijke theorie speelt een rol Bv. zie blz. 383 Samenhang met intelligentie o Verstandig zowel tests voor prestatieniveau als tests voor gedragswijze te correleren met een intelligentietest Sociale wenselijkheid als onbedoelde eigenschap o Kan vooral bij persoonlijkheidsvragenlijsten een probleem vormen o = de mate waarin respondenten zich over het algemeen bij de beantwoording van testvragen laten leiden door wat zij sociaal wenselijk achten o Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de test niet goed functioneert o Individuele sociale wenselijkheid= per individu variërende opvatting over wat sociaal wenselijke antwoorden zijn = test attitude/ test-taking attitude Oplossing: bij elke vraag moet proefpersoon ook aangeven in welke mate hij de vraag sociaal wenselijk acht. Correlatie berekenen tussen deze scores en antwoorden op de vragen correlatie geeft aan in welke mate dit verschijnsel een rol speelde in beantwoording van de vragen
19
Verschil tussen antwoorden in anonieme situatie en niet- anonieme situatie is indicatie van ernst van dit verschijnsel Lastig te registreren fenomeen o Algemene sociale wenselijkheid= een algemeen aanvaarde opvatting over wat sociaal wenselijke antwoorden zijn Oplossing: aparte groep proefpersonen de sociale wenselijkheid van de antwoorden laten beoordelen en op basis hiervan een algemene sociale wenselijkheidsleutel te construeren per persoon totaal score van sociale wenselijkheid berekenen o De neiging tot het geven van sociaal wenselijke antwoorden kan voor de voorspelling van allerlei ander gedrag relevant zijn en daardoor zijn de vragenlijsten toch praktisch bruikbaar o In het algemeen wordt reductie van sociale wenselijkheid bevorderd door een grotere subtiliteit van het opzet van de vragenlijst en de procedure van afneming Antwoordtendenties o =neiging tot een consistent keuzepatroon in het antwoorden op tests, los van de inhoud van de vragen o Instemtendentie: overmatig instemmen met de richting van de vraag o Positievoorkeur: sommige posities bij antwoordmogelijkheden worden geprefereerd boven andere (bv. neutrale middenpositie) o Semantische interpretatie: bij keuze uit antwoorden ‘altijd’, ‘vaak’, ‘zelden’,… is er variatie in individuele interpretatie van deze verbale aanduidingen van frequentie o Sequentietendentie: tendentie tot het kiezen van een bepaalde verdeling over de keuzemogelijkheden, of tot bepaalde regels in de opeenvolging van gemaakte keuzes (bv. evenveel ja en neen antwoorden, niet teveel dezelfde antwoorden achter elkaar, …) o Snelheidstendentie vs. precisietendentie: nadruk leggen op snelheid en kwantiteit of juist op precisie en prestatie o Uitvoerigheidstendentie: komt vooral voor bij vrije- antwoordentests en test waarbij het aantal te geven antwoorden/ oplossingen aan de proefpersoon worden voergelaten maar wel belangrijk is (bv. Rorscharch) o Gistendentie o Voorkeur voor formele kenmerken: bv. neiging de langste optie te kiezen, voorkeur voor opties met vreemde termen,… o Antwoordtendenties worden gezien als manieren van antwoorden die vooral door de vorm van de vraag tot stand komen o Er valt pas rekening mee te houden indien ze een zeker mate van waarneembare consistentie vertonen o Antwoordstijlen hangen maar matig samen met onafhankelijk gemeten criteria o Vele tests bieden aan het optreden van één/meer antwoordtendenties ruimschoots gelegenheid. Dit betekent dat ze mede de betekenis van de test kunnen bepalen EXTRA TEKST: de rol van data-analyse in het proces van testconstructie Volledig proces van testconstructie bestaat uit volgende stappen (kern) o Verzamelen van items o Analyse van de gegevens verkregen door de test toe te passen o Aanpassing van de test afhankelijk van de analyseresultaten 3 methoden van testconstructie o Empirische methode Vaak letterlijk een verzameling van items: verzameld uit verschillende bronnen en samengevoegd in 1 test Analyse bestaat erin na te gaan in hoeverre de items differentiëren tussen een referentiegroep en één/meerdere targetgroepen 20
Items die goed een targetgroep differentiëren van een referentiegroep worden opgenomen in een subschaal voor de betreffende targetgroep Kwaliteit van een item is er in gelegen dat het empirisch kan differentiëren tussen de betreffende targetgroep en de referentiegroep o Factoranalytische methode Verzameling van items gebeurt op een meer deductieve manier (voor een gegeven concept reeks items formuleren) Analyse: factoranalyse Items die hoog laden op een factor zonder hoog te laden op een andere, worden opgenomen in een factoriële subschaal Kwaliteit van item is gelegen in zijn factoriële zuiverheid o Deductieve methode Items worden gemaakt om goed te passen bij één/meerdere concepten of bij de deelaspecten van een concept Analyse: itemanalyse/ factoranalyse Doel om 1 concept te meten: hoge interne consistentie en of één factor volstaat om correlaties tussen items te verklaren Doel om meerdere concepten te meten: factoranalyse meer aangewezen, gevolg door itemanalyse Items die niet voldoen worden verwijderd en eventueel vervangen/aangepast Kwaliteit item: item dat goed het concept weergeeft ITEMANALYSE Wordt om 3 redenen uitgevoerd o Evaluatie van de meetschaal Som van de items die bij een veronderstelde factor horen o Indicatie van betrouwbaarheid Schatten van de coëfficiënt van interne consistentie (= homogeniteitscoëfficiënt) Coëfficiënt stijgt met de intercorrelatie tussen de items en met het aantal items (drukt dus meer uit dan de interne consistentie en homogeniteit) α – coëfficiënt is een ondergrens van de betrouwbaarheidscoëfficiënt als men α en betrouwbaarheidscoëfficiënt wil laten stijgen, moet men test langer maken verwachte coëfficiënt kan als volgt berekent worden: α = (K (oude α )) / (1+(K-1) oude α ) met k= verlengingsfactor α hangt af van: correlatie tussen de items (hangt op haar beurt af van de grootte van de systematische verschillen tussen personen) het aantal items (hoe meer items, hoe hoger α ) o Verwijdering/aanpassing van items Nagaan welke items onvoldoende beantwoorden aan het concept Voor elk item nagaan welke de waarde is van α als het item niet wordt meegerekend α stijgt: geen goed item α daalt: item draagt in positieve zin bij tot betrouwbaarheid α stijgt/daalt niet: item schaadt niet, maar is in feite overbodig per item toont de itemanalyse hoe groot de correlatie is met de somscore waarin het item niet is meegerekend items die bij verwijdering α doen stijgen, hebben een lagere item-totaal correlatie hogere correlaties zijn beter dan lagere (drukken beter uit wat er door het geheel van de items gemeten wordt) 21
als een item niet voldoet wordt het best verwijderd en al dan niet vervangen regel: niet meer dan één item tegelijk weglaten per verwijderd item de itemanalyse herhalen voordelen: echte interne consistentie stijgt nadeel: de betrouwbaarheid zou kunnen dalen als het aantal items kleiner is het is mogelijk een proces op drift: de kern van de subschaal verschuift bij elke verwijdering en dat gebeurt in ongekende en ongecontroleerde richting doel van de test om 1 concept te meten: alle items moeten tegelijk aan één gezamenlijke itemanalyse onderworpen worden doel om meer concepten te meten: itemanalyse uitvoeren per groep van items die men samenneemt om er score uit af te leiden FACTORANALYSE doelstelling factoranalyse: o op basis van empirische gegevens komt tot achterliggende verschildimensies met behulp van een statistisch model o Heel wat psychologische concepten verwijzen naar individuele verschillen o Die verschildimensies zijn samenvattingen van gedrag over verschillende situaties heen o Factoranalyse is een techniek die probeert om dergelijke ‘samenvattingen’ te maken o.b.v. de similariteit in (antwoord)gedrag De gegevens komen uit vragenlijsten met antwoorden op een reeks items factorlading= correlatie van een item met de factor eigenwaarde= som van de gekwadrateerde ladingen op een factor communaliteit= het deel van de variantie van een item dat verklaard wordt door de gemeenschappelijke factoren varimaxrotatie= rotatie naar de eenvoudige structuur (structuur met per factor slecht een beperkt aantal items en per item slechts één hoge lading) factoranalyse vertrekt van de correlatie tussen de items voor de diagonaal (correlatie van item met zichzelf)zijn er 2 mogelijkheden o 1 invullen Zodat men met de factoranalyse 100% van de variantie van elke variabele wil verklaren = methode van de principale componentenanalyse o Communialiteit invullen Meestal wordt hiervoor methode van hoofdassen gebruikt Factoranalyse levert eigenwaarde op en een ongeroteerde factoroplossing De hoeveelheid variantie per factor wordt uitgedrukt in de eigenwaarden Om te beslissen tot hoeveel factoren men moet besluiten, worden er verschillende criteria gebruikt o Eigenwaarde gelijk aan 1 o Aantal factoren vlak voor de elleboog op scree plot o Aantal substantiële ladingen op een factor o Interpreteerbaarheid van een factor Blijkt er slechts 1 factor te zijn en was het de bedoeling om 1 concept te meten, dan bevestigt de factoranalyse de bedoeling Als er slechts 1 factor blijkt te zijn en het was de bedoeling meerdere concepten te meten, dan is niet voldaan aan het criterium van de divergente validiteit Als er meerdere factoren zijn is een varimaxrotatie (orthogonale rotatie) aangewezen o Eenvoudige structuur is pas zichtbaar na rotatie o Men verwacht dat hierna de ladingen overeenkomen met de concepten/ aspecten van een concept 22
Verschillende acties mogelijk o Itemanalyse: problematische items verwijderen/aanpassen o Item dat op verkeerde factor laadt, meerekenen met de groep van item van die factor o Een nieuwe groep item definiëren op grond van een onverwacht opgedoken factor Factorschalen: items met een hoge lading op dezelfde factor optellen o Nadeel: mogelijk is er een correlatie tussen somscores Factorscores: gewogen som (grootte ladingen, intercorrelaties) Zwakte van factoranalyse: interpretatie van factoren is subjectief Resultaat factoranalyse afhankelijk van o Soort en hoeveelheid variabelen in de analyse o Steekproef respondenten o Technische veronderstellingen en keuzes o Interpretatie van de factoren Kruisvalidering o Dataset verdelen in 2 steekproeven o Per dataset een aparte analyse uitvoeren o Is het resultaat vergelijkbaar? 8.5 Nogmaals betrouwbaarheid en validiteit De betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare testscore uit de klassieke testtheorie en de persoonsparameter uit de item-responstheorie o Interval geeft indicatie van de nauwkeurigheid van de meting Lage betrouwbaarheid: test meet wel de eigenschap maar gaat gepaard met veel ruis o dus is nauwelijks valide o grote meetfout betekent ook dat de test laag correleert met andere variabelen o predictieve validiteit is gering campbell en Fiske: multitrek-multimethodebenadering o belangrijk hier is het idee dat een test voor een bepaalde eigenschap zou kunnen worden vervangen door een andere test die dezelfde eigenschap pretendeert te meten lukt niet perfectvariantie in testresultaten is voor een deel toe te schrijven aan variantie van de onderzochte groep op de bedoelde eigenschap, maar ook aan de specifieke eigenschappen van de verschillende meetinstrumenten o iedere test is een trek-methode-eenheid en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek, als variantie in de methode (de test) o er wordt geschat in hoeverre de variantie van de testscore bepaald wordt door de variantie in de bedoelde trek en juist niet door de variantie ten gevolge van de gebruikte methode/ de niet bedoelde trekken o om dit vast te stellen dient de evaluatieprocedure van de test de meting van diverse trekken en het meten met verschillende methoden omvatten o de matrix bevat de correlaties die op deze wijze uit alle combinaties van methoden en trekken ontstaan (zie figuur 8.5 blz. 390) B-waarden (centrale diagonaal): de correlaties voor dezelfde trekken en dezelfde methoden (monotrek- monomethode overlap)= betrouwbaarheid V-waarden: correlaties voor dezelfde trekken gemeten met verschillende methoden (monotrek- heteromethode overlap) =confirmerende validiteit M- waarden: correlaties voor dezelfde methode en verschillende trekken (heterotrekmonomethode overlap)= methodevariantie D-waarden: correlaties voor verschillende trekken en verschillende methoden (heterotrek- heteromethode overlap) o Met betrekking tot validiteit zijn 4 overwegingen van belang V- waarden moeten significant verschillen van nul en voldoende hoog zijn 23
V-waarden moeten hoger zijn dan d-waarden Houdt in dat de validiteit van een variabele hoger is dan de correlatie tussen die variabele en iedere andere variabele die noch inhoudelijk noch wat betreft methode iets te gemeen heeft met variabele in kwestie V-waarde moet hoger zijn dan m-waarde Twee onafhankelijke maten van dezelfde trek moeten hoger correleren dan twee verschillende trekken met dezelfde methode In de m-driehoeken en de d-driehoeken moeten ongeveer gelijke patronen van correlaties gevonden worden Laatste 3 verwachtingen vormen basis voor discriminante validiteit o Test hertest methode= dezelfde metingen van dezelfde eigenschap (b-waarden)
Hoofdstuk 9: de bijdrage van de test in het beslissingsproces Inleiding Wetenschappelijke waarde van een test wordt bepaald door het wetenschappelijke belang van de eigenschap die door de test wordt gemeten Praktische waarde van de test kan het best worden beoordeeld tegen de achtergrond van de beslissingen die met de test worden genomen Bijdrage van de test: gaat om de verbetering in vergelijking met de situatie zonder test Cronbach en Gleser stellen dat het reëler is de situatie met test te vergelijken met de aprioristrategie (= het totaal aan voorspellingsmogelijkheid min de test) Voor het bepalen van de bijdrage van de test mag men niet louter afgaan op de correlatie met het criterium, maar men moet nagaan hoezeer de correlatie in vergelijking met het aprioriniveau wordt verhoogd door toevoeging van testinformatie = incremental validity Voor een test is een sterke onafhankelijkheid van de reeds beschikbare informatie vaak belangrijker dan een hoge correlatie met het criterium zonder meer De praktische waarde van een test kan slechts beoordeeld worden in de context van het specifieke beslissingsproces zelf 9.1 Taxonomie van beslissingen Beslissing over mensen bevat altijd 3 elementen o Een individu waarvoor de beslissing geldt o Twee/meer behandelingen o Informatie die dient als basis voor beslissingen Het kan gebeuren dat de informatie ontoereikend wordt geacht voor een definitieve beslissing en dat men besluit om eerst aanvullend onderzoek te doen Beslissingsstrategie: samenstel van verscheidene beslissingsregels o Kan expliciet zijn en consequent worden gevolgd o Kan vaag en onduidelijk zijn en niet consequent worden gevolgd o Normatieve strategie: de strategie die gevolgd zou moeten worden volgens de strategie o Empirische strategie: de feitelijk gevolgde strategie Indelingsprincipes met betrekking tot beslissingen over mensen 1. Onderscheid tussen individuele en institutionele beslissingen Individuele beslissingen o Volledig gedacht vanuit het individu dat de beslissing moet nemen/ waarvoor de beslissing geldt o Kansbepaling is a priori of o.b.v. testinformatie o Eenmalige beslissing o Rendement varieert per individu (omdat de waarde van de uitkomst van de beslissing varieert per individu) 24
o Resultaat moet beoordeeld worden tegen de achtergrond van de eigen, persoonlijke waarden en voorkeuren van het individu o Bv. beroepskeuze Institutionele beslissingen o Een groot aantal gelijksoortige beslissingen nemen o Kansbepaling doorgaans o.b.v. testinformatie (correlatie tussen test en criterium/ verwachtingstabel of differentiële voorspelling) o Waardesysteem: een voor alle beslissingen geldend systeem, behorend tot het instituut/ de organisatie waarvoor beslissingen worden genomen o Vaste serie beslisregels voor uiteenlopende gevallen o Totale rendement wordt bepaald door het gemiddelde rendement van de afzonderlijke beslissingen (meestal met doel het rendement te maximaliseren) o Bv. toelatingsprocedure voor school, rijbewijsexamen,… 2. Onderlinge relatie van de te kiezen alternatieven Heeft invloed op de aard van de te kiezen informatiebron Univariate informatie: De alternatieven kunnen kwantitatief van elkaar verschillen, maar wel in één dimensie of in elkaars verlengde liggen o bv. toegepaste psychologie vs. psychologie op universiteit o omdat het uitsluitend om een niveau verschil gaat, kan men in principe dezelfde informatie gebruiken voor de voorspelling van succes binnen de verschillende alternatieven o beslissing: verschillen in strengheid Multivariate informatie: keuze alternatieven die qua aard, en niet enkel qua niveau verschillend zijn (kwantitatieve en kwalitatieve verschillen) o Bv. psychologie of burgerlijk ingenieur o Testinformatie heeft ook een mutivariaat karakter o Beslissing: profielscores, verschilscores, scorepatronen o Het gaat om de mogelijkheid tot differentiële voorspellingen (welke gebaseerd is op multivariate analyse) 3. Beslissingen waarbij het gaat om een keuze voor 1 behandeling vs. een keuze tussen verschillende alternatieven Het gebruik van univariate informatie is in het eerste geval gebaseerd op tweedeling ‘nietwel’ In het tweede geval is ze gebaseerd op het indelen van twee of meer ‘klassen’
Op basis van deze 3 indelingsprincipes komen we tot een taxonomie van beslissingen 1. De twee soorten beslissingen (selectie en plaatsing in alternatieven die verschillen qua niveau) kunnen soms in één model worden gecombineerd 25
Komt veel voor in bedrijfs- en schoolpsychologie 2. Binnen de categorie van plaatsingsbeslissingen is het belangrijk of men rekening moet houden met beperkingen van aantal kandidaten 3. Onderscheid tussen variabele en vaste treatments Vaste treatments: men gaat uit van één/ meer van tevoren vastgelegde behandelingen, waartussen men een keuze kan maken Variabele treatments: er bestaat een mogelijkheid om de behandeling weer bij te stellen zodat ze optimaal past bij het individu 4. Beslissing in één fase (single-stage / non- sequential decision) nemen of in meerdere fasen (sequential decisions) 9.2 Enkelvoudige selectie- c.q. afwijzingsmodel Van enkelvoudige selectie is sprake indien individuen worden onderzocht met het oog op een enkel criterium, waarbij er slecht twee mogelijkheden zijn: men voldoet wel of niet aan de eisen Klassieke geschiktheidsonderzoek Het gaat hier om zoveel mogelijk ongeschikte kandidaten te weren Institutionele beslissingen, gebruik maken van univariate informatie o !impliceert niet dat er slecht gebruik gemaakt wordt van één test (gebruikt men meerdere testen, dan worden de scores gecombineerd tot een enkele predictorvariabele) 9.2.1 Het gebruik van een enkele test Eerste vraag bij dit model is hoe hoog de correlatie met een criterium minstens moet zijn, wil de test in het selectieproces een zinvolle functie hebben De effectiviteit van selectie hangt van meer factoren af dan enkel de validiteit van de test
A: personen die onterecht zijn afgewezen B: personen die terecht zijn aangenomen C: personen die terecht zijn afgewezen D: personen die onterecht zijn aangenomen A en D zijn missers (A: positieve missers/ D: negatieve missers) B en C zijn treffers (B: positieve treffers/ C: negatieve treffers)
Verticale lijn= kritische testscore/aftest grens (erboven wordt men aangenomen, eronder afgewezen) Horizontale lijn= kritische criteriumscore (erboven is voldoende, eronder is onvoldoende) Selectieratio= percentage kandidaten dat wordt aangenomen 𝐵+D A+B+C+D Toevalskans (= base rate/ antecedent probality): percentage geschikte kandidaten wanneer men niet zou selecteren maar volgens toeval (of allen) zou aannemen o Bv. toevalskans van 0.75wanneer kandidaten aselect zouden worden toegewezen zou 75% in de aangenomen groep succesvol zijn o Afhankelijk van de kwaliteit van het aanbod (hoe hoger kwaliteit, hoe meer volk in B) o Afhankelijk van de strengheid van beoordeling van de criteriumprestatie 𝐴+𝐵 A+B+C+D 26
Succesratio: percentage succesvolle kandidaten binnen de aangenomen groep (validiteit test) 𝐵 B+D o Afhankelijk van de correlatie van de test met het criterium, Hoe hoger de correlatie, hoe meer volk in B en C en hoe leger A en D+ succesratio wordt groter o Succesratio wordt beïnvloed door toevalskans Indien A+B in verhouding tot het totaal groter zou worden, dan is dit ook het geval met de succesratio o Succesratio wordt beïnvloed door selectieratio Hoe meer personen worden afgewezen, hoe groter de succesratio wordt Gevolgen van de genoemde relaties o Als er bij testen toch nog ongeschikte kandidaten worden aangenomen, hoeft dit niet te wijten zijn aan de test Kan bv. ook liggen aan kwaliteit van het aanbod o In beslissingsproces spelen ook oordelen en waardebepalingen een rol waarvoor noch de test noch de testpsycholoog zelf verantwoordelijk is Speelt ook een rol: aantal kandidaten dat moet worden aangenomen, succesratio die men nastreeft Bij elke beslissing dient het belang van de verhouding van twee categorieën (positieve en negatieve missers) worden afgewogen o Een gegeven validiteit geeft niet altijd dezelfde waarde voor de beslissing Toevalskans (dicht bij) 1 geen zin om te testen Relatief weinig geschikte kandidaten in aanmeldingsgroep test met lage validiteit heeft grote bijdrage o Bij zeer hoge waarden van de selectieratio, is bij constant blijven van de toevalskans een veel hogere validiteit nodig om een bepaald effect te sorteren dan wanneer een strenge selectie mogelijk is en slechts een klein percentage hoeft te worden aangenomen o Probleem: relatie tussen positieve en negatieve missers Strengere selectie meer kandidaten worden afgewezen die toch geschikt waren Overwegingen van belang: Afhankelijk van vraag en aanbodproblemen zijn er situaties waarin een negatieve misser ernstige gevolgen heeft. In dergelijke situatie heeft men liever wat meer positieve missers In andere situatie moeten positieve missers zo klein mogelijk zijn Situatie waarin beide groepen zo klein mogelijk moeten zijn o In de puntenwolk bij een bepaalde positie van de horizontale lijn, de verticale lijn zodanig kiezen dat (A+D) zo klein mogelijk is Het verschuiven van de aftastgrens op de predictorvariabele brengt dus een vermindering van het aantal missers van het ene type teweeg, terwijl het tegelijk het aantal missers van het andere type vergroot o Probleem van selectie bij een zeer lage toevalskans Lage toevalskans heeft gevolgen voor de bijdrage van de test in het beslissingsproces Duidelijk dat de absolute waarde van de validiteit van een test op zich weinig betekenis heeft Zie formule Blz. 412 9.2.2 Het gelijktijdig gebruik van diverse tests Meestal zal een zo hoog mogelijke validiteit bereikt worden door een verzameling van test die samen een testbatterij vormen 27
Testbatterij: serie testen die allen zo hoog mogelijk correleren met de criteriumprestatie maar onderling een zo laag mogelijke correlatie vertonen Zowel bij de gefixeerde selectiescore (percentage te selecteren kandidaten ligt vast) als bij een gefixeerde succesratio (aangenomen kandidaten moeten min een bepaalde kans op succes hebben)kunnen de gewenste beslissingen op 2 manieren worden bereikt o Statistisch proces (actuarisch) o Niet-statistisch, intuïtief proces Gaat vaak om een van situatie tot situatie fluctuerende combinatie van gegevens Men volt minder een vaste strategie dan bij het statistisch proces Allerlei vooroordelen, stereotypen, … spelen een rol. Men bepaald vaak ‘op het gevoel’ de diverse weegfactoren Analytische methode: minimumvoorwaarden op elke test afzonderlijk (multiple cut off procedure) o Conjuctief: Voor elke test afzonderlijk wordt een kritische score vastgelegd, Op elke test moet de kandidaat de norm halen o Compensatorisch: de ene test kan compenseren voor de andere test o Combinatie is ook mogelijk (voor elke test moest een bepaalde norm gehaald worden, vanaf die norm is compensatie mogelijk) o Combinatie regel is nog nodig o Inhoudsvaliditeit (regel a priori bepaald) of predictieve validiteit (posteriori bepaald)
Globale methode o Gewogen totaalscore met daarop een minimum norm o Lage score op 1 test kan gecompenseerd worden door hoge score op andere test o Statistische bepaling van de gewichten van elke test o Univariaat selectiemodel en predictieve validiteit 28
o Testen mogen zo weinig mogelijk overlappen !! compensatorische regel= bepalen van een totaalscore waarop een minimumnorm wordt vooropgesteld Compensatorische regel met a priori gewichten ≠ statistische manier voor het bepalen van een predictorscore 9.2.3 Selectie in een of meer fasen Soms is het efficiënter op trapsgewijs, in verschillende fasen te testen De basis waarop de voorselectie plaatsvindt dient valide te zijn met betrekking tot de criteriumprestatie Voorselectie o.b.v. administratieve voorwaarden (bv. diploma, leeftijd) is meestal toegestaan Voorselectie o.b.v. indruk van kandidaat (bv. sollicitatiebrief, handschrift, leeftijd, …) o Risico op onterecht afwijzen van goede kandidaten Voorselectie o.b.v. een korte testprocedure o Gebruikte test kan ook nuttig zijn als hij minder betrouwbaar en valide is dan de procedure die in een definitief selectieonderzoek wordt gebruikt o Voldoende is dat de toevalskans in de groep die voor een langdurig en kostbaar onderzoek in aanmerking komt, door de voorselectie toeneemt Sequentiële beslissingsmodellen kunnen ook gecompliceerder zijn en uit meer fasen bestaan dan enkel voorselectie Trapsgewijze selectie is in de meeste gevallen superieur aan eenmalige selectie, aangezien meestal veel tijd en geld bespaard kan worden zonder dat er meer foutieve beslissingen vallen 9.3 Plaatsbepalingen Beslissen is een proces waarbij waarden moeten worden toegekend aan zaken die niet kwantitatief te vergelijken zijn Besliskunde veronderstelt de beschikbaarheid van een waardesysteem o Op basis van twee elementen (kansen en waarderingen) wordt de meest adequate beslissing of beslissingsstrategie gekozen Kans op slagen voor elke optie moet bekend zijn A priori: subjectieve inschatting A posteriori: empirisch gefundeerd (samenhang tussen test en criterium/ verwachtingstabel) De waarde van elke optie moet gekend zijn Probleem: gewicht toekennen aan zaken die niet kwantitatief vergelijkbaar zijn Prioriteiten in waardensysteem Persoonlijke stellingname van betrokkene(n) Deze twee waarden moeten onderling vergelijkbaar worden gemaakt/ rendement bepalen Volgens berekening van verwachte waarde van de verschillende uitkomsten Rendement maximaliseren o Bij institutionele beslissingen worden de waarden van uitkomsten van beslissingen door de organisatie bepaald en zijn constant voor vele beslissingen o Bij individuele beslissingen wordt de waarde door het individu bepaald en kan dus variëren over individuen Bij het nemen van beslissingen gaat het erom dat dit niet gebeurt op een niet- rationele, impliciete en inconsistente manier, maar volgens een rationeel, expliciet en analyseerbaar proces Bijdrage van test is evenredig aan validiteit E (rendement)= P(A) x W(A) + P(-A) x W(-A) o Met P(A)= kans op slagen 29
o P(-A) kans op niet slagen o W(A) waarde van slagen o W(-A) waarde niet slagen 9.3.1 Plaatsing en niveauverschillen (univariate info) Niveauverschillen o Geen kwalitatieve verschillen o De verschillende keuze keuzealternatieven zijn functie van dezelfde predictor Waardesysteem: institutioneel Kansen worden bepaald doormiddel van testinformatie Voor elke testscore moet rendement bepaald wroden
Altijd A kiezen
maakt geen verschil of je A of B kiest
Als predictor score onder X bij extreme predictorscores kies je B Kies je voor A anders voor B Meest eenvoudige situatie: o Geen beperkingen of eisen wat betreft aantal kandidaten in elke optie o Elk individu krijgt keuze met maximaal rendement Complexere situatie o Beperkt aantal plaatsen o Vereist aantal plaatsen (bv. opleiding moet elk jaar gevolgd worden door X aantal personen) o Gevolg: Niet iedereen volgt optie met maximaal rendement vanuit standpunt organisatie Rendement organisatie niet altijd gelijk aan individueel rendement bron van ontevredenheid 9.3.1 Plaatsing en kwalitatieve verschillen (multivariate info) Eis: de kansen op succes in verschillende functies bepalen en de waarde van het goed vervullen van de functies vaststellen Belangrijk verschil met het vorige is dat hier gebruik gemaakt wordt van multivariate informatie (bv. scorepatroon, profielscores) Centraal: mogelijk tot differentiëring: Testbatterij moet zich dus niet richten op wat de criteria verenigt maar op wat hen scheidt o Testbatterij bestaande uit test waarbij telkens een bepaalde configuratie van scores op deeltests optimaal voorspelt voor één van de alternatieven 30
o Testen hebben met hoge correlatie op beide criteria o Maar ook testen die differentieel correleren met beide criteria Niet enkel de correlatie met afzonderlijke criteria (validiteit) maar ook de differentiële validiteit is van belang Differentiële voorspelling:
Hoe n individuen over n posities in M verschillende plaatsingen verdelen? o Gebeurd vaak irrationeel o Cut and fit method Meest bekwame individuen worden in best bij hen passende functies geplaatst Minst bekwame individuen worden aselect toegewezen in open gebleven functies Model niet altijd even goed uitvoerbaar (zie blz. 426-426 voor voorbeeld) 9.4 Individuele beslissingen Beslissingen die worden genomen voor of door individuen met een eigen persoonlijk waarde systeem waardoor deze beslissingen veelal een uniek en eigensoortig karakter hebben De evaluatie van de resultaten van beslissingen is een individuele en over individuen variërende zaak Keuze kan kwantitatief en kwalitatief verschillende alternatieven betreffen o Kwalitatief: de informatie dient een hoge differentiële validiteit te bezitten Er kan gebruik gemaakt worden van rationeel beslissingsmodel Stappenplan o Beslissingsboom voor overlopen alle uitkomsten o Bepaling van kansen (niet zo eenvoudig) o Waardering van uitkomsten (allesbehalve eenvoudig) o Eventueel bijkomende variabele (bv. schadeposten) o Rendement bepalen Taak van de psycholoog o Zoveel mogelijk analyseren en expliciteren o Model ligt vast (al dan niet de waarde van het falen en de kosten toevoegen) o Objectieve testinformatie (kansen) De test draagt slecht objectieve informatie aan waardoor de beslissing beter wordt onderbouwd en dut tot betere resultaten kan leiden
Deel II Meetniveaus 1. Kwantitatieve variabelen = een variabele waarvan de waarden getallen zijn De variabelen waar we mee werken (latent en vaststelbaar) zijn vaak kwantitatief 2. Meetniveaus Fundamenteel probleem: getallen betekenen niet in elke context het zelfde o Oplossing: meetniveaus invoeren (betekenis van getallen is hiervan afhankelijk) o Minstens 5 meetniveaus Nominaal Ordinaal Interval 31
Verschil Verhouding absoluut o de getallen halen hun betekenis uit de toegestane transformaties enkel die aspecten die onveranderd blijven onder de toegestane transformatie hebben betekenis we zullen dus telkens een aantal getallen op de X schaal omzetten naar een aantal getallen op de Y schaal om te onderzoeken wat constant blijft y= f(X) y= getransformeerde getallen f (x) functie van de getallen in X we nemen de getallen X1, X2, X3 en X4 die horen bij de objecten 1,2,3,4 o gelijkheidsoperatie (G): g(X1,X2)=1 als X1=X2 g= 1 als de getallen gelijk zijn g=0 als de getallen niet gelijk zijn o orderoperatie (O): o(X1,X2)=1 als X1>X2 o verhouding (ratio) van de verschillen (RV): rv(X1,X2,X3,X4)= (X1-X2)/ (X3-X4) o het verschil (V): v(X1,X2)= X1 – X2 de verhouding (ratio) (R): r(X1,X2) = X1/ X2 2.1 nominale schaal 1 op 1 transformatie: 2 getallen zijn gelijk, na transformatie blijven het 2 gelijke getallen Als X1 = X2 dan f(X1)=f(X2) Bv. f(X)= X2 ; f(X)=3X + 2 ; f(X) = -X Gelijkheid heeft betekenis : o g(Y1,Y2) = g(X1,X2) Orde heeft geen betekenis o O(Y1,Y2) ≠O(X1,X2) o Bv. f(x)= -X Y1=2 Y2= 4 Dan X1 =-2 X2=-4 Y1
X2 o De ordening hangt immers af van de schaal die we gebruiken Het gaat hier louter om een classificatie van mensen/ objecten in niet geordende, elkaar uitsluitende groepen o Louter benoemen van categorieën o Bv. man (1) vrouw (2) o Moeten geen getallen zijn (ook andere symbolen zijn mogelijk) Bv. de lengte van Jan is niet gelijk aan de lengte van Mieke, niet gelijk aan lengte bram, niet gelijk aan lengte An Bv. rugnummer, etnische groep 2.2 Ordinale schaal Monotoon stijgende transformatie Als X1<X2 dan f(X1)
Verhouding van verschil heeft geen betekenis o Rv (Y1,Y2,Y3,Y4) ≠ rv(X1,X2,X3,X4) o Bv. F(x)= x2 Rv(y)= (A-B)/ (C-D) F(X)= (A2-B2)/ (C2-D2) = [(a-b)(a+b)] / [(c-d)(c+d)] Het gaat om het rangordenen van mensen/ objecten volgens de mate waarin ze een bepaald kenmerk hebben Bv. Jan is groter dan Mieke, is groter dan Bram, is groter dan An Bv. mate van instemming met een item, opleidingsniveau 2.3 Intervalschaal Positief lineaire transformatie F(X)=ax+b (met a>0) Bv. f(x)=3x+2 NIET f(x) = -x ; f(x) = X2 Is een voorbeeld van een monotoon stijgende transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis Verhouding van verschil heeft betekenis o Rv (X1,X2,X3,X4) = rv (Y1,Y2,Y3,Y4) = ((X1-X2)/ X3-X4) A* (Y1-Y2)/ A*(Y3-Y4) (Y1-Y2)/(Y3-Y4) Verschil heeft geen betekenis o V(Y1,Y2) = Y1-Y2 = aX1+b – aX2 – b = a(X1-X2) = a *v(X1,X2) o ≠ v(X1,X2) Verhouding heeft geen betekenis o R(Y1,Y2)= Y1/Y2 = (ax1+b)/(ax2+b) o ≠v(x1,x2) We kunnen een eenheid toekennen: de afstand tussen twee waarden kan even groot zijn als die tussen twee andere waarden Er is geen absoluut nulpunt: iets dat de waarde nul heeft, zou evengoed de waarde B kunnen krijgen (op een andere schaal) Bv. (lengte Jan- lengte Mieke) = 2* (lengte Bram- lengte An) Bv. temperatuur Celsius 2.4 Verschilschaal Additieve transformatie F(x) = X+b Bv. f(X)= X+2 NIET f(x)=-x ; f(x)= x2 Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis Verschil heeft betekenis o V (Y1,Y2) = Y1-Y2 = X1+b – X2+b = X1-X2 o =v(X1,X2) Verhouding heeft geen betekenis o r(y1,y2) = y1/y2 = (x1+b)/(x2 + b) o ≠ r(x1,x2) Bv. Jan is 6cm groter dan Mieke 33
2.5 Verhoudingsschaal Multiplicatieve transformatie F(x)=aX (met a>0) Bv. f(x) = 3X NIET f(x)= -X ; f(x) = x2 Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis Verhouding heeft betekenis o r(y1,y2) = y1/y2 = a x1/a x2 = x1/x2 o = r(x1,x2) Verschil heeft geen betekenis o v(y1,y2) = y1- y2 = a x1 – a x2 = a (x1- x2) = a v(x1,x2) o ≠ v(x1,x2) We kunnen een eenheid en een nulpunt toekennen o Nulpunt ligt vast, krijgt dus betekenis o Iets dat waarde nul heeft zou ook op een andere schaal de waarde nul krijgen o Nulpunt reflecteert de totale afwezigheid van de eigenschap Bv. Jan is 2maal zo groot als Bram Bv. lengte, temperatuur Kelvin, massa 2.6 Absolute schaal Identiteitstransformatie (fX)=X Geen enkele transformatie is toegestaan Alle relaties hebben betekenis Getallen zoals in rekenkunde 2.7 Opmerkingen Je kan een bepaald gegeven in verschillende meetniveaus plaatsen, afhankelijk van de vraag o Bv. tombolaticket uitgedeeld met nummer 123 Nominaal: winnaar vs. verliezer Ordinaal: voor of na winnaar binnengekomen Verhouding: aantal aanwezigen o Onderzoeker bepaalt zelf op welk meetniveau hij zijn operaties acht Er zijn verschillende andere onderverdelingen van meetniveaus uitgewerkt door andere onderzoekers 2.8 Wiskundige operaties De toegestane transformaties bepalen niet enkel de betekenis, maar ook welke wiskunde/ statistische operaties zinvol zijn en dus toegelaten zijn Nominaal o Meeste rekenkundige operaties zijn niet zinvol o De modus is wel zinvol (meest voorkomende naam) Ordinaal o Slechts beperkt aantal rekenkundige bewerkingen mogelijk o Bv. gemiddelde niet Interval o Meeste rekenkundige bewerkingen bruikbaar o Nu is gemiddelde wel toegestaan 34
Verschil/verhouding o Meeste statistische procedures bruikbaar Absoluut o Alle bewerkingen zijn toegestaan
Beoordeelaarsovereenstemming Inleiding Van abstract latent (bv. intelligentie) operationaliseren naar concreet latent (bv. score op WISC) Tijdstip verbijzonderen naar feitelijk manifest (bv. score WISC op tijdstip T) Beoordelaar verbijzonderen (bv. score op WISC op tijdstip T door beoordeelaar B) In omgekeerde richting gaat ook, dan ga je telkens meer veralgemenen o Veralgemening beoordelaar= betrouwbaarheid o Veralgemening tijdstip= nauwkeurigheid o Veralgemening operationalisatie= validiteit Het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteer o Interbeoordeelaarsovereenstemming!: mate waarin beoordelaars op eenzelfde manier scores toekennen
1. overeenstemming voor nominale data: kappa van cohen Elke persoon laten beoordelen door 2 verschillende psychologen In welke mate komen ze overeen met elkaar?-->overeenstemmingstabel van aantallen opmaken (+ omzetten naar proporties)
Geobserveerde proportie overeenstemming: aantal keer dat ze het eens waren (diagonaal) delen door aantal observaties. [ hier: 3/5 = 0.6] OF bij proportietabel de proporties overeenstemming met elkaar optellen Proportie overeenstemming houdt geen rekening met toeval (personen die in dezelfde groep terechtkomen zonder dat dat iets te maken heeft met die personen zelf) We kunnen berekenen hoe de overeenstemmingstabel eruit zou zien op basis van toeval als o Beoordelaars enkel oordelen op basis van hun eigen frequentieverdeling, niet op basis van de persoon o Beoordelaars onafhankelijk van elkaar oordelen Bij onafhankelijkheid mag je bij 2 gebeurtenissen de kansen vermenigvuldigen (productregel) 35
o Geobserveerde tabel: Verwachte aantallen overeenstemming door toeval berekenen
Verwachte proportie overeenstemming door toeval berekenen: proporties optellen en delen door totaal aantal observaties. [hier: (0.6+0.6+0.2)/5=0.28] o Proportie tabel: Verwachte proporties overeenstemming door toeval berekenen: 2 rijwaarden met elkaar vermenigvuldigen
Verwachte proportie overeenstemming door toeval berekenen: waarden met elkaar optellen [ hier: 0.12+0.12+0.04 = 0.28] Als we deze twee waarden (de geobserveerde overeenkomst en de overeenkomst op basis van toeval)berekend hebben, kunnen we kappa berekenen o Kapa= (PO-Pt)/(1-Pt) met PO= geobserveerde kans ; Pt= toevalskans Als PO=1 (perfecte overeenstemming) kappa=1 Als PO=PT (alle waargenomen overeenstemming is toevalsovereenstemming) kappa =0 o Waarden van kappa met betekenis 0.00= arm 0.00-0.20 = gering 0.21-0.4 = reëel 0.41-0.6= gemiddeld 0.61-0.8= aanzienlijk 0.81-1.00= bijna perfect 2. overeenstemming voor ordinale data: gewogen kappa Kijken we hier enkel naar de diagonaal, dan negeren we het feit dat er grotere verschillen kunnen zijn (bv. matig-uitstekend vs. matig-redelijk) Ook partiële overeenstemming is van belang! Geobserveerde gewogen proportie overeenstemming berekenen o Alle getallen vermenigvuldigd met hun gewicht optellen. Dit delen door totale aantal observaties (gewichtenmatrix vermenigvuldigen met geobserveerde matrix) Voor alle getallen de verwachte aantallen overeenstemming door toeval berekenen
36
Verwachte gewogen proportie overeenstemming door toeval berekenen (door gewichtenmatrix te vermenigvuldigen met matrix verwachte aantallen overeenstemming door toeval) Gewichtenmatrix o Lineair: WIJ= 1- |i-j| / |c-1| met C= aantal beoordelaarscategorieën [hier:3] o Kwadratisch: WIJ= 1- (i-j)2 / (c-1)2 o Als i=j (kleinst mogelijke verschil) Wij=1 o Als i=1 (of c) en j=c (of 1) (grootst mogelijke verschil)Wij=0 o Als i-j=1 Lineair: (1-1)/2= .5 Kwadratisch: 1-1/4=.75 3. overeenstemming voor ordinale data: rho van spearmen Stap 1= exacte scores om zetten in rangtabel o Per beoordelaar aangeven welke rang de beoordeling krijgt
o Di= rang van persoon i volgens beoordelaar 1 – rang van persoon i volgens beoordelaar 2 o N= aantal personen (/ aantal beoordelingen) o Bij een volledige overeenstemming:
rho = 1
o Bij een volledige omkering: rho = -1 Rho is de productmoment correlatie coëfficiënt tussen de ranks De formule gaat enkel op als er niet veel ties (= gelijke scores) zijn binnen 1 beoordeelaar Als er wel veel gelijke scores zijn, moet je gebruik maken van de productmomentcorrelatie coëfficiënt tussen de ranks o Rho verschilt van correlatie omdat die enkel rekening houdt met de rang en niet met de exacte waarden 4. overeenstemming voor ordinale data: tau van kendall Wederom werken met rangtabellen ipv met exacte waarden o Voor elk mogelijk koppel van beoordelingen bepaal je per beoordelaar kijken naar specifieke rang tussen de twee items Bv. p1, p2 > p1 krijgt hogere rang dan p2 o Vervolgens bepaal je de mate van overeenstemming tussen de twee beoordeelaars Concordant: aantal keer dat ze zelfde volgorde tussen twee items hebben Discordant: aantal keer dat verschillende volgorde tussen twee items hebben Tau= proportie concordante koppels- proportie discordante koppels (tau: Pc-Pd) o Pd= aantal discordante koppels/ aantal koppels in totaal Bij volledige overeenstemming wordt deze term 0 dus tau: 1 o Pc= aantal concordante koppels/ aantal koppels in totaal Bij volledige omkering wordt deze term 0 dus tau: -1 o Aantal koppels: n (n-1)/2 Oplossing voor wanneer een beoordelaar dezelfde score toekent aan verschillende beoordelingen o Bv. score 27, 27, 41, 40, 43. er is twee keer 27 gescoord. Deze zouden normaal rang 1 en rang 2 krijgen. Hier neem je het gemiddelde van (dus 1,5) dit is de rang dat beide waarden krijgen o Vervolgens terug discordantie en concordantie berekenen o Indien 2 items dezelfde rang hebben, kennen ze geen C of D maar krijgen ze X o Formule blijft dezelfde met die uitzondering dat 37
Aantal meetellende koppels= (aantal koppels – correctie 1) 0.5 * (aantal koppels – correctie 2) 0.5 aantal_ tie _ groepen correctie= met ti= aantal personen in tie groep i ti (ti 1) / 2
i 1
Bv. Psycholoog A heeft 1 tiegroep van 2 personen T1 = 2 Dus correctie 1= 2* (2-1)/2= 1 Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2 Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-1) 0.5 * (10-1) 0.5 = 9 Bv. Psycholoog A heeft 2 tiegroepen van 2 personen en 3 personen T1 = 2 T2= 3 Dus correctie 1= 2* (2-1)/2+ =3*(3-1)/2= 4 Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2 Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-4) 0.5 * (10-1) 0.5 = 7,35 5. opmerkingen Volledige objectiviteit is een na te streven ideaal. Volledige objectiviteit is onmenselijk De mate van objectiviteit varieert naar gelang de testsoort o Moeilijker naarmate men zich meer richt op verklaring en interpretatie dan op beschrijving o Bv. interview, projectieve test,… Objectiviteit is soms ten koste van de relevantie o Bv. TAT Objectief: aantal antwoorden Relevant: mate van agressie o Erg moeilijke afweging Objectiviteit is niet altijd even belangrijk (bv. bij het genereren van hypotheses) Lage overeenstemming vermijden o Voorafgaand training: stage, proefbeoordelingen o Merkbare controle o Kwaliteit beoordelaarsinstructies: duidelijke, welomschreven scoringsvoorschrift kies een test(soort) die overeenstemming toelaat zorg dat je de scoringsvoorschriften kent hou je er aan de scoringsvoorschriften o vermijd allerlei niet-systematische invloeden (schrijffouten, onoplettendheid, vermoeidheid, achtergrondlawaai) door bvb : goed uit te slapen, en een goed testlokaal te kiezen
38
klassieke test theorie 1. inleiding betrouwbaarheid= herhaalbaarheid van metingen het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteert o interbeoordelaars overeenstemming: onderzoeken in hoeverre beoordelaars op eenzelfde manier scores toekennen het mag niet uitmaken op welk moment de test wordt afgenomen o maar vaak maakt het wel uit door allerlei storende factoren o deze storende factoren hebben een invloed op de nauwkeurigheid van de score testscores te weten komen zonder de storende factoren die samenhangen met een bepaald testmoment o klassieke test theorie (KTT) o item respons theorie (IRT) 2. KTT: eerste poging basisaanname: geobserveerde testscore bestaat uit een systematisch deel en toevallige invloeden twee aannames o systematisch deel hangt niet af van het testmoment (= de ware+ foutloze/ systematische/ betrouwbare score) de betrouwbare score van een persoon i hangt niet af van het testmoment Tij = Ti o de toevallige invloed hangt af van het testmoment en is niet systematisch ( = meetfout) over heel veel testmomenten is de gemiddelde meetfout voor persoon i gelijk aan nul meetfouten heffen elkaar op q 1 E i q Eij 0 j 1
[6.4]
Gevolgen o Xij = Ti + Eij betrouwbare score van persoon i (Ti) is (per aanname) onafhankelijk van het testmoment (geen index j) we willen Ti uit Xij halen q o Ti 1q X ij j 1
betrouwbare score van persoon i (Ti) is gemiddelde testscore van de persoon over heel veel testmomenten testscore zonder storende factoren te weten komen: dezelfde test veel afnemen van dezelfde persoon en gemiddelde nemen wie wil er zich zo vaak laten testen? Niet altijd zinvol o Condities veranderen door geheugeneffecten, leereffecten, motivatie effecten,… Dus we zullen het met één enkele testscore moeten doen 3. KTT tweede poging In plaats van te kijken naar individuen kijken naar een populatie van personen op een bepaald testmoment (T) Persoon i en één testscore (waarbij j=t) Xi,j=t = Ti + Ei,j=t o X i = T i + Ei 39
Aanname 1 o Over heel veel personen is de gemiddelde meetfout gelijk aan nul n
1 o E n Ei 0 j 1
Aanname 2 o De correlatie tussen de meetfout en een willekeurige variabele Y score is nul o De meetfout is dus niet systematisch o r E, Y 0 Gevolgen o De gemiddelde geobserveerde score is gelijk aan de gemiddelde betrouwbare score X T o De correlatie tussen meetfout en betrouwbare score is nul r E, T 0 o De variantie van de geobserveerde score is gelijk aan de variantie van de betrouwbare score+ de variantie van de meetfout S 2 X S 2 T S 2 E S(E) = standaardmeetfout Voor praktisch testgebruik gaat men ervan uit dat de standaardmeetfout identiek is voor alle personen Voor psychologische metingen is deze waarde tamelijk groot o S X , T S 2 T En S X , E S 2 E 4. schatting van betrouwbare scores Xij = Ti + Eij Schatting van betrouwbare score van persoon i is gemiddelde testscore van die persoon over meerdere testmomenten ONHAALBARE METHODE Directe methode o Schatting van betrouwbare score van persoon i is gelijk aan de geobserveerde score van die persoon (dus niets aantrekken van meetfout) o Tˆ X i i Regressie methode o Gebruik maken van een regressiemodel op T te voorspellen op basis van X o Met
S (T ) r ( X , T )[ X i X ] T S(X ) S ²(T ) S ²(T ) X Tˆi X i 1 o S ²( X ) S ²( X ) ˆ o Ti
De schatting van de betrouwbare score van persoon i is het gewogen gemiddelde van de geobserveerde score (Xi) van die persoon en het groepsgemiddelde Betrouwbaarheidsinterval van schatting T o 95% BHI : Tˆ 1.96 S T Tˆ
o Met S(T-^T)= standaardschattingsfout = standaarddeviatie van de schattingsfout T-^T = Standaardfout van estimatie o Directe methode
S (T Tˆ ) S ( E )
40
Standaardschattingsfout= standaard meetfout o Regressie methode Standaardschattingsfout = gewogen standaard meetfout o De totale variantie van Y kan opgesplitst worden in een foutenstuk en een stuk verklaarde variantie o Een goede maat van de kwaliteit van een regressie voorspelling is de verhouding van de verklaarde totale variantie. o Bij optimale lineaire voorspelling geldt dat
Hieruit volgt dat S²(Y) = S²(Y.X) + r²(X,Y) S²(Y) Of nog dat S²(Y.X) = (1- r²(X,Y)) S²(Y) Toegepast in ons geval volgt: S ²(T Tˆ ) = (1- r²(X,T)) S²(T)
S E S X 1
S ²(T ) [D] S ²( X )
Uit 6.14 geldt dat: o Alles samen geeft ons dat de volgende resultaten, voor de gewone en de regressie methode voor de schatting van betrouwbare scores
Definitie betrouwbaarheid
o Deze mysterieuze definitie geeft de volgende resultaten voor de gewone en de regressie methode voor de schatting van betrouwbare scores Directe methode Tˆi X i S (T Tˆ ) S X 1 r XX ' Regressie methode ˆ Ti rXX ' X i 1 rXX ' X S (T Tˆ ) rXX ' S X 1 rXX ' Dus de we kunnen de testscore te weten komen zonder de storende factoren door de betrouwbaarheid van de test te kennen 5. inzicht in betrouwbaarheid Betrouwbaarheid 41
o = de proportie van de variantie van de geobserveerde testscores die systematisch is
o Indien S(T)=0, dan is rxx’ =0 Alle personen hebben dan dezelfde betrouwbare score Dit maakt dat: S²(X) = S²(E) Dus dat alle variantie in de geobserveerde score te wijten is aan meetfout o Indien S(E)=0, dan S(T)= S(X) Alle personen hebben dezelfde meetfout Alle personen hebben een meetfout van 0 (over alle proefpersonen heen moet meetfout sommeren tot nul) Xi=Ti De geobserveerde score is foutenvrij o Indien rxx’ = 0 Alle varianti in de geobserveerde score is te wijten aan meetfout De geobserveerde score is puur toeval o Indien rxx’= 1 De geobserveerde score is foutenvrij en is puur systematisch o Rxx’ geeft dus aan in hoeverre de geobserveerde scores uit meetfout bestaat o Betrouwbaarheid ligt tussen 0 en 1 uit [A] volgt dat: o S T S ²T S X , T r ( X , T ) S X S X S (T ) S X S (T ) o Of nog: rXX ' r(X, T) o Betrouwbaarheidsindex= de correlatie tussen de geobserveerde score en de ware score o Deze index wordt niet veel gebruikt in realiteit maar geeft wel veel inzicht o hoe dicht ligt de geobserveerde score bij de ware score 6. relatie tussen directe en regressie methode Tˆi rXX ' X i 1 rXX ' X o Xi: geobserveerde score van een bepaald individu i o X: gemiddelde geobserveerde score o als rXX’ = 1 dan is de regressieschatter gelijk aan de gewone schatter -veel vertrouwen in de geobserveerde score, dus weegt zwaar door komt overeen met de directe methode o als rXX’ = 0 dan is de regressieschatter het populatiegemiddelde -niet veel vertrouwen in de geobserveerde score (puur te wijten aan meetfout) rekenvoorbeelden zie slides (hoe breder BI, hoe minder nauwkeurig) o schatting op basis van regressie is altijd nauwkeuriger dan schatting op basis van directe methode omdat deze meer relevante informatie gebruikt o de standaardschattingsfout aan de hand van regressiemethode is kleiner dan of gelijk aan de standaardschattingsfout aan de hand van de directe methode 7. wanneer is er sprake van een goede betrouwbaarheid? Bij een goede betrouwbaarheid liggen de waarden van de correlatie tussen 0 en 1
o Hoe groter de betrouwbaarheid, hoe kleiner de standaardmeetfout en hoe kleiner de standaardschattingsfout o Standaardschattingsfout geeft een indruk van de onnauwkeurigheid van de schatting van Y met behulp van X
42
o Grotere steekproeven laten veel nauwkeurige schattingen van een parameter toe dan kleine steekproeven Bij een betrouwbarheidsinterval van 1 krijg je maar 1 waarde Acceptabele waarden voor betrouwbaarheid: o Wetenschappelijk onderzoek: rxx’>0.7 (individuele scoring staat niet centraal) o Individuele diagnostie rxx’>0.9 o ! let op dit zijn vuistregels, geen harde ondergrenzen Hoe kunnen we nu de betrouwbaarheid van de test kennen? o Parallelvormmethode: herhaalde meting met verschillende testen o Test- hertest methode: herhaalde metingen met dezelfde test o Splitsingsmethode: eenmalige meting met twee helften o Interne- consistentiemethode: eenmalige meting met items 8. paralleltest Twee testen zijn parallel als ze inwisselbaar zijn Twee testen zijn parallel als : o Iedere persoon heeft op de twee tests een identieke betrouwbare scores Dus als voor iedere persoon uit een specifieke populatie geldt dat TiI = TiII o De variantie van de geobserveerde testscores, genomen over alle personen die de populatie vormen, zijn gelijk Dus dat voor de hele groep van personen geldt dat: S2(XI)= S2(XII) Parallelle testen zijn moeilijk te maken Voor parallelle testen moeten er aan 3 eigenschappen voldaan zijn o S2(XI)= S2(XII) o o r(XI, Y)= r(XII, Y) Hoe parallelliteit controleren? o S2(XI)= S2(XII) valt eenvoudig na te gaan adhv de geobserveerde testscores o TiI = TiII valt niet na te gaan maar impliceert wel dat Maar door standaardisatie van de testscores kunnen we hier altijd voor zorgen o Het kan aangetoond worden dat parallelliteit impliceert dat voor een willekeurige variabele Y geldt dat r(XI, Y)= r(XII, Y) 9. paralleltest en betrouwbaarheid Er is een erg interessante relatie tussen paralleltest en betrouwbaarheid Als testen I en II parallel zijn, dan geldt dat: rXX ' r X I , X II o Dus de betrouwbaarheid van test I en test II zijn allebei gelijk aan de correlatie tussen de geobserveerde scores op beide tests Betrouwbaarheid bepalen door de betrouwbaarheid van andere testen (deeltesten): grote test opsplitsen in verschillende subtesten (splitsingsmethode) o Als we een test hebben met K delen o Totaalscore = o Als de testdelen gelijke betrouwbare scores opleveren voor elke persoon (= equivalentie) dan kan worden afgeleid dat: rXX'
K g h S Yg ,Yh K 1 S 2 X
o Als de geobserveerde score ook nog gelijke varianties hebben op alle testdelen (= de deeltesten zijn parallel), dan volgt:
43
met rDD’= de betrouwbaarheid van de deeltest Stel, een test van k items heeft een betrouwbaarheid van rXX’ o Voeg parallelle testdelen toe zodat de nieuwe test uit K parallelle testdelen bestaat o De betrouwbaarheid van de verlengde test wordt dan genoteerd als rkk’ o Rkk’ kan berekend worden aan de hand van de spearman Brown formule KrXX ' r KK ' 1 ( K 1)rXX ' rKK’ = betrouwbaarheid verlengde test rXX’ = betrouwbaarheid originele test K = verlengingsfactor Bij een verleningsfactor van 1 doe je niets, betrouwbaarheid blijft zelfde als originele test Bij de eerste verleningen krijg je veel winst in betrouwbaarheid. De betrouwbaarheid blijft stijgen maar de stijging wordt steeds minder krachtig o De betrouwbaarheid van de verlengde test is groter dan die van de oorspronkelijke test o Door de test te verlengen met parallelle delen krijgt de meetfout minder invloed op de geobserveerde scores o Een testverlening is vooral zinvol als de oorspronkelijke test weinig items heeft en een niet al te lage betrouwbaarheid heeft o Als K oneindig wordt, dan is de betrouwbaarheid gelijk aan 1 in theorie kunnen we dus perfecte betrouwbaarheid verkrijgen in de praktijk is een perfect betrouwbare test niet altijd haalbaar het is niet altijd mogelijk om parallelle items toe te voegen o goede items (theoretisch probleem) o tijdsbeperkingen: testverlenging heeft uiteraard ook effect op test duur (praktisch probleem) KrXX ' rKK (1 rXX ' ) rKK ' 1 ( K 1)rXX ' volgt K uit rXX ' (1 rKK ' ) o Dus we kunnen berekenen met hoeveel parallelle deeltests we een test moeten verlengen om een om een gewenste betrouwbaarheid te bereiken o Voorbeeld zie slides 10. betrouwbaarheid bepalen Als twee testen parallel zijn dan geldt: rXX ' r X I , X II o Betrouwbaarheid: correlatie tussen twee parallelle testscores Dit geeft ons een werkwijze om betrouwbaarheid te bepalen o Neem twee parallelle test af bij een grote groep representatieve proefpersonen met een zeker tijdsinterval tussen de testen o Bereken de correlatie tussen de scores op de twee testen o Dit is de schatting van de betrouwbaarheid van elk van deze testen Poging 1: construeer twee parallelle testen o =parallelvormmethode o Mar paralleltesten maken is niet eenvoudig. De items moeten gelijkwaardig zijn maar mogen niet identiek zijn Poging 2: een test is parallel aan zichzelf o Bij twee afnames van dezelfde test geldt dat de betrouwbaarheid gelijk is aan de correlatie tussen de scores op de twee testmomenten o =test hertest methode o Werkwijze
44
Neem dezelfde tests af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de afnames Bereken de correlatie tussen de geobserveerde scores op de twee afnames van dezelfde test Dit is de schatting van de betrouwbaarheid van elk van deze tests o Voordeel: je moet geen moeite doen om de parallel test te maken o Maar een test is alleen parallel aan zichzelf als de test exact dezelfde condities wordt afgenomen Dit is bijna altijd onmogelijk bij psychologische testen (bv. leereffecten, motivatie effecten,…) + hoe groot moet het tijdsinterval zijn tussen de twee afnames? Poging 3: als we een test in twee gelijke delen splitsen, dan zijn deze testdelen misschien parallel aan elkaar o De betrouwbarheid van de halve test: rDD ' r D1 , D2 2rDD ' o En de betrouwbaarheid van de hele test (via spearman brown met K=2): rXX ' 1 rDD ' o = splitsingsmethode o Werkwijze: Neem de volledige test één keer af bij een grote representatieve groep personen Verdeel de test in twee helften met gelijk aantal items, en bereken voor iedere persoon voor beide helften de test score (D1 en D2) Bereken de correlatie tussen de scores op helft 1 en de scores op helft 2 Corrigeer deze correlatie (= de betrouwbarheid van de halve test) om de betrouwbaarheid van de hele test te schatten o Voorbeeld zie slides o Voordeel: Je hebt slecht 1 test nodig: simple Er is slechts 1 afname nodig: geen geheugen of leereffecten o Maar in de praktijk is het moeilijk om een test in echt parallelle helften te splisen o Verschillende splitsingen kunnen leiden tot andere betrouwbaarheden Poging 4: neem het gemiddelde over alle mogelijke splitsingsbetrouwbaarheden o : Chronbach’s alpha k
g h
S Yg ,Yh
o k 1 S 2 X Met Yg= score op item G K= het aantal items in de test o Voordeel: Je hebt slechts 1 test nodig Er is slechts 1 afname nodig Geen arbitraire splitsing in delen nodig o Chronbach’s alpha is enkel gelijk aan de betrouwbaarheid als de items equivalente tests zijn, maar dat is vaak niet het geval o Als de items niet equivalent zijn kan aangetoond worden dat rxx’ ≥α o Dus α kan het best gezien worden als de ondergrens van de betrouwbaarheid 11. betrouwbaarheid en validiteit Wat is het effect van een verlening van een test met score X op de validiteit o rK(X,Y) = r(X,Y) √rKK’/rXX’ rK(X,Y)= de validiteit van de verlengde test r(X,Y)= validiteit van de oorspronkelijke test o de validiteit neemt veel minder snel toe dan de betrouwbaarheid als gevolg van testverlenging 45
o een hoge betrouwbaarheid is een noodzakelijke maat geen voldoende voorwaarde voor een goede validiteit o als K oneindig is dan is rkk’=1 en X= Tx geeft de maximale validiteit bij een testverlening tot oneindig + geeft de validiteit die we zouden gevonden hebben als X zonder meetfout werd vastgesteld o Wat is de validiteit die we zouden gevonden hebben als X en Y zonder meetfout werden vastgesteld?
Eerste term: de correlatie tussen de betrouwbare scores van X en Y Boven breuk: de correlatie tussen de geobserveerde scores van X en Y Onder breuk: de betrouwbaarheidscoëfficiënten van de testen die X en Y opleveren = correctie voor attenuatie (voorbeelden zie slides)
item respons theorie 1.inleiding Van feitelijk manifeste variabelen naar concreet latente variabelen: nauwkeurigheid o Hoe zeker zijn we van onze schattingen de klassieke testtheorie is zo goed als volledig vastgelegd. Ze wordt nog steeds veel gebruikt, maar er zijn een aantal problemen aan verbonden de nieuwe psychometrie werd ontwikkeld in de jaren ’60, vond pas ingang in de jaren ‘80 o ze wordt vooral gehanteerd in de onderwijskunde o nog niet echt in de psychologie/ psychodiagnostiek o vooral bekend als item respons theorie (IRT) maar ook als latente trek theorie 2. tekortkomingen klassieke testtheorie de betekenis van data hangt af van de schaal/ het meetniveau het is niet duidelijk welke aspecten van de testscore we serieus mogen nemen (rangorde, grootte van verschillen, grootte van verhoudingen) het is niet duidelijke welke betekenis we kunnen toekennen aan de testscores betrouwbare scores kunnen enkel zinvol vergeleken worden als de personen exact dezelfde test gekregen hebben oplossing o de nieuwe psychometrie stapt af van betrouwbare testscores maar wil de vaardigheidsvariabelen bepalen 3. Guttman schaal bv. rekentest met 5 items o items worden dichotoom gescoord: 1=juist / 0= fout o per persoon per item krijg je een score o we kunnen de personen ordenen op een schaal naarmate ze vaardigheid beheersen (dus: van minst juiste antwoorden naar persoon met meeste juiste antwoorden) o items kunnen geordend worden naar moeilijkheidsgraad (van het vaakst juist beantwoord naar het minst vaak juist beantwoord) o de moeilijkheidsgraad van de items en de vaardigheid van persoon kunnen geïntegreerd worden in 1 schaal interpretatie 46
o een persoon maakt een bepaald item zeker juist als zijn positie op de schaal rechts ligt van het item o een persoon maakt een item zeker fout als zijn positie op de schaal links ligt van het item o een item wordt altijd correct beantwoord door alle personen wiens positie rechts van het item ligt o een item wordt altijd fout beantwoord door alle personen wiens positie links van het item ligt cruciale idee: dus personen en items worden op één as gesitueerd, gebaseerd op o de vaardigheid van de persoon o de moeilijkheid van het item itemrespons functie (IRF) o grafische voorstelling van de moeilijkheidsgraad voor 1 bepaald item
o X-as: vaardigheid die vereist is om een item op te lossen o Y-as correct antwoord (kan enkel waarde 0 of 1 aannemen) o Tot een bepaalde vaardigheid zal het item altijd fout beantwoord worden o Drempel= de plaats waar de grafiek overspringt van 0 naar 1 =moeilijkheidsgraad van het item Hoe moeilijker het item, hoe verder de drempel ligt op de X-as Geeft aan hoeveel vaardigheid je moet hebben om het item goed te beantwoorden o Interpretatie Persoon maakt een item zeker juist als zijn positie rechts op de schaal ligt Persoon maakt item zeker fout als zijn positie links op de schaal ligt Een item wordt altijd correct beantwoord door alle personen die rechts van de drempel liggen Een item wordt altijd fout beantwoord door alle personen die links van het item liggen Guttman IRF is deterministisch o Het antwoord is altijd juist als de vaardigheid een bepaalde drempel overschrijdt o Het antwoord is altijd fout als de vaardigheid kleiner is dan de drempel Guttman IRF is discontinu: er is een sprong op de drempelwaarde De Guttman schaal is echter niet toepasbaar op alle data o We moeten rekening houden met het toevalaspect bij het beantwoorden van het item KTT: meetfout toevoegen IRT: antwoord probalistisch maken (naar kans kijken) o We maken een nieuwe schaal, de RASCH schaal, uitgaande van een probalistisch model 4. uitgangspunten We kijken naar een score op een specifiek item, niet naar de hele test (persoon- item combinatie) o Bij KTT wordt er naar de hele test gekeken Item en personen worden op eenzelfde schaal geplaatst De schaal is gebaseerd op de vaardigheid van de persoon en de moeilijkheid van het item De kans op een juist antwoord wordt nooit kleiner wanneer de vaardigheid toeneemt
47
Doordat het vooral ontwikkeld is in onderwijskunde, spreken we vooral over vaardigheden, moeilijkheden, correcte en foute antwoorden Correcte en foute antwoorden kunnen vertaald worden als ‘wel’ en ‘niet’ van toepassing of ‘mee eens’ /’mee oneens’ Een vaardigheid kan vertaald worden naar persoonlijkheidstrekken, waarden, sterkte van symptomen,… Een moeilijkheid kan gezien worden als ernst/hevigheid van het item, evocatiegraad,… 5. Rasch schaal We gaan niet meer kijken naar de correcte antwoorden voor een item, maar we kijken naar de kans op een correct antwoord op dat item =succeskans: monotoon stijgende functie van de vaardigheid o Hoe groter je vaardigheid, hoe groter de kans dat je juist antwoord Itemresponsfunctie
o X-as: vaardigheid o Y-as: kans op een correct antwoord o Glijdende functie: geen sprong tussen nul en één o 0 en 1 zijn de limieten Personen met een heel kleine vaardigheid zullen zo goed als zeker fout antwoorden Personen met een grote vaardigheid zullen zo goed als zeker juist antwoorden o Drempel: de waarde van de vaardigheid die overeenkomt met een kans van 0.5 Geeft meest waarschijnlijke antwoord aan Komt overeen met de moeilijkheidsgraad van het item Hoe meer de drempel naar rechts ligt, hoe moeilijker het item o Interpretatie Een persoon heeft een kans op een bepaald item goed te beantwoorden Hoe meer zijn positie op de schaal naar rechts ligt, hoe groter de kans op een juist antwoord Een item wordt meestal correct beantwoord door personen wiens positie recht van de drempel ligt Een item wordt meestal fout beantwoord door personen wiens positie links op de drempel ligt Rasch IRf is stochastisch: niet alle kansen zijn 0 of 1 o Het antwoord is niet altijd juist als de vaardigheid een bepaalde drempel overschrijft o Het antwoord niet altijd fout als de vaardigheid kleiner is dan de drempel Rasch IRF is continu: er is geen sprong op de drempelwaarde 6. kansverhouding = kans op succes delen door kans op mislukking Kansverhouding=odds=O O= P(succes)/P(misslukking) = P(succes)/[1-P(succes)] 1= P(succes)+P(misslukking) Bv. odds op succes: O.8/0.2=4 voor elke mislukking zijn er 4 successen
48
Dus: 0 ≤ P ≤ 1 En 0 ≤ O ≤ ∞ Een kans van 0.5 komt overeen met een odd van 1 7. het Rasch model Persoon- item combinatie Xip= het antwoord van persoon p op item i Elke persoon heeft voor elk item een kans om dat item correct te beantwoorden P(Xip=1) = kans dat persoon p een goed antwoord geeft op item i P(Xip=0) = 1 - P(Xip=1) Interpretatie van P(Xip=1) o Proportie goede antwoorden als item i heel vaak aan persoon p wordt aangeboden zonder dat er leer of geheugeneffecten zijn Praktisch is dit niet zinvol o Proportie van personen uit een grote groep met dezelfde vaardigheid als persoon p die een goed antwoord geeft op item i Hoe ga je personen met eenzelfde vaardigheid vinden? o Het valt dus niet zomaar vast te stellen Kansverhouding (odds) voor een persoon-item combinatie Oip
P( X ip 1)
o P( X ip 0) o Op basis van kanstabel van succes kan je kansverhoudingstabel maken (+ omgekeerd) Volgens Rasch geldt dat:
o = o Basisformule van het model o Kansverhouding van persoon op item o Het vaardigheidspeil van een persoon en moeilijkheidspeil van een item worden expliciet uit elkaar gehaald o kansverhouding stijgt als ξ stijgt (en ε constant) kans op een goed antwoord neemt toe naarmate de persoon vaardiger is o kansverhouding stijgt als ε daalt (en ξ constant) kans op goed antwoord stijgt als moeilijkheidsgraad item daalt
P ( Xip 1)
Oip 1 Oip
p p /(1 ) i i p i p
speciale gevallen o als de vaardigheid van de persoon gelijk is aan de moeilijkheidsgraad van het item Oip = 1 49
Dus P(Xip=1) = 0.5 = P(Xip=0) o Als vaardigheid van de persoon groter is dan de moeilijkheidsgraad van het item Oip>1 P(Xip=1) > 0.5 > P(Xip=0) o Als vaardigheid van persoon kleiner is dan de moeilijkheidsgraad van het item Oip < 1 P(Xip=1) < 0.5 < P(Xip = 0) o Als vaardigheid van persoon ∞ is Oip = ∞ P(Xip =1) = 1 en P(Xip=0) = 0 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item fout te beantwoorden bijna onmogelijk is voor personen die de onderliggende vaardigheid in zeer grote mate bezitten o Als vaardigheid van persoon nul is Oip = 0 P(Xip = 1) = 0 en P(Xip=0) = 1 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi onbestaande is voor personen die de onderliggende vaardigheid in zeer geringe mate bezitten o Als moeilijkheid van item ∞ is Oip = 0 P(Xip=1)=0 en P(Xip=0)=1 Onafhankelijk van de vaardigheid van persoon Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi onbestaande is voor items die zeer moeilijk zijn o Als moeilijk van het item 0 is Oip = ∞ P(Xip=1) =1 en P(Xip=0) = 0 Onafhankelijk van de vaardigheid van persoon Het model verondersteld dus dat de kans om een item fout te beantwoorden quasi onbestaande is voor items die zeer makkelijk zijn Voorbeelden op oddstabel en kans tabel te maken zie slides 60 en 61 Het vaststellen van de latente variabele= vaardigheidsniveauparameter van een persoon berekenen o Berekenen is in feite schatten op basis van de itemantwoorden van die persoon (testgegevens) o Personen worden op een schaal uitgezet o In principe kan je data schatten, in praktijk is dit moeilijker
Hoe moeilijker item, hoe meer de grafiek opschuift naar rechts (vorm blijft gelijk) 50
Testen E en A zijn redelijk makkelijk (lage drempel) testen D en E moeilijk (hoge drempel) Lijnen representeren de geschatte waarde voor elke persoon o Persoon 1 en 2 hebben een redelijke kans om E en a op te lossen, bijna geen kans om de andere items op te lossen o Persoon 4 heeft redelijke kans om E, A en C op te lossen, kleine kans om B en C op te lossen o Persoon 5 en 6 hebben redelijke kans om alle items goed op te lossen Kan ook op een lijn uitgezet worden
o o Persoon 3 heeft een grote kans om E en A correct te beantwoorden, geringe kans op C,D en B correct te beantwoorden Het maakt niet uit welke concrete items de personen juist beantwoorden om de vaardigheid te bepalen Het maakt ook niet uit door welke personen de items juist worden beantwoord Er is een sterk positieve relatie tussen de vaardigheid en de geschatte betrouwbare score Waarom al deze moeite gedaan o We hebben zicht op de schaaleigenschappen (niet bij KTT) o We kunnen uitspraken doen over vaardigheid die onafhankelijk zijn van de moeilijkheid van de items (niet bij KTT) o We kunnen nagaan of het model steek houdt o We kunnen een standaardschattingsfout bepalen die niet constant is voor elke waarde van de latente variabele
7.1 alternatieve formulering van Rasch model Verhoudingsversie
o o Verschilversie
o o o Met exp(X)= eX o ξ = exp(θ) o ln(ξ) = θ o ε = exp(δ) o ln(ε) = δ beide versies zijn volledig equivalent de parameterwaardes uit de ene versie kunnen omgezet worden naar de parameterwaardes uit de tweede versie, zonder effect op de kans(verhouding)en o bv. zie slides 51
8. Schaaleigenschappen van het Rasch model de toegestane transformaties zijn verschillend voor de verhoudingsversie en de verschilversie van het model verhoudingsversie o een vermenigvuldiging met een constante levert dezelfde kansen en kansverhoudingen op o parameter waarden blijven gelijk na vermenigvuldiging met een constante o voor een willekeurig getal b geldt: p b p Oip i b i o Uit de formule valt af te leiden dat een multiplicatieve transformatie toegestaan is [f(x)=bx] o Rasch schaal kan dus gezien worden als een verhoudingsschaal waarbij de verhoudingen tussen de vaardigheden betekenis hebben maar de verschillen niet o ! de verhoudingen volgen niet enkel uit de data (getallen) die gegeven zijn. het volgt uit de getallen gegeven het feit dat het om een verhoudingsschaal gaat o Er mag enkel iets gezegd worden over de gemeten eigenschap (de concreet latente variabele) en niet over de abstracte latente variabele Dus hier kan je uitspraken doen over verhoudingen van vaardigheden, maar bijvoorbeeld niet over verhoudingen van intelligentie o De verhoudingen tussen de vaardigheden moeten we begrijpen in relatie tot de kansverhouding Oip p p Uit volgt dat Oip Oiq q i Dus de verhouding van twee kansverhoudingen is gelijk aan de verhouding van de vaardigheden tussen twee personen (de verhouding van de vaardigheden zegt iets over de verhouding van de kansverhoudingen) Deze relatie geldt voor eender welk item De verhoudingen tussen de vaardigheden hebben dus betekenis los van de items Verschilversie o Parameterwaarden veranderen niet nadat er een constante bij opgeteld is o Voor een willekeurig getal a geldt
Oip exp( p i ) exp(( p a) ( i a))
o Uit de formule valt af te leiden dat een additieve transformatie toegestaan is [f(x)=x+a] o De Rasch schaal is hier dus een verschilschaal waarbij de verschillen tussen vaardigheden een betekenis hebben maar de verhoudingen niet dus de twee versie zijn equivalent, maar verschillen in hun toegestane meetniveaus 9. populatie onafhankelijk meten Rasch model: de meetwaarde, verkregen met een makkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test gemaakt heeft Wanneer alle items op dezelfde schaal liggen, dan kunnen de testprestaties van personen die verschillende testen afnamen met een andere moeilijkheidsgraad voor eenzelfde eigenschap, toch vergeleken worden In KTT zouden we personen die een andere test afnamen niet kunnen vergelijken Met het Rasch model gaat dit wel, maar niet rechtstreeks. We moeten eerst de items van beide testen op dezelfde schaal leggen o We stellen eerst een andere test om die zowel items van de eerste als de tweede test bevat o Vanuit deze schaal afleiden door som en verschil te nemen met de andere items van de oorspronkelijke test waardoor zo één gemeenschappelijke schaal bekomen wordt
52
o Als persoon 1 op test 1 een teta haalt van -1.5 wordt dit op test 3 een waarde van 1 o Als persoon 2 op test 2 een teta haalt van 1.5, wordt dit op test 3 een waarde van -1 Vaak krijgen modellen steun (dus wordt er evidentie voor gevonden) als de empirische data er goed bij passen De redenen waarom we Rasch gebruiken zijn niet empirisch maar epistemologisch o Het model kan waardevolle dingen die andere modellen niet kunnen o Het Rasch model impliceert invariant comparision the] comparison between two individuals should be independent of which particular stimuli within the class considered were instrumental for the comparison; and it should also be independent of which other individuals were also compared, on the same or some other occasion 10. nauwkeurigheid van de schatting KTT: nauwkeurigheid van de meetresultaten = nauwkeurigheid waarmee de ware scores worden geschat o S(T-T^) o Elke schatting van T is even (on)nauwkeurig: dus elke schatting heeft zelfde schattingsfout o En de nauwkeurigheid is voor iedereen gelijk Is het wel realistisch dat de nauwkeurigheid gelijk blijft? o Bv. als we een hele moeilijke test wiskunde hebben en iedereen scoort er ondermaat op. Dan weten we dat de vaardigheid van iedereen tekort schoot maar we kunnen niets zeggen over de waarden die de vaardigheid aanneemt (idem met een te makkelijke test) Niet elke test/ elk item geeft evenveel informatie over iemands vaardigheid o Item die te makkelijk/moeilijk zijn, geven niet veel info o De hoeveelheid info hangt af van het vaardigheidsniveau en de moeilijkheidsgraad o De hoeveelheid info wordt uitgedrukt in informatiefunctie Iteminformatiefunctie: hoeveelheid informatie voor elk item afzonderlijk Testinformatiefunctie: soms van iteminformatiefuncties. Dus info over hele test Een item levert maximale info op als de kans op succes 0.5 is o Deze kans maakt dat de uitkomst zeer onvoorspelbaar is o Dus de observatie van de uitkomst levert dan veel informatie op o Een item levert dus maximale info op als de waarde van de vaardigheid even groot is als de waarde van de moeilijkheid Het maximum van de informatie bevindt zich op de plaatsen van de moeilijkheid (figuur 7.8) o Op deze grafiek zien we dat er veel info verkregen wordt door de test bij een vaardigheid van rond de nul. Maar weinig info voor vaardigheid van rond de -4 Als je informatie wil verkrijgen over mensen met verschillende niveaus van vaardigheid, moet je item toevoegen aan de test met verschillende moeilijkheid Rasch: nauwkeurigheid van meetresultaten: nauwkeurigheid waarmee vaardigheidsparameter geschat wordt 53
o Dit gebeurt op basis van de hoeveelheid informatie waarop de parameterschatting gebaseerd is o Hoe meer informatie een test of een item oplevert, hoe nauwkeuriger de meting is o Elke schatting van teta kan een andere nauwkeurigheid hebben! o De nauwkeurigheid wordt afzonderlijk berekend per waarde van het vaardigheidspeil. o De ene persoon kan dus met dezelfde test nauwkeuriger gemeten worden dan de andere In de vooropgestelde visuele voorstelling (lijnstuk met personen en items op geplaats) wordt geen rekening gehouden om de zekerheid van de schatting aan te geven o Om de illusie van zekerheid te doorbreken, kunnen we het BI bepalen o Deze wordt bepaald door de iteminformatiefunctie o Hoe kleiner het BI, hoe nauwkeuriger de schatting o Nauwkeurigheid verschilt per geschatte waarde o Als de BI overlappen, dan is het item niet nauwkeurig om een onderscheid te maken tussen de personen 11. Testen van het Rasch model Als het model niet juist is, dan kunnen we de parameterwaarden niet schatten en zijn ze niet bruikbaar o We kunnen de parameters niet zinvol interpreteren o En er kan dus ook niet zinvol gemeten worden Het is van belang na te gaan of aan de veronderstellingen van het model voldaan zijn, voor elke persoon afzonderlijk o Kan gebeuren via statistische toets, maar een zeer technische en ingewikkelde aangelegenheid ! de geldigheid van het Rasch model mag nooit a priori worden aangenomen en moet steeds empirisch worden nagegaan Als we alle moeilijkheden en vaardigheden geschat hebben, kunnen we voor elke item-persoon combinatie een kans op een correct antwoord berekenen o Als de kans op een correct antwoord hoog (>0.5) is en het antwoord is toch fout, dan is er iets vreemd aan de hand o Als de kans op een correct antwoord laag (<0.5) is en het antwoord toch juist, dan is er iets vreemd aan de hand o Visuele voorstelling zie slides Als het model niet alle data goed kan reproduceren, past het niet bij de data en is het dus niet geldig o Subjectief aspect: hoeveel moet er fout zijn om het model te verwerpen 12. Redenen waarom Rasch niet voldoet Het bestuderen van de redenen waarom het Raschmodel al dan niet voldoet kan bijvoorbeeld door te kijken naar verschillende item-respons functies 12.1 schending van unidimensionaliteit van personen Rasch gaat ervan uit dat: o Alle items in de toets dezelfde vaardigheid meten o Een testresultaat slechts door één latente variabele bepaald wordt o Geen enkele andere eigenschap van de te meten personen een systematische invloed op de antwoorden uitoefent o er is per persoon dus maar 1 persoonsparameter MAAR het antwoord op de vragen kan bepaald worden door meerdere dimensies o Bv. een rekentest zou naast rekenvaardigheid ook een taalvaardigheid kunnen vereisen
54
Dit is vooral een probleem als de tweede dimensie ( datgene wat we niet willen meten) systematisch samenhangt met de groep waartoe men behoort vraagonzuiverheid/item bias/ differential item functioning (DIF) Zuiver item: personen van een gelijke vaardigheid hebben dezelfde kans om een vraag goed te maken en halen dus dezelfde score. o Personen uit andere groepen kunnen (en moeten) andere scores krijgen als de vaardigheid ongelijk verdeeld is naar afkomst, geslacht, sociale achtergrond,… o Rasch gaat uit van zuivere items 12.2 schending van limieten Rasch gaat ervan uit dat bij zeer kleine vaardigheden de kans op een correct antwoord nul is Maar bij gokken of spieken wordt deze kans groter, zelfs als de vaardigheid zeer klein is Bv. gokken bij meerkeuze examen: kans van 0.25 op goed antwoord bij lage vaardigheid 12.3 schending van monotoniciteit Rasch gaat ervan uit dat de item-responsfunctie monotoon stijgend is met de vaardigheid o Dus hoe hoger de vaardigheid, hoe hoger de kans Al blijkt dit niet altijd het geval te zijn IRF’s die niet stijgen komen vaak voor bij attituden bv. ‘vindt u di rupo een goede premier’ o De vaardigheid kan hier vertaald worden als de positie op het links-rechts continuüm 12.4 schending van unidimensionaliteit van item Rasch gaat er van uit dat items maar op één dimensie verschillen, namelijk de moeilijkheid er is per item maar één itemparameter Maar items verschillen soms op meer dan enkel de moeilijkheidsgraad o Bv. ze kunnen verschillen in hun steilheid of in de discriminatiewaarden van de verschillende items (hoe groter verschil tussen kansen van een zelfde item, hoe groter de discriminatieve waarde) 13. mogelijke acties als het Rasch model niet voldoet Mogelijkheid 1: een nieuw model gebruiken o We zijn van Guttman schaal naar Rasch gegaan en kunnen zo ook naar een nieuw model gaan dat bv. gokken of andere discriminatiewaarden toelaat o Maar het gevaar is dat interessante meeteigenschappen verloren gaan o Deze methoden wordt meestal in Amerika gehanteerd o We beschouwen dus de werkelijkheid als gegeven en zoeken een model dat bij de werkelijkheid past Mogelijkheid 2: nieuwe data gebruiken o Items verwijderen Kan validiteit in gedrang brengen o Personen verwijderen Kan generaliseerbaarheid naar populatie van personen in gedrag brengen o Testomstandigheden aanpassen (bv. minder tijdsdruk) o Test opsplitsen, deelschalen maken (als unidimensionaliteit geschonden is) o Een nieuwe test maken o Wordt meestal in EU gehanteerd o We beschouwen het model als gegeven en zoeken een werkelijkheid die bij de data past (enkel data die aan het Rasch model voldoen kunnen aanleiding geven tot zinvol meten) Beide methoden zijn een epistemologische keuze
55
14. vergelijking Rasch- KTT
RASCH
KTT
Meetmodel stelt strenge eisen Moeilijk om data te verzamelen die aan het model voldoen Houdbaarheid van het model is testbaar, dus er is empirisch na te gaan of meten zinvol is (meten per implicatie)een meetniveau volgt uit het model. Er kan onderzocht worden of het model goed past bij gegevens.
Meetmodel stelt minder strenge eisen Makkelijke om data te verzamelen die aan het model voldoen Als het model opgaat, kennen we het meetniveau (meten per fiat) verondersteld een bepaald meetniveau wat niet kan gecontroleerd/aangetoond worden. De eigenschappen moeten aangenomen worden
Personen kunnen zinvol gemeten worden met verschillende test voor dezelfde eigenschap, zelfs als andere moeilijkheidsgraad Meetfout voor elke meetwaarde afzonderlijk Het model moet passen om zinvol te kunnen meten. Je moet dus goede data hebben. Veel data nodig voor nauwkeurige schattingen te bekomen (voor schatten itemparameters) Minder eenvoudig/toegankelijk Minder bekend
Meetfout voor alle meetwaardes dezelfde
Veel data nodig voor nauwkeurige schattingen te bekomen (om betrouwbaarheid te bepalen) Eenvoudiger/toegankelijker Bekender en dus makkelijker om over te rapporteren
56