NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland
Beoordeling van de IEP Eindtoets 2016
Beoordeling 2015 onvoldoende* 1. 2. 3. 4. 5. 6. 7.
Uitgangspunten Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
voldoende
goed x x
x x x x x
*Reden bij ‘onvoldoende’: 1. 2. 3. 4. Normen niet representatief en/of de representativiteit is niet te beoordelen en onvoldoende bewijs voor de gehanteerde grensscores voor schooltypeadvies. 5. Geen betrouwbaarheidsgegevens voor de totaalscore bekend en onvoldoende informatie om de betrouwbaarheden per onderdeel te kunnen beoordelen. 6. Te weinig onderzoek. 7. Geen onderzoek. NB. De IEP Eindtoets 2016 is aanvullend beoordeeld op het aspect ‘Normering referentieniveaus’. Dit aspect is als ‘onvoldoende’ beoordeeld.
TOELICHTING BIJ DE BEOORDELING
IEP EINDTOETS 2016 Deze beoordeling betreft de papieren versie. Theoretische Uitgangspunten De IEP Eindtoets is een eindtoets voor leerlingen van groep 8 in het primair onderwijs. De toets bestaat uit de volgende wettelijk verplichte onderdelen; ‘TaalLezen’, ‘Taal-Taalverzorging’ en ‘Rekenen’. De inhoud van de toetsen is gebaseerd op de Algemene Toetswijzer van het College voor Toetsen en Examens en het Referentiekader taal en rekenen. In de Toetswijzer van de IEP Eindtoets worden toetsmatrijzen aangedragen over hoe de toetsen zijn opgebouwd. In de Verantwoording wordt op de pagina’s 29 en 30 zeer summier verslag gedaan van de toets- en itemanalyse van de pretest items. Het is onduidelijk hoe men van de pretest items gekomen is tot de geselecteerde items voor de concept IEP Eindtoets 2016, onder andere hoeveel en welke items zijn afgevallen, uit welke toetsboekjes, waarom en/of de inhoudelijke dekking niet in het geding is door de verwijdering van deze items. Hierover is meer informatie nodig. De eerste functie van de IEP Eindtoets is het vaststellen van het behaalde referentieniveau voor ‘Taal-Lezen’ (1F en 2F), ‘Taal-Taalverzorging’ (1F en 2F) en ‘Rekenen’(1F, 1S en 2F). Hoewel inmiddels voor ‘Taal-Taalverzorging’ het headstartonderzoek is begonnen om de referentiecesuur voor dit onderdeel over te brengen van de betreffende ankerset items naar de eigen eindtoets, is voor dit onderdeel van de IEP Eindtoets nog geen ankeronderzoek uitgevoerd. Het is daarom niet mogelijk om een uitspraak te doen over het behaalde referentieniveau met betrekking tot het onderdeel ‘Taal-Taalverzorging’ van de IEP Eindtoets. De tweede functie is het geven van een schooladvies voor het voortgezet onderwijs, dat dient als ‘second opinion’ naast het schooladvies van de leerkracht. Het schooladvies van de leerkracht wordt alleen heroverwogen wanneer de toetsuitslag wijst op een hoger doorstroomniveau dan door de leerkracht aangegeven. In principe is de toets geschikt voor alle leerlingen uit groep 8, met uitzondering van de leerlingen die voldoen aan de omschrijving zoals vermeld in de wet hierover (o.a., leerlingen die minder dan 4 jaar in Nederland zijn en de Nederlandse taal onvoldoende beheersen of leerlingen met een IQ beneden 70, mits de IQ test binnen de afgelopen 2 jaar is afgenomen). Voor leerlingen met ondersteuningsbehoeften vanwege dyscalculie, dyslexie, een visuele beperking, een auditieve beperking en/of cognitief zwakke leerlingen zijn er aangepaste toetsversies. Er wordt niet ingegaan op eventuele consequenties van deze aanpassingen op de score. Bijvoorbeeld of een gesproken versie bepaalde onderdelen makkelijker maakt. Kwaliteit van het Testmateriaal Papier-en-potloodversie De opgaven zijn gestandaardiseerd qua inhoud, vorm en volgorde, zijn correct geformuleerd en zijn vrij van kwetsende inhoud. Bij de IEP Eindtoets wordt gebruik gemaakt van een objectief scoringssysteem; de juiste antwoorden op zowel de meerkeuze opgaven als de korte-open-
antwoordopgaven liggen vast. De antwoorden worden in het toetsboekje geschreven en niet op een apart antwoordblad om fouten bij het invullen te voorkomen. In plaats van het antwoordblad wordt het toetsboekje middels scansoftware automatisch verwerkt. De antwoorden op de korte-open-antwoordenopgaven worden ingelezen door herkenningssoftware en allen door een data-analist geverifieerd. Steekproefsgewijs wordt de uitkomst van de scansoftware en verificatie door de data-analist vergeleken met de gegeven antwoorden in de papieren toetsboekjes. Het toetsmateriaal ziet er goed verzorgd uit. De toetsboekjes zijn van stevig papier gemaakt en de tekst is goed leesbaar. Er bevinden zich niet teveel opgaven per pagina, waardoor het overzichtelijk is voor de leerlingen. Er wordt verder duidelijk onderscheid gemaakt tussen het taaldeel en het rekendeel. Computerversie N.v.t. Kwaliteit van de Handleiding De map “IEP Verantwoording 2016 versie 1.0” bevat alle informatie over de IEP Eindtoets en bevat zes documenten, namelijk Verantwoording, Toetswijzer, Afnamehandleiding, Toetsreglement, Labels- en scoringssleutels, en Privacy statement. De gebruiksmogelijkheden van de IEP Eindtoets worden op verschillende plaatsen beschreven, maar de beperkingen worden echter summier beschreven. De instructies voor de toetsleider staan duidelijk beschreven in de Afnamehandleiding. Zo wordt er bijvoorbeeld aangegeven hoe bepaalde vragen van leerlingen beantwoord dienen te worden. Het is echter niet duidelijk hoeveel extra tijd leerlingen met dyscalculie en/of dyslexie krijgen en hoe hiermee moet worden omgegaan. Vanuit standaardisatie oogpunt is het niet wenselijk dat een deel van de leerlingen meer tijd krijgt, het is bijvoorbeeld mogelijk dat hierdoor een hogere score wordt behaald. Het zou goed zijn om hierover meer informatie op te nemen, bijvoorbeeld onder andere door te vermelden hoe vaak het bij de reguliere afname voorkomt dat leerlingen niet voldoende tijd hebben. In een reactie heeft Bureau ICE laten weten dat het aan de leerkrachten zelf is om te bepalen hoeveel extra tijd leerlingen nodig hebben. In de toekomst zullen duidelijkere afnameregels worden opgenomen in de afnamehandleiding. Overigens wordt de mate van deskundigheid die nodig is voor afname en interpretatie van de toets niet expliciet vermeld. Er wordt wel vermeld dat de leerkracht van groep 8 bij voorkeur de toetsleider is. In zowel de Toetswijzer als de Afnamehandleiding staat een voorbeeld van een leerlingrapport, deze is echter niet bedoeld als casebeschrijving. Het is overigens opvallend dat op het leerlingrapport de score ‘percentage goed’ per (sub)onderdelen is opgenomen, aangezien hierover geen enkele informatie wordt gegeven in bijvoorbeeld de Verantwoording in termen van betrouwbaarheid en validiteit. Daarnaast wordt niets vermeld over hoe deze informatie geïnterpreteerd moet worden en het is niet duidelijk welk doel deze informatie dient. Bureau ICE heeft in een reactie laten weten dat de score ‘percentage goed’ alleen illustratief van aard is. Informatie over verantwoord gebruik van deze scores blijft echter van belang en
ontbreekt op dit moment. Hoewel het per onderdeel alleen gaat om het behaalde referentieniveau, staat op het leerlingrapport een scoreschaal van 0 tot 100 afgebeeld, waarop de referentiecesuren zijn geplaatst en aangegeven wordt hoe de leerling gescoord heeft. Dit is om meerdere redenen misleidend. Allereerst wordt in de Verantwoording geen informatie gegeven over het omzetten van vaardigheidsscores op een onderdeel naar scores op een schaal van 0 tot 100. In de Verantwoording wordt alleen ingegaan op de omzetting van de vaardigheidsscores voor de drie onderdelen naar een totaalscore, ook wel standaardscore, op de IEP Eindtoets met een score bereik van 50 tot 100. Daarnaast wordt geen onderbouwing gegeven in de Verantwoording over de plaats van de verschillende referentiecesuren op de scorebalken per onderdeel. Bij de normering ten aanzien van referentieniveaus wordt gesproken over vaardigheidsscores uitgedrukt in θ en over aantal items goed, maar wordt geen koppeling gemaakt naar scores met een bereik van 0 tot 100. Hierdoor is het niet duidelijk wat deze scores betekenen en hoe ze geïnterpreteerd dienen te worden. Bureau ICE heeft in een reactie laten weten dat de referentieniveauuitslagen uitgedrukt in een getal alleen illustratief van aard zijn. Informatie over verantwoord gebruik van dergelijke scores blijft echter van belang en ontbreekt op dit moment. In de Afnamehandleiding wordt gewezen op het belang van onder meer dezelfde afnameomstandigheden op beide afnamedagen, maar er staat niets geschreven over een mogelijke invloed van andere (achtergrond)variabelen op de behaalde toetsscore. Normen De in de Verantwoording vermelde normgegevens zijn gebaseerd op pretestafnames, die hebben plaatsgevonden in de periode 23 tot en met 31 maart 2015, en zijn daarmee actueel. De gebruikte (onderling ongelinkte) toetsboekjes van de pretestafnames zijn aan elkaar gelinkt via de IEP Eindtoets 2015. Leerlingen die hebben deelgenomen aan de pretestafnames maakten in principe ook de IEP Eindtoets 2015 op 15 en 16 april 2015. Bij de IEP Eindtoets is wat betreft de normen sprake van zowel normgerichte als criteriumgerichte (en niet domeingerichte interpretatie zoals vermeld staat op p. 16 van de Verantwoording) interpretatie. Er is sprake van normgerichte interpretatie omdat een totaalscore gerapporteerd wordt op de IEP Eindtoets, de zogeheten ‘standaardscore’. Er is sprake van criteriumgerichte interpretatie omdat op basis van de standaardscore grensscores worden bepaald voor het geven van schooltypeadvies en omdat gewerkt wordt met grensscores ten aanzien van referentieniveaus. De volgende beschrijving dient als toelichting bij de beoordeling van de normering ten aanzien van de standaardscore en ten aanzien van schooltypeadvies, voor de normering ten aanzien van referentieniveaus staat de toelichting aan het einde van dit document onder Normering referentieniveaus. In totaal hebben 4367 leerlingen deelgenomen aan de pretestafnames. Dit gegevensbestand is vervolgens opgeschoond. De gehanteerde opschoningscriteria zijn echter niet volledig duidelijk. Voor de normering zijn de gegevens meegenomen van leerlingen die twee pretestboekjes hebben gemaakt, d.w.z. de combinatie van de toetsboekjes A en B of de combinatie van de toetsboekjes C en D. De toetsboekjes
A en B hebben geen overlap met de toetsboekjes C en D, de link wordt gelegd via de IEP Eindtoets 2015. Het is daarom opvallend dat wel gegevens meegenomen worden van personen die de pretestboekjes hebben ingevuld, maar niet hebben deelgenomen aan de IEP Eindtoets 2015. Ook omdat wanneer alleen de afnames worden meegenomen van leerlingen die zowel twee pretestboekjes als de IEP Eindtoets 2015 hebben ingevuld, de steekproeven met rond de 900 leerlingen nog steeds groot te noemen zijn. Verder lijkt het handiger om de volledige afnames van leerlingen die meer dan 15% missings hebben op één of meerdere onderdelen te verwijderen in plaats van de gegevens van de onderdelen met teveel missings (waarbij aangenomen wordt dat de missings niet systematisch zijn, maar random). Nu verschillen de aantallen per onderdeel en zitten er andere leerlingen in de verschillende steekproeven. Dit werkt verwarrend en bemoeilijkt bijvoorbeeld het presenteren van representativiteitsgegevens. Die zouden nu eigenlijk per steekproef (d.w.z. per onderdeel) weergegeven moeten worden. Gezien de aantallen in tabel 4.6 is het zeer waarschijnlijk dat wanneer alleen volledige pretestafnames in combinatie met afnames van de IEP Eindtoets 2015 de steekproeven nog steeds rond de 900 leerlingen uit zullen komen en daarmee groot te noemen zijn. De representativiteitsgegevens worden beschreven voor de 4266 van de 4367 leerlingen die deelgenomen hebben aan de pretest, waarvan achtergrondgegevens bekend zijn. Echter, voor de analyses en normeringen zijn uiteindelijk alleen de gegevens gebruikt van de leerlingen na opschoning van het volledige gegevensbestand van 4367 leerlingen, die uit veel minder leerlingen bestaat. Voor deze steekproef worden geen representativiteitsgegevens gepresenteerd, waardoor de representativiteit van de normgroepen niet te beoordelen is. Deze gegevens zullen uitgebreid beschreven moeten worden, temeer het hier een gelegenheidssteekproef betreft van scholen die gekozen hebben voor de IEP Eindtoets als alternatief voor de Centrale Eindtoets. Overigens is het bij de variabele ‘regio’ aan te bevelen om de door het CBS gehanteerde indeling in vier regio’s (ook wel landsdeel) aan te houden. Daarnaast ligt het bij de variabele ‘schooladvies’ meer voor de hand om percentage te vergelijken in plaats van een gemiddelde te rapporteren. De IEP eindtoets is ontwikkeld met behulp van IRT, specifiek is het OPLM gebruikt. Dit betekent dat scores in eerste instantie worden uitgedrukt in vaardigheidsscores (d.w.z. θs). Deze θs dienen vervolgens als basis voor de type normeringen die worden gebruikt. Naast het niet kunnen beoordelen van de representativiteit van de normgroep, wordt de beoordeling van de normen bemoeilijkt doordat veel informatie ontbreekt of onduidelijk is rondom de IRT analyses. Zo wordt geen uitleg gegeven over het gebruikte IRT model, de kalibratieprocedure, welke schattingsmethode gebruikt is en hoe de item parameters geïnterpreteerd dienen te worden. In het licht hiervan verdient de informatie in Bijlage 1 en dan met name de kolommen ‘score’ en ‘theta’ een toelichting. Bij de traditionele 2PL modellen, die net als het OPLM, met discriminatieparameters en moeilijkheidsparameters werken, levert immers eenzelfde totaalscore (uitgedrukt in aantal items goed) een andere theta waarde op. Verder is het onduidelijk hoe het zit met de zogeheten 0F items en bij welke scores ze nu wel en bij welke scores ze nu niet meetellen. Op pagina 31 staat dat bij de kalibraties de 0F items zijn meegenomen, dit suggereert dat ze gezien worden als
onderdeel van de toets en daardoor dus bij alle scores meegenomen zouden moeten worden. Tevens worden geen gegevens verstrekt over de scoreverdelingen c.q. vaardigheidsverdelingen. Bij de normering ten aanzien van de totaalscore (ook wel standaardscore) op de IEP Eindtoets 2016 is het overigens op basis van de informatie op pagina 48 van de Verantwoording niet duidelijk hoe voor elke leerling de vaardigheidsscores van de drie onderdelen omgezet worden naar een standaardscore op de totale IEP Eindtoets 2016. Zo is allereerst niet duidelijk hoe gekomen wordt tot een gewogen gemiddelde vaardigheidsscore voor de IEP Eindtoets. Er wordt alleen aangegeven dat ‘Rekenen’ een gewicht van drie heeft, ‘Taal-Lezen’ een gewicht van twee en ‘TaalTaalverzorging’ een gewicht van een. Het is onduidelijk in hoeverre er bijvoorbeeld rekening wordt gehouden met de nauwkeurigheid van de vaardigheidsscore per onderdeel en/of er rekening wordt gehouden met de onderlinge correlaties. Overigens worden in zowel de Verantwoording van de IEP Eindtoets 2015 als de Verantwoording van de IEP Eindtoets 2016 geen ondersteunende gegevens aangeleverd voor de keuze van de gewichten voor de drie onderdelen. Verder lijkt het gebruik van de gegevens van zeven op basis van schooltypeadvies onderscheiden groepen (de term ‘normgroepen’ is verwarrend en niet correct) onlogisch voor de omzetting van vaardigheidsscores naar standaardscores en behoeft meer uitleg. Net als dat onder andere meer uitleg nodig is over de uitgevoerde lineaire transformatie en de veronderstelde aannames daarbij. Verder ontbreekt een uitgebreide beschrijving van de leerlingen waarvan de schooltypeadviezen bekend waren en die gediend hebben als basis voor de omzetting van vaardigheidsscores naar standaardscores om onder andere de representativiteit ervan te kunnen beoordelen. Bij de normering ten aanzien van grensscores voor schooltypeadvies geldt ook dat een uitgebreide beschrijving van de leerlingen waarvan de schooltypeadviezen bekend waren ontbreekt om onder andere de representativiteit ervan te kunnen beoordelen. Tevens ontbreekt een beschrijving van het uitgevoerde onderzoek naar het vaststellen van de grensscores en de ondersteunende gegevens hierbij. Het is bijvoorbeeld onduidelijk hoeveel personen ‘correct’ geclassificeerd zijn bij andere grensscores en hoeveel andere grensscores onderzocht zijn. Overigens is door gebruik te maken van de gegevens van de leerlingen waar het schooltypeadvies van bekend was voor het omzetten van vaardigheidsscores naar standaardscores, die vervolgens omgezet zijn naar grensscores voor schooltypeadvies, op z’n minst sprake van enige vorm van ‘criteriumcontaminatie’. Het is goed mogelijk dat hierdoor de correlatie tussen het eerder gegeven schooladvies en het schooltypeadvies op basis van de IEP Eindtoets 2016 kunstmatig hoog is. Op het leerlingrapport worden ook scores vermeld per onderdeel op een schaal van 0 tot 100. Hierdoor is normgerichte interpretatie voor deze scores strikt genomen ook van toepassing; om deze scores te kunnen interpreteren zijn vergelijkingsgegevens nodig. Hierover wordt geen informatie verstrekt, dat maakt dat deze vorm van normscores als ‘onvoldoende’ wordt beoordeeld. Hetzelfde geldt voor de genoemde percentages goed per subonderdeel, ook deze vorm van
normscores wordt als ‘onvoldoende’ beoordeeld. Bureau ICE heeft in een reactie laten weten dat de referentieniveau-uitslagen uitgedrukt in een getal en de score ‘percentage goed’ alleen illustratief van aard zijn. Informatie over verantwoord gebruik van dergelijke scores blijft echter van belang en ontbreekt op dit moment. Betrouwbaarheid In de Verantwoording wordt op diverse plaatsen gesproken over de betrouwbaarheid van (de onderdelen van) de IEP Eindtoets 2016. De totaalscore op de IEP Eindtoets is het belangrijkst voor het geven van schooltypeadvies en daarom is de totale toets beoordeeld als ‘test’ voor belangrijke beslissingen op individueel niveau en de deeltoetsen als ‘tests’ voor minder belangrijke beslissingen op individueel niveau. Voor het bepalen van het behaalde referentieniveau zijn de scores op de 1F/1S/2F items het belangrijkst, deze toetsonderdelen zijn beoordeeld als ‘test’ voor minder belangrijke beslissingen op individueel niveau. De betrouwbaarheid, of beter gezegd nauwkeurigheid, wordt weergegeven middels toetsinformatiefuncties. Deze worden weergegeven per onderdeel en per onderdeel uitgesplitst naar de relevante referentieniveaus. Er is echter meer informatie nodig om deze toetsinformatiefuncties te kunnen beoordelen. Zo is allereerst meer informatie nodig over het gebruikte OPLM model en dan met name over de discriminatieparameter, aangezien deze een belangrijke rol speelt bij de informatiefunctie. Daarbij is het verder belangrijk dat gegevens worden verstrekt over de vaardigheidsverdelingen. Overigens is onduidelijk of bij de toetsinformatiefuncties per onderdeel de 0F items wel of niet zijn meegenomen. Bureau ICE heeft in een reactie laten weten dat de 0F items wel gebruikt zijn voor de kalibraties, maar niet voor de vaardigheidsschattingen en ook niet voor de schattingen van de lokale betrouwbaarheid. Daarnaast worden in Bijlage 1 de vaardigheidswaarden weergegeven met de bijbehorende 95% betrouwbaarheidsintervallen. Bij het beoordelen van deze informatie zijn gegevens nodig over het gebruikte OPLM, hoe de theta waarden berekend zijn en hoe deze gerelateerd zijn aan de ruwe scores. Zoals eerder vermeld in deze Toelichting levert bij traditionele 2PL modellen eenzelfde ruwe score (uitgedrukt in aantal opgaven goed) niet eenzelfde theta waarde op. Tevens zijn gegevens over de scoreverdeling(en) nodig. Door het ontbreken van die informatie is het niet mogelijk om dit onderdeel van het betrouwbaarheidsonderzoek te beoordelen. In Bijlage 1 valt overigens op dat bij Lezen de minimale score op de 1F items 0 is en de maximale score op de 1F items 19 is, terwijl dit onderdeel 20 items bevat, waarvan één item altijd wordt goed gerekend (p. 57 van de Verantwoording). Op basis hiervan wordt verwacht dat de minimale score 1 is en de maximale score 20 is. Dezelfde redenering is van toepassing op de score op de 1F en 2F items samen. Voor de totaalscore op de IEP Eindtoets 2016 worden geen betrouwbaarheidsgegevens gepresenteerd.
Begripsvaliditeit De itempassing en modelpassing zijn onderzocht middels zogeheten S-toetsen. Bij ‘Taal-Lezen’ hadden drie items een significante S-toets, bij ‘Taal-Taalverzorging’ vier items (o.b.v. Figuur 4.2 gaat het om zes items) en bij ‘Rekenen’ zeven items. Dit betekent dat meer dan vijf procent van de items een significante S-toets hebben. Dit suggereert dat deze items mogelijk niet goed passen binnen het model. Voor de modelpassing is vervolgens gekeken naar de verdeling van de overschrijdingskansen van de S-toetsen; een uniforme verdeling is een indicatie voor modelpassing. Hoewel de verdelingen enigszins gelijkmatig lijken, zijn met name de verdelingen van ‘Taalverzorging’ en ‘Rekenen’ op sommige plaatsen onregelmatig. Het bewijs voor modelpassing is hiermee niet heel sterk. Het zou bijvoorbeeld sterker zijn wanneer ook andere in OPLM beschikbare fitmaten en modelpassingsfiguren gerapporteerd worden. Het is overigens verwarrend dat in de Figuren 4.1, 4.2 en 4.3 wel de 0F items zijn opgenomen, maar in de tekst eronder gesproken wordt over de aantallen zonder de vijf 0F items. Tevens is het duidelijker om expliciet te vermelden dat het ene 1F item van ‘Lezen’ buiten beschouwing is gelaten bij deze analyses. De correlaties tussen de onderdelen worden op pagina 47 van de Verantwoording vermeld. De waarden liggen rond de .4-.5, waarbij het opvallend is dat de correlatie tussen de twee taal onderdelen het laagst is. Er wordt geen toelichting gegeven op deze correlaties. De vermelde waarden duiden op zowel samenhangende als unieke constructen. Gegevens over de psychometrische kwaliteit van de items (zowel van verwijderde als geselecteerde items) wordt niet vermeld per item. Tabel 4.8 geeft wel per onderdeel de gemiddelde c-waarde, de minimale waarde en de maximale waarde. Deze zijn klein te noemen, dit houdt in dat de itemparameters nauwkeurig geschat zijn. Het is overigens niet duidelijk welke items waarom zijn opgenomen in de IEP Eindtoets en welke items waarom zijn afgevallen. Itembias naar geslacht is onderzocht. Hiervoor zijn voor jongens en meisjes apart de moeilijkheidsparameters geschat en vergeleken. Door aparte kalibraties kunnen de itemparameters niet met elkaar vergeleken worden. De gerapporteerde resultaten kunnen daardoor niet op correcte wijze worden geïnterpreteerd. Bureau ICE heeft in een reactie laten weten voornemens te zijn om in de toekomst de methodiek toe te passen zoals beschreven in Stout, Bolt, Froelich, Habing, Hartz en Roussos (2003) . Verder wordt vermeld dat er significante verschillen in aantallen beheersers van de verschillende referentie-niveaus tussen jongens en meisjes. Een beschrijving van de hiervoor gebruikte gegevens ontbreekt en er wordt niet ingegaan op de eventuele implicaties van deze significante verschillen. Hoewel op pagina 52 van de Verantwoording gesproken wordt over “soortgenotenvaliditeit” worden geen gegevens gerapporteerd over de convergente en discriminante validiteit. Criteriumvaliditeit Er is geen onderzoek naar de criteriumvaliditeit uitgevoerd, wel wordt de intentie uitgesproken om een longitudinaal doorstroomonderzoek uit te voeren.
Normering referentieniveaus De normering ten aanzien van referentieniveaus is voor de IEP Eindtoets 2016 afgeleid van de IEP Eindtoets 2015. De IEP Eindtoets 2015 is in 2014 door de Expertgroep Toetsen PO beoordeeld zonder een beoordeling van het aspect ‘normering referentieniveaus’. Om de kwaliteit van de normering ten aanzien van referentieniveaus van de IEP Eindtoets 2016 te kunnen beoordelen is daarom eerst de kwaliteit van de normering ten aanzien van referentieniveaus van de IEP Eindtoets 2015 beoordeeld. Afhankelijk daarvan zal de kwaliteit van dit aspect van de IEP Eindtoets 2016 beoordeeld worden. Er zijn voor zowel de IEP Eindtoets 2015 als 2016 alleen gegevens verzameld om de volgende referentiecesuren vast te kunnen stellen: voor het onderdeel ‘TaalLezen’ voor de referentieniveaus 1F en 2F en voor het onderdeel ‘Rekenen’ voor de referentieniveaus 1F, 1S en 2F. Het is hierbij opvallend dat bij de IEP Eindtoets gekozen is om voor ‘Rekenen’ ook te rapporteren over het al dan niet behalen van 2F, aangezien dit niveau het veronderstelde (en te toetsen) fundamentele niveau is voor VMBO leerlingen in hun eindexamenjaar en mogelijk over stof gaat die nog niet in groep 8 aan de orde is geweest. Hierover zou meer informatie moeten worden verstrekt. Tevens wordt gerapporteerd over de behaalde referentieniveaus (1F en 2F) voor ‘Taal-Taalverzorging’. Hoewel inmiddels voor ‘Taal-Taalverzorging’ het headstartonderzoek is begonnen om de referentiecesuur voor dit onderdeel over te brengen van de betreffende ankerset items naar de eigen eindtoets, is dit, zowel voor de 2015 versie als de 2016 versie, niet gedaan voor dit onderdeel van de IEP Eindtoets. Het is daarom niet mogelijk om een uitspraak te doen over het behaalde referentieniveau met betrekking tot het onderdeel ‘Taal-Taalverzorging’ van de IEP Eindtoets. De manier van gegevens verzamelen en rapporteren is in de IEP Verantwoording 2015 Versie 4.0 nagenoeg gelijk aan de informatie in de IEP Verantwoording Versie 1.0, waardoor grotendeels dezelfde onduidelijkheden aan de orde zijn zoals beschreven bij Normen. Het gaat dan met name om een uitgebreide beschrijving van de representativiteitsgegevens van de leerlingen waarvan uiteindelijk de gegevens gebruikt zijn om de normering op te baseren. Onder andere deze informatie is nodig om de normering ten aanzien van de referentieniveaus te kunnen beoordelen. Verder wordt geen informatie gegeven over de wijze van steekproeftrekking, dit geldt zowel voor de pilotfase als voor de pretestfase. Bijvoorbeeld hoe scholen geselecteerd zijn, hoeveel scholen benaderd zijn en uiteindelijk hebben deelgenomen. Op pagina 44 van de Verantwoording staat vermeld “Alle pretestboekjes waren ook gekoppeld aan de pilot door middel van ankeritems. Hetzelfde geldt voor de referentieset-items voor lezen en rekenen.”. Door de link met de pilotgegevens wordt het afnamedesign onduidelijker. Uit de Tabellen 4.39 en 4.40 is niet op te maken hoeveel van de overlapitems in de verschillende pretestboekjes pilotitems zijn. Het valt overigens op in Tabel 4.39 dat een groot aantal pretestboekjes een klein aantal items als overlap heeft. Door onduidelijkheid over het volledige afnamedesign (d.w.z. gecombineerd met de pilotafnames) is niet te beoordelen of deze overlap ook
daadwerkelijk te klein is om de boekjes aan elkaar te kunnen linken. In het algemeen is het door het samenvoegen van de pilot- en pretestgegevens onduidelijk hoeveel en welke personen welke items hebben gemaakt en welke gegevens vervolgens gebruikt zijn voor de verschillende analyses en onderzoeken. Hierover dient meer informatie te worden gegeven. Daarnaast wordt geen informatie gegeven over de gebruikte referentieset items. Op pagina 56 van de Verantwoording staat vermeld dat “de beste 15 items per niveau” gebruikt zijn. Hoeveel referentieset items in totaal zijn meegenomen, hoe groot de overlap is tussen de verschillende referentieset itemboekjes en op basis van welke gegevens (pilot en/of pretest, hoeveel afnames per items) deze 15 items geselecteerd zijn is onduidelijk. Het is daarbij ook onduidelijk in hoeverre deze referentieset items representatief zijn voor de gerelateerde referentieniveaus, daar wordt geen informatie over gegeven. Met betrekking tot het overbrengen van de referentiecesuur op de eigen eindtoets is in het algemeen meer gedetailleerde informatie nodig over hoe de grensscores van de referentieset items zijn omgezet naar theta waarden en hoe die vervolgens overgebracht zijn naar de eigen eindtoets. Het gaat dan bijvoorbeeld zowel om informatie over de gebruikte (schattings)methoden als om de gebruikte gegevens. Bij de IEP Eindtoets is ervoor gekozen om eindtoets items te ontwikkelen die specifiek horen bij de diverse referentieniveaus. Bijvoorbeeld voor ‘Taal-Lezen’ zijn IEP 1F items en IEP 2F items ontwikkeld. Hoewel het type en het aantal items per onderdeel en per subonderdeel beschreven worden, zou het beter zijn om expliciet te vermelden (in ieder geval op inhoudelijke gronden) waarom IEP 1F/1S/2F items ook daadwerkelijk 1F/1S/2F items zijn. Aangezien onvoldoende (duidelijke) informatie beschikbaar is om de referentiecesuren van de IEP Eindtoets 2015 te beoordelen en deze de basis zijn van de referentiecesuren van de IEP Eindtoets 2016, kan ook de kwaliteit daarvan niet beoordeeld worden. MATERIAALVERANTWOORDING Deze beoordeling heeft betrekking op: 1) Langeveld, E.A., Bezdan, E., Binsbergen, M., van Silfhout, G., Haitjema, T., Bijl, E., Laarhuis, R., te Pas, E., & Frederiks, G. (2015). IEP Eindtoets 2016 Verantwoording 1.0. Wetenschappelijke verantwoording van de ICE Eindtoets primair onderwijs. Culemborg: Bureau ICE. 2) Bezdan, E., Bijl, E., Binsbergen, M., Frederiks, G., Haitjema, T., Laarhuis, R., Langeveld, E.A., te Pas, E., Penning de Vries, B.W.F., & van Silfhout, G. (2014). IEP Eindtoets 2015 Verantwoording 4.0. Wetenschappelijke verantwoording van de ICE Eindtoets primair onderwijs. Culemborg: Bureau ICE. 3) Bureau ICE (2015). IEP Eindtoets 2016 Toetswijzer. Culemborg: Bureau ICE.
4) Bureau ICE (2015). IEP Eindtoets 2016 Afnamehandleiding. Culemborg: Bureau ICE. 5) Bureau ICE (2015). IEP Eindtoets 2016 Toetsreglement. Culemborg: Bureau ICE. 6) Bureau ICE (2015). IEP Eindtoets 2016 Labels- en scoringssleutels. Culemborg: Bureau ICE. 7) Bureau ICE (2015). IEP Eindtoets 2016 Privacy Statement. Versie 24 juli 2015. Culemborg: Bureau ICE. 8) Toetsmaterialen: a. Bureau ICE (2015). IEP Eindtoets 2016 boekje 1. Culemborg: Bureau ICE. b. Bureau ICE (2015). IEP Eindtoets 2016 boekje 1. Culemborg: Bureau ICE. Deze materialen zijn door de secretaris van de Expertgroep toetsen PO bij de COTAN aangeleverd op 31 juli 2015.