NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland
Beoordeling van de ROUTE 8 2016
Beoordeling 2015 onvoldoende* 1. 2. 3. 4. 5. 6. 7.
Uitgangspunten Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
voldoende
goed x1
x x x x2 x x
Deze beoordeling is alleen van toepassing op de onderdelen ‘Leesvaardigheid’, ‘Luistervaardigheid’, ‘Taalverzorging’, ‘Woordenschat’, ‘Begrippenlijst’, ‘Getallen’, ‘Verhoudingen’, ‘Meten & meetkunde’ en ‘Verbanden’. Het onderdeel ‘Functioneren’ is als ‘onvoldoende’ beoordeeld. 1
Deze beoordeling is alleen van toepassing op de onderdelen ‘Leesvaardigheid’, ‘Luistervaardigheid’, ‘Taalverzorging’, ‘Woordenschat’, ‘Begrippenlijst’, ‘Getallen’, ‘Verhoudingen’, ‘Meten & meetkunde’ en ‘Verbanden’. De betrouwbaarheid van het onderdeel ‘Functioneren’ is als ‘voldoende’ beoordeeld. 2
*Reden bij ‘onvoldoende’: 1. 2. 3. 4. Normen niet representatief en/of de representativiteit is niet te beoordelen en er is onvoldoende bewijs voor de gehanteerde grensscores. Voor ‘Functioneren’ geldt: normen niet representatief en/of de representativiteit is niet te beoordelen. 5. Geen onderzoek. 6. Te weinig onderzoek naar de interne structuur. Voor ‘Functioneren’ geldt: geen onderzoek. 7. Geen onderzoek. NB. De ROUTE 8 2016 is aanvullend beoordeeld op de aspecten ‘Normering referentieniveaus’ en ‘Computer adaptief toetsen’. Beide aspecten zijn als ‘onvoldoende’ beoordeeld.
TOELICHTING BIJ DE BEOORDELING ROUTE 8 2016 Theoretische Uitgangspunten De ROUTE 8 (versie voor afname in 2016; hierna 2016) is een digitale, adaptieve eindtoets voor leerlingen van groep 8 in het primair onderwijs (PO) op het gebied van taal en rekenen. Tevens bevat de ROUTE 8 het optionele onderdeel ‘Functioneren’ (zie verderop). In principe is de toets geschikt voor alle leerlingen uit groep 8, met uitzondering van de leerlingen die voldoen aan de omschrijving zoals vermeld in de wet hierover (o.a. leerlingen die minder dan 4 jaar in Nederland zijn en de Nederlandse taal onvoldoende beheersen of leerlingen met een IQ beneden 70, mits de IQ test binnen de afgelopen 2 jaar is afgenomen). De ROUTE 8 is ook geschikt voor kinderen in het speciaal basisonderwijs (SBO). De toets bestaat voor Taal uit de onderdelen ‘Leesvaardigheid’, ‘Luistervaardigheid’, ‘Taalverzorging’ (zonder ‘Grammatica’), ‘Woordenschat’ en ‘Begrippenlijst’ en voor Rekenen uit de onderdelen ‘Getallen’, ‘Verhoudingen’, ‘Meten & meetkunde’ en ‘Verbanden’. Voor beide hoofddomeinen (Taal en Rekenen) wordt in de handleiding uitgebreid stilgestaan bij de (ontwikkelings)psychologische achtergronden. De constructie van de toets wordt geleid door zowel de wettelijke kerndoelen als de ontwikkelings-psychologische achtergronden van de te toetsen vaardigheden. De eerste functie van de ROUTE 8 is om een objectief tweede gegeven te zijn naast het schooladvies van de leerkracht over het type voortgezet onderwijs (VO) waar de leerling het meest op zijn of haar plaats is. Het schooladvies van de leerkracht wordt alleen heroverwogen wanneer de toetsuitslag wijst op een hoger doorstroomniveau dan door de leerkracht aangegeven. De tweede functie is het bepalen van het kennisniveau van de leerling in relatie tot de referentieniveaus. Naast de hierboven beschreven onderdelen kent de ROUTE 8 het optionele onderdeel ‘Functioneren’. Dit onderdeel beoogt de constructen ‘werkhouding’ en ‘zelfconcept’ te meten, als zijnde aspecten van sociaal emotioneel functioneren van het kind. Het doel van dit onderdeel is aanvullende informatie geven bij het schooladvies, met name bij twijfel tussen twee typen onderwijs. Verder kan de uitslag op ‘Functioneren’ gebruikt worden voor concrete handelingsadviezen, wanneer leerlingen overstappen van PO naar VO en er “specifieke ondersteuningsbehoefte” is. In een reactie heeft A-VISION de definities van de constructen ‘werkhouding’ en ‘zelfconcept’ beschreven, deze informatie wordt opgenomen in een herziene versie van de Handleiding. Echter, een theoretische onderbouwing ontbreekt, er wordt niet beargumenteerd waarom juist voor deze definities is gekozen. Het is verder opvallend dat de toelichting over de interpretatie van de scores in de leerlingrapportage niet aansluit bij de gegeven definities van de constructen. Tevens is het onduidelijk waarom uit de grote hoeveelheid kindkenmerken die van invloed zijn op het schoolsucces van het kind ‘werkhouding’ en ‘zelfconcept’ zijn gekozen. Verder wordt de relevantie van de inhoud van deze schaal voor de te meten constructen ‘werkhouding’ en ‘zelfconcept’ onvoldoende
aannemelijk gemaakt en de gebruiksmogelijkheden en beperkingen worden onvoldoende belicht. Kwaliteit van het Testmateriaal Papier-en-potloodversie N.v.t. Computerversie De opgaven zijn vrij van kwetsende inhoud en gestandaardiseerd wat betreft inhoud en vorm. Vanwege de adaptiviteit is de volgorde per toets wel verschillend. Leerlingen mogen zelf bepalen in welke volgorde zij de toetsen maken. Het is opvallend dat in de Handleiding geen specifieke instructies aan de leerlingen worden gegeven (bijv. “begin met het onderdeel waar je het minst goed in bent”) en er niet wordt ingegaan op mogelijke volgorde-effecten. In een reactie heeft A-VISION laten weten dat de volgende instructie gebruikt kan worden voor de volgorde waarin de toetsen gemaakt worden: “U kunt de leerlingen er op wijzen te beginnen met het onderdeel waar ze het minst goed in zijn”. Overigens suggereert de informatie in Bijlage 8.2 dat de leerkracht de volgorde bepaalt waarin de toetsen worden gemaakt. Om de vergelijkbaarheid van scores over leerlingen van verschillende klassen en/of scholen te kunnen waarborgen is het van belang dat de toets zoveel mogelijk onder dezelfde condities wordt afgenomen. Door de keuzevrijheid voor de volgorde door de leerling en/of leerkracht kan die vergelijkbaarheid van scores niet gewaarborgd worden. In Hoofdstuk 3 van de Handleiding worden de beslisregels van de adaptieve toetsen geëxpliciteerd. De informatie is overigens niet duidelijk over het minimum aantal vragen per deeltoets. Op pagina 45 wordt gesproken van een minimum van 10 opgaven per deeltoets en op pagina 46 van een minimum van 12 opgaven per deeltoets. In een reactie heeft A-VISION laten weten dat een minimum van 10 opgaven per deeltoets wordt gehanteerd. Hoewel de opgaven correct geformuleerd lijken, is er ruimte voor verbetering. Gezien de vertrouwelijkheid van de inhoud van de toets, is informatie over specifieke items uit de toetsen gedeeld met A-VISION en staat niet beschreven in deze Toelichting. In een reactie heeft A-VISION laten weten een aantal items te zullen verwijderen uit de itembank en van een aantal items de afleiders te zullen wijzigen. De wijzigingen worden dus doorgevoerd na de kalibratiefase. Verder heeft A-VISION laten weten een aantal voorbeelditems te zullen wijzigen naar aanleiding van opmerkingen van de COTAN hierover. Er is sprake van een geautomatiseerd scoringssysteem. In een reactie heeft AVISION inzicht gegeven in hoe de totaalscores op de onderdelen ‘Taal’ en ‘Rekenen’ tot stand komen. Tevens is inzicht gegeven in de totstandkoming van de standaardscore dat de facto neerkomt op een rekenkundig gemiddelde van beide onderdelen (50/50). Helaas ontbreekt hierover informatie in de Handleiding als ook de verantwoording hoe men tot deze keuze gekomen is. Daarnaast is het onduidelijk hoe de persoonsparameters worden geschat. Er wordt vermeld met MML, maar dat is ongebruikelijk voor persoonsparameters. A-VISION heeft in een reactie laten weten dat MLE gebruikt is.
De instructie voor de geteste is duidelijk. De enige praktische aanwijzing die mist is met betrekking tot de tijd en de volgorde waarin de toets het beste gemaakt kan worden. Wel wordt de toetsbegeleider geadviseerd om bij te houden of bepaalde leerlingen veel sneller dan wel veel langzamer werken dan de andere kinderen die op dat moment getoetst worden. A-VISION heeft laten weten dat leerlingen zo lang over de test kunnen doen als nodig is en dat deze informatie opgenomen wordt in een herziene versie van de Handleiding. Met betrekking tot de volgorde heeft AVISION laten weten dat de leerkracht de leerlingen er op kan wijzen te beginnen met het onderdeel waar zij het minst goed in zijn. Hierdoor is geen sprake van een gestandaardiseerde instructie aan leerlingen. De ROUTE 8 wordt online afgenomen. In de handleiding wordt geadviseerd om andere functionaliteiten zoveel mogelijk uit te schakelen, dan wel dat toetsbegeleiders er nauwkeurig op toe zien dat alleen de webpagina van de toets open staat. Verder dienen scholen van te voren een uitvoerige check te doen om te bepalen of hun ICT voorzieningen geschikt zijn voor het online afnemen van de ROUTE 8. In het algemeen ziet het toetsmateriaal er goed en duidelijk uit. Bijlage 1 van de Handleiding beschrijft de beveiliging en de ICT van de ROUTE 8. De servers waarop de toetsen worden afgenomen en staan, voldoen aan de eisen met betrekking tot veiligheid. Het ‘grootste gevaar’ voor een online computer toets is dat items (on)bedoeld bekend raken. Dat zou wat strakker gevolgd mogen worden, met name ook omdat leerlingen wel andere webpagina’s zouden kunnen bezoeken en andere functionaliteiten zouden kunnen gebruiken. Kwaliteit van de Handleiding In de Handleiding wordt ingegaan op de gebruiksmogelijkheden en de beperkingen van de toets. Zo wordt expliciet vermeld dat de toetsen voor Rekenen niet bedoeld zijn om rekenstoornissen vast te stellen. Bij de voorbeeldrapportage is het opvallend dat er bij ‘Taalverzorging’ het behaalde referentieniveau wordt vermeld, terwijl dat nog niet mogelijk is en daar nog onderzoek voor moet worden verricht. Het zou duidelijker zijn om dit expliciet aan te geven naar de gebruiker, bijvoorbeeld met een voetnoot. De aanwijzingen voor de toetsleider zijn duidelijk. Verder wordt in Bijlage 9 een voorbeeldrapportage weergegeven met daarbij een uitleg voor de leerkrachten en voor de ouders/verzorgers. Deze informatie is in algemene termen geformuleerd en niet aan de hand van enkele gevalsbeschrijvingen. De verwijzing naar andere soorten informatie die van belang zijn bij de interpretatie van de toetsscores is summier. De ROUTE 8 is bedoeld voor afname en interpretatie door deskundigen (waaronder leerkrachten, intern begeleiders, psychologen en orthopedagogen) die grondig kennis hebben genomen van de handleiding en die op de hoogte zijn van de meeste actuele informatie over de ROUTE 8. Afname van de ROUTE 8 gebeurt online; er hoeft geen software geïnstalleerd te worden. Scholen moeten van te voren een uitgebreide check doorlopen om na te gaan of hun ICT systeem volstaat om ROUTE 8 af te nemen. Vanuit A-VISION zijn maatregelen getroffen om storingen zoveel mogelijk te voorkomen en snelle verbindingen te garanderen (bijv. door met meerdere afgeschermde servers te werken). De instructievideo voor afname van de toets is duidelijk.
Er is een telefonische helpdesk beschikbaar. De COTAN heeft helaas moeten constateren dat veel van de algemene informatie over item respons theorie in Hoofdstuk 2 van de Handleiding (nagenoeg) letterlijk uit een masterscriptie van mei 2006 is overgenomen zonder uitdrukkelijke toestemming van de auteur en/of de afstudeerbegeleiders. Normen Bij de ROUTE 8 is wat betreft de normering sprake van zowel normgerichte als criteriumgerichte interpretatie. De normgerichte interpretatie is van toepassing op de normering ten aanzien van de score per onderdeel, de totaalscore voor Taal, de totaalscore voor Rekenen, de standaardscore voor de ROUTE 8 en de scores voor ‘Functioneren’. De criteriumgerichte interpretatie is van toepassing op de normering ten aanzien van schooladvies en ten aanzien van referentieniveaus (zie hiervoor Normering referentieniveaus aan het einde van de Toelichting). In de Handleiding staan de normgegevens voor het onderdeel ‘Functioneren’ vermeld, waarbij voor het subonderdeel ‘zelfconcept’ verschillende normen worden gehanteerd voor jongens en meisjes. In een reactie heeft A-VISION laten weten dat de normen voor ‘Functioneren’ gebaseerd zijn op afnamen tijdens het eerste normeringsonderzoek dat heeft plaatsgevonden van september tot en met november 2014, waarbij de toetsboekjes 1 tot en met 6 zijn afgenomen. Drie van de zes toetsboekjes bevatten alle items van het subonderdeel ‘zelfconcept’, die door 1879 leerlingen zijn ingevuld. De andere drie toetsboekjes bevatten alle items van het subonderdeel ‘werkhouding’, die door 1817 leerlingen zijn ingevuld. Hoewel deze twee steekproeven met betrekking tot de variabelen ‘regio’ en ‘sekse’ niet al te veel afwijken van de landelijke verdeling, is er in beide steekproeven sprake van een ondervertegenwoordiging van leerlingen uit de stad. Op de implicaties hiervan wordt niet ingegaan. Tevens blijft onduidelijkheid bestaan over het gebruikte steekproefmodel (zie ook de Toelichting hieronder bij de normen voor de andere onderdelen van de ROUTE 8 (2016)), dat het beoordelen van de representativiteit bemoeilijkt. Gegevens over de nauwkeurigheid van de meting en de daarbij behorende intervallen ontbreken. Voor de andere onderdelen van de ROUTE 8 (2016) worden in de Handleiding de gemiddelde vaardigheidsscore en de standaarddeviatie per onderdeel gerapporteerd. A-VISION heeft in een reactie inzicht gegeven in de normen en opheldering verschaft over een aantal punten, welke verwerkt zullen worden in een herziene versie van de Handleiding. Voor deze normen geldt dat ze gebaseerd zijn op gegevens van 3801 leerlingen, verzameld tijdens het eerste normeringsonderzoek (september t/m november 2014, toetsboekjes 1 t/m 6, deelname van volledige klassen) en van 1822 leerlingen, verzameld tijdens het tweede normeringsonderzoek (januari t/m maart 2015, toetsboekjes 7 en 8, deelname van volledige klassen). Er is hierbij gebruik gemaakt van een onvolledig design, waarbij verschillende groepen leerlingen verschillende toetsboekjes hebben gemaakt die random zijn toegewezen. Door deze random toewijzing zouden deze groepen als statistisch equivalent beschouwd kunnen worden en is het gebruik van een onvolledig design een minder groot probleem. Echter, die statistische equivalentie gaat niet volledig op, aangezien
de random toewijzing plaatsvond binnen twee verschillende groepen op verschillende momenten in het schooljaar (d.w.z. tijdens het eerste normeringsonderzoek met de boekjes 1 t/m 6 én tijdens het tweede normeringsonderzoek met de boekjes 7 en 8). Het is zeer aannemelijk dat de vaardigheid verandert gedurende het jaar, aangezien kinderen kennis op doen. Het is daarom ook opvallend dat in het algemeen niet wordt ingegaan op het verschil in afnamemoment tussen de normeringsonderzoeken (met name het eerste normeringsonderzoek) en de werkelijke afname van de eindtoets in april/mei van het schooljaar. Dit grote verschil zou betekenen dat onder de huidige kalibraties de normvaardigheidsverdelingen waarschijnlijk vertekend zijn. Verder werd bij het verzamelen van de normgegevens aan scholen gevraagd of ze deel wilden nemen en wanneer scholen aangaven niet mee te kunnen of willen doen, werd een andere school benaderd voor deelname. Er is hierdoor sprake van non-respons, waarbij het niet duidelijk is hoe groot de non-respons was en of er aanwijzingen zijn voor systematische vertekening. Dit maakt dat het onvoldoende duidelijk is of het hier om een random steekproefmodel gaat. Verder wordt geen informatie verstrekt over de vergelijkbaarheid van de afnamecondities tijdens de twee normeringsonderzoeken en een echte eindtoets afname. Het is belangrijk dat alle afnames onder dezelfde afnamecondities hebben plaatsgevonden, het gaat dan met name om het nabootsen van de ‘high stakes’ situatie van de eindtoets afname. In een reactie heeft A-VISION laten weten dat leerlingen die deelnamen aan de normeringsonderzoeken geïnstrueerd zijn de toets zo serieus mogelijk te maken. Het is de vraag of dit leidt tot een voldoende nabootsing van een werkelijke eindtoetsafname. De hierboven genoemde punten samen bemoeilijken het beoordelen van de representativiteit van de normgroep, derhalve wordt deze als ‘onvoldoende’ beoordeeld. Overigens ontbreekt gedetailleerde informatie over het aantal items en de samenstelling van de toetsboekjes. Verder zijn voor de 2016 versie na afname van de 2015 versie items verwijderd uit de itembank en zijn items toegevoegd. Het is niet duidelijk op basis van welke gegevens de item parameters berekend zijn voor die toegevoegde items. Hoewel de uiteindelijke transformatie van vaardigheidsscores naar standaardscores correct is uitgevoerd, is het verwarrend dat op pagina 61 van de Handleiding wordt vermeld dat de vaardigheidsschalen een gemiddelde van 0 en een standaarddeviatie van 1 hebben, terwijl dit niet terug te zien is in Tabel 5.1 waar de gemiddelde vaardigheidsscore en de standaarddeviatie per onderdeel worden vermeld. Overigens is de normaliteit niet onderzocht, dit betekent een belangrijke beperking voor de interpretatie van de scores. Hierover wordt geen informatie gegeven. Tevens worden geen gegevens verstrekt over de nauwkeurigheid van de meting en de daarbij behorende intervallen. Er wordt alleen vermeld dat deeltoetsen worden afgebroken als de standaardfout onder de .6 komt (of bij maximaal 30 items), maar deze keuze wordt niet verantwoord. Dit is een nogal ruime marge wanneer uitgegaan wordt van (bij benadering) normaal verdeelde scores en een standaarddeviatie van 1. Dit betekent dat op deeltoetsniveau de metingen een grote mate van onnauwkeurigheid omvatten. In de Handleiding wordt geen bewijs geleverd voor de gehanteerde grensscores voor het schooladvies. In een reactie heeft A-VISION hier gegevens over verstrekt. Echter, hieruit blijkt dat slechts een deel van de normeringsgegevens gebruikt is.
Van dat deel van de normeringsgegevens is de representativiteit niet vast te stellen door het ontbreken van gegevens hieromtrent. Bovendien zijn de grensscores gebaseerd op de feitelijke leerkrachtadviezen en is er geen gebruik gemaakt van andere objectieve criteriumgegevens, noch is er verder ondersteunend bewijs geleverd voor de (predictieve) validiteit van de gehanteerde grensscores voor het schooladvies. Hierdoor is er onvoldoende bewijs voor de gehanteerde grensscores voor het schooladvies. Betrouwbaarheid Er worden geen betrouwbaarheidsgegevens verstrekt (m.u.v. het onderdeel ‘Functioneren’), derhalve is het oordeel ‘onvoldoende’ voor de betrouwbaarheid van alle onderdelen (m.u.v. het onderdeel ‘Functioneren’), de totaalscore voor ‘Taal’, de totaalscore voor ‘Rekenen’ en de standaardscore voor de ROUTE 8. De enige indirecte aanwijzing is de beslisregel bij de adaptieve toetsen die zegt dat de toets afgebroken wordt als de standaardfout voor de deeltoets onder de .6 zakt. Dit zegt alleen iets over de nauwkeurigheid waarmee de score van een individuele leerling wordt gemeten, maar niets over in hoeverre verschillen in scores tussen de leerlingen een betrouwbare weergave zijn van verschillen in de onderliggende latente trek. Voor het onderdeel ‘Functioneren’ worden waarden voor Cronbachs alfa gerapporteerd voor de subonderdelen ‘Zelfconcept’ en ‘Werkhouding’, berekend op basis van de normgroepgegevens voor ‘Functioneren’. Deze vragenlijsten zijn beoordeeld als ‘tests’ voor minder belangrijke beslissingen op individueel niveau en derhalve als voldoende beoordeeld. Deze beoordeling is ook van toepassing indien de scores of het functioneren van de leerling doorslaggevend zijn voor de keuze van het schoolniveau en er in die gevallen sprake is van belangrijke beslissingen op individueel niveau. Begripsvaliditeit Het onderzoek naar de begripsvaliditeit richt zich met name op de externe structuur van de ROUTE 8. Voor het onderzoeken van de convergente validiteit zijn de correlaties berekend tussen de totaalscores op Taal en Rekenen en de standaardscore van de ROUTE 8 (versie 2015) enerzijds en de totaalscores op Taal en Rekenen/Wiskunde en de totaalscore van de Cito Entreetoets Groep 7 anderzijds. De correlatie (o.b.v. Spearmans rho) tussen de totaalscores is .81, tussen de totaalscores op Taal .72 en tussen de totaalscores op Rekenen(/Wiskunde) .77. Deze waarden ondersteunen de externe structuur van de ROUTE 8. Voor dit onderzoek zijn gegevens gebruikt van 305 leerlingen van tien scholen. Deze steekproef is niet representatief naar regio, maar lijkt representatief naar geslacht. Andere representativiteitsgegevens ontbreken. In een reactie heeft A-VISION gegevens met betrekking tot de variabele ‘verstedelijking’ aangeleverd. Het valt hierbij op dat geen enkele school uit het stedelijk gebied deelgenomen heeft aan dit onderzoek. Verder is de samenhang van de totaalscore op de ROUTE 8 (versie 2015) met het plaatsingsadvies van de leerkracht onderzocht ter ondersteuning van de externe structuur. Dit is gedaan bij een steekproef van 834 leerlingen, die qua geslacht representatief lijkt, maar qua regio niet representatief is. Andere representativiteitsgegevens ontbreken. In een reactie heeft A-VISION gegevens met
betrekking tot de variabele ‘verstedelijking’ aangeleverd. Hierbij valt een ondervertegenwoordiging van scholen uit het stedelijk gebied op. De resultaten laten zien dat naarmate de plaatsingsadviezen oplopen de gemiddelde totaalscores op de ROUTE 8 voor die leerlingen ook oplopen en dat deze significant van elkaar verschillen. Verder laat de uitgevoerde regressieanalyse en de correlatieanalyse een hoge mate van samenhang zien tussen de standaardscore op de ROUTE 8 en het plaatsingsadvies van de leerkracht. Dit dient als ondersteuning voor de externe structuur. Het is echter jammer dat de absolute percentages met betrekking tot verschillen in plaatsingsadvies op basis van de leerkracht en op basis van de ROUTE 8 niet worden gerapporteerd (of andere absolute samenhangmaten). Zo is bijvoorbeeld te zien dat de VWO-leerlingen gemiddeld genomen vrijwel op de aftestgrens uitkomen. Dat zou betekenen dat de ROUTE 8 een stuk strenger is in het geven van het plaatsingsadvies ‘VWO’ dan de betreffende leerkrachten. Een hoge relatieve overeenstemming betekent namelijk niet automatisch dat adviezen zelf overeenkomen. Gegevens over de interne structuur van de ROUTE 8 worden alleen gerapporteerd middels de moeilijkheidsparameters met bijbehorende standaardfouten en de kwadratensom (MnSQ). De standaardfouten van de moeilijkheidsparameters laten zien dat deze parameters nauwkeurig geschat zijn. De MnSQ wordt gebruikt om itempassing te onderzoeken (uit de beschrijving van de fitmaat kan opgemaakt worden dat de infit maat is gebruikt) aan de hand van de richtlijnen van Adams en Khoo (1996). Volgens die richtlijnen passen de items. Het is echter de vraag in hoeverre de MnSq een goede fitmaat is, dat wil zeggen in hoeverre de infit statistic gevoelig is voor afwijkende discriminatieparameters. Bovendien kijkt de MnSQ maar naar een aspect van modelpassing (namelijk misspecificatie van discriminatieparameters), maar niet naar andere aspecten, zoals lokale (on)afhankelijkheid en de dimensionaliteit. Daarnaast ontbreekt informatie over de algemene modelpassing en een verantwoording voor het gebruik van het 1PL model. Voor het aantonen van de interne structuur is het onvoldoende om te vertrouwen op één fit statistic die slechts een beperkt deel van het model toetst. Voor het 1PL model zijn er verschillende andere mogelijkheden om modelpassing adequaat te onderzoeken. Er heeft tevens geen itembiasonderzoek plaatsgevonden. Er had op zijn minst DIFonderzoek uitgevoerd kunnen worden naar geslacht. Temeer daar de inhoud van een van de teksten over technische eigenschappen van een Nokia ging, wat voor jongens misschien meer aanspreekt dan voor meisjes. Criteriumvaliditeit Er is geen onderzoek naar de criteriumvaliditeit uitgevoerd, wel wordt de intentie uitgesproken om onderzoek uit te voeren naar de samenhang tussen de resultaten op de ROUTE 8 en het niveau op het VO.
Normering referentieniveaus In paragraaf 5.3 van de Handleiding wordt beschreven hoe de referentiecesuur op basis van de referentieset items is overgebracht naar de ROUTE 8. Voor het onderdeel ‘Taal-Lezen’ betreft het referentieniveau 1F en voor het onderdeel ‘Rekenen’ betreft het de referentieniveaus 1F en 1S. Hoewel op het voorbeeld leerlingrapport nu al vermeld staat dat ook gerapporteerd wordt over het behaalde referentieniveau voor ‘Taal-Taalverzorging’, moet het onderzoek daarvoor nog uitgevoerd worden. Het ankeronderzoek is uitgevoerd in de periode januari tot en met maart 2015, dat wil zeggen na het publiek toegankelijk worden van de referentieset items voor ‘TaalLezen’ en ‘Rekenen’ op 1 oktober 2014. Er is echter niet onderzocht in hoeverre de items zich anders gedragen dan bij de referentiesetafname en in hoeverre de items bekend waren. De referentieset items zijn digitaal afgenomen, tegelijkertijd met een aantal ROUTE 8 opgaven. Omdat de gegevens over de referentieset items door het College voor Toetsen en Examens (CvTE) op papier zijn verzameld, is een deelonderzoek uitgevoerd door A-VISION om de vergelijkbaarheid van de digitale en schiftelijke afname van de referentieset items aan te tonen. Echter, over de vergelijkbaarheid van de vaardigheid van de gerealiseerde steekproeven worden geen aanvullende gegevens gerapporteerd. Hoewel het aantal referentieset items voldoende is, wordt er weinig specifieke informatie gegeven over de gekozen items om zodoende de representativiteit ervan te kunnen beoordelen (o.a. welke items, hoeveel en uit welke domeinen). In een reactie heeft A-VISION hier inzicht in gegeven en deze informatie is in orde. Voor ‘Rekenen’ is gekozen om naast de referentieset items 35 ROUTE 8 opgaven af te nemen om zodoende de referentiecesuur te kunnen overbrengen. De ROUTE 8 is echter een computer adaptieve toets en er wordt niet vermeld hoe gekomen is tot de keuze van die 35 items en/of het een representatieve set is uit de totale itembank. AVISION heeft in een reactie hierover meer inzicht verschaft en er is gekozen voor een goede verdeling over de verschillende subdomeinen en er is tevens rekening gehouden met een vergelijkbare moeilijkheid ten opzichte van de gehele itembank. Er zijn echter wel alleen ROUTE 8 items meegenomen op 1S niveau en niet ook op 1F niveau. Naast dat dit resulteert in een bovengemiddeld moeilijke set opgaven voor de doelpopulatie, wordt niet verantwoord dat het ook (op z’n minst op inhoudelijke gronden) 1S items zijn. Voor ‘Taal-Lezen’ is gekozen om naast de referentieset items 24 ROUTE 8 opgaven af te nemen om zodoende de referentiecesuur over te kunnen brengen. Ook hier geldt dat de ROUTE 8 een computer adaptieve toets is en er niet vermeld wordt hoe gekomen is tot de keuze van die 24 items en/of het een representatieve set is uit de totale itembank. Voor zowel Rekenen en Taal geldt dat niet wordt aangetoond dat de referentieset items en de ROUTE 8 opgaven een geheel vormen, dat wil zeggen dat ze op dezelfde schaal staan. Er worden geen gegevens aangeleverd om de aanname zoals beschreven op pagina 65 “Deze beide sets worden als één geheel gezien” te bevestigen. Het digitale ankeronderzoek is uitgevoerd bij 521 leerlingen, echter in Tabel 5.6 staan in totaal 455 leerlingen vermeld in de kolom “Oorspronkelijke steekproef”. A-
VISION heeft laten weten dat gegevens van 66 leerlingen verwijderd moesten worden vanwege onvolledige gegevens, vandaar een aantal van 455. Van de gegevens van de 455 leerlingen zijn uiteindelijk de gegevens van 275 leerlingen gebruikt om een goede verdeling te hebben over de regio’s en op basis waarvan de referentiecesuren zijn vastgesteld. A-VISION heeft in een reactie representativiteitsgegevens aangeleverd met betrekking tot sekse en verstedelijking. Hierin is te zien dat de gebruikte steekproef representatief is met betrekking tot sekse, maar dat er sprake is van een ondervertegenwoordiging van leerlingen uit het stedelijk gebied. De informatie over het gekozen 'intern ankerdesign' is erg summier. In een reactie heeft A-VISION laten weten dat hele klassen hebben deelgenomen en dat alle leerlingen uit één klas dezelfde toets maakten. Verder zijn antwoordpatronen gecontroleerd op (onverwachte) afwijkingen, die zouden kunnen duiden op ongemotiveerdheid of andere belemmeringen. In de Handleiding worden geen gegevens verstrekt over de meetnauwkeurigheid rond de plek van de referentiecesuren. Overigens is het schijnbare lage percentage leerlingen dat het 1F niveau voor ‘Rekenen’ haalt opvallend (zie Tabel 5.7 op p. 66). Dit zou kunnen duiden op een groep leerlingen die relatief zwak is op dit onderdeel; dus een leerling die gemiddeld scoort op ‘Rekenen’ van de ROUTE 8 heeft een rekenvaardigheidsniveau onder het landelijke gemiddelde. Computer adaptief toetsen Het gebruikte kalibratiedesign wordt beschreven op de pagina’s 47 en 48 van de Handleiding. A-VISION heeft tevens in een reactie meer uitleg verschaft. Voor de kalibratie zijn de gegevens van de twee normeringsonderzoeken gecombineerd met de gegevens van de leerlingen die de ROUTE 8 (versie 2015) in adaptieve vorm hebben gemaakt. Dit om via de eindtoetsafnames te zorgen voor de link met de gegevens van de twee normeringsonderzoeken. Er wordt echter niet beschreven hoeveel items overlap er hierdoor minimaal (want het aantal zal verschillen vanwege de adaptiviteit van de ROUTE 8 gegevens van de 2015 versie) is geweest (per onderdeel en subonderdeel) tussen de toetsboekjes en de eindtoetsafnames. Hierdoor is het niet mogelijk de samenhang van het kalibratiedesign te beoordelen, dat wil zeggen om de kwaliteit van de eindtoetsafnames van 2015 als anker te beoordelen. Het is tevens onduidelijk op basis van welke gegevens de item parameters geschat zijn voor de items die na afname van de 2015 versie zijn toegevoegd in verband met de toegepaste verversingsstrategie. Zoals beschreven bij Begripsvaliditeit is er onvoldoende informatie over de algemene modelpassing. Er worden alleen gegevens over de MnSQ (d.w.z. item fit) vermeld. Behalve informatie over de stopregel ‘SE < .6’ wordt geen informatie gegeven over de meetnauwkeurigheid van individuele leerlingen over de gehele vaardigheidsrange. Zoals vermeld bij Betrouwbaarheid wordt de keuze voor .6 niet verantwoord en is dit een nogal ruime marge. Hoewel beslisregels worden geëxpliciteerd zijn die voornamelijk geformuleerd met betrekking tot een minimum en maximum aantal items c.q. teksten en de minimale standaardfout. Er worden geen beslisregels geëxpliciteerd om te waarborgen dat de
diverse subonderdelen per onderdeel (bijvoorbeeld het subonderdeel ‘Interpunctie’ bij het onderdeel ‘Taalverzorging’) aan bod komen per afname. Er wordt een verversingsstrategie toegepast voor niet geselecteerde items, vaak geselecteerde items (d.w.z. de eerste opgave per onderdeel en de twee daarop volgende opgaven worden standaard verwijderd) en items die bekend lijken. Er wordt niet gekeken of er sprake is van ongewone veranderingen in de itemparameters (d.w.z. geen controle op parameterdrift). Het zou informatief zijn om gegevens op te nemen over de afnames van 2015, waarin bijvoorbeeld ingegaan wordt op wat de gemiddelde toetslengte per onderdeel is, hoe vaak de toets gestopt is vanwege de regel ‘SE < .6’ of het maximum van 30 items en wat de gemiddelde, minimale en maximale standaardfout is van de geschatte vaardigheidsscores per onderdeel. In een reactie heeft A-VISION de COTAN hierin inzicht gegeven. De informatie laat zien dat de itembank in staat is om de vaardigheid van de leerlingen op de meeste onderdelen met de gewenste nauwkeurigheid (d.w.z. een minimale standaardfout van 0.6) te meten, maar dat dit bij het onderdeel ‘Verbanden’ niet het geval is. Uitgaande van afname van een minimum aantal van 10 opgaven per deeltoets bij de ROUTE 8 en de richtlijn zoals beschreven in Parshall et al. (2002) om minimaal vijf keer de lengte van de gemiddelde CAT te hanteren als minimum aantal items in de itembank voor high stakes toetsing, dan zouden de itembanken per onderdeel minimaal 10 x 5 = 50 opgaven moeten bevatten. Dit betekent op dit moment dat de itembanken voor de toetsen met betrekking tot ‘Rekenen’ (m.u.v. ‘Getallen’) en de itembank van ‘Luistervaardigheid’ te klein te noemen zijn.
MATERIAALVERANTWOORDING Deze beoordeling heeft betrekking op: 1) Termaat, B.R., & Egberink, A. (2015). Verantwoording van ROUTE 8. Handleiding adaptieve digitale eindtoets voor het primair onderwijs juli 2015 Apeldoorn: A-VISION Holding B.V. 2) A-VISION Holding B.V. Toetsmatrijs codering ROUTE 8.xlsx. Apeldoorn: A-VISION Holding B.V. Deze materialen zijn door de secretaris van de Expertgroep toetsen PO bij de COTAN aangeleverd op 29 juli 2015.