NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland
Beoordeling van de AMN Eindtoets 2016
Beoordeling 2015 onvoldoende* 1. 2. 3. 4. 5. 6. 7.
Uitgangspunten Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
voldoende
goed x
x x x x x x
*Reden bij ‘onvoldoende’: 1. 2. 3. 4. Normen niet representatief en/of de representativiteit is niet te beoordelen en onvoldoende bewijs voor de gehanteerde grensscores voor schooladvies. 5. Gerapporteerde gegevens maken een gefundeerd oordeel niet mogelijk. 6. Te weinig onderzoek. 7. Geen onderzoek. NB. De AMN Eindtoets is aanvullend beoordeeld op het aspect ‘Normering referentieniveaus’. Dit aspect is als ‘onvoldoende’ beoordeeld.
TOELICHTING BIJ DE BEOORDELING
AMN EINDTOETS 2016 Deze beoordeling betreft de digitale versie. Theoretische Uitgangspunten De AMN Eindtoets is een eindtoets voor leerlingen van groep 8 in het primair onderwijs. De toets bestaat uit de volgende drie wettelijk verplichte onderdelen; ‘Taal-Lezen’, ‘Taal-Taalverzorging’ (zonder ‘Grammatica’) en ‘Rekenen’. De inhoud van de toetsen is gebaseerd op de Algemene Toetswijzer van het College voor Toetsen en Examens en het Referentiekader taal en rekenen. In de Verantwoording worden toetsmatrijzen aangedragen over hoe de toetsen zijn opgebouwd. Overigens zijn na de pilotafnames nog items afgevallen bij de verschillende onderdelen. Het zou informatief zijn geweest wanneer hierover meer informatie zou zijn verstrekt bijvoorbeeld over de kenmerken en inhoud van deze items. De functie van de AMN Eindtoets is zowel het geven van advies over het best passende onderwijstype in het voortgezet onderwijs als het vaststellen van het behaalde referentieniveau voor de drie toetsonderdelen. Hoewel voor ‘Taal-Lezen’ en ‘Rekenen’ door de overheid (via het CvTE) referentiecesuren zijn vastgesteld, zijn deze niet middels een ankeronderzoek met referentieset items overgebracht op de eigen toets. Het is daarom niet mogelijk om met de AMN Eindtoets voor deze twee onderdelen een uitspraak te doen over het behaalde referentieniveau (zie ook Normering referentieniveaus). Het schooladvies op basis van de AMN Eindtoets is het zogenaamde ‘tweede gegeven’ naast het schooladvies van de leerkracht. Het schooladvies van de leerkracht wordt alleen heroverwogen wanneer de toetsuitslag wijst op een hoger doorstroomniveau dan door de leerkracht aangegeven. In principe is de toets geschikt voor alle leerlingen uit groep 8, met uitzondering van de leerlingen die voldoen aan de omschrijving zoals vermeld in de wet hierover (o.a., leerlingen die minder dan 4 jaar in Nederland zijn en de Nederlandse taal onvoldoende beheersen of leerlingen met een IQ beneden 70, mits de IQ test binnen de afgelopen 2 jaar is afgenomen). Voor leerlingen met dyslexie is een versie beschikbaar die de leerlingen 25% meer tijd biedt, de inhoud is verder hetzelfde. Kwaliteit van het Testmateriaal Papier-en-potloodversie n.v.t. Computerversie De toetsopgaven zijn gestandaardiseerd wat betreft inhoud en vorm, maar niet wat betreft volgorde. De opgaven zijn op basis van hun p-waarde ingedeeld in categorieën. Per categorie van moeilijkheid worden de items willekeurig aangeboden. Daar komt tevens bij dat het bij sommige onderdelen mogelijk is om opgaven over te slaan. Hierdoor is de volgorde waarin de opgaven worden aangeboden niet hetzelfde voor iedere leerling. Over mogelijke volgorde-effecten wordt niets vermeld, het zou goed zijn wanneer dit wel wordt gedaan. De opgaven
zijn vrij van kwetsende inhoud. Hoewel het overgrote gedeelte van de opgaven correct lijkt geformuleerd, vallen een aantal opgaven op. In verband met de vertrouwelijkheid van de toetsinhoud, zijn opmerkingen over specifieke opgaven gedeeld met AMN. Deze heeft in een reactie laten weten in de toekomst rekening te houden met de genoemde aspecten. Bij de scoring wordt gebruik gemaakt van een geautomatiseerd scoringssysteem. Echter de manier waarop de gebruikersinterface is vormgegeven werkt fouten in de hand, met name bij de onderdelen met teksten. Er wordt namelijk een klein gebied in het midden van het computerscherm gebruikt. Hierdoor passen zelfs korte teksten niet in het venster en moet een leerling veel scrollen. Dit is mogelijk een extra cognitieve belasting en/of afleiding voor leerlingen. Het zou ook extra belastend kunnen zijn dat leerlingen niet tegelijkertijd de tekst en de vraag kunnen zien. Daarnaast zou het bij alle toetsonderdelen te prefereren zijn dat wanneer de leerling op een antwoord klikt (of het antwoord aanraakt op bijvoorbeeld een tablet) de opgave niet onmiddellijk verdwijnt, maar dat eerst het gegeven antwoord zichtbaar wordt, voordat doorgeklikt kan worden naar de volgende opgave. Verder kan een leerling niet makkelijk/snel teruggaan naar de eerdere opgaven. Bovendien is het niet onmiddellijk duidelijk hoe een antwoord aangepast kan worden. Daarnaast wordt bij de rekenvragen niet weergegeven bij welke opgave een leerling is en hoeveel er totaal zijn. Wellicht is het tevens een optie om aan de leerlingen kenbaar te maken hoeveel tijd er nog rest. De leerlingen krijgen van de leerkracht instructies over het invullen van de toets en instructies op het scherm voor aanvang van de toets. De instructies op het scherm hebben alleen betrekking op het bedienen van de software, waarbij zoals hiervoor genoemd een aantal zaken duidelijker uitgelegd zouden kunnen worden. Toegang tot de toets wordt verschaft via een login code. De uitslagen worden via AMN verstrekt. De procedures worden in de handleiding duidelijk beschreven en een en ander lijkt op het oog veilig. Of leerling-antwoorden na het afsluiten van het programma nergens in caches of op de computer zijn terug te vinden of alleen weggeschreven zijn op de server van AMN, had in de handleiding beter verantwoord kunnen worden. Het was voor de COTAN beoordelaars tijdens het maken van de toets mogelijk om andere programma’s op te starten, waaronder een (digitale) rekenmachine. In het algemeen behoeft het onderdeel veiligheid/privacy meer aandacht in de handleiding. Kwaliteit van de Handleiding De 'handleiding' bestaat in feite uit drie aparte documenten: Verantwoording, Praktische handleiding voor leerkrachten en Toetsreglement. In de Verantwoording staat beschreven waar de AMN Eindtoets voor gebruikt kan worden, de beperkingen worden echter summier beschreven. Het document ‘Praktische handleiding voor leerkrachten’ bevat voldoende aanwijzingen voor de leerkrachten als toetsleider. De mate van deskundigheid die vereist is voor afname en interpretatie van de toets wordt overigens niet expliciet vermeld, aangenomen dat geen specifieke deskundigheid vereist is. Hoewel uitgelegd wordt hoe de leerlingrapporten zijn opgebouwd (een groepsrapport wordt nog ontwikkeld) en alle onderdelen worden toegelicht, gebeurt
dit niet middels enkele gevalsbeschrijvingen. Zo wordt het begrip ‘percentielscore’, zoals de totaalscore wordt uitgedrukt, niet uitgelegd en toegelicht. Het is overigens opvallend dat op het leerlingrapport de score ‘percentage goede antwoorden’ per subonderdeel is opgenomen, aangezien hierover geen enkele informatie wordt gegeven in bijvoorbeeld de Verantwoording in termen van betrouwbaarheid en validiteit. Daarnaast wordt niets vermeld over hoe deze informatie geïnterpreteerd moet worden en het is niet duidelijk welk doel deze informatie dient. Er wordt summier ingegaan op de rol van achtergrondvariabelen of toetservaring die bij de interpretatie van belang kunnen zijn. Er wordt bijvoorbeeld aangegeven dat bij het mislukken van een toets een andere eindtoets gemaakt moet worden. Er wordt hierbij niet ingegaan op mogelijke oorzaken van het niet goed afleggen van de toets en duidelijke adviezen over wanneer een toetsuitslag als geldig of niet geldig beschouwd moet worden ontbreken. Er wordt wel gewezen op de noodzaak van observatie door toetsleiders teneinde te bepalen of de leerling serieus mee deed. De afname verloopt via een standaard webbrowser, het is daarom niet nodig om specifieke software te installeren, waarbij informatie gegeven wordt over hoe een afname werkt. Tevens is een helpdesk op ruime tijden beschikbaar voor technische ondersteuning. Normen De normgegevens zijn “begin 2015” (p. 19 van de Verantwoording, de exacte periode ontbreekt) verzameld. Er wordt gesproken over een pilotonderzoek en een ankeronderzoek. Hoewel niet duidelijk vermeld wordt of het bij deze onderzoeken grotendeels dezelfde personen betreft of grotendeels andere personen, wordt aangenomen dat alle personen die deelgenomen hebben aan het ankeronderzoek ook hebben deelgenomen aan het pilotonderzoek, andersom hoeft niet per se het geval te zijn. Bij de AMN Eindtoets is wat betreft de normering sprake van zowel normgerichte als criteriumgerichte interpretatie. Voor de normering ten aanzien van schooladvies worden op basis van totaalscores op de AMN Eindtoets grensscores vastgesteld voor de diverse schooltypen in het voortgezet onderwijs. Voor de normering ten aanzien van referentieniveaus wordt gewerkt met grensscores voor het wel of niet behalen van het betreffende referentieniveau. De volgende beschrijving dient als toelichting bij de beoordelingen van de normering ten aanzien van schooladvies, voor de normering ten aanzien van referentieniveaus staat de toelichting aan het einde van dit document onder Normering referentieniveaus. Bij de normering dient verder opgemerkt te worden dat het onduidelijk is hoeveel leerlingen uit de normgroep de afname hebben gemaakt op een computer, laptop of tablet. Net als een mogelijk verschil tussen afnames op papier en afnames via de computer, is het goed denkbaar dat ook hier verschillen zijn per afnamevorm. In de Verantwoording wordt daar geen informatie over verschaft. De normgroep op basis van het pilotonderzoek dat gebruikt wordt voor de normering ten aanzien van schooladvies bestaat uit 442 leerlingen. Voor een ‘test’ voor belangrijke beslissingen op individueel niveau is deze steekproef groot genoeg. De representativiteit van deze normgroep is echter om meerdere redenen niet te beoordelen. Allereerst hebben de gegevens die verstrekt worden ten behoeve van de representativiteit in de Verantwoording op de pagina’s 19 tot en met 23 betrekking
op een grotere groep (n = 590) dan de groep waarvan schooladviesgegevens bekend zijn (n = 442) en die gebruikt worden voor de normering ten aanzien van schooladvies. Ten tweede ontbreken de landelijke gegevens over de betreffende gepresenteerde achtergrondvariabelen. Daarnaast ontbreken gegevens met betrekking tot onder andere etniciteit, leerling-gewicht en verstedelijking. Bovendien wordt geen informatie verstrekt over de wijze van steekproeftrekking (bijv. hoe scholen ‘geselecteerd’ zijn voor deelname, hoeveel scholen benaderd zijn). De totaalscore op de AMN Eindtoets wordt uitgedrukt in een percentielscore. De betekenis en beperkingen hiervan worden niet beschreven. Ook ontbreken gegevens over de scoreverdeling van de totaalscore en gegevens over de nauwkeurigheid van de meting en de daarbij behorende intervallen; deze worden alleen gegeven per subonderdeel. De totaalscore wordt berekend als gewogen som van de percentielscores per onderdeel (‘Rekenen’, ‘Taal-Lezen’, ‘Taal-Taalverzorging’). Er zijn verschillende scenario’s onderzocht om de verschillende onderdelen te wegen tot een totaalscore, die als basis dient voor de grensscores voor schooladvies. In de gebruikte steekproef blijkt scenario 3 het beste, maar hiervoor worden geen ondersteunende gegevens geleverd, zoals informatie over de gebruikte methode om de verschillen tussen de scenario’s in kaart te brengen, de grootte van de verschillen met de andere scenario’s en/of hoeveel procent van de leerlingen goed geclassificeerd wordt op basis van de verschillende scenario’s. Verder wordt hierbij niet ingegaan op de mogelijke invloed van steekproeffluctuatie. Dit maakt bij elkaar dat er onvoldoende bewijs is voor de gehanteerde grensscores voor schooladvies. Op het leerlingrapport wordt per subonderdeel de score ‘percentage goede antwoorden’ vermeld. Hierdoor is normgerichte interpretatie voor deze scores strikt genomen ook van toepassing; om deze scores te kunnen interpreteren zijn immers vergelijkingsgegevens nodig. Hierover wordt geen informatie verstrekt, dat maakt dat deze vorm van normscores als ‘onvoldoende’ wordt beoordeeld. AMN heeft in een reactie laten weten dat de score ‘percentage goede antwoorden’ alleen aanvullend c.q. illustratief van aard is. Informatie over verantwoord gebruik van dergelijke scores blijft echter van belang en ontbreekt op dit moment. In de Verantwoording worden verschillen onderzocht in gemiddelde totaalscores voor geslacht en regio. Hoewel de verschillen in gemiddelden tussen subgroepen interessant zijn, is het relevanter of er sprake is van test/item bias voor de verschillende subgroepen. De auteurs schrijven dat ze hier "rekening mee hebben gehouden", het is echter onduidelijk hoe ze dit hebben gedaan. Het zou beter zijn om DIF daadwerkelijk te onderzoeken. Betrouwbaarheid In Bijlage 1 van de Verantwoording zijn de betrouwbaarheidsgegevens gerapporteerd. De totaalscore op de AMN Eindtoets is het belangrijkst voor het geven van advies over type vervolgonderwijs en daarom is de totale toets beoordeeld als ‘test’ voor belangrijke beslissingen op individueel niveau en de deeltoetsen als ‘tests’ voor minder belangrijke beslissingen op individueel niveau. Voor het bepalen van het behaalde referentieniveau voor ‘Taal-Taalverzorging’ zijn de scores op de 1F items en 2F items apart het belangrijkst, deze toetsonderdelen zijn beoordeeld als ‘test’ voor minder belangrijke beslissingen op individueel niveau. Voor ‘Rekenen’
en ‘Taal-Lezen’ is dit niet van toepassing, aangezien voor deze onderdelen op basis van de AMN Eindtoets geen uitspraken kunnen worden gedaan over het behaalde referentieniveau (zie Normering referentieniveaus). De gerapporteerde gegevens maken het om meerdere redenen niet mogelijk een gefundeerd oordeel te geven over de betrouwbaarheid van de AMN Eindtoets. Allereerst worden de betrouwbaarheidsgegevens niet per normgroep gerapporteerd. Dat wil zeggen voor de normering ten aanzien van schooladvies op de steekproef waarvan schooladviesgegevens bekend waren (n = 442). Voor de normering ten aanzien van referentieniveaus worden geen betrouwbaarheidsgegevens verstrekt, terwijl deze gerapporteerd zouden moeten worden voor de normgroep (n = 450) voor zowel de AMN 1F items als de AMN 2F items van ‘Taal-Taalverzorging’ apart. Voor de belangrijkste uitkomstmaat die als basis dient voor de normering ten aanzien van schooladvies, namelijk de totaalscore op de AMN Eindtoets, worden geen betrouwbaarheidsgegevens gerapporteerd. Voor ‘Taal-Lezen’ en ‘TaalTaalverzorging’ als geheel worden betrouwbaarheidsgegevens vermeld, voor ‘Rekenen’ als geheel worden deze gegevens niet vermeld. Tevens is het niet duidelijk of Guttmans lambda2 of de ‘greatest lower bound’ (afgekort tot glb) wordt gerapporteerd. Hoewel in de tekst op pagina 46 van de Verantwoording gesproken wordt over Guttmans lambda2, worden in Bijlage 1 waarden voor “Guttman’s glb-2” gerapporteerd. AMN heeft in een reactie laten weten dat waarden voor Guttmans lambda-2 gerapporteerd worden en dat Bijlage 1 zal worden aangepast op dit punt. Begripsvaliditeit In de Verantwoording wordt nagenoeg niets vermeld over uitgevoerde onderzoeken ter ondersteuning van de begripsvaliditeit van de AMN Eindtoets. De enige gegevens die gebruikt zouden kunnen worden zijn de item-rest correlaties die vermeld worden in Bijlage 1 per subonderdeel voor ‘Rekenen’ (gebaseerd op de items per domein, d.w.z. ‘Getallen’, ‘Meten & Meetkunde’, ‘Verbanden’ en ‘Verhoudingen’), per subonderdeel voor ‘Taal-Taalverzorging’ en voor ‘Taal-Lezen’ als geheel. Hierbij is het voor het onderdeel ‘Taal-Taalverzorging’ niet duidelijk of de item-rest correlaties berekend zijn op basis van alle items per onderdeel of per subonderdeel. Het zou overigens inzichtelijker zijn wanneer deze gegevens voor beide manieren worden weergegeven. De gerapporteerde item-rest correlaties van de items van ‘Taal-Lezen’ zijn in orde. N.B. Doordat de items niet genummerd zijn in het aan de COTAN geleverde Excel bestand met de items en de juiste antwoorden, is het niet duidelijk welke gegevens op itemniveau in Bijlage 1 horen bij welke items in het Excelbestand. Criteriumvaliditeit Er is geen onderzoek naar de criteriumvaliditeit uitgevoerd, wel wordt de intentie uitgesproken om onderzoek uit te voeren naar het feitelijk gevolgde vervolgonderwijs.
Algemeen Het is onduidelijk uit hoeveel items de onderdelen van de AMN Eindtoets bestaan, aangezien in de Verantwoording op verschillende plaatsen andere aantallen worden genoemd. Voor ‘Rekenen’ wordt slechts op één plek afgeweken van het aantal van 75 items, de som van de aantallen in Tabel 11 is 74 in plaats van 75. Voor ‘TaalLezen’ wordt vermeld en/of is af te leiden dat dit onderdeel uit 38 items (Tabel 11, Tabel 15, Bijlage 1 en Bijlage 2) of 36 items (p. 26 en Tabel 16) bestaat. Hoewel voor ‘Taal-Taalverzorging’ steeds een aantal van 53 items wordt vermeld en/of is af te leiden, worden in Bijlage 2 54 items vermeld. Hoewel in Tabel 17 ook 54 items worden vermeld, is dit aantal gebaseerd op een optelfout in kolom ‘2F’. Over het aantal items per onderdeel moet meer duidelijkheid worden verschaft. Normering referentieniveaus In Hoofdstuk 3 van de Verantwoording wordt beschreven hoe de referentiecesuren zijn bepaald voor de AMN Eindtoets. Voor ‘Rekenen’ en ‘Taal-Lezen’ zijn sinds 1 oktober 2014 de referentie- en/of ankersets publiek toegankelijk. Aangezien het pilotonderzoek na bekendmaking van de referentiesets heeft plaatsgevonden, is er bij de AMN Eindtoets voor gekozen om de referentiecesuren op basis van eigen jarenlange ervaring te bepalen. Dit is geen correcte manier voor het vaststellen van referentiecesuren, derhalve is het niet mogelijk om met de AMN Eindtoets het behaalde referentieniveau voor de onderdelen ‘Rekenen’ en ‘Taal-Lezen’ vast te stellen. De volgende beschrijving heeft dan ook alleen betrekking op de normering ten aanzien van referentieniveaus voor het onderdeel ‘Taal-Taalverzorging’. Voor het onderdeel ‘Taal-Taalverzorging’ is wel een zogeheten ankeronderzoek uitgevoerd, door een deel van de referentiesets, waarvan de door de overheid (via het CvTE) vastgestelde referentiecesuren bekend zijn, tegelijkertijd af te nemen met de eigen eindtoets items. Voor dit onderdeel wordt gerapporteerd over de referentieniveaus 1F en 2F. Bij de AMN Eindtoets is ervoor gekozen om items te ontwikkelen die specifiek horen bij de referentieniveaus 1F en 2F en om vervolgens de referentiecesuur behorend bij het niveau 1F (vastgesteld op basis van de referentieset items) alleen over te brengen op de AMN 1F items en de referentiecesuur behorend bij het niveau 2F (vastgesteld op basis van de referentieset items) alleen over te brengen op de AMN 2F items. “Table 3” bij het onderdeel ‘Taal’ in Bijlage 2 maakt inzichtelijk waarom op inhoudelijke gronden de AMN 1F en 2F items ook daadwerkelijk 1F en 2F items zijn. In het ankeronderzoek zijn zowel voor 1F als voor 2F 15 referentieset items afgenomen. Deze door het CvTE en Stichting Cito ontwikkelde en onderzochte referentieset items (en de daarbij behorende gegevens waarop de referentiecesuren zijn bepaald) zijn afgenomen en beschikbaar op papier. Tijdens het ankeronderzoek van de AMN Eindtoets zijn de referentieset items om praktische redenen digitaal afgenomen in plaats van op papier. Er is verder geen onderzoek uitgevoerd naar de equivalentie van de papieren en digitale afnames, zoals wel verwacht wordt wanneer de referentieset items digitaal worden afgenomen terwijl ze middels papieren afnames zijn ontwikkeld. In plaats daarvan wordt verwezen naar een onderzoek
onder leerkrachten, dat niet zonder meer gegeneraliseerd kan worden naar groep 8 leerlingen. Behalve de originele nummers van de referentieset-items wordt geen informatie gegeven over de subonderdelen waartoe ze behoren om de representativiteit van de gekozen ankeritems aan te tonen. Hoewel de steekproef met 450 leerlingen groot genoeg is bij het gebruik van een regressiemethode om de cesuren over te brengen, wordt er te weinig informatie gegeven om de representativiteit van de steekproef te kunnen beoordelen. De redenen die eerder genoemd zijn onder Normen zijn ook hier van toepassing. De landelijke gegevens over de betreffende gepresenteerde achtergrondvariabelen ontbreken, net als gegevens met betrekking tot onder andere etniciteit, leerlinggewicht en verstedelijking. Verder wordt geen informatie verstrekt wordt over de wijze van steekproeftrekking (bijv. hoe scholen ‘geselecteerd’ zijn voor deelname, hoeveel scholen benaderd zijn). Om de referentiecesuren op basis van de referentieset items over te brengen op de eigen eindtoets wordt een lineaire regressie uitgevoerd, waarbij de eigen toetsscores worden voorspeld met behulp van de totaalscores op de referentieset items. Op basis hiervan wordt geconcludeerd dat de cesuur kan worden overgenomen omdat de voorspelling significant is. Dit is een onjuiste conclusie. Op de eerste plaats zegt significantie niets; door de steekproefgrootte zal vrijwel iedere predictor een significante relatie hebben met de afhankelijke variabele. Ten tweede, en belangrijker, is de uitgevoerde regressieanalyse niet geschikt om referentiecesuren over te brengen. Vermoedelijk is regressieanalyse verward met de regressiemethode. Dit betekent dat de referentiecesuren 1F en 2F niet op een correcte manier zijn overgebracht op het onderdeel ‘Taal-Taalverzorging’ van de AMN Eindtoets. MATERIAALVERANTWOORDING Deze beoordeling heeft betrekking op: 1) AMN (2015). Verantwoording AMN Eindtoets Wetenschappelijke en inhoudelijke verantwoording juli 2015. Arnhem: AMN. 2) AMN (2015). AMN Eindtoets Toetsreglement juli 2015. Arnhem: AMN. 3) AMN (2015). AMN Eindtoets Praktische handleiding voor leerkrachten juli 2015. Arnhem: AMN. 4) AMN (2015). Documentatie automatische scoring AMN Eindtoets juli 2015. Arnhem: AMN. 5) AMN (2015). Inloginstructie van AMN Eindtoets. Arnhem: AMN. 6) AMN (2015). AMN Eindtoets Leerlingrapport. Arnhem: AMN. 7) AMN (2015). Items AMN Eindtoets.xlsx (digitale scoringssleutel). Arnhem: AMN. Deze materialen zijn door de secretaris van de Expertgroep toetsen PO bij de COTAN aangeleverd op 31 juli 2015.