IEP Eindtoets 2015
WETENSCHAPPELIJKE VERANTWOORDING
Bureau ICE De nieuwe generatie toetsen en examens
SAMENVATTING
Bureau ICE heeft op 17 oktober 2014 de ICE Eindtoets primair onderwijs (IEP) ter goedkeuring aan de Expertgroep Toetsen PO aangeboden. De Expertgroep heeft vervolgens een positief advies aan de staatsecretaris van OCW uitgebracht over de kwaliteit van de IEP Eindtoets. Op 12 november 2014 heeft de staatsecretaris van OCW het advies van de Expertgroep overgenomen en de IEP Eindtoets toegelaten als officiële eindtoets po. De IEP Eindtoets meet op welk referentieniveau de leerling in groep 8 de onderdelen taalvaardigheid (domein lezen en subdomein taalverzorging) en rekenvaardigheid (4 domeinen, getallen, verhoudingen, meten en meetkunde en verbanden) beheerst. De IEP Eindtoets geeft een genormeerde score voor het referentieniveau per onderdeel. De toetsresultaten dienen als second opinion voor het advies dat op een eerder moment door de school is opgesteld. Deze wetenschappelijke verantwoording en alle bijgaande documenten geven inzage in de huidige ontwikkeling van de IEP Eindtoets. De Kerndoelen (OCW, 2006) en het referentiekader taal en rekenen vormen het wettelijk kader van de toetsinhoud van de IEP Eindtoets. De taalvaardigheid van de leerling wordt in de IEP Eindtoets (basistoets) gemeten via het domein lezen en het subdomein taalverzorging op de niveaus 1F en 2F. Voor rekenen worden alle domeinen gemeten, te weten getallen, verhoudingen, meten en meetkunde en verbanden op de niveaus 1F, 1S en 2F. Bureau ICE gebruikt een vast stappenplan bij de constructie en samenstelling van de IEP Eindtoets en maakt gebruik van speciaal voor de IEP Eindtoets opgestelde richtlijnen en checklists. De itemconstructie is gebaseerd op de omschrijvingen uit het referentiekader taal en rekenen en het Algemeen deel toetswijzer voor eindtoets po. De kenmerken van de taakuitvoering zijn steeds als uitgangspunt genomen. Voor ieder toetsonderdeel (vaardigheid per niveau) is een toetsmatrijs gemaakt die borgt dat de toets inhoudelijk dekkend is. Door middel van kwalitatief en psychometrisch onderzoek (eenmalig pilotonderzoek en jaarlijks pretest- en afnameonderzoek) wordt de normering van de IEP Eindtoets bepaald en borgt Bureau ICE de kwaliteit van de IEP Eindtoets. De IEP Eindtoets bestaat uit een basistoets met twee taaltaken (95 items) en twee rekentaken (65 items). De basistoets wordt afgenomen op twee dagen van respectievelijk twee maal 50 minuten per taak en is een papieren afname. Op basis van de ruwe score per vaardigheid per niveau wordt vastgesteld wat het vaardigheidsniveau van een leerling is voor lezen, taalverzorging en rekenen. De grensscoreberekening is tijdens het pretestonderzoek vastgesteld op basis van de schaling met de referentieset-items uit het headstartonderzoek. Naast een niveau uitspraak per vaardigheid wordt op basis van de IEP Eindtoets een schooladvies geformuleerd. Tijdens het pretestonderzoek is de transformatie van de ruwe scores op de verschillende toetsonderdelen naar een standaardscore bepaald. Hiertoe zijn tijdens het pretestonderzoek normgroepen van brugklastypen samengesteld. Voor de zeven verschillende normgroepen is een standaardscoreschaal van 50 tot en met 100 punten samengesteld voor de basistoets. Het pilotonderzoek was een eerste aanzet om de validiteit, betrouwbaarheid en bruikbaarheid van de IEP Eindtoets items te bepalen. Dit pilotonderzoek heeft plaatsgevonden in groep 8 van het primair onderwijs. Het pretestonderzoek was een vervolg hierop en werd aan het begin van het schooljaar 2014-2015 afgenomen in het voortgezet onderwijs. Hierdoor kon onder andere bepaald worden welke scores op de verschillende onderdelen typerend zijn voor welke normgroepen. Verschillend statistisch psychometrisch onderzoek (TIA, OPCAT, OPLM) werd gebruikt om volgens de normen van de COTAN (Evers et al., 2010) de kwaliteit door samenstelling en normering van de IEP Eindtoets te bepalen en te borgen. Jaarlijks zal dit pretest- en een afnameonderzoek uitgevoerd worden om de IEP Eindtoets over de jaren heen te equivaleren.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 1/59
INHOUDSOPGAVE SAMENVATTING
3
1. INLEIDING
7
1.1
De IEP Eindtoets
7
1.2
Eisen en documenten ter verantwoording van de IEP Eindtoets
7
1.3
Leeswijzer
8
2. UITGANGSPUNTEN VOOR TOETSCONSTRUCTIE
10
2.1
Doelstelling van de IEP Eindtoets
10
2.2
Inhoud van de IEP Eindtoets
10
2.3
Functie van de IEP Eindtoets
11
2.4
Doelgroep van de IEP Eindtoets
12
2.4.1 Verschillende niveaus voor verschillend vaardige leerlingen
12
2.4.2 Speciale toetsversies
12
2.5
Toetsmatrijzen en constructierichtlijnen
13
2.5.1 Operationalisering referentiekader taal voor het domein lezen
14
2.5.2 Operationalisering referentiekader taal voor het domein t aalverzorging
14
2.5.3 Operationalisering referentiekader rekenen voor de vier r ekendomeinen 15
2.6
Psychometrisch onderzoek IEP Eindtoets
17
2.6.1 Normeringsonderzoek IEP Eindtoets
17
2.6.2 Pilot- en pretestonderzoek IEP Eindtoets
17
2.6.3 Rapportage normeringsonderzoek 2014-2015
18
2.6.4 Headstartonderzoek referentieset-items
18
2.6.5 Normen van de IEP Eindtoets
18
2.6.6 Longitudinaal doorstroomonderzoek
19
3. BESCHRIJVING VAN DE IEP EINDTOETS
20
3.1
Opbouw van de toets
20
3.2
Inhoud van de toets
21
3.2.1 Verantwoording taal
21
3.2.2 Verantwoording rekenen
22
3.3
Kenmerken van de toets
24
3.3.1 Afnamekenmerken van de IEP Eindtoets
24
3.3.2 Keuze voor korte-open-antwoordvragen
25
3.3.3 Scoringskenmerken van de IEP Eindtoets
25
3.3.4 Criteria toets- en itemkenmerken
25
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 2/59
4. NORMERINGSONDERZOEK
27
4.1
Pilotonderzoek van de IEP Eindtoets in het basisonderwijs
27
4.2 Pretestonderzoek van de IEP Eindtoets in het voortgezet o nderwijs
27
4.2.1 Doelgroep van het pretestonderzoek
27
4.2.2 Opzet van het pretestonderzoek
28
4.2.3 Normgroepen pretest
28
4.2.4 Doelen pretestonderzoek
28
4.2.5 Analyse en resultaten pretestonderzoek
29
4.2.6 Normering referentieniveaus taal en rekenen
29
4.2.7 Normering schooladvies vo
29
4.3
Rapportage resultaten pretestonderzoek
29
4.3.1 Afname pretest
29
4.3.2 Kenmerken van de pretestpopulatie
30
4.4
Analyse en samenstelling van de IEP Eindtoets
34
4.4.1 Toets- en Itemanalyse (TIA)
34
4.4.2 Samenstelling IEP Eindtoets (en analyses OPLM)
35
4.4.3 Normering referentieniveaus taal en rekenen
40
4.4.4 Betrouwbaarheid
51
4.4.5 Normering schooladvies
53
5. BETROUWBAARHEID EN VALIDITEIT VAN DE IEP EINDTOETS
59
5.1
Betrouwbaarheid
59
5.2
Begripsvaliditeit
60
5.2.1 Inhoudsvaliditeit
60
5.2.2 Criteriumvaliditeit
60
5.2.3 Onderzoek naar subgroepen - Bias
61
REFERENTIES
66
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 3/59
1 INLEIDING
Met de invoering van de Wijzigingswet op het primair onderwijs (d.d. 11 december 2013) is vanaf schooljaar 2014-2015 elke basisschool verplicht om een eindtoets af te nemen bij alle leerlingen in groep 8. De eindtoets is bedoeld als landelijke objectieve toets die meet welk referentieniveau de leerlingen beheersen voor taal en rekenen. Elke basisschool kan zelf kiezen welke eindtoets zij wil gebruiken, mits deze is goedgekeurd door het ministerie van OCW.
1.1 De IEP Eindtoets
De IEP Eindtoets is ontwikkeld door Bureau ICE en in november 2014 voor een periode van 4 jaar toegelaten als eindtoets voor het basisonderwijs. Bureau ICE is expert in het ontwikkelen van toetsen en examens en maakt al 25 jaar (methode-)onafhankelijke toetsen voor en in opdracht van het ministerie van OCW, het College voor Toetsen en Examens (CvTE), het ministerie van SZW en voor het mbo, voortgezet onderwijs en het hoger onderwijs. IEP staat voor ICE Eindevaluatie Primair onderwijs, een programma van instrumenten1 voor de overgang naar het voortgezet onderwijs, waarvan de IEP Eindtoets een belangrijk onderdeel is. De IEP Eindtoets meet op welk referentieniveau de leerling in groep 8 de onderdelen taalvaardigheid (domein lezen en subdomein taalverzorging) en rekenvaardigheid (4 domeinen; getallen, verhoudingen, meten/meetkunde en verbanden) beheerst. De IEP Eindtoets geeft een genormeerde score voor het referentieniveau per onderdeel. Op basis van de resultaten op alle onderdelen van de IEP eindtoets krijgt de leerling een schooladvies voor het voortgezet onderwijs.
1.2 Eisen en documenten ter verantwoording van de IEP Eindtoets
Het Toetsbesluit PO (2014) schrijft voor aan welke voorwaarden (inhoud en kwaliteit) alle eindtoetsen die worden toegelaten moeten voldoen. In het Algemeen deel toetswijzer voor eindtoets po (CvTE, 2014) is uitgebreid beschreven aan welke inhoudelijke eisen elke eindtoets moet voldoen voor de wettelijk verplichte domeinen uit het Referentiekader taal en rekenen (Expertgroep Doorlopende Leerlijnen Taal en Rekenen, 2009). De IEP Eindtoets is volledig ontwikkeld binnen het kader van dit Algemeen deel toetswijzer voor eindtoets po en voldoet aan alle eisen.
Elke eindtoetsaanbieder moet daarnaast een inhoudelijke toetswijzer maken voor de specifieke opzet van de eigen eindtoets. Voor de IEP Eindtoets is er daarom de IEP Eindtoets Toetswijzer waarin wij de onderwijscontext verantwoorden: dit betreft de kwaliteitseisen ten aanzien van inhoud, het leerlingrapport, de doelgroep, de afname en de organisatie. In de toetswijzer van de IEP Eindtoets zijn de volgende aspecten opgenomen: • een beschrijving van de in de eindtoets opgenomen domeinen; • een beschrijving per domein van de in de eindtoets opgenomen verschillende inhoudsonderdelen waarbij de relatie is aangegeven tussen de inhouden van het referentiekader en de inhouden van de toets; • een beschrijving die inzicht geeft in de wijze waarop de niveaubepaling ten aanzien van de referentieniveaus is gebaseerd; • een beschrijving die inzicht geeft in de gemaakte keuzes ten aanzien van domeinen en inhoudsonderdelen; • een beschrijving van de manier van toetsen: de vorm waarin opgaven worden aangeboden. De informatie uit de toetswijzer van de IEP Eindtoets zult u voor een deel ook terugvinden in dit document.
1
innen het evaluatieprogramma IEP is er naast de IEP Eindtoets ook een IEP Advieswijzer beschikbaar. B De IEP Advieswijzer bevat instrumenten om het schooladvies van de leerkracht te onderbouwen en geeft een hoofd, hart, handen profiel van de leerling in groep 8
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 4/59
Deze wetenschappelijke verantwoording van de IEP Eindtoets 2014-2015 beschrijft de inhoud van de IEP Eindtoets gerelateerd aan het onderzoek dat Bureau ICE heeft gedaan om deze inhoudelijke keuzes te onderbouwen. Voor elk onderdeel van de toetsconstructie en de borging van de toetskwaliteit is aangegeven welke stappen wij in het proces hebben gezet, zowel wat inhoudelijke als psychometrische onderbouwing van het instrument betreft. Het gaat hierbij om het verzamelen van afnamedata, het doen van verder onderzoek, het uitvoeren van analyses, het uitwerken van begeleidende materialen, et cetera. In deze wetenschappelijke verantwoording staan de volgende aspecten beschreven: • de uitgangspunten van de toetsconstructie voor de IEP Eindtoets, • de kwaliteit van het toetsmateriaal, • de normering, • de betrouwbaarheid, validiteit en bruikbaarheid van de IEP Eindtoets 2014-2015. Deze wetenschappelijke verantwoording en alle bijgaande documenten geven inzage in de huidige ontwikkeling van de IEP Eindtoets. Deze wetenschappelijke verantwoording is opgebouwd als groeidocument en geeft inzage in de ontwikkeling van de IEP Eindtoets en de keuzes die wij in dit proces maken. Steeds als er nieuwe resultaten zijn, zullen de onderzoeksgegevens toegevoegd en gepubliceerd worden. Na de afname en het onderzoek naar de resultaten van de IEP Eindtoets 2014-2015 zal deze versie (publicatie maart 2015) aangevuld worden met de analyses van de resultaten van de afname, naar verwachting publicatie september/oktober 2015.
1.3 Leeswijzer
In hoofdstuk 2 zijn de uitgangspunten voor de toetsconstructie van de IEP Eindtoets beschreven. In dit hoofdstuk worden achtereenvolgens toegelicht waarvoor de IEP Eindtoets dient (2.1), welke kennisdomeinen de IEP Eindtoets bestrijkt en volgens welk normenkader de inhoud is vormgegeven (2.2), hoe de IEP Eindtoets gebruikt moet/kan worden (2.3), voor wie de IEP Eindtoets bedoeld is (2.4), op basis van welke inhoud Bureau ICE de IEP Eindtoets vormgeeft (2.5) en op welke wijze het psychometrisch onderzoek uitgevoerd wordt in de IEP Eindtoets (2.6). Hoofdstuk 3 beschrijft de IEP Eindtoets, te weten de opbouw (3.1) en de inhoud (3.2) en de toetskenmerken van de IEP Eindtoets (3.3). In hoofdstuk 4 beschrijven we uitgebreid hoe wij het normeringsonderzoek hebben vormgegeven en wat de resultaten zijn van het onderzoek. In hoofdstuk 5 beschrijven we op welke wijze de betrouwbaarheid (5.1) en validiteit (5.2) van de IEP Eindtoets door ons onderzocht, verantwoord en geborgd is.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 5/59
2. UITGANGSPUNTEN VOOR TOETSCONSTRUCTIE
In dit hoofdstuk beschrijven we de uitgangspunten voor de toetsconstructie van de IEP Eindtoets. Alle aspecten die van belang zijn voor de ontwikkelkeuzes worden in grote lijnen beschreven. De doelstelling van de IEP Eindtoets, de inhoud waarop de IEP Eindtoets gebaseerd is, de functie die de IEP Eindtoets gaat vervullen in het basisonderwijs, de doelgroep van de IEP Eindtoets en de onderzoeksopzet voor normering van de IEP Eindtoets. In de hoofdstukken die na dit hoofdstuk volgen en in de overige documentatie van de IEP Eindtoets worden alle verschillende aspecten verder uitgediept en onderbouwd. In dit hoofdstuk besteden we naast deze punten ook aandacht aan de historische achtergrond die ten grondslag ligt aan de keuze om als Bureau ICE een alternatieve eindtoets voor taal en rekenen aan te willen bieden aan het basisonderwijs.
2.1 Doelstelling van de IEP Eindtoets
De IEP Eindtoets stelt vast op welk referentieniveau de leerling taal en rekenen beheerst aan het einde van de basisschool. De IEP Eindtoets doet per onderdeel (lezen, taalverzorging en rekenen) een uitspraak op referentieniveau en geeft op basis van alle onderdelen een schooladvies voor het voortgezet onderwijs. De toetsresultaten dienen als second opinion voor het schooladvies dat op een eerder moment door de school is opgesteld. De IEP Eindtoets heeft daarmee twee doelen voor de leerling: voorspellend en niveaubepalend. De IEP Eindtoets is voorspellend in die zin dat het resultaat van de leerling op de toets aangeeft hoe een leerling het naar verwachting zal doen in het voortgezet onderwijs. De IEP Eindtoets is niveaubepalend in die zin dat het resultaat van de leerling op de eindtoets aangeeft welk beheersingsniveau een leerling heeft aan het einde van het basisonderwijs ten aanzien van de referentieniveaus taal (domein lezen en subdomein taalverzorging) en rekenen (alle domeinen). Om aan de doelstelling van een goede eindtoets basisonderwijs te kunnen voldoen, zal de IEP Eindtoets aan de volgende voorwaarden voldoen: 1) de resultaten van de IEP Eindtoets zijn een goede weerspiegeling van de reële capaciteiten van de leerling, 2) de IEP Eindtoets kan verschillen in vaardigheidsniveaus accuraat onderscheiden, en 3) de IEP Eindtoets heeft een voldoende voorspellende waarde om als een instrument voor het geven van schooladvies te dienen.
2.2 Inhoud van de IEP Eindtoets
De Kerndoelen (OCW, 2006) en het Referentiekader taal en rekenen (2009) vormen het wettelijk kader van de toetsinhoud van de IEP Eindtoets. De referentieniveaus beschrijven wat leerlingen moeten kennen, kunnen en begrijpen voor verschillende onderwijsovergangsmomenten, waaronder het einde van de basisschool. De beheersingsdoelen van de referentieniveaus die gelden voor het basisonderwijs omvatten de kerndoelen, ze bevatten geen nieuwe leerstof. Om die reden zullen wij alleen nog spreken van de referentieniveaus.
Voor het einde van de basisschool zijn twee referentieniveaus van belang, te weten het basisniveau 1F en het streefniveau 2F (voor taal) of 1S (voor rekenen). De focus van de IEP Eindtoets ligt daarom op het vaststellen van de beheersing van deze referentieniveaus. Als extra aandachtsgebieden bevat de IEP Eindtoets zowel voor taal als voor rekenen ook opgaven onder het 1F niveau en voor rekenen naast 1F en 1S ook niveau 2F. Bureau ICE heeft ervoor gekozen om niet meer inhoudelijke domeinen te toetsen in de eindtoets dan wettelijk verplicht is2. De taalvaardigheid van de leerling wordt in de
2
D eze keuze heeft Bureau ICE gemaakt omdat in het totale evaluatieprogramma van de IEP (ICE Eindevaluatie Primair onderwijs) ook nog een IEP Advieswijzer is opgenomen waarin een leerling breder dan alleen op taal en rekenen in beeld wordt gebracht voor het geven van een schooladvies. De eindtoets ziet Bureau ICE als een second opinion voor waar een leerling helemaal aan het einde van groep 8 staat. Zie ook paragraaf 2.3.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 6/59
IEP Eindtoets alleen gemeten via het domein lezen en het subdomein taalverzorging. Voor rekenen worden alle domeinen gemeten, te weten getallen, verhoudingen, meten/meetkunde en verbanden. In hoofdstuk 3 wordt de IEP Eindtoets meer specifiek beschreven wat betreft structuur en inhoud en worden de gemaakte keuzes verantwoord.
2.3 Functie van de IEP Eindtoets
Bureau ICE is een groot voorstander van de invoering van de doorlopende leerlijn voor taal en rekenen om de taal- en rekenvaardigheid van de leerlingen in het Nederlandse onderwijs te borgen. Taal en rekenen zijn zeer belangrijke basisvaardigheden voor leerlingen om goed te kunnen leren en behoren tot de belangrijkste voorspellers voor schoolsucces (Van Aarsen & Luyten, 2013). De (leer)capaciteit van een leerling is echter niet alleen af te meten aan de taalvaardigheid en rekenvaardigheid van een leerling. Bureau ICE ontwikkelt binnen het programma IEP naast de IEP Eindtoets ook nog een IEP Advieswijzer, bestaande uit een set van instrumenten voor basisschool en leerkracht om het schooladvies voor de leerling nog beter vorm te geven. In de IEP Advieswijzer zullen onder meer andere domeinen van taalvaardigheid, zoals schrijven, een belangrijke rol gaan spelen. Ook is er binnen de IEP Advieswijzer ruimte om het niveau 3F van taal en rekenvaardigheid voor kinderen die dit aankunnen in beeld te brengen. Daarnaast zullen de instrumenten gaan over gebieden die het kind breder in beeld brengen dan taal- en rekenvaardigheid, zodat een completer schooladvies kan worden opgesteld door de leerkracht. We kijken daarbij naar het hoofd, hart en handen profiel van een leerling. De IEP Eindtoets heeft de functie van een onafhankelijke, objectieve meting die als een second opinion gebruikt kan worden voor het gegeven schooladvies voor het voortgezet onderwijs door de leerkracht. De IEP Eindtoets dient daarmee als informatiebron om een gefundeerd advies te geven over het te volgen schooltype in het vervolgonderwijs. De resultaten behaald op de IEP Eindtoets bieden daarmee de basis voor een alternatieve inschatting van de mogelijkheden van leerlingen ten opzichte van de inschatting van de leerkracht.
2.4 Doelgroep van de IEP Eindtoets
De IEP Eindtoets is in principe bedoeld voor alle leerlingen van groep 8 in het primair onderwijs. Elke leerling krijgt dezelfde toetsopgaven van de IEP Eindtoets voorgelegd waarin de focus ligt op het vaststellen van referentieniveau 1F, 1S en 2F voor rekenen en referentieniveau 1F en 2F voor taal (lezen en taalverzorging). De IEP Eindtoets wordt door de leerling op papier gemaakt, waarbij de leerling in het toetsboekje mag werken.
2.4.1 Verschillende niveaus voor verschillend vaardige leerlingen
Elke leerling krijgt dezelfde toetsversie van de IEP Eindtoets voorgelegd. De IEP Eindtoets is zo opgebouwd dat zowel minder vaardige leerlingen als meer vaardige leerlingen de kans krijgen om te laten zien wat zij kunnen. Voor leerlingen die taal en/of rekenen erg moeilijk vinden en mogelijk het fundamentele niveau 1F niet beheersen bevat de IEP Eindtoets een kleine hoeveelheid opgaven die voor hen passend zijn. Een toets maken die alleen (te) moeilijke opgaven bevat, werkt niet motiverend. Om de leerlingen die niveau 1F niet behalen een kans te geven om te laten zien wat zij kunnen bevat de basistoets daarom taken lager dan 1F. Deze items3 worden aangegeven als niveau <1F en vertegenwoordigen de basisschoolleerstof van groep 4-6. Het <1F niveau is geen officieel referentieniveau omdat het referentiekader dit onderscheid niet maakt. De toetsinhoud voor dit <1F niveau hebben wij gebaseerd op de beschrijving van de kerndoelen basisonderwijs tot en met groep 6.
3
In deze wetenschappelijk verantwoording spreken we soms naast opgave ook van item, dit is gelijk aan het woord (toets)opgave zoals dat in de andere verantwoordingsdocumenten wordt gebruikt.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 7/59
De vastgestelde referentieniveaus voor het basisonderwijs zijn 1F en 1S (voor taal staat niveau 2F gelijk aan het eerste streefniveau (1S)). Leerlingen die vaardiger zijn dan deze niveaus willen we ook ruimte geven dit te laten zien. Om die reden bevat de IEP Eindtoets voor rekenen ook taken op referentieniveau 2F en bevat de IEP Advieswijzer voor zowel taal als rekenen een toets op referentieniveau 3F. Met deze aanvullende toets, die volledig onafhankelijk van de IEP Eindtoets kan worden afgenomen, kan de leerling de beheersing aantonen van niveau 3F.
2.4.2 Speciale toetsversies
Voor leerlingen met een speciale ondersteuningsbehoefte wordt de IEP Eindtoets in een aangepaste vorm aangeboden. Het gaat hierbij om leerlingen met dyscalculie, dyslexie, leerlingen met een visuele beperking (slechtzienden), leerlingen met een auditieve beperking en cognitief zwakke leerlingen. Bij het ontwikkelen van de IEP Eindtoets is daar waar mogelijk al rekening gehouden met het kunnen toetsen van leerlingen met een speciale ondersteuningsbehoefte. Het gekozen lettertype in de toetsboekjes bijvoorbeeld zorgt voor een rustig beeld zodat alle leerlingen, dus ook de leerlingen die meer moeite hebben met lezen, de teksten en opgaven kunnen lezen en maken. Bij de opmaak van de toetsboekjes wordt een goede verdeling van de opgaven over de pagina’s in het oog gehouden, zodat de leerlingen niet met te veel informatie op één pagina geconfronteerd worden. Bij het ontwikkelen van de opgaven is steeds als uitgangspunt meegenomen dat de opgaven en bijbehorende teksten aangepast moeten kunnen worden naar een gesproken toetsversie of een toetsversie met vergrote letters of in zwart-wit. De IEP Eindtoets wordt voor leerlingen met een speciale ondersteuningsbehoefte aangeboden in de volgende aangepaste versies: • gesproken versie op cd of Daisy-cd • vergrote versie van de toetsboekjes, met grote letter • versie in zwart-wit Bureau ICE heeft ervaring op het gebied van het aanbieden van toetsen in een brailleversie. Indien gewenst, is het ook mogelijk de IEP Eindtoets in brailleversie aan te bieden. In de IEP Toetswijzer wordt beschreven op welke manier de school leerlingen met een speciale ondersteuningsbehoefte bij het afnemen van de IEP Eindtoets extra kan ondersteunen.
2.5 Toetsmatrijzen en constructierichtlijnen
Om een betrouwbare en valide eindtoets voor het basisonderwijs te ontwikkelen is het proces van toetsconstructie en samenstelling volgens een vast stappenplan vormgegeven en gebruiken we specifiek voor de ontwikkeling van de IEP Eindtoets opgestelde richtlijnen en checklists4. Naast deze toetsconstructierichtlijnen is er voor elk toetsonderdeel (rekenen, lezen en taalverzorging) een toetsmatrijs opgesteld. De stappen van toetsconstructie zijn weergegeven in tabel 2.1.
4
Z owel de checklist constructie & screening IEP Eindtoets rekenen als de checklist constructie & screening IEP Eindtoets taal zijn ter inzage op te vragen bij Bureau ICE.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 8/59
Tabel 2.1 Stappen van toetsconstructie Stap toetsconstructieproces
Aandachtspunten
1. Bepalen toetsdoelen
Waarom willen we meten, wat moet de toets meten, op welk niveau
2. Ontwerpen toetsvorm
Welke type items zijn geschikt, welke toetsomvang is nodig, opstellen toetsmatrijs
3. Constructie items
(Concept)items ontwikkelen op basis van toetsmatrijs en checklists itemkwaliteit
4. Onderzoeken kwaliteit items
Proefafname van de items in een pilot
5. Selectie items
Kwaliteit van de items, moeilijkheidsgraad, onderscheidend vermogen
6. Samenstellen toets
Op basis van toetsmatrijs
7. Normeringsonderzoek
Pretestonderzoek van de toets, vaststellen normering
8. Toetsafname
Afname van de toets bij de beoogde doelgroep
Uitgangspunt voor de constructie van de IEP Eindtoets is steeds het referentiekader, het algemeen deel toetswijzer voor eindtoets po en de daarvan afgeleide toetsmatrijzen voor lezen, taalverzorging en rekenen. Voor elk item worden vragen gesteld zoals: sluit het item aan bij het beoogde referentieniveau, domein, domeinonderwerp? Komt het vraagtype overeen met de toetsmatrijs? Sluit het item aan bij de doelgroep? Is het item cultureel, religie en sekse neutraal? Is de tekst (de taal) functioneel voor het beantwoorden van het item? De toetsmatrijzen zijn ontwikkeld op basis van de doelen horende bij de verschillende referentieniveaus en waar nodig de kerndoelen (<1F bijvoorbeeld).
2.5.1 Operationalisering referentiekader taal voor het domein lezen
De toetstaken voor het onderdeel lezen zijn gebaseerd op het domein lezen uit het referentiekader taal. Zowel de algemene beschrijvingen en tekstkenmerken per niveau, als de specifieke beschrijvingen voor elke tekstsoort zijn leidend geweest. Alle genoemde tekstsoorten uit het referentiekader komen in de IEP Eindtoets aan bod. Bij de constructie van de leesteksten hebben we rekening gehouden met de leefwereld van leerlingen aan het eind van het basisonderwijs. Ook hebben we bij de keuze voor de verschillende onderwerpen van leesteksten rekening gehouden met de heterogeniteit van de doelgroep. De tekstonderwerpen moeten zoveel mogelijk toegankelijk zijn voor alle leerlingen ondanks verschillen in culturele achtergrond, de schooldenominatie, sekse, etc. Ook de itemconstructie is gebaseerd op de omschrijvingen van het domein lezen uit het referentiekader taal en het algemeen deel toetswijzer voor eindtoets taal en rekenen po van het CvTE. Hiervoor zijn de kenmerken van de taakuitvoering steeds als uitgangspunt genomen. De items meten alle verschillende onderdelen, te weten: • techniek en woordenschat, • begrijpen, • interpreteren, • evalueren, • samenvatten en • opzoeken. Het zwaartepunt ligt voor alle referentieniveaus op de onderdelen ‘begrijpen’ en ‘interpreteren’. Voor het definiëren van het niveau lezen <1F is gekeken naar welke basale vaardigheden de leerling dient te beheersen op weg naar het behalen van het referentieniveau 1F. De uitwerking hiervan is gebaseerd op de beschrijvingen uit de kerndoelen waaraan de leerling moet voldoen tot en met groep 6.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 9/59
2.5.2 Operationalisering referentiekader taal voor het domein taalverzorging
De items taalverzorging zijn gebaseerd op de omschrijvingen voor het subdomein taalverzorging uit het referentiekader taal. De items dekken de verschillende onderdelen zoals beschreven in het referentiekader, te weten • verschillende categorieën van spellingsproblemen en -regels, • regels voor lettergreepgrenzen, • regels voor woordgrenzen, • morfologische spelling, • regels voor werkwoordspelling, • overige regels (verschillende spellingscategorieën zoals de schrijfwijze van tussenklank –s of –e(n) en het gebruik van een trema of koppelteken) en • leestekens. Om precies te kunnen bepalen welke spellingscategorieën onder welk referentieniveau vallen zijn de beschrijvingen aangehouden zoals beschreven in de Leerstoflijnen Begrippenlijst en Taalverzorging (SLO, 2011). Om invulling te geven aan het niveau <1F is gekeken naar welke onderdelen uit het referentieniveau 1F al vanaf groep 4 beheerst dienen te worden, opnieuw gebaseerd op de beschrijvingen uit de Leerstoflijnen Begrippenlijst en taalverzorging. Taalverzorging is in het referentiekader taal een subdomein van het domein begrippenlijst en taalverzorging. De minimaal inhoudelijke eis is dat een eindtoets het subdomein taalverzorging meet en voor dit onderdeel een aparte uitslag geeft voor het beheersen van het referentieniveau. Bureau ICE kan zich goed vinden in deze keuze. De kennis van begrippen die een leerling nodig heeft om te kunnen spreken over taal en taalverschijnselen worden in de IEP Eindtoets niet als aparte kennis getoetst. Onze visie is dat leerlingen deze begrippen moeten kunnen gebruiken in verschillende taalsituaties.
2.5.3 Operationalisering referentiekader rekenen voor de vier rekendomeinen
De itemconstructie rekenen is gebaseerd op het referentiekader rekenen. In de toetsmatrijs zijn de vier rekendomeinen uitgewerkt in elf specifieke domeinonderwerpen. De doelen uit het referentiekader zijn per domeinonderwerp uitgewerkt in specifieke toetsdoelen. Een voorbeeld van een uitgewerkt toetsdoel op referentieniveau 1F domein verbanden (10 Tabellen – Taxonomie I Begrip – C Interpreteren van bronnen) is ‘Informatie aflezen uit eenvoudige veelvoorkomende tabellen (dienstregeling bus/trein, lesrooster) en kwantitatieve informatie uit eenvoudige tabellen gebruiken om conclusies te trekken in toepassingssituaties.’ Deze toetsdoelen zijn vergeleken met de kerndoelen voor het basisonderwijs, het algemeen deel toetswijzer voor eindtoets taal en rekenen po en de Tule kerndoelen (Buijs, Klep & Noteboom, 2008; Tomesen, Van Koeven & Taalgroep Nederlandse taal PO, 2008) en zo nodig aangevuld of nader gespecificeerd om de toetsmatrijs geheel dekkend te maken voor de rekeninhouden in het primair onderwijs. Op basis van de inhouden van de toetsdoelen is er vervolgens een taxonomie opgesteld, bestaande uit twee categorieën die ieder weer bestaan uit drie rekenvaardigheden: I Begrip (A Getalsbegrip, B Maat- en begripskennis, C Interpreteren van bronnen) en II Bewerkingen (D Optellen & aftrekken, E Vermenigvuldigen & delen, F Bewerkingen combineren), die weer gekoppeld zijn aan de leerdoelen van de verschillende domeinonderwerpen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 10/59
In Tabel 2.2 is opgenomen onder welk(e) domein(en) de domeinonderwerpen vallen en welke rekenvaardigheden van toepassing zijn per domeinonderwerp. Dit kader is leidend bij de itemconstructie rekenen. Uitgangspunt is om alle domeinonderwerpen en rekenvaardigheden in een evenwichtige verhouding op te nemen in de IEP Eindtoets, waarbij als richtlijn wordt gehanteerd dat 25-40% van de opgaven op begripsniveau en 60-75% van de opgaven op het niveau van bewerkingen is.
Tabel 2.2 Indeling toetskader rekenen IEP Eindtoets Domein
Taxonomie II Bewerkingen
D Optellen & aftrekken
E Vermenigvuldigen & delen
F Bewerkingen combineren
x
x
x
x
2 Decimalen
x
x
x
x
x
x
3 Breuken
x
x
x
x
x
x
4 Percentages
x
x
x
x
x
5 Schaal & vergroting/verkleining
x
x
B Maat- en begripskennis
x
A Getalsbegrip
x
Verbanden
Verhoudingen
1 Gehele getallen
Domeinonderwerp
Meten & Meetkunde
Getallen
C Interpreteren van bronnen
I Begrip
x
6 Maten & meetinstrumenten
x
x
7 Omtrek, oppervlakte & inhoud
x
x
8 Meetkundige kaarten, tekeningen, figuren & begrippen
x
x x
x
x
x
x
x
x
x
x
x
x
x
x x
x
9 Patronen
x
10 Tabellen
x
x
x
x
11 Diagrammen/grafieken
x
x
x
x
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 11/59
2.6 Psychometrisch onderzoek IEP Eindtoets
In bovenstaande paragrafen is beschreven wat de inhoudelijke uitgangspunten voor de toetsconstructie van de IEP Eindtoets zijn. In deze paragraaf staan de uitgangspunten voor het psychometrische onderzoek beschreven.
De IEP Eindtoets zal vanaf afnamejaar 2015 elk jaar opnieuw bestaan uit 100% nieuwe items zolang het een papieren toetsafname betreft. Omdat de functie van de IEP Eindtoets een onafhankelijke niveaumeting en het geven van een objectief schooladvies betreft, zorgt Bureau ICE ervoor dat het construct dat gemeten wordt elk afnamejaar (bij gelijkblijvende eisen) gelijk is door latere toetsversies te equivaleren met toetsversies van eerdere jaren middels een ankertoetsdesign via een pretestonderzoek. Door middel van onderzoek zorgt Bureau ICE ook dat bij de eerste toetsafname in 2014-2015 de IEP Eindtoets het juiste referentieniveau meet5 en daarbij een passend schooladvies geeft. In de komende paragrafen beschrijven we globaal welke aanpak, instrumenten, rekenmodellen en analysemethoden hiervoor zijn en worden ingezet. In de verschillende hoofdstukken van deze verantwoording zullen de verschillende onderdelen specifieker beschreven worden.
2.6.1 Normeringsonderzoek IEP Eindtoets
2.6.2 Pilot- en pretestonderzoek IEP Eindtoets
2.6.3 Rapportage normeringsonderzoek 2014-2015
Het normeringsonderzoek van de IEP Eindtoets is in het eerste ontwikkeljaar in drie fasen verlopen, te weten: een pilotonderzoek van items in het primair onderwijs, een pretestonderzoek van de IEP Eindtoets in het voortgezet onderwijs en de echte afname van de IEP Eindtoets in het primair onderwijs. Na afnamejaar 2014-2015 zal het structurele ontwikkeltraject van de IEP Eindtoets steeds bestaan uit een pretestfase en een afnamefase.
Het pilotonderzoek was bedoeld om de constructie verder te kunnen verfijnen. Minder goed functionerende items zijn na de pilot vervangen worden door nieuwe items die op hun beurt zijn getest in het pretestonderzoek. Op basis van de ervaringen van de pilot heeft Bureau ICE de constructierichtlijnen verder verfijnd. Het pretestonderzoek is vervolgens het belangrijkste instrument dat Bureau ICE hanteert om de continuïteit van de IEP Eindtoets te borgen. Door de items verder te testen in de pretest is ervoor gezorgd dat er voldoende observaties zijn voor de items die in de afnameversie van de IEP Eindtoets zijn opgenomen. Op deze wijze wordt elk jaar de kwaliteit van de items en de samenstelling van de IEP Eindtoets geborgd.
Om een eindtoets aan te kunnen bieden in het basisonderwijs geldt een strenge toelatingsprocedure. Het ministerie van OCW laat alleen toetsen toe die zowel kwalitatief als inhoudelijk zijn beoordeeld en goedgekeurd door de Expertgroep PO. Het normeringsonderzoek van de IEP Eindtoets is uitgebreid en in verschillende fasen aan de Expertgroep PO voorgelegd en heeft in november 2014 geleid tot een toelating van de eindtoets voor een periode van vier jaar. Binnen deze periode zal elk jaar de afnameversie van de IEP Eindtoets voor het volgende jaar door de Expertgroep PO worden beoordeeld.
5
V oor lezen en rekenen geldt dat we het referentieniveau kunnen ijken aan de referentiesets. Voor taalverzorging is geen referentieset beschikbaar en is beschreven hoe we het niveau vaststellen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 12/59
2.6.4 Headstartonderzoek referentieset-items
2.6.5 Normen van de IEP Eindtoets
Onder regie van het CvTE is een instrumentarium ontwikkeld dat aanbieders van eindtoetsen kunnen gebruiken om ervoor te zorgen dat hun eindtoets betrouwbaar de beheersing van de referentieniveaus meet. Het instrumentarium bestaat uit referentiesets en ankersets van op de referentieniveaus afgestemde toetsopgaven en een normering voor het vaststellen van de referentiecesuur. Bureau ICE doet ten behoeve van de IEP Eindtoets mee aan dit zogenoemde headstartonderzoek en maakt zowel in de pilot als in de pretest gebruik van de referentiesets voor lezen en rekenen. Voor taalverzorging is nog geen referentieset beschikbaar. De ankersets taalverzorging worden naar verwachting beschikbaar gesteld per 1 juni 2015. Zodra deze beschikbaar worden gesteld zullen deze worden meegenomen.
Voor het bepalen van het behaalde referentieniveau op de IEP Eindtoets gebruiken we een extern criterium, te weten het referentiekader. Dat betekent dat de testresultaten met een absolute norm worden vergeleken. Voor een uitslag van de beheersing van de referentieniveaus spreken we bij de IEP Eindtoets dus van een domeingerichte interpretatie van de ruwe score. De standaard of grensscore is vastgesteld volgens de richtlijnen van het headstartonderzoek. Het schooladvies van de IEP Eindtoets bestaat waar mogelijk uit een advies voor het specifieke schooltype waarvoor de leerling op basis van de beheersing van de referentieniveaus het meest geschikt is (bijvoorbeeld vmbo-t of vwo). De IEP Eindtoets geeft als dat niet mogelijk is de uitslag weer in maximaal twee naastgelegen onderwijstypen in het voortgezet onderwijs (bijvoorbeeld vmbo-t/havo of havo/ vwo). Voor het bepalen van het schooladvies maakt de IEP Eindtoets gebruik van een normgerichte interpretatie. De score die behaald is op de verschillende onderdelen van de IEP Eindtoets zal worden vergeleken met meerdere referentiegroepen. Op basis van deze referentiegroepen stellen we vast hoe een leerling scoort op de IEP Eindtoets ten opzichte van vergelijkbare leerlingen in eenzelfde groep als deze leerling.
2.6.6 Longitudinaal doorstroomonderzoek
Het resultaat dat de leerling behaalt op de IEP Eindtoets wordt vertaald naar een eenduidig schooladvies voor het voortgezet onderwijs. Dit schooladvies dat hoort bij de uitslag van de IEP Eindtoets fungeert als tweede onafhankelijk gegeven dat kan leiden tot bijstelling van het schooladvies voor het vervolgonderwijs. Het heeft de voorkeur dat dit schooladvies gebaseerd is op longitudinaal doorstroomonderzoek. Omdat de IEP Eindtoets een nieuw ontwikkelde eindtoets is zal de dataverzameling hiervoor starten vanaf 2014-2015. In deze verantwoording beschrijven we in hoofdstuk 5 de werkwijze om de voorspellende waarde van de IEP Eindtoets systematisch te volgen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 13/59
3. BESCHRIJVING VAN DE IEP EINDTOETS
In dit hoofdstuk beschrijven we de belangrijkste kenmerken van de IEP Eindtoets op hoofdlijnen. De overige documentatie van de IEP Eindtoets, zoals de IEP Eindtoets Toetswijzer, de IEP Eindtoets Afnamehandleiding en het IEP Eindtoets Toetsreglement vult deze beschrijving aan.
3.1 Opbouw van de toets
De IEP Eindtoets bestaat uit twee taaltaken en twee rekentaken. De IEP Eindtoets wordt afgenomen op papier verspreid over twee dagdelen (tweemaal op een ochtend). Op elk dagdeel krijgt de leerling zowel taal als rekenen aangeboden. Daarom kent elk dagdeel een eigen toetsboekje dat bestaat uit een taaltaak en een rekentaak. Eén taak omvat een set toetsitems en kan worden afgenomen in 50 minuten. In tabel 3.1 is weergegeven hoe de taal- en rekentaken van de IEP Eindtoets zijn opgebouwd.
Tabel 3.1 Richtlijnen voor het aantal items per taal- of rekentaak in de IEP Eindtoets IEP Eindtoets Taal
<1F
1F
-
2F
Lezen
3
7
-
13
23
Taalverzorging
2
10
-
12
24
Lezen
2
8
-
12
22
Taalverzorging
3
10
-
13
26
Lezen
5
15
-
25
45
Taalverzorging
5
20
-
25
50
<1F
1F
1S
2F
Totaal
Rekentaak 1
3
7
11
12
33
Rekentaak 2
2
8
11
11
32
Rekenen totaal
5
15
22
23
65
Taaltaak 1
Taaltaak 2
Taal totaal
IEP Eindtoets rekenen
Totaal 47
48
95
Bij het verdelen van het aantal items in een taak is gekozen voor een optimale spreiding en variatie. Het aantal items in de bovenstaande tabellen is een richtlijn. De daadwerkelijke aantallen in een afnameversie van de IEP eindtoets kunnen maximaal 5% naar boven of naar beneden afwijken (deze staan ook altijd beschreven in de afnamehandleiding per jaar). Daardoor is de inhoud van de IEP eindtoets elk jaar vergelijkbaar met elkaar. Het afnameschema van de IEP Eindtoets is weergegeven in tabel 3.2 en ziet er per dag als volgt uit:
Tabel 3.2 Afnameschema van de IEP Eindtoets IEP Eindtoets
# items
tijdsduur
IEP Eindtoets dag 1
Taaltaak 1
47
50 min
Rekentaak 1
33
50 min
IEP Eindtoets dag 2
Taaltaak 2
48
50 min
Rekentaak 2
32
50 min
totaal # items
totale tijdsduur
80 items
100 min
80 items
100 min
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 14/59
3.2 Inhoud van de toets
3.2.1 Verantwoording taal
De toetsmatrijs voor de basistoets taal is opgebouwd uit een matrijs voor het domein lezen op tekstniveau, een matrijs op het domein lezen op itemniveau ten opzichte van de kenmerken van de taakuitvoering en een matrijs op het subdomein taalverzorging op itemniveau ten opzichte van de kenmerken van de taakuitvoering. In tabel 3.3, tabel 3.4 en tabel 3.5 zijn deze toetsmatrijzen weergegeven. De IEP Eindtoets bestaat voor het domein lezen uit minimaal 10 teksten en maximaal 14 teksten. Het aantal items voor het domein lezen bedraagt 45 items. Voor het domein taalverzorging bestaat de IEP Eindtoets uit 50 items.
Tabel 3.3 Toetsmatrijs aantal teksten en gemiddeld bijbehorend aantal items per soort tekst in de IEP Eindtoets taal- domein lezen
IEP taal - domein lezen Informatieve teksten Zakelijke teksten
Instructieve teksten Betogende teksten
Fictionele, narratieve en literaire teksten
Daarnaast vrij in te delen binnen bovenstaande tekstsoorten
<1F # teksten ten minste 2 teksten van 2 ver schillende tekst soorten
# items
gemiddeld 2 items per tekst
2F
# teksten
# items
# teksten
# items
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
(1)
(1)
2 tot 3 teksten
Totaal
1F
5 items
4 tot 5 teksten
(2) 15 items
4 tot 6 teksten
25 items
Tabel 3.4 Toetsmatrijs aantal items per kenmerk in de taakuitvoering in de IEP Eindtoets taal- domein lezen <1F
1F
2F
Totaal
# items
# items
# teksten
# items
Techniek en woordenschat
1
2
3
6
Begrijpen6
1
5
6
12
Interpreteren6
1
4
7
12
Evalueren
1
2
3
6
n.v.t.
n.v.t.
3
3
Opzoeken
1
2
3
6
Totaal
5
15
25
45
IEP taal - domein lezen
6
Samenvatten
6
D it kenmerk wordt zowel in de zakelijke teksten als in de fictionele, narratieve en literaire teksten getoetst.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 15/59
Tabel 3.5 Toetsmatrijs aantal items per kenmerk in de taakuitvoering in de IEP taal- domein taalverzorging IEP taal - domein taalverzorging
<1F
1F
2F
Totaal
# items
# items
# items
# items
Categorieën van spellingsregels
2
6
n.v.t.
8
Lettergreepgrenzen
1
2
n.v.t.
3
n.v.t.
n.v.t.
n.v.t.
-
1
6
12
19
Werkwoordspelling
n.v.t.
4
8
12
Overige regels
n.v.t.
n.v.t.
3
3
Leestekens
1
2
2
5
Totaal
5
20
25
50
Woordgrenzen Morfologische spelling
3.2.2 Verantwoording rekenen
De toetsmatrijs rekenen is opgebouwd uit een matrijs voor de vier domeinen van rekenen met daarbij aangegeven de verhouding contextopgaven/contextloze opgaven. In tabel 3.6, tabel 3.7 en tabel 3.8 zijn deze toetsmatrijzen weergegeven. Het onderdeel rekenen van de IEP Eindtoets bestaat uit 65 items.
Tabel 3.6 Toetsmatrijs referentieniveaus per domein in de IEP Eindtoets rekenen - alle domeinen <1F
1F
1S
2F
Totaal
# items
# items
# items
# items
# items
Getallen
2
6
6
6
20
Verhoudingen
1
6
6
6
19
Meten & Meetkunde
1
4
4
4
13
Verbanden
1
4
4
4
13
Totaal
5
20
20
20
65
IEP Rekenen – alle domeinen
De verdeling van 80% contextopgaven en 20% contextloze opgaven (verdeeld over de domeinen getallen en verhoudingen) is gekozen om recht te doen aan zowel het hoofdrekenen met ‘contextloze’ bewerkingen als het rekenen in betekenisvolle situaties/ toepassingssituaties zoals beschreven in het referentiekader taal en rekenen en vereist in de algemene toetswijzer. Omdat het hoofdrekenen met hoofdbewerkingen (optellen, aftrekken, vermenigvuldigen en delen) een grote rol speelt in de referentieniveaus 1F en 1S, worden de contextloze opgaven voornamelijk op deze niveaus opgenomen. Er worden tevens enkele contextloze opgaven opgenomen op niveau <1F en referentieniveau 2F aansluitend bij de doelen uit het referentiekader rekenen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 16/59
Tabel 3.7 Vertegenwoordiging contextopgaven en contextloze opgaven in de IEP Eindtoets rekenen - alle domeinen <1F IEP Rekenen – alle domeinen
1F
1S
2F
Totaal
Context
Contextloos
Context
Contextloos
Context
Contextloos
Context
Contextloos
Context
Contextloos
# items
# items
# items
# items
# items
# items
# items
# items
# items
# items
Getallen
1
1
3
3
4
2
5
1
13/20
7/20
Verhoudingen
1
0
3
3
4
2
5
1
13/19
6/19
Meten & Meetkunde
1
0
4
0
4
0
4
0
13/13
-
Verbanden
1
0
4
0
4
0
4
0
13/13
-
Totaal
4
1
14
6
16
4
18
2
52/65
13/65
Voor het samenstellen van de IEP Eindtoets wordt aangesloten bij de verhouding waarin de vier domeinen (getallen, verhoudingen, meten & meetkunde, verbanden), drie onderdelen (A Notatie, taal en betekenis, B Met elkaar in verband brengen, C Gebruiken) en twee type opgaven (contextopgaven, contextloze opgaven) terugkomen. In tabel 3.8 (volgende pagina) is opgenomen in welke categorieën items kunnen voorkomen. Het doel is om ten minste 75% van de categorieën uit de toetsmatrijs te dekken met de definitief samengestelde IEP Eindtoets.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 17/59
Tabel 3.8 Toetsmatrijs IEP Eindtoets rekenen - alle domeinen TOETSMATRIJS IEP Eindtoets Rekenen
Totaal
*
*
1
1
2
1F
*
*
*
*
3
3
6
1S
*
*
*
*
4
2
6
2F
*
*
*
*
5
1
6
<1F
*
*
*
*
*
1
0
1
1F
*
*
*
*
*
3
3
6
1S
*
*
*
*
*
4
2
6
2F
*
*
*
*
*
5
1
6
<1F
*
*
*
1
0
1
1F
*
*
*
4
0
4
1S
*
*
*
4
0
4
2F
*
*
*
4
0
4
<1F
*
*
*
1
0
1
1F
*
*
*
4
0
4
1S
*
*
*
4
0
4
2F
*
*
*
4
0
4
13-20 (20-30%)
36-46 (55-70%)
52 (80%)
13 (20%)
5-0F 20-1F 20-1S 20-2F
*Mogelijkheid tot plaatsing items (ten minste 75% dekking).
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 18/59
Totaal
*
3-9 (5-15%)
Contextloze opagaven
*
Contextopgaven
Contextloze opagaven
Verbanden
Contextopgaven
Meten & Meetkunde
Totaal
Contextloze opagaven
Verhoudingen
C Gebruiken
Contextopgaven
Getallen
B Met elkaar in verband brengen
<1F
RN
Contextopgaven
Rekendomein
Contextloze opagaven
A Notatie, taal en betekenis
20 (30%)
19 (30%)
13 (20%)
13 (20%)
65 (100%)
3.3 Kenmerken van de toets
3.3.1 Afnamekenmerken van de IEP Eindtoets
3.3.2 Keuze voor korte-open-antwoordvragen
3.3.3 Scoringskenmerken van de IEP Eindtoets
De IEP Eindtoets is een papieren toets en bevat twee soorten opgaven: meerkeuzeopgaven en korte-open-antwoordopgaven met een gesloten antwoordmodel. De toets wordt geautomatiseerd nagekeken waarbij voor de open vragen ook een getrainde beoordelaar wordt ingezet (zie 3.3.3). Leerlingen mogen de antwoorden direct bij de opgave invullen. De IEP Eindtoets heeft daarmee geen aparte antwoordbladen waarop het antwoord moet worden aangestreept of ingevuld. Hiervoor hebben we gekozen om te voorkomen dat leerlingen fouten maken bij het koppelen van de vragen in het toetsboekje en de nummering op een antwoordblad. Voor leerlingen die al moeite hebben met lezen of concentreren vinden de leerkrachten en de leerlingen het een voordeel dat leerlingen direct in het toetsboekje kunnen werken. Deze lijn passen wij ook toe door de leesteksten (en/of bronnen) direct bij de items te plaatsen in plaats van in een apart bronnenboekje.
De keuze om ook korte-open-antwoordvragen te gebruiken komt voort uit een aantal kwaliteitsverbeteringsaspecten. Ten eerste vindt het onderwijs (lees de leerkrachten basisonderwijs) het waardevol als leerlingen zelf antwoorden moeten formuleren en opschrijven (dit bleek ook uit de evaluatie van het pilotonderzoek). Ten tweede vinden leerlingen het prettig om niet alleen maar meerkeuzevragen te moeten beantwoorden, maar ook zelf antwoorden te mogen formuleren (ook dit werd bevestigd in het pilotonderzoek). Ten derde draagt het gebruik van korte-open-antwoordvragen bij aan de betrouwbaarheid van de toets. Met name items met een lage p-waarde (de moeilijkste items) discrimineren beter als het korte-open-antwoordvragen zijn dan als het meerkeuze items zijn. Dit is verklaarbaar daar op de laatste soort door iedereen (ook goed) gegokt kan worden, maar op de eerste niet.
Om te voorkomen dat er scorings-/beoordelingsfouten gemaakt kunnen worden, worden de opgaven geautomatiseerd verwerkt. Dit gebeurt op eenzelfde manier als bij een antwoordblad: door middel van scansoftware. De ingevulde antwoorden van de leerlingen worden omgezet in een codering als het gaat om meerkeuzevragen en het ingevulde getal of de letters worden ingelezen door herkenningssoftware als het gaat om korte-openantwoordopgaven. De korte-open-antwoordvragen worden ook nog door een getrainde beoordelaar gecontroleerd. Alle numerieke waarden, tekst en twijfelgevallen worden door ervaren data-analisten geverifieerd. Op basis van deze bestanden wordt met behulp van de sleutel en het antwoordmodel een scorebestand gemaakt. Steekproefsgewijs worden de gescande databestanden als extra controle nog eens gecontroleerd met de originele ingevulde antwoorden in het toetsboekje. Ieder item dat correct beantwoord is krijgt de score 1. Een niet correct antwoord krijgt de score 0. Dit geldt voor zowel meerkeuzeopgaven als de korte-open-antwoordopgaven. De korte-open-antwoordopgaven zijn zo geconstrueerd dat het antwoord steeds in één woord of één getal gegeven kan worden. Deze worden dan beoordeeld als goed of fout (1 of 0). De ruwe score voor de afzonderlijke vaardigheden is gelijk aan het aantal goede antwoorden voor die vaardigheid.
3.3.4 Criteria toets- en itemkenmerken
De criteria voor de toets- en itemkenmerken van de IEP Eindtoets zijn de minimale of maximale waarden die zijn gehanteerd bij het samenstellen van de IEP Eindtoets na het pretestonderzoek. Deze criteria zorgen er mede voor dat de IEP Eindtoets wat betreft moeilijkheidsgraad vergelijkbaar is over jaren heen. Bij het selecteren van items voor de IEP Eindtoets zijn, zoals beschreven, de inhoudelijke criteria van groot belang. In samenhang
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 19/59
met deze inhoudelijke criteria beoordelen we ook of de toets en itemkenmerken van voldoende kwaliteit zijn. Daarbij letten we op de volgende aspecten: • de proportie correct van een item (p-waarde) bedraagt bij voorkeur tussen .10 en .90 • de items van de IEP Eindtoets hebben gemiddeld een p-waarde van rond de .70 • wanneer de proportie correct van een item (p-waarde) groter is dan .90 onderzoeken we in hoeverre het itemkenmerk samenhangt met de passendheid van het referentieniveau bij de normgroep. • de rit-waarde van een item bedraagt minimaal .20 (voor lezen en taalverzorging) en .25 voor rekenen. Gestreefd wordt naar rit-waarden die boven de .30 liggen. De gemiddelde rit-waarde van de IEP Eindtoets is bij voorkeur rond de .35 • Gestreefd wordt naar een maximum van 5% van de items in de IEP Eindtoets met een significante S-toets. De IEP Eindtoets is via equivalering zo ontwikkeld dat het voor de behaalde standaardscore geen verschil maakt in welk jaar de leerling de IEP Eindtoets maakt. De omzetting van de ruwe score naar de standaardscore houdt rekening met de moeilijkheidsgraad van de toets. De standaardscore op de IEP Eindtoets is een score op een schaal van 50 tot en met 100 en wordt schooladviesscore genoemd. Er wordt een lineaire omzetting gemaakt van de vaardigheidscores (theta’s) van de leerlingen op de onderdelen taal en rekenen naar deze standaardschaal.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 20/59
4. NORMERINGSONDERZOEK
Zoals beschreven in hoofdstuk 2 worden er voor de IEP Eindtoets voor twee interpretaties normeringen vastgesteld: 1) een domeingerichte interpretatie om het behaalde referentieniveau per vaardigheid te bepalen en 2) een normgerichte interpretatie om het schooladvies te formuleren op het niveau van het vervolgonderwijs. Het normeringsonderzoek bestaat het eerste jaar uit 3 fasen (pilotonderzoek, pretestonderzoek en afnameonderzoek) en in de vervolgafnamejaren uit 2 fasen (pretestonderzoek en afnameonderzoek). In beide vooronderzoeken (pilot en pretest) van de IEP Eindtoets zijn, voor het kunnen bepalen van de normering, items uit de referentiesets van het headstartonderzoek meegenomen. Om de IEP Eindtoets te kunnen normeren op het schooladvies werd het pretestonderzoek uitgevoerd in het voortgezet onderwijs. Op deze manier zijn scoreprofielen per onderwijsniveau c.q. normgroep in kaart gebracht.
4.1 Pilotonderzoek van de IEP Eindtoets in het basisonderwijs
De start van het constructieproces voor de IEP Eindtoets en de eerste fase van het normeringsonderzoek was de pilot die in mei 2014 is uitgevoerd onder basisschoolleerlingen van groep 8. Tijdens deze pilot zijn eigen ontwikkelde opgaven in een pilot getest bij de doelgroep van de IEP Eindtoets. Het afnamemoment van de pilot was gelijk aan het moment waarop in 2015 en de jaren daarna de IEP Eindtoets wordt afgenomen. Bij de pilot zijn er ook opgaven meegenomen uit de referentiesets voor rekenen en lezen. De pilot was bedoeld om naast kwantitatieve ook kwalitatieve gegevens te verzamelen. De leerkrachten en leerlingen is gevraagd hun mening te geven over de inhoud en vormgeving van de toetsen. Al deze bevindingen zijn meegenomen in de verdere ontwikkeling van de pretest en de eindtoets. In totaal hebben 556 leerlingen, afkomstig van 20 verschillende basisscholen uit heel Nederland, deelgenomen aan het pilotonderzoek in het basisonderwijs. Een klein aantal leerlingen heeft alleen het onderdeel rekenen of alleen het onderdeel taal gedaan.
4.2 Pretestonderzoek van de IEP Eindtoets in het voortgezet onderwijs
Het pretestonderzoek is het belangrijkste onderzoek voor de bepaling van de kwaliteit van de IEP Eindtoets en de normering. In dit hoofdstuk bespreken we de doelgroep en de opzet van het pretestonderzoek, de afname en de analyses van de data .
4.2.1 Doelgroep van het pretestonderzoek
4.2.2 Opzet van het pretestonderzoek
4.2.3 Normgroepen pretest
Het pretestonderzoek is afgenomen in de periode na de zomervakantie tot aan de herfstvakantie (week 38 t/m week 42 van 2014). Aan het pretestonderzoek hebben leerlingen meegedaan die net uit groep 8 zijn overgegaan naar het voortgezet onderwijs en geplaatst zijn in een leerweg. Deze leerlingen lijken in deze periode nog erg op de leerlingen die straks ook aan de echte afname van de IEP Eindtoets deelnemen.
Het pretestonderzoek is zo opgezet dat alle 1e klas vo-leerlingen, ongeacht schoolniveau en Cito-standaardscores, dezelfde verdeling van opgaven per referentieniveau in een IEP reken- en taalboekje voorgelegd kregen. De samenstelling van de pretestboekjes bestond uit sets van verschillende pretestboekjes, die per set samen een hele IEP Eindtoets representeren. Ten behoeve van de psychometrische analyses zijn de verschillende pretestboekjes via ankering aan elkaar en aan de pilotboekjes gekoppeld. Naast de IEP Eindtoets-items werden ook bij alle normgroepen de referentieset-items afgenomen.
De pretest werd afgenomen in het eerste jaar vo. De pretestgroep is samengesteld conform een representatieve samenstelling van 7 normgroepen (onderwijsniveaugroepen
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 21/59
zoals gehanteerd door vo-scholen bij de indeling van de groepen in het basisjaar). De representativiteit van de normgroepen is bepaald op basis van leeftijd, sekse en regio. In tabel 4.1 is de indeling van de zeven normgroepen weergegeven.
Tabel 4.1 Indeling normgroepen voor pretestonderzoek IEP Eindtoets Normgroep
Schooltype vo
Normgroep 1
vmbo-b en vmbo k/b
Normgroep 2
vmbo-k en vmbo-k/t
Normgroep 3
vmbo-t
Normgroep 4
vmbo-t/havo
Normgroep 5
havo
Normgroep 6
havo-vwo
Normgroep 7
vwo
4.2.4 Doelen pretestonderzoek
4.2.5 Analyse en resultaten pretestonderzoek
4.2.6 Normering referentieniveaus taal en rekenen
4.2.7 Normering schooladvies vo
Het pretestonderzoek dient verschillende doelen. Op basis van de pretestdata wordt: • de IEP Eindtoets 2014-2015 samengesteld; • de kwaliteit van de IEP Eindtoets voor afname verantwoord; • de normeringen van de IEP Eindtoets bepaald; • de representativiteit en generaliseerbaarheid van het pretestonderzoek bepaald (door o.a. biasonderzoek op de samenstelling van de normgroepen).
Analyse van de resultaten heeft middels meerdere methoden plaatsgevonden. Er zijn toets- en itemanalyses (TIA’s) gedraaid en er is gebruik gemaakt van modellen voor item respons theorie (IRT) voor de (domeingerichte) normering en het biasonderzoek. De methodiek(en) om specifiek de kwaliteitsaspecten betrouwbaarheid en validiteit van de IEP Eindtoets te onderzoeken en te verantwoorden zijn in hoofdstuk 5 nader toegelicht.
Voor de normering van de referentieniveaus taal en rekenen is gebruik gemaakt van de referentieset-items uit het headstartonderzoek. Door middel van equivalering zijn de normen van de referentiesets overgezet op de IEP Eindtoets items. Daarbij is ons uitgangspunt dat een leerling 2F alleen kan behalen als er voldoende opgaven op 1F zijn behaald. Daarvoor hebben we het minimum aantal 1F items dat behaald moet worden werd gelijkgesteld met de ondergrens van de 95% betrouwbaarheidsinterval van de grensscore van 1F referentieniveau op de 1F items. Voor taalverzorging zijn op dit moment nog geen referentiesets aanwezig en is een cesuur van 75% gekozen geijkt op de cesuurstelling van taalverzorgingstoetsen in het vo en mbo.
Voor het bepalen van het schooladvies worden de ruwe scores (de theta’s) op alle drie de onderdelen (rekenen, lezen en taalverzorging) lineair getransformeerd naar de normschaal van 50 tot en met 100 standaardscorepunten. Het doel van het bepalen van de wijze van scoretransformatie is om de scoreverdeling per normgroep zo discriminerend en karakteristiek als mogelijk voor iedere normgroep te maken. Omdat het pretestonderzoek in het vo is uitgevoerd, werden de leerlingen per definitie in één van de zeven normgroepen ingedeeld. Uit de resultaten is gebleken dat de scoreverdelingen van de verschillende normgroepen (grote) overlap vertonen. Op basis IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 22/59
van onze ruime ervaringen met taal- en rekentoetsen in het vo en mbo vermoeden wij dat de stijging van de beheersing per vaardigheid niet per definitie parallel loopt aan de hiërarchie van de onderwijsschooltypen. De resultaten van de pretest bevestigen dit beeld.
4.3 Rapportage resultaten pretestonderzoek
In deze paragraaf beschrijven we de belangrijkste resultaten van het pretestonderzoek.
4.3.1 Afname pretest
In totaal hebben 2.986 leerlingen in 123 klassen, afkomstig van 25 verschillende vo-scholen uit heel Nederland, deelgenomen aan het pretestonderzoek. Tabel 4.2 en 4.3 tonen voor taal en rekenen een overzicht van het aantal observaties per boekje. Voor zowel taal als voor rekenen ligt het aantal observaties per boekje ver boven het vereiste minimum aantal observaties per item (van de referentie-items schommelt het totaal aantal observaties tussen 300 en 500, pilot en pretest bij elkaar opgeteld).
Tabel 4.2 Overzicht aantal observaties per pretestboekje voor taal Taal
IEP Eindtoets pretest 2014
Referentieset-items
Aantal scholen
Aantal klassen
Aantal observaties
Taaltaak boekje 1
17
33
739
Taaltaak boekje 2
20
34
743
Taaltaak boekje 3
18
34
755
Taaltaak boekje 4
19
35
749
Totaal
24
120
2986
Referentieset boekje 1
9
15
310
Referentieset boekje 2
9
17
405
Referentieset boekje 3
9
16
376
Totaal
15
47
1091
Het totaal is niet de som van de kolom omdat scholen soms meerdere boekjes bij dezelfde klas hebben afgenomen.
Tabel 4.3 Overzicht aantal observaties per pretestboekje voor rekenen Rekenen
IEP Eindtoets pretest 2014
Referentieset-items
Aantal scholen
Aantal klassen
Aantal observaties
Rekentaak boekje 1
17
31
649
Rekentaak boekje 2
17
31
695
Rekentaak boekje 3
17
30
631
Rekentaak boekje 4
14
30
623
Totaal
22
106
2598
Referentieset boekje 1
7
12
254
Referentieset boekje 2
7
13
327
Referentieset boekje 3
6
13
233
Totaal
11
38
814
Het totaal is niet de som van de kolom omdat scholen soms meerdere boekjes bij dezelfde klas hebben afgenomen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 23/59
4.3.2 Kenmerken van de pretestpopulatie
Van de 25 deelnemende scholen zijn 19 vo-scholen gevestigd in stedelijke gemeenten (>1.000 inwoners km2), en 6 vo-scholen gevestigd in plattelandsgemeenten (<1.000 inwoners km2). Verder zijn 14 van de 25 scholen katholiek, 5 christelijk (protestants christelijk, gereformeerd of reformatorisch), 3 openbaar en 3 algemeen bijzonder of vallen onder een PC/RK/AB-samenwerkingsverband. De spreiding van deelnemende scholen in Nederland is weergegeven in schoolregio’s. Voor het onderdeel taal in tabel 4.4 en voor rekenen in tabel 4.5.
Tabel 4.4 Overzicht van het aantal pretestleerlingen per taaltaakboekje per regio Schoolregio7 Noord
Midden
Zuid
Totaal
Taaltaak boekje 1
Aantal %
127 17,2%
384 52%
228 30,8%
739
Taaltaak boekje 2
Aantal %
106 14,3%
327 44%
310 41,7%
743
Taaltaak boekje 3
Aantal %
130 17,2%
343 45,4%
282 37,4%
755
Taaltaak boekje 4
Aantal %
176 23,5%
227 30,3%
346 46,2%
749
Totaal
Aantal %
539 18,1%
1281 42,9%
1166 39%
2986 100%
Landelijke spreiding
Aantal %
350100 36%
398313 41%
223490 23%
971903 100%
Tabel 4.5 Overzicht van het aantal pretestleerlingen per rekentaakboekje per regio Schoolregio Noord
Midden
Zuid
Totaal
Rekentaak boekje 1
Aantal %
135 20,8%
185 28,5%
329 50,7%
649
Rekentaak boekje 2
Aantal %
159 22,9%
184 26,5%
352 50,6%
695
Rekentaak boekje 3
Aantal %
115 18,2%
219 34,7%
297 47,1%
631
Rekentaak boekje 4
Aantal %
124 19,9%
263 42,2%
236 37,9%
623
Totaal
Aantal %
533 20,5%
851 32,8%
1214 46,7%
2598 100%
Landelijke spreiding
Aantal %
350100 36%
398313 41%
223490 23%
971903 100%
In paragraaf 4.2.3 is de verdeling van de normgroepen beschreven. Hoe de verdeling van deelnemende leerlingen over de 7 normgroepen is, is weergegeven in tabel 4.6 en tabel 4.7. 7
O nder schoolregio Noord rekenen wij scholen uit de provincies Groningen, Friesland, Drenthe, Overijssel, Noord-Holland en Flevoland, onder Midden rekenen wij Gelderland, Utrecht en ZuidHolland en onder Zuid rekenen wij Zeeland, Noord-Brabant en Limburg.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 24/59
Tabel 4.6 Overzicht van het aantal pretestleerlingen per taaltaakboekje naar normgroep Normgroep
1 vmbob + k/b
2 vmbok + k/t
3 vmbo-t
4 vmbo-t/ havo
5 havo
6 havovwo
7 vwo
Totaal
Taaltaak boekje 1
Aantal %
28 3,8%
101 13,7%
133 18%
177 23,9%
126 17,1%
154 20,8%
20 2,7%
739 24,7%
Taaltaak boekje 2
Aantal %
73 9,8%
92 12,4%
161 21,7%
56 7,5%
118 15,9%
147 19,8%
96 12,9%
743 24,9%
Taaltaak boekje 3
Aantal %
60 7,9%
127 16,8%
98 13%
99 13,1%
120 15,9%
162 21,5%
89 11,8%
755 25,3%
Taaltaak boekje 4
Aantal %
58 7,7%
106 14,2%
176 23,5%
84 11,2%
106 14,2%
123 16,4%
96 12,8%
749 25,1%
Totaal
Aantal %
219 7,3%
426 14,3%
568 19%
416 13,9%
470 15,7%
586 19,6%
301 10,1%
2986 100%
Landelijke spreiding8
Aantal %
62742 19,1%
66662 20,3%
36124 11%
28696 8,7%
65642 20%
16488 5%
52061 15,9%
328415 100%
7 vwo
Totaal
Tabel 4.7 Overzicht van het aantal pretestleerlingen per rekentaakboekje naar normgroep Normgroep
1 vmbob + k/b
2 vmbok + k/t
3 vmbo-t
4 vmbo-t/ havo
5 havo
6 havovwo
Taaltaak boekje 1
Aantal %
72 11,1%
128 19,7%
147 22,7%
46 7,1%
111 17,1%
62 9,6%
83 12,8%
649 25%
Taaltaak boekje 2
Aantal %
68 9,8%
107 15,4%
114 16,4%
54 7,8%
89 12,8%
182 26,2%
81 11,7%
695 26,7%
Taaltaak boekje 3
Aantal %
44 7%
97 15,4%
173 27,4%
68 10,8%
100 15,8%
114 18,1%
35 5,5%
631 24,3%
Taaltaak boekje 4
Aantal %
41 6,6%
84 13,5%
71 11,4%
88 14,1%
131 21%
167 26,8%
41 6,6%
623 24%
Totaal
Aantal %
225 8,7%
416 16%
505 19,4%
256 9,9%
431 16,6%
525 20,2%
240 9,2%
2598 100%
Landelijke spreiding8
Aantal %
62742 19,1%
66662 20,3%
36124 11%
28696 8,7%
65642 20%
16488 5%
52061 15,9%
328415 100%
Na de gehele pretestperiode bereikten we door het totaal aantal uitgezette observaties in alle normgroepen voldoende aantallen en een redelijk evenwichtige verdeling. De normgroepen zijn voor het bepalen van het schooladvies een belangrijke indicator. Om die reden is ook de behaalde cito-score van de deelnemende leerlingen opgevraagd. In tabel 4.8 is per normgroep de gemiddelde cito-score weergegeven van de leerlingen die meededen. We zien dat de keuze voor schooltype verantwoord wordt door de cito-scores van groep 8: de cito-scores laten een oplopend patroon zien, conform de oplopende schooltypen in het vo. 8
G etallen gaan over leerlingen uit de eerste drie leerjaren – exclusief de relatief grote groep leerlingen die schooltype vmbo-t/havo/vwo volgen
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 25/59
Tabel 4.8 Indeling normgroepen voor pretestonderzoek IEP Eindtoets Normgroep
Schooltype vo
Gemiddelde Cito-score groep 8
Normgroep 1
vmbo-b en vmbo k/b
517
Normgroep 2
vmbo-k en vmbo-k/t
528
Normgroep 3
vmbo-t
532
Normgroep 4
vmbo-t/havo
534
Normgroep 5
havo
540
Normgroep 6
havo-vwo
542
Normgroep 7
vwo
547
Score 537 is de gemiddelde cito-score van de pretestpopulatie 1e klas vo ongeacht verdeling over normgroepen.
Aan de pretest hebben in totaal ongeveer evenveel jongens als meisjes meegedaan: te weten 1477 jongens en 1263 meisjes. Van 56 leerlingen is het geslacht van de leerling niet doorgegeven door de school. De verdeling jongens en meisjes per pretestboekje is weergegeven in tabel 4.9 en tabel 4.10.
Tabel 4.9 Overzicht van aantal pretestleerlingen per taaltaakboekje naar geslacht Geslacht Jongen
Meisje
Onbekend
Totaal
Taaltaak boekje 1
Aantal %
365 49,4%
368 49,8%
6 0,8%
739
Taaltaak boekje 2
Aantal %
409 55%
331 44,5%
3 0,4%
743
Taaltaak boekje 3
Aantal %
417 55,2%
337 44,6%
1 0,1%
755
Taaltaak boekje 4
Aantal %
403 53,8%
339 45,3%
7 0,9%
749
Totaal aantal observaties
Aantal %
1594 53,4%
1375 46%
17 0,6%
2986 100%
Tabel 4.10 Overzicht van aantal pretestleerlingen per rekentaakboekje naar geslacht Geslacht Jongen
Meisje
Onbekend
Totaal
Rekentaak boekje 1
Aantal %
346 53,3%
302 46,5%
1 0,2%
649
Rekentaak boekje 2
Aantal %
377 54,2%
307 44,2%
11 1,6%
695
Rekentaak boekje 3
Aantal %
316 50,1%
280 44,4%
35 5,5%
631
Rekentaak boekje 4
Aantal %
306 49,1%
283 45,4%
34 5,5%
623
Totaal aantal observaties
Aantal %
1345 51,8%
1172 45,1%
81 3,1%
2598 100%
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 26/59
4.4 Analyse en samenstelling van de IEP Eindtoets
Op basis van de afnames van de pretest zijn er verschillende analyses uitgevoerd. Allereerst rapporteren we middels een TIA de gemiddelde ruwe score per groep, de standaarddeviatie en standaardfout, de gemiddelde p-waarde, de gemiddelde rit-waarde en de betrouwbaarheid (Cronbach’s Alpha). Op basis van de TIA en OPLM analyses hebben we de eindversie van de IEP Eindtoets samengesteld die voldoet aan voorwaarden beschreven in paragraaf 3.3.4.
4.4.1 Toets- en Itemanalyse (TIA)
Met toets- en itemanalyses is er een eerste indruk verkregen van het gedrag van de afzonderlijke items en de verschillende pretest boekjes als geheel. In de prestest vormen de taal- en rekenboekjes 1 en 2 samen één IEP Eindtoets, net als de taal- en rekenboekjes 3 en 4. In tabel 4.11 zijn de toetsparameters per vaardigheid en per combinatie van de IEP Eindtoets weergegeven: taal boekje 1 + 2 en boekje 3 + 4 en rekenen boekje 1 + 2 en boekje 3 + 4. Voor deze combinaties geldt dat alleen observaties zijn meegenomen in de analyse van leerlingen die beide boekjes van een vaardigheid hebben gemaakt. Deze toetsparameters hebben betrekking op de complete toetsboekjes zoals ze afgenomen zijn, dus zonder dat er items die zich ondermaats gedroegen uit de analyse verwijderd zijn.
Tabel 4.11 Overzicht toetsparameters IEP Eindtoets lezen, taalverzorging en rekenen IEP Eindtoets Lezen*
N
Max.score
Gem.Score
Std
SE
Gem. P
Gem. Rit
Alpha
Toets 1: boekje 1 + 2
111
46
33,87
6,11
2,56
73,64
0,35
0,82
Toets 2: boekje 3 + 4
166
46
33,85
7,19
2,49
73,59
0,42
0,88
Max.score
Gem.Score
Std
SE
Gem. P
Gem. Rit
Alpha
IEP Eindtoets Taalverzorging* N Toets 1: boekje 1 + 2
105
50
35,08
6,94
2,77
70,15
0,36
0,84
Toets 2: boekje 3 + 4
161
50
35,88
6,89
2,75
71,76
0,36
0,84
IEP Eindtoets Rekenen
N
Max.score
Gem.Score
Std
SE
Gem. P
Gem. Rit
Alpha
Toets 1: boekje 1 + 2
156
65
34,85
12,06
3,30
53,62
0,43
0,93
Toets 2: boekje 3 + 4
131
65
35,41
11,39
3,36
54,48
0,40
0,91
* Lezen en taalverzorging worden gecombineerd afgenomen in 1 toetsboekje IEP Eindtoets taal. Omwille van de transparantie zijn hier de scores per vaardigheid gerapporteerd als losse boekjes.
De maximumscore in de tabel geeft het aantal items aan. Voor alle drie de vaardigheden geldt dat de gemiddelde scores, de betrouwbaarheid en de mate van discriminatie nagenoeg vergelijkbaar zijn tussen de twee toetsen/combinaties van boekjes. Verder blijkt dat bij een relatief lage N (105 > N < 166) de betrouwbaarheid per toets hoog is (α > 0,82) en dat elke toets goed onderscheid maakt tussen leerlingen met hoge en leerlingen met lage toetsscores (Rit> 0,35).
4.4.2 Samenstelling IEP Eindtoets (en analyses OPLM)
Met OPLM zijn de itemparameters geschat voor de items van de IEP Eindtoets. Daarbij zijn de discriminatiewaarde en moeilijkheid van de referentieset-items gefixeerd. Voordat de OPLM-analyses zijn uitgevoerd, is de dataset opgeschoond. Dat betekent dat leerlingen die bij één toetsonderdeel meer dan 15% van het totale aantal gemaakte items niet hebben ingevuld, voor het betreffende toetsonderdeel niet zijn meegenomen in de analyses. De data van een leerling die bijvoorbeeld bij 2% van taaltaakboekje 3 en 18% van taaltaakboekje 4 niet heeft ingevuld (totaal 10% missing data), wordt dus wel meegenomen in de analyse.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 27/59
IEP Eindtoets Bij het selecteren van items voor de IEP Eindtoets zijn, zoals beschreven, de inhoudelijke criteria van groot belang. In samenhang met deze inhoudelijke criteria beoordelen we ook of de toets en itemkenmerken van voldoende kwaliteit zijn. Daarbij letten we op de volgende aspecten (deze zijn ook beschreven in paragraaf 3.3.4): • de proportie correct van een item (p-waarde) bedraagt bij voorkeur tussen .10 en .90; • de items van de IEP Eindtoets hebben gemiddeld een p-waarde van rond de .70; • wanneer de proportie correct van een item (p-waarde) groter is dan .90 onderzochten we in hoeverre het itemkenmerk samenhangt met de passendheid van het referentieniveau bij de normgroep; • de rit-waarde van een item bedraagt minimaal .20 (voor lezen en taalverzorging) en .25 voor rekenen. Gestreefd wordt naar rit-waarden die boven de .30 liggen. De gemiddelde rit-waarde van de IEP Eindtoets is bij voorkeur rond de .35; • Gestreefd wordt naar een maximum van 5% van de items in de IEP Eindtoets met een significante S-toets. Deze richtlijnen voor samenstelling zijn gehanteerd om de IEP Eindtoets 2014/2015 samen te stellen op basis van de dataset van de pretest. In de IEP Eindtoets 2014/2015 zijn 8 items 1F lezen en 6 items 2F lezen met een p-waarde hoger dan .90 opgenomen. Voor taalverzorging zijn dat 9 items 1F taalverzorging en 7 items 2F taalverzorging. Er is 1 item 1F rekenen opgenomen met een p-waarde hoger dan .90. De items met een p-waarde van boven de .90 zijn behouden omdat zij voldoen aan de eisen van voldoende discriminerend vermogen (Rit-waarde) en aan de toetsmatrijs conform de inhoudelijke eisen van het referentiekader. We voldoen daarmee aan zowel de inhoudelijke als de psychometrische eisen zoals beschreven. De gemiddelde p-waarde bij taalverzorging en lezen ligt een fractie hoger dan de gewenste waarde van .70, te weten .79 voor taalverzorging en .81 voor lezen. Bij rekenen ligt de gemiddelde p-waarde lager, namelijk op .59 De rit-waarden van alle items lezen en taalverzorging liggen allen boven het minimum van .20. Er is 1 item 1F rekenen en 1 item 1S rekenen met een Rit-waarde onder .25, maar ook voor deze 2 items blijft de Rit-waarde boven de .20. Het streven om maximaal 5% van de items met een significante S-toets (P(χ2)<0.05) op te nemen wordt voor taalverzorging gehaald; voor taalverzorging zijn dat 2 items (bij 1 item kon de waarde van de S-toets niet bepaald worden en bij 1 item was de waarde onder .05). Voor lezen zijn dat 5 items. Bij rekenen ligt dit aantal items hoger, namelijk op 9. Zowel voor lezen en taalverzorging als voor rekenen voldoet de versie van de IEP Eindtoets 2014/2015 naast de psychometrische criteria volledig aan de inhoudelijke eisen die in de algemene toetswijzer worden gesteld. In de tabellen 4.12 tot en met 4.15 zijn de toetsrationales (een toetsrationale is de toetsmatrijs ingevuld op basis van de samengestelde toets) weergegeven die voldoen aan de opgestelde toetsmatrijzen (aanpassingen zijn gemarkeerd met een asterisk en vallen binnen de regels van 5% marge voor afwijkingen).
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 28/59
Tabel 4.12 Toetsrationale van de conceptversie IEP Eindtoets: aantal teksten en gemiddeld bijbehorend aantal items per soort tekst in de IEP Eindtoets taal- domein lezen IEP taal - domein lezen (basistoets) Informatieve teksten Zakelijke teksten
Instructieve teksten Betogende teksten
Fictionele, narratieve en literaire teksten
Daarnaast vrij in te delen binnen bovenstaande tekstsoorten
<1F # teksten
ten minste 2 teksten van 2 verschillende tekstsoorten
# items
gemiddeld 2 items per tekst
2F
# teksten
# items
ten minste 1 tekst
# teksten
# items
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
ten minste 1 tekst
gemiddeld 3 per tekst
ten minste 1 tekst
gemiddeld 4 per tekst
(1) 2 tot 3 teksten
Totaal
1F
(1)
5 items
(2)
4 tot 5 teksten
4 tot 6 teksten → 7 teksten*
15 items
25 items
* aantal wijkt af van toetsmatrijs binnen marge van 5%
Tabel 4.13 Toetsrationale van de conceptversie IEP Eindtoets: aantal items per kenmerk in de taakuitvoering in de IEP Eindtoets taal- domein lezen IEP taal - domein lezen (basistoets)
<1F
1F
2F
# opgaven
# opgaven
# opgaven
# opgaven
%
Techniek en woordenschat*
1→0
2
3→1
6→3
13 → 7
Begrijpen*
1→3
5
6 → 10
12 → 18
27 → 40
Interpreteren*
1→2
4
7
12 → 13
27 → 29
Evalueren*
1→0
2
3→2
6→4
13 → 9
Samenvatten*
n.v.t.
n.v.t.
3→2
3→2
7→4
Opzoeken*
1→0
2
3
6→5
13 → 11
5
15
25
45
100
Totaal
* aantal binnen deze categorie wijkt af van toetsmatrijs binnen marge van 5%
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 29/59
Totaal
Tabel 4.14 Toetsrationale van de conceptversie IEP Eindtoets: aantal items per kenmerk in de taakuitvoering in de IEP Eindtoets taal- domein taalverzorging IEP taal - domein taalverzorging (basistoets)
<1F
1F
2F
# items
# items
# items
# items
%
Categorieën van spellingsregels
2
6
n.v.t.
8
16
Lettergreepgrenzen
1
2
n.v.t.
3
6
n.v.t.
n.v.t.
n.v.t.
-
-
1
6→5
12 → 9
19 → 15
38 → 30
Werkwoordspelling
n.v.t.
5
8→9
13 → 14
24 → 28
Overige regels
n.v.t.
n.v.t.
3→4
3→4
6→8
Leestekens
1
2
2→3
5→6
10 → 12
Totaal
5
20
25
50
100
Woordgrenzen Morfologische spelling
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 30/59
Totaal
Aantal items
1
2 →3*
3
2
5
2
6 →7*
2
1
2
3
2
6 →5*
1
3
2
5
2
6 →7*
15 (68%)
7 (32%)
20→22
1
0
1
1F
2
1S
Totaal GE
1 <1F
7
14
1
1F 1S
1
2F Totaal VH
1
1
4
1
4
2
6
1
3
1
4
2
6
3
2
3
2
6→5*
12 (67%)
6 (33%)
20→18
0
0
1→0*
3
14
<1F Meten & Meetkunde
1F
2
3
5
0
4→5*
1S
1
3
4
0
4
2
2
5
0
4→ 5*
14
0
13→14
1
0
1)
2F Totaal MM
Verbanden
1 1
5
<1F
1
1F
1
1
2
0
4→2*
1S
2
3
5
0
4→5*
3
3
0
4→3*
2F Totaal VB
Totaal
8
0
4
7
11
0
13→11
3 (5%)
19 (29%)
43 (66%)
52 (80%)
13 (20%)
5-0F 20-1F 20-1S 20-2F
* aantal wijkt af van toetsmatrijs binnen marge van 5%
De concept IEP Eindtoets is gekalibreerd door de discriminatiewaarden te imputeren vanuit OPCAT en daarna de itemparameters te schatten. De discriminatiewaarden en moeilijkheid van de referentieset-items zijn ingevoerd in het model en gefixeerd zoals aangeleverd in het kader van het headstartonderzoek. Significante afwijkingen tussen de
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 31/59
Totaal
Contextloze opagaven
Contextopgaven
2
Contextloze opagaven
1
2
1
Totaal
Contextopgaven
C Gebruiken
<1F
2F
Verhoudingen
B Met elkaar in verband brengen
Contextloze opagaven
Getallen
RN
Contextloze opagaven
Rekendomein
Contextopgaven
A Notatie, taal en betekenis
Contextopgaven
Tabel 4.15 Toetsrationale van conceptversie IEP Eindtoets: aantal items per domein van de IEP Eindtoets rekenen
22 (34%)
18 (28%)
14 (22%)
14
11 (17%)
65 (100%)
voorspelde proportie juiste antwoorden en geobserveerde proportie juiste antwoorden (S-toets), lage discriminatiewaarde en grote standaardfout van de moeilijkheid waren de criteria aan de hand waarvan items zijn verworpen. De uiteindelijke kalibratie is uitgevoerd met de geselecteerde referentieset-items (15 items per referentieniveau) en de items geselecteerd voor de concept IEP Eindtoets. Om evidentie van de passendheid van het model te verkrijgen hebben we de 95% betrouwbaarheidsintervallen van de moeilijkheidsparameter van items (β) berekend. De betrouwbaarheidsintervallen zijn grotendeels gelijkwaardig. In onderstaande figuur 4.1, figuur 4.2 en figuur 4.3 zijn de 95% betrouwbaarheidsintervallen van de moeilijkheidsparameters (β) voor de drie vaardigheden lezen, taalverzorging en rekenen weergegeven.
Figuur 4.1 95% betrouwbaarheidsintervallen van moeilijkheidsparameters (β) voor de vaardigheid lezen
Figuur 4.2 95% betrouwbaarheidsintervallen van moeilijkheidsparameters (β) voor de vaardigheid taalverzorging
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 32/59
Figuur 4.3 95% betrouwbaarheidsintervallen van moeilijkheidsparameters (β) voor de vaardigheid rekenen
4.4.3 Normering referentieniveaus taal en rekenen
In verband met het headstartonderzoek referentiesets is berekend hoeveel procent van de deelnemers een referentieniveau zou beheersen als de cesuur behorende bij de referentieset-items overgezet wordt naar de items van de IEP Eindtoets. In deze paragraaf zal voor elke vaardigheid, respectievelijk lezen, taalverzorging en rekenen, worden beschreven hoe we met behulp van de grensscore-systematiek de cesuren kiezen voor de IEP Eindtoets, en welke effecten dat heeft op de populatie van de pretest.
Grensscoreberekening lezen Voor de vaardigheid lezen is in tabel 4.16 aangegeven bij hoeveel items van de referentieset welke grensscore wordt gehanteerd volgens de BerekenGrensscoremodule uit het headstartonderzoek. Ook is aangegeven welke vaardigheidsscore (theta) overeenkomt met de gefixeerde itemparameters in OPLM. Tabel 4.16 Grensscores lezen van de set referentieset-items Lezen Grensscore referentieset-items Theta bij grensscore referentieset-items
Ref 1F (N=15)
Ref 2F (N=15)
9,6
11,9
-0,0502
0,2681
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 33/59
De theta-waarden gepresenteerd in tabel 4.16 zijn vervolgens overgezet naar de vaardigheidsschaal van de IEP Eindtoets om de grensscores te kunnen bepalen. Dit is uitgevoerd voor de itemset 1F en itemset 2F afzonderlijk, en voor de itemset 1F+2F (waarbij de 5 items op niveau <1F buiten beschouwing zijn gelaten en dus geen enkele rol spelen in de cesuur voor 1F of 2F), zoals in tabel 4.17 is weergegeven.
Tabel 4.17 Cesuren op niveau 1F en niveau 2F voor de IEP Eindtoets lezen IEP Eindtoets lezen Cesuur 1F
Cesuur 1F
Cesuur 2F
Cesuur 2F
Itemset
1F
1F+2F
2F
1F+2F
Aantal items in itemset
15
40
25
40
Score cesuur
10
24
19
32
66,67%
60,00%
76,00%
80,00%
Percentage correct cesuur
De grensscore van de 1F-cesuur (θ=-0,0502) komt overeen met een score 10/15 items als de cesuur wordt bepaald op basis van itemset 1F (66,67% van itemset 1F goed beantwoord) en komt overeen met een score 24/40 items als de cesuur wordt bepaald op basis van itemset 1F+2F (60% van alle items goed beantwoord). De grensscore van de 2F-cesuur (θ=0,2681) komt overeen met een score 19/25 items als de cesuur wordt bepaald op itemset 2F (76,00% van itemset 2F goed beantwoord) en komt overeen met een score 32/40 items als de cesuur wordt bepaald op basis van itemset 1F+2F (80% van alle items goed beantwoord). Om voldoende beheersing van referentieniveaus vast te stellen gaan we ervan uit dat we leerlingen het meest recht doen als de beheersing van een referentieniveau niet alleen op basis van de items van de betreffende referentieniveau (beheersing 1F op 1F items en beheersing 2F op 2F items), maar ook op alle items (beheersing niveau 1F op 1F en 2F items en beheersing 2F op 1F en 2F items gezamenlijk) aangetoond mag worden. Op deze manier wordt voorkomen dat leerlingen met verschillende vaardigheidsprofielen worden benadeeld. Bij het aantonen van beheersing niveau 1F mogen minder vaardige leerlingen niet benadeeld worden door de ‘moeilijkere’ items 2F die zij niet beheersen. Maar ook meer vaardige leerlingen mogen niet benadeeld worden wanneer zij onvoldoende aandacht besteden aan de voor deze doelgroep te makkelijke 1F items. Daarom is ervoor gekozen om van voldoende beheersing van een referentieniveau te spreken als is aangetoond dat één van twee grensscores is behaald. Om ervoor te zorgen dat referentieniveau 1F in de basis aangetoond is, is er bij lezen een ondergrens gekozen voor het aantal 1F items dat een leerling goed moet doen bij de beheersing van 2F. Haalt de leerling bijvoorbeeld niet de 1F-cesuur op itemset 1F (10/15 items) maar wel de 2F-cesuur op de itemset 2F (19/25 items), dan geldt dat deze leerling wel een minimale hoeveelheid items op niveau 1F goed moet hebben, en dus op niveau 1F een beheersingsgraad laat zien van minimaal -0,0502 – (1,96*SE) wat overeenkomt met 6 scorepunten van de maximaal te behalen 15 op de itemset 1F. We hebben de bovenstaande cesuren overgezet op de gehele dataset van de pretest, en de deeldatasets van de normgroepen om inzicht te krijgen in het aantal beheersers per referentieniveau. De resultaten hiervan zijn weergegeven in de figuren 4.4 en 4.5.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 34/59
Figuur 4.4 Lezen; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren
Figuur 4.5 Lezen; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren per normgroep
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 35/59
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 36/59
Cesuurbepaling taalverzorging Voor taalverzorging is op het moment van het pretestonderzoek nog geen referentieset beschikbaar gesteld. Daarom zijn voor de normering de aantallen en percentages beheersers berekend bij een score van 75%, zoals in de pilot is onderbouwd. Voor de onderdelen waarvoor geen referentiesets beschikbaar zijn (taalverzorging en niveau <1F) zijn voor de normering de aantallen en percentages beheersers in de pilot berekend zowel bij een score van 75% als bij de grensscore. Hierbij is het uitgangspunt dat een leerling als hij 75% van de items die een bepaald niveau meten correct maakt, deze denkbeeldige leerling kan worden beschouwd als beheerser van dat referentieniveau, en de cesuren die horen bij de verschillende referentieniveaus met elkaar vergeleken kunnen worden. De grensscore van 75% is in dit geval gekozen als exploratieve waarde vanuit de ervaring met onze TOA taal- en rekentoetsen. Per vaardigheid en niveau verschillen de grensscores, waarbij de 75% een gemiddelde is van de aan de hand van de vergelijking tussen centraal ontwikkelde examens (coe’s) en TOA resultaten gevalideerde grensscores van onze 2F en 3F TOA toetsen. Bij deze cesuurberekening is eerst de exacte waarde van de vaardigheid berekend en vervolgens is deze afgerond naar het dichtstbijzijnde hele scorepunt. Hiernaast is ook naar de eerstvolgende bovenliggende waarde van de vaardigheid gekeken. Als de afgeronde waarde en de bovenliggende waarde een heel scorepunt verschilt, zijn de aantallen en percentages beheersers voor beide berekend. Voor de cesuur bij een score van 75% voor itemset 1F en itemset 2F is berekend welke theta’s daarmee overeenkomen. In tabel 4.18 is dit weergegeven. Het principe van cesuurbepaling en de vaststelling van beheersing van een referentieniveaus komt verder overeen met de grensscoreberekening voor lezen.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 37/59
Tabel 4.18 Cesuren voor referentieniveau 1F en 2F taalverzorging Concept IEP Eindtoets Taalverzorging Cesuur 1F
Cesuur 1F
Cesuur 2F
Cesuur 2F
Itemset
1F
1F+2F
2F
1F+2F
Aantal items itemset
20
45
25
45
75%
64,44%
75%
80%
Score cesuur
15
29
18,75
36
Theta cesuur
0,135
0,135
0,314
0,314
Percentage correct van # items
Deze theta’s zijn overgezet naar de itemset 1F+2F om de grensscores 1F en 2F te bepalen op de hele itemset. Net als bij lezen, is bij taalverzorging ervoor gekozen om beheersing van referentieniveaus aan te kunnen tonen door of de grensscore te behalen voor alleen de items van dat referentieniveau of door de grensscore van dat referentieniveau te halen voor alle items, met de vereiste dat er een vastgestelde minimum aantal 1F items goed gemaakt moeten zijn (11 van 20 1F items). De overzetting van deze cesuren op de gehele dataset van de pretest en op de afzonderlijke normgroepen resulteerde in het beeld weergegeven in de figuren 4.6 en 4.7:
Figuur 4.6 Taalverzorging; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 38/59
Figuur 4.7 Taalverzorging; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren per normgroep
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 39/59
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 40/59
Observaties beheersing referentieniveaus lezen versus taalverzorging Zoals blijkt uit bovenstaande analyses is, bij de vastgestelde cesuren voor de referentieniveaus, het aantal leerlingen dat het onderdeel taalverzorging beheerst op niveau 2F lager dan het aantal beheersers 2F lezen in de normgroepen 1 t/m 4 en 6, maar is bijna gelijk in normgroepen 5 en 7. Deze resultaten zijn vergelijkbaar met de scores die Cito (2011) rapporteert in haar Monitor taal en rekenen 2010: laatstejaars vmbo’ers en mbo’ers scoren voor 1F, maar met name voor 2F lager op taalverzorging dan op lezen. Wij vertrouwen erop dat we met deze cesuurbepaling handelen in lijn met het beeld dat Cito rapporteert. Grensscoreberekening rekenen Voor rekenen is in tabel 4.19 aangegeven hoeveel items van de referentieset per referentieniveau (1F, 1S en 2F) zijn behouden, welke grensscore wordt gehanteerd volgens de BerekenGrensscore-module en welke theta daarmee overeenkomt. Tabel 4.19 Grensscores rekenen van de set referentieset-items Rekenen
Ref 1F (N=15)
Ref 1S (N=15)
Ref 2F (N=15)
9,2
10,8
9,6
-0,1108
0,4590
0,4282
Grensscore referentieset-items Theta bij grensscore referentieset-items
De theta-waarden zijn overgezet naar de vaardigheidsschaal van de 1F, 1S en 2F items van de concept IEP Eindtoets, waardoor de grensscores bij de IEP Eindtoets items op dat niveau zijn vastgesteld. Dat is net als bij lezen en taalverzorging zowel op de afzonderlijk itemsets per niveau gebeurd, als voor de gehele itemset 1F+1S+2F weergegeven in tabel 4.20 (waarbij de items op niveau <1F buiten beschouwing zijn gelaten).
Tabel 4.20 Cesuren voor referentieniveau 1F, 1S en 2F rekenen Concept IEP Eindtoets Rekenen Cesuur 1F
Cesuur 1F
Cesuur 1S
Cesuur 1S
Cesuur 2F
Cesuur 2F
Itemset
1F
1F + 1S + 2F
1S
1F + 1S
2F
1F + 2F
Aantal items itemset
20
60
20
40
20
40
Score cesuur
11
24
15
33
13
30
55%
40%
75%
82,5%
65%
75%
Percentage correct
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 41/59
We hebben bij rekenen te maken hebben met 3 referentieniveaus 1F, 1S, 2F, waarvan 1S en 2F ofwel apart ofwel beiden beheerst kunnen worden. Voor rekenen geldt dat een leerling kan bewijzen dat hij referentieniveau 1F beheerst door ófwel de cesuur op het betreffend referentieniveau te halen ófwel door de cesuur van itemset 1F+1S+2F te halen. Hiervoor hebben we gekozen omdat in een zeer theoretisch geval de leerling de complexere (2F) en de meer abstractere (1S) berekeningen goed kan doen, terwijl hij door slordigheid op de 1F items minder goed kan scoren. De grensscore van de 1F-cesuur (θ=-0,1108) komt overeen met een score 11/20 items bij een cesuur op basis van itemset 1F (55% van itemset 1F goed beantwoord) en komt overeen met een score 24/60 items bij een cesuur op basis van itemset 1F+1S+2F items samen (40% van de itemset 1F+1S+2F goed beantwoord). Merk op dat bij het bepalen van het beheersen van niveau 1S geen 2F-items betrokken zijn en bij 2F geen 1S-items; deze meten namelijk een andere vaardigheid binnen het rekengebied. Omdat we altijd willen borgen dat referentieniveau 1F in de basis aangetoond wordt, is er bij rekenen net als bij lezen en taalverzorging een ondergrens gekozen voor het aantal 1F items dat een leerling goed moet doen. Haalt de leerling bijvoorbeeld niet de 1F-cesuur op itemset 1F (11/20 items) maar wel de 1S-cesuur op de itemset 1S ( 15 van de 20 items), dan geldt dat deze leerling wel een minimale hoeveelheid items op niveau 1F goed moet hebben en dus op niveau 1F een beheersingsgraad laat zien van minimaal -1.1108 – (1,96*SE) wat overeenkomt met 7 scorepunten van de maximaal te behalen 15 op de itemset 1F. Het resultaat van de cesuurbepaling voor de hele dataset en voor de afzonderlijke normgroepen is weergegeven in figuur 4.8 en figuur 4.9.
Figuur 4.8 Rekenen; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 42/59
Figuur 4.9 Rekenen; het (relatieve) aantal leerlingen dat een referentieniveau beheerst bij de vastgestelde cesuren per normgroep of samenvoeging van normgroepen
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 43/59
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 44/59
Of het nu gaat om lezen, taalverzorging of rekenen, we constateren bij alle drie de vaardigheden dat het percentage beheersers van hogere referentieniveaus stijgt naarmate de deelnemers tot een hogere normgroep behoren. Wel is het percentage beheersers van het referentieniveau 2F bij lezen en taalverzorging in iedere normgroep groter dan het percentage beheersers van de referentieniveaus van boven 1F bij rekenen.
4.4.4 Betrouwbaarheid
Betrouwbaarheid wil zeggen in hoeverre een toetsscore reproduceerbaar is, dus in hoeverre een leerling dezelfde score op een toets zou halen als hij de toets nog een keer zou maken. De betrouwbaarheid in de klassieke testtheorie geeft de betrouwbaarheid van de gehele score-schaal aan. We richten ons daarbij op de betrouwbaarheid van de IEP Eindtoets rondom de score die de minimale vereiste vaardigheid representeert, dus de score die een leerling minimaal moet halen om bijvoorbeeld de 1F-cesuur te halen. Dat doen we door gebruik te maken van de psychometrische moeilijkheidsparameters en discriminatieparameters van de in de eindtoets opgenomen items. De betrouwbaarheid van toetsen is, volgens de IRT (itemresponstheorie), afhankelijk van de hoogte van de scores, die onder andere weer afhankelijk is van hoe vaardig een leerling is (uitgedrukt in vaardigheidsniveau/ θ). Gemiddelde toetsscores van leerlingen met een gemiddeld vaardigheidsniveau geven hogere betrouwbaarheden dan lage en hoge toetsscores. Dit komt doordat de foutmarges bij lage en hoge toetsscores groter zijn dan de foutmarges die bij gemiddelde toetsscores horen. We spreken steeds van een verwachte betrouwbaarheid, omdat we de betrouwbaarheid berekenen aan de hand van de parameters zoals die op grond van de gegevens, verzameld tijdens de pilot- en pretestperiode, zijn bepaald. De IEP Eindtoets is niet in werkelijkheid afgenomen dus we kunnen (nog) niet spreken van geobserveerde betrouwbaarheden van de daadwerkelijke IEP Eindtoets. Voor lezen is de 1F-cesuur (θ) -0.0502 en de 2F-cesuur (θ) 0,2681 respectievelijk net onder en net boven het gemiddelde vaardigheidsniveau (θ = 0) vastgesteld. In tabel 4.21, tabel 4.22 en tabel 4.23 zijn de verwachte betrouwbaarheden aangegeven behorende bij de lage en hoge vaardigheidsniveaus. De betrouwbaarheden rondom de vaardigheidsniveaus waartussen de grensscores liggen zijn vet gedrukt weergegeven in de tabel van de IEP Eindtoets en er is onderscheid gemaakt tussen de itemset 1F en de itemset 2F van de gehele IEP Eindtoets.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 45/59
Tabel 4.21 Lokale betrouwbaarheid ten opzichte van vaardigheid voor onderdeel lezen Vaardigheid (θ) lezen -0,5
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
IEP eindtoets
0,916
0,931
0,939
0,941
0,938
0,930
0,916
0,895
0,868
0,832
0,785
waarvan 1F
0,821
0,853
0,870
0,869
0,859
0,832
0,787
0,716
0,612
0,460
0,242
waarvan 2F
0,840
0,870
0,886
0,892
0,889
0,880
0,862
0,837
0,803
0,759
0,702
Items
Voor lezen geldt dat de verwachte betrouwbaarheid bij de afzonderlijke itemsets 1F of 2F 0.8 of hoger en voor de hele IEP Eindtoets 0.87 of hoger is. Dat betekent dat we met hoge lokale betrouwbaarheid rondom de cesuren kunnen bepalen of een leerling het referentieniveau beheerst. Zoals beschreven voor lezen, is voor taalverzorging en rekenen eenzelfde analyse gedaan. In onderstaande tabellen zijn de betrouwbaarheden rondom de verschillende cesuren gerapporteerd. Voor taalverzorging is de 1F-cesuur (θ) 0,135 en de 2F-cesuur (θ) 0,314, beide boven het gemiddelde vaardigheidsniveau (θ = 0) vastgesteld.
Tabel 4.22 Lokale betrouwbaarheid ten opzichte van vaardigheid voor onderdeel taalverzorging Vaardigheid (θ) taalverzorging -0,5
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
IEP eindtoets
0,911
0,943
0,962
0,972
0,976
0,976
0,972
0,965
0,954
0,936
0,908
waarvan 1F
0,841
0,896
0,930
0,949
0,954
0,952
0,941
0,921
0,888
0,836
0,749
waarvan 2F
0,800
0,873
0,915
0,937
0,948
0,950
0,946
0,939
0,926
0,904
0,871
Items
Voor taalverzorging geldt dat de verwachte betrouwbaarheid bij de afzonderlijke itemsets 1F of 2F 0.9 of hoger en voor de hele IEP Eindtoets 0.94 of hoger is. Dat betekent dat we met hoge lokale betrouwbaarheid rondom de cesuren kunnen bepalen of een leerling het referentieniveau beheerst. Voor rekenen is de 1F-cesuur (θ) -0,1108, de 1S-cesuur (θ) 0,4590 en de 2F-cesuur (θ) 0,4282, respectievelijk onder en tweemaal boven het gemiddelde vaardigheidsniveau (θ = 0) vastgesteld.
Tabel 4.23 Lokale betrouwbaarheid ten opzichte van vaardigheid voor onderdeel rekenen Vaardigheid (θ) rekenen -0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
IEP Eindtoets
0,923
0,934
0,941
0,944
0,945
0,944
0,941
0,937
0,931
0,923
0,912
waarvan 1F
0,841
0,855
0,872
0,882
0,868
0,842
0,802
0,739
0,639
0,484
0,250
waarvan 1S
0,749
0,798
0,832
0,852
0,862
0,864
0,856
0,842
0,820
0,790
0,749
waarvan 2F
0,639
0,692
0,735
0,768
0,794
0,814
0,827
0,836
0,840
0,839
0,830
Items
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 46/59
Voor rekenen geldt dat de verwachte betrouwbaarheid bij de afzonderlijke itemsets 1F, 1S of 2F 0,79 of hoger en voor de hele IEP Eindtoets 0,92 of hoger is. Dat betekent dat we met hoge lokale betrouwbaarheid rondom de cesuren kunnen bepalen of een leerling het referentieniveau beheerst.
4.4.5 Normering schooladvies
De overstap van het basisonderwijs naar het voortgezet onderwijs is erg belangrijk voor de verdere loopbaan van een leerling. Door de invoering van de verplichte eindtoets en de verplaatsing van de afname naar de periode tussen 15 april en 15 mei gaat het belang van het basisschooladvies als eerste gegeven toenemen en geldt het advies van de eindtoets als tweede gegeven en is alleen van invloed als het schooladvies hoger uitvalt. Op 10 oktober 2014 heeft de Onderwijsinspectie een onderzoek naar de totstandkoming van het basisschooladvies en de invloed van het basisschooladvies op de verdere schoolloopbaan gepubliceerd (De kwaliteit van het basisschooladvies, Inspectie van het Onderwijs, 2014). In dit rapport doet de Onderwijsinspectie verslag van de samenhang tussen het basisschooladvies en de Eindtoets Basisonderwijs (van Cito) en de samenhang tussen het advies en het vervolg van de schoolloopbaan. Uit het onderzoek blijkt dat basisscholen vaker een schooladvies voor een hoger onderwijsniveau geven dan men op basis van de Eindtoets Basisonderwijs zou verwachten (ruim 25 procent in 2012/2013) en dat dit vaak in het voordeel is van de leerlingen. Leerlingen met een advies voor een hoger onderwijsniveau dan de eindtoets indiceerde, komen na twee jaar voortgezet onderwijs meestal ook op het onderwijsniveau uit dat de basisschool adviseerde of op een hoger niveau (73 procent). Uit de analyses blijkt dat de IEP Eindtoets uitstekend onderscheid kan maken tussen leerlingen die het referentieniveau 1F, 1S of 2F beheersen. Op basis van de taalvaardigheid en de rekenvaardigheid zal de IEP Eindtoets ook een indicatie geven voor het schooladvies dat het beste past bij de leerling.
Vaardigheid als voorspeller van schooltype De onderlinge correlaties tussen de drie toetsonderdelen (lezen, taalverzorging en rekenen) zijn matig maar significant. De correlatie tussen rekenen en taalverzorging is het hoogst (r=.403), terwijl de correlatie tussen taalverzorging en lezen het laagst is (r=.356). Dit betekent dat hoewel de constructen met elkaar samenhangen, zij ook wel zo verschillend zijn dat het gerechtvaardigd is om aan de hand van de drie vaardigheidsscores apart de normering voor het schooladvies te bepalen. In tabel 4.24 is dit weergegeven. Tabel 4.24 Correlatie (r) tussen de drie onderdelen van de IEP Eindtoets: lezen, rekenen en taalverzorging Lezen
Rekenen
Taalverzorging
Lezen
1
.367**
.356**
Rekenen
.367**
1
.403**
Taalverzorging
.356**
.403**
1
** significant op p<0,01
Als een vaardigheid een goede voorspeller is van het schooltype waar leerlingen in het voortgezet onderwijs thuishoren, dan is de verwachting dat de vaardigheid van leerlingen hoger is naarmate ze in een schooltype zitten die hogere eisen stelt aan cognitieve
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 47/59
vaardigheden. Dit is duidelijk te zien bij de vaardigheid rekenen (figuur 4.12) van de IEP Eindtoets, waar de vaardigheidscurve van hogere normgroepen naar rechts verschuift in de richting van hogere vaardigheidswaarden. Bij lezen (figuur 4.10) en taalverzorging (figuur 4.11) is deze verschuiving naar hogere vaardigheid in hogere normgroepen minder waardoor de overlap van de vaardigheidscurves groter is dan bij rekenen. De hogere, samengevoegde leerwegen onderscheiden zich nauwelijks van elkaar. Deze verschillen in vaardigheidsverdelingen voor de drie vaardigheden per normgroep zijn een aanwijzing dat rekenvaardigheid zoals gemeten door de items van de concept IEP Eindtoets een betere voorspeller van schooltype is dan lezen of taalverzorging.
Figuur 4.10 Vaardigheidscurves lezen IEP Eindtoets per normgroep
Figuur 4.11 Vaardigheidscurves taalverzorging IEP Eindtoets per normgroep
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 48/59
Figuur 4.12 Vaardigheidscurves rekenen IEP Eindtoets per normgroep
Van vaardigheidsscore naar standaardscore De rapportage aan de scholen en de leerlingen (en ouders/verzorgers) bestaat naast het al dan niet beheersen van de referentieniveaus per vaardigheid, uit een totaalscore (een zogeheten “standaardscore”) tussen de 50 en de 100, met daaruit voortvloeiend, een schooladvies. Om deze standaardscore te berekenen wordt op de vaardigheden rekenen, lezen en taalverzorging uitgegaan van de vaardigheid (theta) die de leerling per vaardigheid heeft getoond. Er is onderzocht op welke wijze de drie vaardigheden het beste (tussen de normgroepen het best discriminerend) konden worden gecombineerd tot één ‘totaalvaardigheid’. De volgende methoden zijn onderzocht: 1. gebruikmaken van het gemiddelde van de drie vaardigheden; 2. gebruikmaken van uitsluitend de vaardigheid op rekenen; 3. gebruikmaken van het gemiddelde van de twee beste vaardigheden van elke leerling; 4. gebruikmaken van een gewogen gemiddelde, waarbij rekenen een gewicht van drie krijgt, lezen een gewicht van twee en taalverzorging een gewicht van één. De laatste methode leverde de beste resultaten op. Voor de omrekening van de gewogen vaardigheid over de drie vaardigheden naar de substandaardscore is de volgende systematiek gehanteerd: de gemiddelde vaardigheid van normgroep 1 minus één keer de standaarddeviatie is gedefinieerd als standaardscore 50. De gemiddelde vaardigheid van normgroep 7 plus één standaarddeviatie is gedefinieerd als standaardscore 100. Vanuit de bovengenoemde twee punten vindt een lineaire transformatie plaats van de theta naar de standaardscore. Standaardscores beneden 50 en boven 100 worden afgekapt naar 50 respectievelijk 100.
Van standaardscore naar schooladvies Om van de standaardscores te komen tot een schooladvies is de voorgestelde nominale verdeling van de standaardscore, zoals in de rapportage van het pilotonderzoek is beschreven, niet haalbaar. Het verschil tussen normgroep 1 en 2 is groter, en de verschillen tussen normgroepen 4 en 5 en ook tussen normgroepen 6 en 7 is veel kleiner dan nominaal. In tabel 4.25 is het aantal leerlingen per normgroep die items van de concept IEP Eindtoets taal én rekenen hebben gemaakt weergegeven.
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 49/59
Tabel 4.25 Aantal leerlingen per normgroep normgroep
aantal leerlingen
1
115
2
275
3
396
4
186
5
169
6
356
7
165
Om te bepalen welke indeling leidt tot de beste resultaten, is eerst gedefinieerd wat het beste resultaat is. Het beste resultaat (fit) is een indeling waarbij zoveel mogelijk leerlingen uit een normgroep geplaatst worden in diezelfde normgroep. Maar de fit wordt minder als een leerling een normgroep hoger of lager uitkomt. En als een leerling twee of drie normgroepen hoger geplaatst wordt, heeft dat twee respectievelijk drie keer meer negatieve invloed op de fit. De beste fit is bereikt met onderstaande indeling van standaardscores behorende bij het schooladvies.
Tabel 4.26 Standaardscore gerelateerd aan schooladvies schooladvies
standaardscore
1. vmbo BB / KB
50-61
2. vmbo KB / T
62-70
3. vmbo T
71-76
4. vmbo T / havo
77-81
5. havo
82-86
6. havo / vwo
87-92
7. vwo
93-100
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 50/59
Bij het toepassen van de indeling van tabel 4.26 is de verdeling van de leerlingen in de pretestpopulatie die alle vaardigheden hebben gemaakt als volgt:
Tabel 4.27 Advies volgens indeling standaardscores bij de pretestpopulatie (alleen de prestestpopulatie die zowel taal als rekenen heeft gemaakt zijn in dit onderzoek meegenomen) Advies 2
3
4
5
6
7
50-61
62-70
71-76
77-81
82-86
87-92
93-100
1
72
35
7
1
0
0
0
115
2
31
132
70
26
12
4
0
275
3
10
100
127
95
41
17
6
396
4
3
21
60
43
33
20
6
186
5
1
11
30
47
35
25
20
169
6
0
17
37
72
85
84
61
356
7
0
2
7
23
34
30
69
165
117
318
338
307
240
180
162
1662
Score
Schooltype
Totaal aantal leerlingen
1
Totaal aantal leerlingen
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 51/59
5. BETROUWBAARHEID EN VALIDITEIT VAN DE IEP EINDTOETS
De betrouwbaarheid van de IEP Eindtoets is de mate van nauwkeurigheid waarmee de IEP Eindtoets de taal- en rekenvaardigheid van de leerling meet. Een belangrijke factor voor de nauwkeurigheid is de selectie van opgaven in de toets en dan met name de mate waarin de score van een leerling anders uit zou vallen als andere, maar vergelijkbare, opgaven zouden zijn geselecteerd. Ook kan de betrouwbaarheid beïnvloed worden tijdens de toetsafname, bijvoorbeeld als onbedoelde of toevallige factoren de meting beïnvloeden. Denk aan vormgeving van de toets, het moment van toetsafname, het borgen van een rustige en eerlijke toetsafname, et cetera. Bij de IEP Eindtoets geldt een aantal maatregelen zoals beschreven in de IEP Afnamehandleiding en het IEP Toetsreglement om ervoor te zorgen dat de afname zoveel mogelijk consistente, nauwkeurige en te reproduceren scores opleveren. Het onderzoek dat uitgevoerd is naar de betrouwbaarheid van de IEP Eindtoets is beschreven in paragraaf 5.1. De validiteit van de IEP Eindtoets is de mate waarin de IEP Eindtoets meet wat deze beoogt te meten. Doel van de IEP Eindtoets is het meten van de taal- en rekenvaardigheid van leerlingen in groep 8 van de basisschool op basis van de normen van het referentiekader taal en rekenen. Sinds 1 augustus 2009 is de Wet referentieniveaus Nederlandse taal en rekenen van kracht. Ook is in de wet vastgelegd dat scholen vanaf deze datum de referentieniveaus als uitgangspunt moeten nemen bij het geven van taal- en rekenonderwijs. Ondanks dat constateert Bureau ICE dat de referentieniveaus in het basisonderwijs nog nauwelijks een rol spelen. Leerkrachten zijn onvoldoende op de hoogte wat de referentieniveaus inhouden en hoe zich die verhouden ten opzichte van de kerndoelen. In methodes is wel aangegeven om welk referentieniveaus het gaat, maar deze methodes zijn veelal niet met de referentieniveaus als uitgangspunt ontwikkeld. Doordat de referentieniveaus nog geen gemeengoed zijn in het basisonderwijs bestaat de kans dat in plaats van alleen het meten van de vaardigheid van de leerlingen ook de onbekendheid van bepaalde inhoudelijke kennis (de niet behandelde stof) gemeten wordt. Om dit risico zoveel mogelijk te minimaliseren is de IEP Eindtoets niet alleen gebaseerd op het referentiekader, maar is inhoudelijk bij de constructie ook rekening gehouden met het generieke curriculum van het basisonderwijs (bijvoorbeeld de TULE). Hierdoor wordt met name de inhoudsvaliditeit geborgd, (zie voor de uitgebreide toelichting hoofdstuk 2). Een nadere toelichting van het onderzoek naar begrips- en criteriumvaliditeit volgt in paragraaf 5.2.
5.1 Betrouwbaarheid
De IEP Eindtoets is samengesteld op basis van het pilot- en het pretestonderzoek, waarbij met name in het laatste onderzoek de betrouwbaarheidscoëfficiënten een essentiële rol spelen in de selectie van de items die uiteindelijk in de IEP Eindtoets worden gebruikt. Ondanks het nog beperkte aantal observaties bereikten we in de pretest voldoende hoge betrouwbaarheidscoëfficiënten. De schattingsmaten (Spearman-Brown) bij voldoende toetslengte gaven ons op basis van de pilot al voldoende vertrouwen in het bereiken van deze goede betrouwbaarheidscoëfficiënten in het pretestonderzoek. Wij streven naar een alpha van tenminste .80 op iedere vaardigheidstoets binnen de IEP Eindtoets. Het pretestonderzoeksdesign borgt dat de oordelen over de betrouwbaarheid voldoende gefundeerd zijn, zowel op basis van steekproefgrootte van de normgroepen als op basis van inhoudelijke vergelijkbaarheid van de verschillende toetsversies.
5.2 Begripsvaliditeit
Met begripsvaliditeit wordt bedoeld in hoeverre een testinstrument de beoogde begrippen meet. Om de begripsvaliditeit van de IEP Eindtoets te onderzoeken hebben we het vanuit het oogpunt van inhoudsvaliditeit, de mate waarin de items passen in het meetmodel, en de soortgenotenvaliditeit onder de loep genomen. De in deze
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 52/59
verantwoording beschreven werkwijze is illustratief voor het onderzoek dat we op basis van de volledige pretestdata (onderzoek 1) en het afnameonderzoek (onderzoek 2) van de IEP Eindtoets jaarlijks zullen gaan uitvoeren.
5.2.1 Inhoudsvaliditeit
5.2.2 Criteriumvaliditeit
De inhoudelijke validiteit van de IEP Eindtoets is geborgd door te werken volgens strakke toetsconstructieprocedures zoals beschreven in hoofdstuk 2 van deze verantwoording. We borgen daarmee dat de toetsopgaven van de IEP Eindtoets daadwerkelijk meten wat ze beogen te meten: de taalvaardigheid van de leerling (lezen en taalverzorging) en de rekenvaardigheid van de leerling. Leerlingen met dezelfde taal- en rekenvaardigheid die de IEP Eindtoets maken hebben allemaal een gelijke kans om op hetzelfde referentieniveau te scoren, ongeacht de onderwijsmethoden die zij gevolgd hebben. Eén van de controles die is uitgevoerd op de kwaliteit en passendheid van de inhoud betrof de kwalitatieve vragen (zie resultaten in 4.2). Daarnaast vond bij de selectie van de items voor de IEP Eindtoets op basis van de toets- en itemanalyses een standaard check plaats op rit-waarde (waarbij gesloten items worden uitgesloten als gokgedrag geconstateerd wordt, omdat dit een uiting is/kan zijn van onbekendheid met de materie) en op te lage p-waarde (bij open items een kenmerk van onbekendheid met de materie).
Om de criteriumvaliditeit van de IEP Eindtoets te kunnen bepalen is longitudinaal doorstroomonderzoek noodzakelijk. Het schooladvies dat op basis van de standaardscore op de IEP Eindtoets wordt geformuleerd is vanuit de pretest gebaseerd op het toetsgedrag van leerlingen aan het begin van het eerste leerjaar in het vo. Uitgangspunt bij de samenstelling van de normgroepen is de door de vo-scholen gevolgde procedure bij de plaatsing van de leerlingen. In beginsel is deze plaatsing in de meerderheid van de gevallen gebaseerd op het schooladvies vanuit de basisschool en op de Cito-score. Dit principe maakt het eerder beschreven soortgenotenvaliditeitsonderzoek relevant. Daarnaast is uit onderzoek (Van der Wouden, Cohen & Jakobs, 2013; Inspectie van het Onderwijs, 2007) bekend dat de correlatie tussen Cito-score en schooladvies onderhevig is aan een regionale en een etnische bias, maar dat de correlatie tussen basisschooladvies en schoolloopbaan redelijk goed is. Doel van de IEP Eindtoets is het geven van een passend schooladvies. De mate van passendheid zal echter voornamelijk over tijd aangetoond kunnen worden. Daarvoor zal over langere tijd de schoolloopbaan van de leerlingen die de IEP Eindtoets gemaakt hebben gevolgd worden. Na enkele jaren zal vervolgens vastgesteld worden in welke mate de IEP Eindtoets voorspellend is voor het daadwerkelijk presteren van de leerlingen in het voortgezet onderwijs. De criteriumvaliditeit van de IEP Eindtoets is daarmee in haar eerste levensjaren alleen te bepalen door onderzoek te doen naar het gegeven schooladvies van de leerkracht, het mogelijk gewijzigde schooladvies op basis van de eindtoetsscore en de plaatsing van de leerling in de vo-school in de brugklas en na de brugklas. Pas in een later stadium zal blijken wat de correlatie is tussen advies (en dus de normering en de wijze waarop de standaardscore wordt getransformeerd uit de ruwe scores) en schoolloopbaan c.q. schoolsucces.
5.2.3 Onderzoek naar subgroepen - Bias
In het pilotonderzoek is geen aanleiding gevonden voor het uitvoeren van itembiasonderzoek op basis van geconstateerde meerdimensionaliteit van de gemeten begrippen. In het pilotonderzoek was de steekproef nog te klein om relevante uitspraken te doen over mogelijke itembias. In deze rapportage hebben we opnieuw te maken met een nog kleine steekproefgrootte als het gaat om verschillen tussen regio’s; pas vanaf het normeringsonderzoek 2015/2016 zullen we naar verwachting voldoende gegevens hebben om deze verschillen te kunnen analyseren. In deze paragraaf gaan we in op de
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 53/59
mogelijke bias van items voor jongens en meisjes op basis van de verzamelde data van de pretest voor lezen, taalverzorging en rekenen. Als we het percentage beheersers bij jongens en meisjes vergelijken (figuur 5.1, 5.2 en 5.3), dan valt op voor lezen en taalverzorging dat het percentage beheersers voor 2F groter is bij meisjes dan bij jongens: bij lezen is het verschil 13% en bij taalverzorging 18%. Bij rekenen zijn de verschillen relatief klein: 2% of 3% verschil per referentieniveau, met meer beheersers van 1F+1S+2F en onder1F bij de jongens en met meer beheersers van 1F en 1F+2F bij meisjes, terwijl 1F+1S gelijk is voor beide groepen.
Figuur 5.1 Verdeling beheersers over de verschillende referentieniveaus uitgesplitst naar geslacht bij lezen
Figuur 5.2 Verdeling beheersers over de verschillende referentieniveaus uitgesplitst naar geslacht bij taalverzorging
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 54/59
Figuur 5.3 Verdeling beheersers over de verschillende referentieniveaus uitgesplitst naar geslacht bij rekenen
De gevonden verschillen kunnen ook eventueel een indicatie zijn dat er items zijn getest met een bias. Bias betekent dat twee of meer groepen met hetzelfde vaardigheidsniveau hetzelfde item niet even moeilijk/makkelijk vinden zoals uitgedrukt in de moeilijkheidsparameter β. Het lijkt aantrekkelijk om speciaal te letten op items met een verschillende proportie correct bij de te onderscheiden groepen. Maar bij bijvoorbeeld het onderscheid jongen/meisje moet dan ook rekening gehouden worden met de verdeling van jongens en meisjes over de verschillende schooltypen en leerwegen. Daarom is er in het vervolg in plaats van verdere uitsplitsingen gebruik gemaakt van de kalibraties om eventuele bias op te sporen; er wordt dan immers gecorrigeerd voor verschillen in mate van vaardigheid. In de onderstaande figuren 5.4, 5.5 en 5.6 is de moeilijkheid van de afzonderlijke items bij jongens en meisjes tegenover elkaar afgezet voor lezen, taalverzorging en rekenen. Hoe dichter bij de schuine lijn een punt is, hoe kleiner het verschil in de moeilijkheid van die item voor jongens en meisjes. Uit de grafieken is af te lezen dat de overgrote meerderheid van de items een vergelijkbare moeilijkheid heeft voor jongens en meisjes. De kleine verschillen die er wel zijn vertonen geen duidelijk patroon; er is geen aanwijzing dat één van de groepen de items systematisch makkelijker of moeilijker vindt. Voor de volledigheid hebben we nog gekeken naar het item dat het grootse verschil vertoonde voor jongens en meisjes wat betreft de moeilijkheid bij alle drie vaardigheden. Bij lezen betrof het een 1F item die voor beide groepen zeer makkelijk was, maar voor jongens nog veel makkelijker (β = -0,928) dan voor de meisjes (-0,502). Uit de percentages correct bleek echter dat een groter percentage van de meisjes (97,2%) het item correct maakte dan de jongens (93,8%). Omdat in beide groepen maar een zeer klein aantal deelnemers het item fout heeft gemaakt, is het gevonden verschil in moeilijkheid waarschijnlijk niet het gevolg van het inherente verschil in moeilijkheid (bias) voor deze groepen. De oorzaak van het gevonden verschil is een afwijkend vaardigheidsprofiel van de meisjes die het item fout hebben gemaakt ten opzichte van het vaardigheidsprofiel van de groep meisjes die andere relatief makkelijke items fout hebben gemaakt. Bij kleine aantallen observaties, zoals dat hier bij de foute antwoorden het geval was, kunnen al enkele observaties een grote invloed hebben waardoor het algehele beeld anders uitvalt dan verwacht. Bij taalverzorging was het grootste verschil gevonden bij een 1F item dat eveneens zeer makkelijk was voor beide groepen, maar er was een duidelijk verschil tussen meisjes (β=-
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 55/59
0,39) en jongens (β=-0,058). Als we kijken naar de percentages correct, dan zien we dat ook hier meer meisjes het item goed hebben gemaakt (95,2%) dan jongens (85,9%). Hier kunnen we ook stellen dat de afwijking in de gevonden moeilijkheid waarschijnlijk niet het gevolg is van bias. Het grootste verschil in moeilijkheid bij rekenen is gevonden voor een 2F item die voor jongens veel makkelijker was (β = -0,161) dan voor meisjes (β= -0,533). Ook het percentage correct bij de meisjes was lager (67%) dan bij de jongens (78,9%). In dit geval is het niet waarschijnlijk dat het gevonden verschil aan een (te) kleine aantal observaties foute antwoorden ligt. Echter, bij de inhoudelijke inspectie van het item zijn er geen aanwijzingen gevonden die in de richting van een mogelijke bias naar geslacht wijst. Samenvattend kunnen we concluderen dat de gevonden verschillen tussen jongens en meisjes in de moeilijkheid van de afzonderlijke items bij alle drie de vaardigheden klein zijn en dat deze verschillen elkaar opheffen op het niveau van de hele toets. De resultaten laten zien dat de IEP Eindtoets noch jongens noch meisjes systematisch benadeelt, dit is grafisch weergegeven in de figuren 5.4 t/m 5.6.
Figuur 5.4 De moeilijkheid van de afzonderlijke items lezen bij jongens en meisjes tegenover elkaar afgezet
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 56/59
Figuur 5.5 De moeilijkheid van de afzonderlijke items taalverzorging bij jongens en meisjes tegenover elkaar afgezet
Figuur 5.6 De moeilijkheid van de afzonderlijke items rekenen bij jongens en meisjes tegenover elkaar afgezet
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 57/59
REFERENTIES
Aarsen, E. van, Roeleveld, J., & Luyten, J.W. (2013). Voorspellende waarde van LOVS toetsen voor Schoolsucces. Utrecht: Stichting Kennisnet.
Besluit referentieniveaus Nederlandse taal en rekenen. Staatsblad 2010, 265. Buijs, K., Klep, J., Noteboom, A. (2008). TULE – Rekenen/wiskunde. Inhouden en activiteiten bij de kerndoelen van 2006. Enschede: SLO. Bureau ICE (2005). Handleiding DIGIBO 2005 versie 3.0. Lienden: Bureau ICE. Cito (2011). Meting taal en rekenen 2010. Tweede meting: een indicatie van leerprestaties in termen van het referentiekader. Arnhem: Cito College voor Toetsen en Examens (2014). Algemeen deel toetswijzer voor eindtoets po. Inhoudelijke kwaliteitseisen aan eindtoetsen po. Utrecht: College voor Toetsen en Examens. Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam: Nederlands Instituut van Psychologen. Expertgroep Doorlopende Leerlijnen Taal en Rekenen (2009). Referentiekader taal en rekenen. De referentieniveaus. Enschede: SLO. Ministerie van OCW (2006). Kerndoelen Primair Onderwijs. Den Haag: OCW. Inspectie van het Onderwijs. (2007). Onderadvisering in beeld. Den Haag: Inspectie van het Onderwijs Ministerie van OCW (2014). Toetsbesluit PO. Gedownload van http://wetten.overheid.nl/ BWBR0035216 Tomesen, M., Koeven, E. van, Taalgroep Nederlandse taal PO (2008). TULE – Nederlands. Inhouden en activiteiten bij de kerndoelen van 2006. Enschede: SLO Ministerie van OCW (2014). Wijzigingswet Wet op het primair onderwijs, enz. (centrale eindtoets en leerling- en onderwijsvolgsysteem primair onderwijs). Gedownload van http://wetten.overheid.nl/BWBR0034687 Wouden, M. van der, Cohen, L., & Jakobs, E. (2013). Schoolloopbanen Basisrapport: Hoe het de Amsterdamse leerlingen vergaat in het voortgezet onderwijs. Amsterdam; Gemeente Amsterdam Bureau Onderzoek en Statistiek. Cito (2011). Verantwoording meting taal en rekenen 2010.Tweede meting: een indicatie van leerprestaties in termen van het referentiekader. Arnhem: Cito. Inspectie van het Onderwijs (2014). De kwaliteit van het basisschooladvies. Utrecht: Inspectie van het Onderwijs
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 58/59
Colofon IEP Eindtoets Wetenschappelijke verantwoording 2014-2015 Wetenschappelijke verantwoording van de IEP Eindtoets voor het primair onderwijs Maart 2015: Bureau ICE – Culemborg Aan deze rapportage werkten mee: Drs. E.A. Langeveld; Dr. E. Bezdan; Drs. M. Binsbergen; Dr. G. van Silfhout; Dhr. T. Haitjema; Drs. E. Bijl; R. Laarhuis MSc; E. te Pas MSc; G. Fredriks Msc
IEP Eindtoets 2015 • Wetenschappelijke verantwoording • 59/59