Cito | Volgsysteem primair en speciaal onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording toetsen Rekenen-Wiskunde voor speciale leerlingen Functioneringsniveaus groep 3 tot en met 5 Floor Scheltens, Ronald Engelen, Iris Verbruggen
Wetenschappelijke verantwoording toetsen Rekenen-Wiskunde voor speciale leerlingen Functioneringsniveaus groep 3 tot en met 5
Floor Scheltens Ronald Engelen Iris Verbruggen
Cito Arnhem, april 2011
1
© Cito B.V. Arnhem (2012) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
5
2 2.1 2.2 2.3 2.4 2.4.1 2.4.2
Uitgangspunten van de toetsconstructie Meetpretentie 7 Doelgroep 7 Gebruiksdoel en functie 7 Theoretische inkadering 8 Inhoudelijk 8 Psychometrisch 8
3 3.1 3.2
Beschrijving van de toets 17 Opbouw, structuur, afname van de toetsen en rapportage Inhoudsverantwoording 21
4 4.1 4.1.1 4.1.2 4.1.2.1 4.1.2.2 4.1.3 4.2 4.2.1 4.2.2 4.2.3 4.3
Kalibratie en normering 29 Kalibratie 29 Proefonderzoeken 29 Kalibratiegegevens 31 De stappen in de kalibratie 31 Toetsing van het IRT-model 32 Conclusie 36 Normering 36 Normeringsgegevens en representativiteit Normeringsmomenten 40 Functioneringsniveaus 41 DIF-onderzoek 42
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 45 Nauwkeurigheid 46
6 6.1 6.2
Validiteit 53 Inhoudsvaliditeit Begripsvaliditeit
7
Samenvatting
8
Literatuur
7
36
53 56 59
61
Bijlagen 65 1 Profielanalyse met IRT, Norman Verhelst 2 Betrouwbaarheidstabellen 87
67
3
45
17
4
1
Inleiding
De toetsen Rekenen-Wiskunde voor speciale leerlingen voor de functioneringsniveaus groep 3 tot en met 5 (Cito, 2010) vormen een aanvulling op de toetspakketten Rekenen-Wiskunde voor groep 3 tot en met 8 die zijn verschenen in de periode 2004 tot en met 2009 (Cito, 2005, 2005a, 2006, 2007, 2008a, 2009). De toetsen Rekenen-Wiskunde voor speciale leerlingen zijn bestemd voor leerlingen met een vertraagde ontwikkeling, een beperkte aandachtspanne of een grote behoefte aan structuur. Deze leerlingen zijn te vinden in het speciaal basisonderwijs (SBO), speciaal onderwijs (SO) cluster 2, 3 en 4, maar ook in het reguliere basisonderwijs. De toetsen Rekenen-Wiskunde voor speciale leerlingen zijn zodanig aangepast dat ze beter aansluiten bij de behoeftes van speciale leerlingen dan de reguliere toetsen. De toetsen zijn zelfstandig te gebruiken. Aanleiding voor de ontwikkeling van toetsen voor speciale leerlingen is de ontwikkeling van passend onderwijs. Passend onderwijs vereist dat: ─ de school zicht heeft op de (on)mogelijkheden van elke leerling, op zijn/haar ontwikkelingsperspectief, om zo het onderwijs aan te passen aan de behoeften van de leerling; ─ de vorderingen van elke leerling worden gevolgd om gaande de rit waar nodig het onderwijs aan te passen. Om passend onderwijs te kunnen realiseren, is het een voorwaarde dat de vorderingen van de leerlingen nauwkeurig in beeld worden gebracht en over de leerjaren heen worden gevolgd in de tijd. Daarvoor zijn dagelijkse voortgangscontroles en methodegebonden toetsen nodig, aangevuld met een methodeonafhankelijk leerling- en onderwijsvolgsysteem dat externe referenties biedt en daarmee de kans minimaliseert dat leerlingen onopgemerkt achterblijven. Uitgangspunt bij de ontwikkeling van Rekenen-Wiskunde voor speciale leerlingen is telkens geweest dat eventuele aanpassingen niet ten koste mochten gaan van de vergelijkbaarheid met de resultaten van de reguliere toetsen en de onderliggende vaardigheden. De doelgroep van de toetsen Rekenen-Wiskunde voor speciale leerlingen moet immers, net als de doelgroep van de reguliere toetsen, aan de kerndoelen voldoen. Bovendien was het een wens van scholen en ouders dat de toetsen een antwoord geven op de vraag ‘Hoe goed doet mijn kind het vergeleken met een kind in het reguliere basisonderwijs?’. De aanpassingen die zijn gedaan, zijn zo gekozen dat gewaarborgd is dat het concept ‘Rekenen-Wiskunde’ niet veranderd is. Inhoudelijk zijn er zo min mogelijk veranderingen ten opzichte van de reguliere uitgave Rekenen-Wiskunde. De aanpassingen die gedaan zijn, zijn meer van technische aard. Rekenen-Wiskunde voor speciale leerlingen bestaat uit een reeks toetsen voor leerlingen met het niveau medio groep 3 tot en met eind groep 5. Om tegemoet te komen aan leerlingen met een vertraagde ontwikkeling zijn er naast de reguliere niveaus medio en eind ook tussentoetsen ontwikkeld. De moeilijkheidsgraad van deze toetsen ligt precies tussen die van de onder- en bovengelegen toets in. Het toetspakket bestaat uit een papieren en een digitale variant. Voor elke papieren toets is er een digitale variant. De papieren variant en de digitale variant van een afnamemoment bevatten een groot aantal dezelfde opgaven. De opgaven uit de papieren en de digitale toetsen liggen op één vaardigheidsschaal, waardoor de toetsen onderling uitwisselbaar zijn. Deze verantwoording levert tezamen met de inhoud van het toetspakket Rekenen-Wiskunde voor speciale leerlingen voor functioneringsniveau groep 3 tot en met 5 alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de toetsen die deel uitmaken van dit pakket. In deze verantwoording wordt informatie verstrekt die nodig is om aan de hand van de beoordelingscriteria van de Cotan (Evers, Lucassen, Meijer & Sijtsma, 2010) de kwaliteit van de toetsen te beoordelen. In hoofdstuk 2 van deze verantwoording bespreken we de uitgangspunten die bij de opgaven- en toetsconstructie een rol hebben gespeeld. In hoofdstuk 3 beschrijven we de toets en de inhoudelijke
5
aspecten die bij het maken van de toetsen richtinggevend waren. In dit hoofdstuk komen eveneens de aanpassingen ten opzichte van de reguliere uitgave aan de orde. In hoofdstuk 4 komt het normeringsonderzoek en het DIF-onderzoek in SBO en SO ter sprake. We gaan dan onder andere in op de papieren onderzoeken en papieren-digitale onderzoeken. Verder komt in dit hoofdstuk de samenstelling van de steekproef ter sprake. Hoofdstuk 5 geeft informatie over de betrouwbaarheid en meetnauwkeurigheid van de toetsen en hoofdstuk 6 over de inhouds- en begripsvaliditeit. Omdat de toetsen van het Cito Volgsysteem primair en speciaal onderwijs niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing.
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
Het onderwijs in rekenen-wiskunde in het basisonderwijs richt zich in de eerste plaats op het verwerven van fundamentele vaardigheden op de terreinen van het rekenen en het meten. Deze fundamentele vaardigheden hebben betrekking op: – het gebruiken van reken-wiskundetaal; – het uitvoeren van rekenoperaties; – het gebruiken van strategieën om rekenproblemen op te lossen. De fundamentele vaardigheden vormen geen doel op zichzelf maar moeten door leerlingen gebruikt kunnen worden in praktische toepassingssituaties. Dit betekent dat er verbindingen gelegd worden tussen het onderwijs in rekenen-wiskunde en de alledaagse leefwereld. Verder moeten leerlingen eenvoudige verbanden, regels, patronen en structuren kunnen opsporen. Ten slotte moeten leerlingen redeneerstrategieën en onderzoeksstrategieën kunnen gebruiken. Dit houdt onder andere in dat leerlingen uitkomsten op juistheid kunnen controleren door bijvoorbeeld de geschatte uitkomst van een vermenigvuldiging te vergelijken met de berekende uitkomst.
2.2
Doelgroep
Om leerkrachten in het primair onderwijs in staat te stellen de vorderingen van hun leerlingen op het gebied van rekenen-wiskunde te volgen zijn in de jaren negentig drie pakketten ontwikkeld, getiteld RekenenWiskunde 1, Rekenen-Wiskunde 2 en Rekenen-Wiskunde 3 (Janssen & Engelen, 2001). In verband met de invoering van de euro op 1 januari 2002 zijn de materialen van deze pakketten aangepast en ondergebracht in de uitgave Rekenen-Wiskunde 2002 (Cito, 2002a). In de periode 2005 – 2009 zijn geheel nieuwe pakketten met toetsen Rekenen-Wiskunde voor groep 3 tot en met groep 8 verschenen. Om tegemoet te komen aan leerlingen met een vertraagde ontwikkeling, een beperkte aandachtsspanne of een grote behoefte aan structuur is het pakket Rekenen-Wiskunde voor speciale leerlingen ontwikkeld. Deze leerlingen zijn te vinden in het speciaal basisonderwijs, speciaal onderwijs, maar ook in het reguliere basisonderwijs. Het speciaal onderwijs is opgesplitst in vier verschillende clusters, namelijk de clusters 1, 2, 3 en 4. De toetsen voor speciale leerlingen zijn bestemd voor leerlingen in cluster 2 (dove en slechthorende leerlingen en leerlingen met ernstige spraak- en taalmoeilijkheden), voor een deel van de leerlingen in cluster 3 (langdurig zieke kinderen) en voor leerlingen in cluster 4 (leerlingen met ernstige gedragsproblemen en/of psychiatrische problemen). De toetsen voor speciale leerlingen zijn dus niet bedoeld voor de blinde en slechtziende leerlingen in cluster 1. Voor deze doelgroep ontwikkelt Cito andere toetsen. Voor de zeer moeilijk lerende leerlingen in cluster 3 worden door Cito toetsactiviteiten ontwikkeld. De toetsen voor speciale leerlingen zijn zodanig aangepast dat ze beter aansluiten bij de behoeftes van speciale leerlingen dan de reguliere toetsen van het Cito Volgsysteem primair onderwijs (LOVS). Voor leerlingen met het niveau medio groep 3 tot en met groep 5 zijn voor twee afnamemomenten, halverwege en aan het einde van het schooljaar, toetsen op verschillende niveaus beschikbaar. Leraren kunnen per afnamemoment kiezen uit een papieren of digitale variant.
2.3
Gebruiksdoel en functie
Met de toetsen Rekenen-Wiskunde voor speciale leerlingen kan men het rekenniveau van de leerlingen vaststellen en vergelijken met het niveau van een landelijke groep in het regulier onderwijs. Men krijgt per afname een duidelijk beeld van de vaardigheid van individuele leerlingen en van de groep als geheel.
7
De toetsen zijn zo samengesteld dat rekenprestaties die op verschillende momenten worden vastgelegd met elkaar te vergelijken zijn. Daardoor kan men een indruk krijgen van de ontwikkeling van individuele leerlingen en kan men ook de ontwikkeling van de groep als geheel volgen. De opgaven van de toetsen vertegenwoordigen een scala aan kennis, inzichten en vaardigheden die in de loop van de leerjaren op school aan de orde worden gesteld. De scores op de toetsen geven aan hoe goed de leerlingen datgene wat ze geleerd hebben beheersen en kunnen toepassen in voor hen soms nieuwe situaties. In die zin zijn de toetsen methodeonafhankelijk en dus bij iedere rekenmethode te gebruiken. In hoofdstuk 6 over de validiteit van de toetsen wordt aangegeven dat de opgaven van de rekentoetsen voorzien in een brede dekking van de kerndoelen. Met behulp van de toetsen kunnen we het algemene rekenvaardigheidsniveau van leerlingen vaststellen. Daarnaast is het mogelijk om met behulp van het Computerprogramma LOVS een categorieënanalyse uit te voeren. Daarmee kan nagegaan worden of leerlingen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden.
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
De toetsen Rekenen-Wiskunde voor speciale leerlingen voorzien in een brede dekking van de kerndoelen en tussendoelen. De basis voor de ontwikkeling van de toetsen waarmee we de vaardigheden van leerlingen meten bij de toetsen Rekenen-Wiskunde voor speciale leerlingen is een domeinbeschrijving. Die domeinbeschrijving bestaat uit een beschrijving van het leerstofgebied rekenen-wiskunde in de vorm van een lijst van leerdoelen. De domeinbeschrijving is gebaseerd op gebruikte methoden in het basisonderwijs, handboeken, kerndoelen van het ministerie van Onderwijs, Cultuur en Wetenschap, TALpublicaties (Tussendoelen Annex Leerlijnen), aanwezige expertise en discussies met vakinhoudelijke deskundigen en onderwijspractici. De verschillende onderdelen van het domein rekenen-wiskunde vormen een samenhangend geheel dat belangrijke aspecten van gecijferdheid van leerlingen omvat. Gecijferdheid verwijst naar verschillende aspecten van getalbegrip en rekenvaardigheid. Hierin staan inzicht in getallen, maatinzicht, ruimtelijk inzicht en het kunnen uitvoeren van operaties met getallen en het kunnen toepassen van die kennis en inzichten in uiteenlopende situaties centraal. We onderscheiden voor het basisonderwijs de volgende drie subdomeinen: – Getallen en bewerkingen; – Verhoudingen, breuken en procenten; – Meten, meetkunde, tijd en geld. De publicaties van de Expertgroep Doorlopende Leerlijnen Taal en Rekenen van 2008 waren ten tijde van de ontwikkeling van de domeinbeschrijving nog niet beschikbaar. De Expertgroep baseert zich bij de inhoudelijke indeling en beschrijving van de doelen voor een belangrijk deel op de domeinbeschrijvingen bij het LOVS en PPON (Periodieke Peiling van het Onderwijsniveau in Nederland). In hoofdstuk 3 worden de verschillende inhoudelijke domeinen en onderdelen waarvoor toetsopgaven ontwikkeld zijn nader beschreven.
2.4.2
Psychometrisch
Opgavenbanken primair onderwijs Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Leerling- en onderwijsvolgsysteem (LOVStoetsen, de Entreetoetsen, Eindtoets basisonderwijs). Voor de constructie van de toetsen Rekenen-
8
Wiskunde voor speciale leerlingen hebben we gebruikgemaakt van de opgavenbank Rekenen-Wiskunde. Een opgavenbank is nadrukkelijk niet eenvoudigweg een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid rekenen-wiskunde kan worden opgevat als een unidimensionaal continuüm, en dat de vaardigheid van elke leerling voorgesteld kan worden met een getal als een punt op die lijn. Het getal drukt de mate van rekenvaardigheid uit, waarbij een groter getal wijst op een grotere rekenvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden: de eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden van een leerling op de items worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank rekenvaardigheid meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijker item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen. Met behulp van statistisch gereedschap, waarop in het vervolg dieper ingegaan wordt, moet aangetoond worden dat deze veronderstellingen deugdelijk zijn. Maar vóór de items in een toets gebruikt
9
kunnen worden, moet geprobeerd worden de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat voor de kalibratie van de rekenen-wiskundeopgaven is gebruikt. Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de leerlingen. Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank RekenenWiskunde. Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden. Alles wat geldt voor de ‘papieren’ items uit de itembank, geldt daarom eveneens voor ‘digitale’ items uit dezelfde itembank. 2 We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van het LOVS zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf medio groep 3 tot medio groep 8. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen vervolgens schattingen gemaakt worden van de percentielen in de populatie. 3 Aan leerlingen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 6 kan een toets maken die normaliter aan groep 4 wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 6 ook vergeleken worden met de percentielen in de populatie van groep 4, resulterend in (bijvoorbeeld) de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6.” 4 De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 4 wordt voorgelegd. Immers, het kalibratieonderzoek heeft ons overtuigd dat alle items dezelfde vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken.
10
Het geha anteerde me eetmodel In het no ormeringsonde erzoek is geb bruikgemaaktt van een op de d itemresponstheorie (IR RT) gebaseerd d meetmod del zoals dat bij Cito gebru uikelijk is. Derrgelijke mode ellen verschille en in een aanntal opzichten n nogal sterk van n de klassieke e testtheorie (Verhelst, ( 199 93; Verhelst & Kleintjes, 1993; Verhelstt en Glas, 1995). Bij de kla assieke testth heorie staan de d toets en de e toetsscore centraal. c Het theoretisch bbelangrijkste begrip b in deze theorie is de zog genaamde wa are score, de gemiddelde score die de persoon zou behalen indien de der dezelfde ccondities zou worden afgenomen. Dezee klassieke te esttheorie test een oneindig aantal keren ond n gebruikt kunnen k worde en, aangezien het normeringsonderzoeek van de rek kenzou in ditt onderzoek niet wiskunde etoetsen een onvolledig de esign betrof: niet alle leerlingen hebben n alle opgaveen gemaakt. RT-model hee eft enkele bellangrijke voorrdelen. Op de e eerste plaatts kunnen de Het gebruik van het IR eschattingen onafhankelijk o k van de scha attingen van de d itemparameters plaatsvvinden. Dat he eeft populatie voordelen bij het wege en van de verschillende g roepen om te e zorgen dat de d steekproeff geheel opulatieverde eling is. Daarn na kan met de eze populatie everdeling en kennis over de overeenkkomstig de po stieken zijn vvoor de populatie. itempara ameters precie es bepaald worden w welke de item- en toetskarakteri t n overzicht va an meer voord delen van IRT T boven klass sieke testtheo orie wordt verrwezen naar Voor een Hambleto on, Swaminathan en Roge ers (1991). In de IRT T staat het te meten begrip p of de te metten eigenscha ap centraal. De D IRT beschhouwt het anttwoord op een item als een indiccator voor de mate waarin die eigensch hap aanwezig is. Het verbaand tussen hap en iteman ntwoord is van probabilistissche aard en wordt weergegeven in dee zogenaamde itemeigensch responsffunctie. Die ge eeft aan hoe groot de kanss is op een co orrect antwoo ord als functiee van de onderligg gende eigensschap of vaard digheid. Form meler: zij Xi de e toevalsvaria abele die het antwoord op item i voorstelt. Xi neemt de e waarde 1 aa an in geval va an een correc ct antwoord en n 0 in geval vvan een fout antwoord. a Als symb bool voor de vaardigheid v kiezen k we θ (ttheta). We wijjzen erop datt θ niet rechtsstreeks observeerbaar is. Dat zijjn alleen de antwoorden a op o de opgave n. Dat is de reden waarom m θ een 'latennte' variabele wordt genoemd d. De itemressponsfunctie fi (θ) is gedefi nieerd als ee en conditionele kans: 2.1) (2
n speciale toe epassing van (2.1) waarbij aan de functie fi (θ) een m meer of minde er Een IRT--model is een specifiekke functionele e vorm wordt toegekend. t E Een eenvoudig g en zeer pop pulair voorbeeeld is het zogenaamde Raschm model (Rasch,, 1960) waari n fi (θ) gegev ven is door
(2.2) (
er van item i iis. Dat is een onbekende grootheid g die geschat worrdt uit de waarin βi de moeilijkheidsparamete observaties. De grafie ek van (2.2) is s weergegeve en in figuur 2.1 voor twee items, i en j, ddie in moeilijk kheid en. Deze figuur illustreert dat d de itemre sponsfunctie een stijgende functie is vaan θ: hoe gro oter de verschille vaardigheid, des te grroter de kans op een juist a dien de latentte vaardigheidd precies gelijk is aan antwoord. Ind meter βi, krijge en we de moeiliijkheidsparam
(2.3) ( Daaruit vvolgt onmidde ellijk een interrpretatie voorr de paramete er βi: het is de e 'hoeveelheidd' vaardigheid d die nodig is vvoor de kans van precies een e half om h het item i juist te beantwoo orden. Uit de figuur blijkt duidelijk dat voor item j een gro otere vaardigheid nodig is om diezelfde e kans te bere eiken, maar ddit is hetzelfde e als te dat item j moe eilijker is dan item i. We ku unnen de parameter βi dus s terecht omsschrijven als de d zeggen d moeilijkheidsparamete er van item i. De implicatie e van het bov venstaande is s dat 'moeilijkhheid' en 'vaarrdigheid' op dezelffde schaal lig ggen.
11
Figuur 2..1
Twee ite emresponscu urven in het R Raschmodel
Formule (2.2) is geen beschrijving van de werke elijkheid, het is een hypoth hese over de werkelijkheid d die o haar houdbaarheid. Ho oe zo’n toetsin ng grofweg ve erloopt, is te vverduidelijken n aan de getoetst kan worden op n figuur 2.1. Daaruit D blijkt dat, d voor welkk vaardigheidsniveau dan ook, de kanss om item j juist te hand van beantwoo orden steedss kleiner is dan de kans op p een juist anttwoord op item m i. Daaruit vvolgt de statis stisch te toetsen vvoorspelling dat d de verwac chte proportie e juiste antwo oorden op item m j kleiner is ddan op item i in een willekeurrige steekproe ef van person nen. Splitst m men nu een grrote steekproe ef in twee deeelsteekproeve en, een ‘laaggroe ep’, met de vijjftig procent laagste score es, en een ‘ho ooggroep’, me et de vijftig prrocent hoogstte scores, dan kan men nagaan of de geobse erveerde p-wa aarden van de d opgaven in n beide deelstteekproeven op dezelfde wijze georde end zijn. Daarrvan kan strikkt genomen alleen sprake zijn als, in terrmen van de klassieke n eenzelfde d discriminatie-iindex hebben n. Dat echter blijkt lang nie et altijd zo testtheorrie uitgedrukt,, alle opgaven te zijn. O Ook in het gevval van de toe etsen Rekene en-Wiskunde niet. Veel van n de items bliijken dan ook k niet te kunnen w worden besch hreven met he et Raschmod del. Daarom is s bij dit instrument gekozeen voor een ander IRTmodel. en, is eerst een kanttekening nodig bij het schatten van de Alvorens het hier gebruikte model te introducere ers in het Ras schmodel. Ee en vaak toege epaste schatttingsmethodee is de ‘condittionele moeilijkheidsparamete heidsmethode e’ (in het Eng els: Condition nal Maximum m Likelihood, vverder aange eduid als grootste aannemelijkh f dat in het Raschmodel een afdoend de steekproefg fgrootheid (‘su ufficient CML). Diie maakt gebruik van het feit statistic’) bestaat voorr de latente va ariabele θ, na amelijk de ruw we score of het aantal corrrect beantwoorde items. Da at betekent grofweg dat, in ndien de item mparameters bekend b zijn, alle a informatiee die het antwoord dpatroon overr de vaardigheid bevat, ka an worden sam mengevat in de d ruwe score re; het doet er dan verder niet meer toe welke w opgave en goed en we elke fout zijn gemaakt. Hie eruit vloeit vooort dat de conditionele kans op e een juist antw woord op item m i, gegeven d de ruwe score e, een functie e is die alleenn afhankelijk is van de itempara ameters en on nafhankelijk van v de waarde e van θ. De CML-schatting C gsmethode m maakt van dez ze functie de maakt gee en enkele vero onderstelling over de verdeling van de vaardigheid in de gebruik. Deze method e, en is ook onafhankelijk van v de wijze w waarop de stteekproef is getrokken. populatie ethode is ech hter niet bij elkk meetmodel toepasbaar. In het zogenaaamde éénpa arameter De CML--schattingsme logistisch h model (One e Parameter Logistic L Mode el, afgekort: OPLM) O is CML L mogelijk. Diit model is, an nders dan het R Raschmodel, wel bestand tegen ‘omwissseling’ van ‘proporties juist’ in verschilllende steekp proeven (Glas & V Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De item mresponsfuncctie van het OPLM O is gegeven door
(2.4) (
mde discrimin natie-index va an het item is s. waarin ai de zogenaam
12
Door dezze indices te beperken b tot (positieve) ge ehele getallen n, en door ze a priori als cconstanten in te voeren, is het mogelijk CML-schatttingen van de e itemparame eters βi te mak ken. In figuurr 2.2 is de itemresponscurve wee ergegeven va an twee itemss i en j, die ev ven moeilijk zijn z maar versschillend neren. discrimin
Figuur 2..2
Twee ite emresponscu urven in het O OPLM: zelfde moeilijkheid, verschillendee discriminatiie
en berekend met m het comp puterprogramma OPLM (V Verhelst, Glass & Verstralen n, 1994). De schatttingen worde Dit programma voert eveneens e sta atistische toettsen uit op gro ond waarvan kan worden bepaald of he et model de gegevvens adequaa at beschrijft. Omdat O een aa antal van dez ze toetsen bijzonder gevoeelig is voor ee en verkeerde specificatie e van de discrriminatie-indicces, zijn de uitkomsten van deze toetseen bruikbaar als e geven een aanwijzing a in welke richtin ng deze discriminatie-indice ces moeten worden w modificattie-indices: ze aangepa ast om een be etere overeen nkomst tussen n model en ge egevens te ve erkrijgen. Kallibratie van ite ems het OPLM is dan ook een iteratief proce es waarin alte ernerend de modelfit van iitems wordt volgens h onderzoccht door midd del van statisttische toetsing g en de waarrden van de discriminatie-i d indices worde en aangepa ast op grond van v de resulta aten van deze e toetsen. het OPLM aanzienlijk flexibeler is dan h het Raschmodel, heeft hett met dit modeel toch een nadeel Hoewel h gemeen, waardoor he et bij het kalib breren van me eerkeuze-opg gaven niet zonder meer brruikbaar is. Uit de formules (2.2) en (2.4 4) volgt dat, in ndien θ zeer kklein is, de ka ans op een juist antwoord zzeer dicht in de d buurt en aantal item ms in het norm meringsonderrzoek zijn me eerkeuze-item ms, zodat blind d gokken van nul kkomt. Maar ee een zeke ere kans op een e juist antwo oord implicee ert. Er bestaan modellen die rekening hhouden met de d raadkanss (Lord & Novvick, 1968), maar m die laten n geen CML-s schattingsmetthode toe. Dee ongeschikth heid van het Rascchmodel of OP PLM voor me eerkeuzevrag en is echter relatief: r indien n de items in vergelijking met m de vaardigheid van de leerling niet al te moeilijk zij n, blijkt dat het effect van het raden op de overeenk komst tussen m model en gege evens klein is s. Slechts een n beperkt aan ntal opgaven in de Reken-W Wiskundetoe etsen zijn meerkeuzeopgaven. Alleen A bij opg gaven die and ders scoringsproblemen ge even en bij dooelen die op andere en zijn, is geb bruikgemaaktt van de meerkeuzevorm. Daarnaast zijijn de pure go okkansen wijze moeilijk te toetse eerkeuzeopga aven in de toe etsen Rekene en-Wiskunde niet zeer gro oot: bij het wil lekeurig invullen bij de me meestal .25. Hierdoorr en door een verstandige dataverzame elingsprocedu ure toe te passsen en met name n niet t selecteren in de toets ka an het OPLM M toch toegepast worden oop meerkeuze evragen, te moeilijjke opgaven te waarbij d de overeenkomst tussen model m en data a de uiteindeliijke doorslag over die gescchiktheid moe et geven. et meetmodell op grond van de kalibrati eresultaten aanvaard a kan worden, dat wil zeggen dat er na Indien he serieus o onderzoek ge een praktische e reden meerr is om aan he et meetmodel te twijfelen, dan kan men n het meetmod del gebruiken n om echt te gaan g meten. B Bij deze meetprocedure worden w de item mparameters vastgeze et op hun geschatte waarde uit de kalib bratie. Het eigenlijke meten n kan op tweee manieren ge ebeuren en beide worden toeg gepast in het LOVS: L m de verde eling van de vaardigheid in de populatiee schatten. Da aarbij zijn 1 Bij de eerste proccedure gaat men esultaten van individuele le eerlingen niet rlingen als gro roep worden t van belang, maar de lee de re
13
2
beschouwd als een representatieve steekproef uit de populatie waarop men de test wil gaan toepassen. In het eenvoudigste geval veronderstelt men dat de vaardigheid in de populatie normaal verdeeld is, en men schat gemiddelde en variantie. Bij ingewikkelder steekproeftrekking, bijvoorbeeld met gestratificeerde steekproeven, schat men het gemiddelde en de variantie in elk stratum, en met een eenvoudige terugrekenprocedure kan men gemiddelde en variantie in de totale populatie schatten, ook indien niet proportioneel uit de strata is getrokken. Het resultaat van deze procedure is dat men over een consistente schatting van de verdeling in de populatie beschikt, en dat men ook vrij eenvoudig alle percentielen kan uitrekenen. De hele procedure wordt uitgevoerd met een op OPLM aansluitend programma, SAUL (Structural Analysis of a Unidimensional Latent variable). Merk tenslotte nog op dat uit de veronderstelling van een normale verdeling van de vaardigheid geenszins volgt dat de verdeling van de scores normaal is. De vorm van de scoreverdeling kan behoorlijk grillig zijn, en hangt af van de itemparameters. De tweede procedure is het bepalen (schatten) van de latente vaardigheid van een individuele leerling. Dit is wat gebeurt bij toepassing van de toets: uit de gewogen score op een toets kan een schatting van de latente vaardigheid worden berekend, die echter een schattingsfout bevat, vergelijkbaar met de meetfout uit de klassieke testtheorie. Ligt deze schatting dicht in de buurt van percentiel 80 (die we kennen uit de eerste procedure), dan is de schatting van het percentiel van deze leerling p80. Men kan echter ook een betrouwbaarheidsinterval berekenen voor de latente vaardigheid en dit omzetten in een betrouwbaarheidsinterval voor de percentielen. Voorbeeld: in tabel 2.1 zijn voor een van de toetsen uit het LOVS de percentielen 27 tot en met 48 weergegeven. Stel dat een leerling deze toets maakt en een gewogen score van 104 behaalt. De schatting van de vaardigheid (de schaalscore) die bij deze gewogen score hoort, is 64.32 (deze omzetting wordt door het programma OPLM opgeleverd) en heeft een standaardfout van 3.52. Zoeken we de waarde 64.32 op in de rechterkolom van de tabel, dan vinden als dichtstbijzijnde waarde 64.218, en dat is percentiel 37 in de populatie. Een betrouwbaarheidsinterval van ±1 standaardfout rond de schatting is (60.80. – 67.84) en deze twee grenzen (die het 68%-betrouwbaarheidsinterval aangeven) komen (ongeveer) overeen met de percentielen 29 en 47. Men kan opmerken dat deze betrouwbaarheidsintervallen (zowel voor de schaalscores als voor de percentielen) behoorlijk breed zijn. De reden hiervoor is dezelfde als in de klassieke testtheorie: de hoeveelheid informatie die men over de vaardigheid van een leerling verzamelt is nu eenmaal relatief gering, en de enige manier om meer informatie te verzamelen (en dus een grotere nauwkeurigheid mogelijk te maken) is de toets langer te maken.
14
Tabel 2.1 1 Percen ntiel 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
Enkele percentielen p van een scha aal uit het LO OVS Schaa alscore 60..137 60..572 61..000 61..422 61..837 62..245 62..649 63..048 63..442 63..832 64..218 64..601 64..980 65..357 65..732 66..104 66..474 66..842 67..209 67..575 67..939 68..303
Vraagon nzuiverheid Onzuiverrheid van vrag gen, DIF (‘diffferential item m functioning’)), treedt op wa anneer er eenn samenhang g is tussen grroepslidmaatschap en de respons op e een vraag. Me et andere woo orden, de kanns op een goed antwoord d hangt niet alleen a af van de d vaardighe id van de leerling, maar oo ok van bijvooorbeeld sekse e. Om te be epalen of de items die geb bruikt zijn bij h het regulier le eerlingvolgsys steem Rekeneen-Wiskunde e ook geschikt zijn voor het SBO en SO heeft onderzo oek plaatsgev vonden naar vraagonzuiveerheid. Hierbiij is nagegaa an of de kans op een goed antwoord nie et alleen afha angt van de va aardigheid vaan de leerling gen maar het schooltyp pe. In dit onde erzoek naar o onzuiverheid is de populatie in het reguulier onderwijs s, de ook van h normgroe ep, als refere entiegroep genomen. De le eerlingen die hebben deelg genomen aann de proefond derzoeken in het h SBO en SO S zijn same n als doelgro oep gedefiniee erd. Ook is geekeken of er DIF optreedt tussen SBO en SO, tusse en regulier ba asisonderwijs en SBO en tu ussen regulieer basisonderrwijs en oren wordt ge ebruikgemaakkt van de item mresponscurv ves. SO. Om DIF op te spo
Figuur 2..3
Responsfunctie van een uniform o onzuiver dich hotoom item
15
In figuur 2.3 is een vo oorbeeld weerrgegeven van n een uniform m onzuiver item m. De kans oop een juist an ntwoord elpopulatie is voor alle vaa ardigheidsnive eaus lager da an in de refere entiepopulatiee, of omgeke eerd. in de doe
Figuur 2..4
Responsfunctie van een niet-unifo orm onzuiverr dichotoom item
oorbeeld van een e niet-unifo orm onzuiver dichotoom ite em. De ene ggroep doet he et op een In figuur 2.4 is een vo ardigheidsnive eau beter dan n de andere, terwijl dit op een hoog vaa ardigheidsnivveau precies lager vaa omgekee erd is.
16
3
Beschrijving van de toets
3.1
Opbouw, structuur, afname van de toetsen en rapportage
In dit hoofdstuk beschrijven we de opbouw en structuur van de toetsen Rekenen-Wiskunde voor speciale leerlingen. Tevens komen de afname van de toetsen en mogelijkheden tot rapportage aan de orde. Opbouw en structuur In tabel 3.1 staat een overzicht van de ontwikkelde toetsen Rekenen-Wiskunde voor speciale leerlingen. Van alle toetsen is er een papieren versie en een digitale versie beschikbaar. In de toetsmappen is een handleiding opgenomen behorend bij zowel de papieren als digitale toetsen. In de toetsmap is als bijlage de technische handleiding voor de digitale toetsen opgenomen. Een van de belangrijkste veranderingen ten opzichte van de reguliere toetsen Rekenen-Wiskunde is de beschikbaarheid van tussentoetsen. Opeenvolgende toetsen beslaan nu kleinere leerstappen. Er is een toets M3 en een toets E3 beschikbaar, maar daarnaast ook een tussentoets M3E3. Deze laatste toets is wat moeilijker dan de toets M3 en wat gemakkelijker dan de toets E3. Bij een leerling die zich minder snel ontwikkelt in rekenen-wiskunde, kan aan het eind van groep 3 dus de toets M3E3 voorgelegd worden. Deze leerling hoeft zo niet een te moeilijke toets (E3) te maken, maar ook niet twee keer dezelfde toets (M3). In de handleiding bij de toetsen geven we een aantal richtlijnen voor het kiezen van de juiste toets. De tussentoetsen zijn zodanig samengesteld uit opgaven van de ondergelegen en bovengelegen toets dat de moeilijkheid van de toets precies tussen die van de ondergelegen en bovengelegen toets in ligt.
Tabel 3.1
Overzicht toetsen, afnamemomenten, delen en aantal opgaven
Toets
Delen
Medio groep 3
M3 deel 1 M3 deel 2 M3 deel 3 M3E3 deel 1 M3E3 deel 2 M3E3 deel 3 E3 deel 1 E3 deel 2 E3 deel 3 E3M4 deel 1 E3M4 deel 2 E3M4 deel 3 M4 deel 1 M4 deel 2 M4 deel 3 M4E4 deel 1 M4E4 deel 2 M4E4 deel 3 E4 deel 1 E4 deel 2 E4 deel 3 E4M5 deel 1 E4M5 deel 2 E4M5 deel 3
MedioEind groep 3
Eind groep 3
Eind groep 3 Medio groep 4
Medio groep 4
MedioEind groep 4
Eind groep 4
Eind groep 4 Medio groep 5
Aantal opgaven papier 16 16 16 17 18 16 18 16 16 17 17 17 16 16 16 15 16 16 17 18 21 20 18 18
17
Aantal opgaven digitaal 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 25 20 20 20
Medio groep 5
MedioEind groep 5
Eind groep 5
20 19 19 20 20 20 20 19 20 19
M5 deel 1 M5 deel 2 M5 deel 3 M5E5 deel 1 M5E5 deel 2 M5E5 deel 3 E5 deel 1 E5 deel 2 E5 deel 3 E5 deel 4
20 20 19 20 20 20 20 20 20 19
Waar de reguliere toetsen Rekenen-Wiskunde bestaan uit twee delen per toets, is er voor de toetsen Rekenen-Wiskunde voor speciale leerlingen voor gekozen de delen korter te maken. Per deel worden minder opgaven aan de leerlingen voorgelegd, om tegemoet te komen aan de kortere spanningsboog waarvan bij veel leerlingen met speciale leerbehoefte sprake is. Gevolg is dat voor de toetsen M3 tot en met M5E5 per toets drie delen zijn, en voor de toets E5 vier delen. Bij de toets E5 is sprake van vier delen omdat het aantal opgaven van die toets groter is dan bij de voorgaande toetsen. Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van het betreffende onderdeel in het onderwijs) en psychometrische criteria (met name moeilijkheidsgraad en discriminatieparameter) zijn opgaven geselecteerd voor de toetsen. De toetsen bestaan voornamelijk uit open opgaven waarbij van de leerling een kort antwoord in de vorm van een getal verwacht wordt. Bij de selectie van opgaven voor de toetsen Rekenen-Wiskunde voor speciale leerlingen is de vorm van een open opgave waarbij de leerling meerdere getallen als antwoord diende te geven, weggelaten. Argument hiervoor is dat het soort opgave voor de speciale leerlingen eenduidig moet zijn. Door voor één vorm van open opgaven te kiezen, waarbij het goede antwoord moet worden gegeven in de vorm van één getal, realiseren we dit. Meerkeuzeopgaven komen beperkt voor en worden voornamelijk ingezet bij het onderdeel meetkunde. In tegenstelling tot de reguliere toetsen zijn in de toetsen Rekenen-Wiskunde voor speciale leerlingen de open opgaven en de meerkeuze-opgaven geclusterd. De leerlingen hoeven dan per taak maximaal een keer van opgavesoort te wisselen. Argument hiervoor is dat leerlingen met een speciale leerbehoefte meer behoefte hebben aan structuur. Door het geclusterd aanbieden van de opgaventypen in de toetsen Rekenen-Wiskunde voor speciale leerlingen, bieden wij meer structuur. Het afnemen van de toetsen De papieren toetsen worden klassikaal en schriftelijk gemaakt. Bij de toetsen M3, M3E3, E3, E3M4, M4, M4E4 en het eerste deel van E4 wordt de instructie voorgelezen om te zorgen dat zwakke lezers evenveel kans hebben als goede lezers om de opdrachten te begrijpen en goed te maken. Vanaf het tweede deel van E4 maken de leerlingen de opgaven zelfstandig na enkele voorbeeldopgaven samen met de leerkracht te hebben gemaakt. Leerlingen schrijven hun antwoorden in het opgavenboekje. De digitale toetsen worden individueel gemaakt. Bij de digitale versies van de toetsen wordt bij M3, M3E3, E3, E3M4, M4, M4E4 en het eerste deel van E4 bij elke opgave automatisch de tekst van de opgave voorgelezen. De leerling kan desgewenst door te klikken op het oortje in het scherm het geluidsfragment nogmaals beluisteren. Bij de toetsen E4 (tweede deel) tot en met E5 kunnen de leerlingen desgewenst per opgave kiezen om de tekst voor te laten lezen. Voor de toetsen geldt geen voorgeschreven tijd. In de praktijk is gebleken dat de leerlingen voor het maken van de digitale versies minder tijd nodig hebben dan voor het maken van de papieren versies. We adviseren om, net als in het reguliere basisonderwijs, twee keer per jaar een toetsafname te plannen. In het reguliere basisonderwijs worden de toetsen Rekenen-Wiskunde halverwege het schooljaar (januari/februari) en aan het eind van het schooljaar (juni) afgenomen. Dit zijn namelijk de momenten waarop de normeringsonderzoeken hebben plaatsgevonden. Ook bij de toetsen voor speciale leerlingen heeft het de voorkeur op deze momenten te toetsen. Alleen op die manier is het mogelijk de leerling direct te vergelijken met de gemiddelde leerling in het reguliere onderwijs, door middel van de niveaus A tot en met E en I tot en met V.
18
Ook zijn deze toetsmomenten zodanig gekozen dat de vaardigheid van de leerlingen verdeeld over het jaar optimaal worden gemeten, namelijk in het midden en aan het einde van het jaar. Correctie van de toetsen De toetsen Rekenen-Wiskunde voor speciale leerlingen zijn zowel handmatig na te kijken en te analyseren als via de computer, met behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van de toets kan gebruikgemaakt worden van een lijst met goede antwoorden die in de bijlage van de handleiding is opgenomen. Indien gewenst kan de leerkracht in het Computerprogramma LOVS de goede antwoorden aanklikken. Op basis van de totaalscore van de leerling op de toets wordt een inschatting gemaakt van de algemene rekenvaardigheid van de leerlingen. Bij de digitale versies van de toetsen worden de antwoorden van de leerlingen door de computer gescoord en hoeft de leerkracht de toetsen dus niet zelf na te kijken. Verwerking resultaten en verdere analyses en interpretatie Bij de papieren toetsversies kunnen de resultaten zowel handmatig als met behulp van de computer verwerkt worden. Bij de digitale toetsversies worden de resultaten met de computer verwerkt. De resultaten kunnen door de leerkracht verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding bij het toetspakket Rekenen-Wiskunde voor speciale leerlingen (Cito, 2010a) (hoofdstuk 3: de toetsresultaten verwerken, en hoofdstuk 4: interpretatie en gebruik van de resultaten op leerling- en groepsniveau) worden de mogelijkheden besproken om verschillende overzichten te maken, zoals een alternatief leerlingrapport en een alternatief groepsprofiel. Tevens wordt ingegaan op de vraag wat de resultaten betekenen voor het onderwijsaanbod. In de handleiding bij het Computerprogramma LOVS (Cito, z.j.) wordt besproken hoe het programma gebruikt kan worden om deze overzichten te maken. In de reguliere uitgaven van de toetsen Rekenen-Wiskunde zijn de niveau-indelingen A tot en met E en I tot en met V opgenomen. Deze niveau-indelingen zijn minder geschikt voor gebruik bij speciale leerlingen. Het grootste gedeelte van de doelgroep van de toetsen scoort in vergelijking met de normgroep erg laag en zal dus altijd een E- of V-score krijgen. Dit is weinig informatief. Vandaar dat in de toetsen Rekenen-Wiskunde voor speciale leerlingen naast een vaardigheidsscore, met bijbehorend score-interval, ook een functioneringsniveau gerapporteerd wordt. Het functioneringsniveau is een interpretatie van de vaardigheidsscore die het communiceren over de vaardigheid van een leerling vereenvoudigt. Het functioneringsniveau geeft aan met welke gemiddelde leerling in het reguliere basisonderwijs de vaardigheidsscore van de getoetste leerling te vergelijken is. Heeft een leerling op een rekentoets M5 een vaardigheidsscore behaald van 48, dan komt deze score overeen met de vaardigheidsscore van een gemiddelde leerling op het toetsmoment M4. Het functioneringsniveau van de leerling is dan M4. De leerling is dus qua vaardigheid vergelijkbaar met een gemiddelde leerling in het reguliere basisonderwijs medio groep 4. In de uitgave Rekenen-Wiskunde voor speciale leerlingen wordt het functioneringsniveau gerapporteerd tot een jaar boven het niveau van de toets en tot een jaar onder het niveau van de toets. Wanneer leerlingen een vaardigheidsscore hebben behorend bij een functioneringsniveau meer dan een jaar hoger of lager wordt in de tabel vermeld dat deze functioneringsniveaus minder betrouwbaar zijn. De leerling krijgt dan bijvoorbeeld een functioneringsniveau van ‘>M5’, omdat het score-interval waarin de vaardigheidsscore valt in dit geval zo groot is, dat het geven van één functioneringsniveau minder betrouwbaar is. In het Computerprogramma LOVS wordt altijd een functioneringsniveau gegeven, ook als een leerling een functioneringsniveau heeft van meer dan een jaar boven of onder het niveau van de toets. Toetsen op maat De rekenvaardigheid van leerlingen in een groep loopt vaak sterk uiteen. Als gevolg daarvan zal eenzelfde rekentoets voor een deel van de leerlingen goed op niveau zijn, maar voor sommige andere leerlingen erg moeilijk of erg gemakkelijk. De bij de rekentoetsen van het Cito Volgsysteem (LOVS) gehanteerde meettechniek maakt het mogelijk de toetsen op het niveau van de leerlingen af te stemmen. Omdat de toetsscores op verschillende rekentoetsen telkens naar eenzelfde schaal worden omgezet is het mogelijk leerlingen die verschillende toetsen maken toch met elkaar te vergelijken. Leerlingen kunnen daardoor
19
bijvoorbeeld een toets maken die hoort bij een vorig afnamemoment (een M4-leerling maakt een toets E3) of een volgend afnamemoment (een M4-leerling maakt een toets E4). Bij gebruik bij leerlingen met een vertraagde ontwikkeling raden we leerkrachten aan een toets te selecteren die past bij het niveau van de leerling. Bijvoorbeeld: werkt een 10-jarige leerling in het SBO in de reken-wiskundemethode van medio groep 4, dan selecteert de leerkracht voor deze leerling de M4-toets, of de iets gemakkelijkere E3M4-toets. Categorieënanalyse Voor verdere analyses op leerlingniveau (van zowel de toetsresultaten van de papieren versies als de digitale versies) is een speciale analyse binnen het Computerprogramma LOVS ontwikkeld: categorieënanalyse. Bij elke toets kunnen de opgaven onderverdeeld worden in een relatief klein aantal didactisch zinvolle categorieën. Uit de vaardigheidsscore die de leerling behaalt en het bijbehorende functioneringsniveau weten we of we met een sterke of zwakke leerling van doen hebben. De categorieënanalyse is bedoeld om na te gaan of de leerling, gegeven zijn algemene niveau, evenwichtig presteert op de verschillende onderdelen of categorieën van de toets. Met een categorieënanalyse kan nagegaan worden of leerlingen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. De categorieën die bij de toetsen Rekenen-Wiskunde voor speciale leerlingen worden gehanteerd, staan in tabel 3.3. De rechterkolom geeft aan bij welke toetsen de categorieën worden gebruikt.
Tabel 3.3 Verkorte naam GET O&A V&D ME MTG TG
Categorieën in de toetsen Rekenen-Wiskunde voor speciale leerlingen Van toepassing voor Omschrijving Getallen en getalrelaties Optellen en aftrekken Vermenigvuldigen en delen Meten, meetkunde Meten, meetkunde, tijd en geld Tijd en geld
M3, M3E3, E3, E3M4, M4, M4E4, E4, E4M5, M5, M5E5, E5 M3, M3E3, E3, E3M4, M4, M4E4, E4, E4M5, M5, M5E5, E5 M3, M3E3, E3, E3M4, M4, M4E4, E4, E4M5, M5, M5E5, E5 M3, M3E3, E3, M5, M5E5, E5 E3M4, M4, M4E4, E4, E4M5 M5, M5E5, E5
Niet alle categorieën zijn op elk niveau van toepassing, gezien het aanbod van onderwerpen in het onderwijs op het betreffende niveau. Voor M3 bijvoorbeeld worden alleen de categorieën GET, O&A, V&D en ME gehanteerd. Bovendien is niet elke categorie met evenveel items vertegenwoordigd, want dat zou geen recht doen aan de relatieve belangrijkheid van de categorieën in het onderwijs. In tabel 3.4 en 3.5 is het aantal opgaven per toets per categorie gegeven, voor respectievelijk de papieren toetsen en de digitale toetsen.
Tabel 3.4
Papieren toetsen: aantal opgaven per toets per categorie
Categorie
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
GET
16
17
16
15
9
9
11
11
9
10
11
O&A
16
19
19
14
15
12
14
15
16
13
11
V&D
12
9
8
13
13
13
17
17
17
17
30
ME
4
6
7
8
12
13
8
8
13
58
60
78
MTG
9
11
13
14
13
TG Totaal
48
51
50
51
48
47
20
56
56
Tabel 3.5
Digitale toetsen: aantal opgaven per toets per categorie
Categorie
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
GET
18
18
18
15
12
12
12
12
9
10
10
O&A
23
21
18
14
16
13
14
15
17
14
11
V&D
9
9
11
14
13
14
19
18
16
16
31
ME
4
6
7
8
12
13
9
8
14
59
60
79
MTG
11
13
15
16
15
TG Totaal
54
54
54
54
54
54
61
60
Voor de categorieënanalyse is een aparte verantwoording geschreven (zie bijlage 1). In de handleiding bij het Computerprogramma LOVS (Cito, z.j.) is voor de leerkrachten een uitvoerige beschrijving opgenomen van de categorieënanalyse en de interpretatie van de uitkomsten.
3.2
Inhoudsverantwoording
In het ontwikkelproces van de toetsen zijn een aantal fasen te onderscheiden: domeinbeschrijving; itemconstructie; normeringsonderzoek; kalibratieanalyses; samenstelling van de toets, rapportageoverzichten en handleiding. In deze paragraaf worden deze fasen toegelicht. De opgaven in de toetsen Rekenen-wiskunde voor speciale leerlingen komen overeen met de opgaven uit de reguliere toetsen Rekenen-Wiskunde. Op die manier is het mogelijk om de resultaten op de toetsen voor speciale leerlingen en de reguliere toetsen met elkaar te vergelijken. We vatten hieronder samen hoe de opgaven en toetsen voor de reguliere toetsen tot stand zijn gekomen en betrekken daarbij de manier waarop dat voor de toetsen Rekenen-Wiskunde voor speciale leerlingen is gedaan. Op basis van de domeinbeschrijving (zie paragraaf 2.4.1) zijn bij de verschillende doelen van een afnamemoment opgaven geconstrueerd die een operationalisering vormen van die doelen. Dat is gebeurd door itemschrijfcommissies die bestaan uit leerkrachten basisonderwijs, schoolbegeleiders en pabodocenten. Geconstrueerde items zijn in commissievergaderingen onder leiding van een Citomedewerker besproken en zo nodig bijgesteld. De geconstrueerde en uitgewerkte opgaven zijn vervolgens op basis van een afnamedesign voorgelegd aan een steekproef van leerlingen en scholen (zie hoofdstuk 4 van Wetenschappelijke verantwoording Rekenen-Wiskunde groep 3 tot en met 8, 2010) in de periode 2003-2009. Bij die afnames zijn de meeste leerlingen drie afnamemomenten lang gevolgd. De leerlingen zijn gevolgd om de ontwikkeling van de rekenvaardigheid in kaart te brengen en referentiegegevens van een landelijke normgroep te verzamelen. Na de afnames zijn de antwoorden van de leerlingen op de toetsen geanalyseerd met behulp van het programmapakket One Parameter Logistic Model (OPLM; Verhelst, 1993; Verhelst en Glas, 1995). Voor een algemene technische beschrijving van dit model zie paragraaf 2.4.2. Voor een beschrijving van de opzet en uitvoering van het normeringsonderzoek verwijzen we naar hoofdstuk 4 van deze verantwoording. Bij de analyses is de kwaliteit van de afzonderlijke items en de totale verzameling voor een afnamemoment in kaart gebracht. Itemparameters en discriminatieparameters zijn geschat en normeringstabellen zijn samengesteld. Bij de analyses van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende onderdelen een beroep doen op hetzelfde complex aan vaardigheden. Dat bleek het geval te
21
zijn. Daarom is voor groep 3 tot en met groep 8 een schaal geconstrueerd, die we de algemene rekenvaardigheidsschaal genoemd hebben. Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van het betreffende onderdeel in het onderwijs) en psychometrische criteria (met name moeilijkheidsgraad en discriminatieparameter) zijn vervolgens toetsen samengesteld. Met behulp van de totaalscore op iedere toets (dat is het totaal aantal goed gemaakte opgaven in alle onderdelen van de toets) is de algemene rekenvaardigheid van een leerling op een bepaald afnamemoment te bepalen. Indien leerlingen elk half jaar een van de toetsen Rekenen-Wiskunde uit het Cito Volgsysteem primair onderwijs (LOVS) maken, dan maakt deze schaal het mogelijk de algemene rekenvaardigheid van de leerlingen te volgen vanaf niveau groep 3 tot en met groep 8. Om te bepalen of de items ook geschikt zijn om in het SBO en SO te gebruiken, hebben er in de periode 2007-2009 digitale onderzoeken plaatsgevonden in het SBO. In 2010 heeft een papieren onderzoek plaatsgevonden in het SBO en in de clusters 2, 3 en 4 van het SO. Bij de analyses is nagegaan of er DIF (‘differential item functioning’) optreedt tussen het antwoordgedrag van leerlingen in het regulier basisonderwijs en het antwoordgedrag van leerlingen in het SBO en SO cluster 2, cluster 3 (langdurig zieken) en cluster 4. Bij ongeveer 20% van de items in het papieren proefonderzoek bleek DIF voor te komen. Het bleek dat sommige DIF-items in het voordeel van de leerlingen in het SBO en SO werken, en andere DIF-items in hun nadeel. Het is waarschijnlijk dat mede daardoor voor veel items geen inhoudelijke verklaring voor de DIF gevonden kon worden. Onderzoek naar mogelijke verklaringen vindt plaats. Bij de selectie van items voor de definitieve toetsen hebben overwegingen van psychometrische, inhoudelijke en praktische aard bepaald of de items werden opgenomen. In hoofdstuk 4 wordt nader in gegaan op de resultaten van de kalibratieonderzoeken in het SO en SBO. Naast de toetsen zijn ook rapportageoverzichten gemaakt en een handleiding en inhoudelijke verantwoording geschreven. De inhoud van de toetsen De verschillende leerstofonderdelen die in de toetsen Rekenen-Wiskunde voor speciale leerlingen in groep 3 tot en met 5 aan de orde komen, lichten we in deze paragraaf kort toe en vatten we samen in een tabel. Voor een uitvoerige beschrijving van de inhoud van de toetsen verwijzen we naar de Inhoudsverantwoording in de toetsen Rekenen-Wiskunde voor speciale leerlingen (Cito, 2010b). Daarin is een uitgebreide inhoudsbeschrijving opgenomen die geïllustreerd wordt met voorbeeldopgaven uit de toetsen. In paragraaf 2.4.1 is aangegeven dat de verschillende onderdelen van het domein rekenen-wiskunde een samenhangend geheel vormen en dat we de volgende drie subdomeinen onderscheiden: 1 Getallen en bewerkingen; 2 Verhoudingen, breuken en procenten; 3 Meten en meetkunde, tijd en geld. We bespreken hierna voor de niveaus groep 3 tot en met 5 de onderwerpen die in deze subdomeinen aan de orde komen. Getallen en bewerkingen 1 Getallen en getalrelaties Bij dit onderwerp staan centraal het doorzien van de structuur van de telrij, de structuur van getallen en de relaties tussen getallen. 2 Bewerkingen: optellen en aftrekken 3 Bewerkingen: vermenigvuldigen en delen 4 Complexe toepassingen (waarbij meestal meerdere bewerkingen moeten worden uitgevoerd). Bij de onderwerpen 2, 3 en 4 gaat het om optellingen, aftrekkingen, vermenigvuldigingen, delingen en toepassingen die de leerling vlot, handig en inzichtelijk moet kunnen uitvoeren. Bij de niveaus groep 3, 4 en 5 mogen de leerlingen bij dit onderdeel notities maken en tussenuitkomsten opschrijven.
22
Verhoudingen, breuken en procenten 5 Verhoudingen Elementaire verhoudingsproblemen spelen in het reken-wiskundeonderwijs bij tal van onderwerpen vanaf groep 3 een belangrijke rol. Zo krijgen leerlingen al snel verhoudingsproblemen voorgelegd waarbij ze berekeningen moeten uitvoeren, bijvoorbeeld als bij een recept hoeveelheden aangepast moeten worden aan het aantal personen. Meten en meetkunde, tijd en geld 6 Meten: lengte Bij dit onderwerp gaat het om basiskennis en begrip van lengtematen, aflezen van meetinstrumenten, onderling herleiden van maten, kennis van maten en het toepassen van deze aspecten. 7 Meten: oppervlakte Bij dit onderwerp gaat het om basiskennis en begrip van oppervlaktematen, afpassen met natuurlijke maten, onderling herleiden van enkele veel voorkomende oppervlaktematen, kennis van maten en het toepassen van deze aspecten. Meten: inhoud Bij dit onderwerp gaat het om basiskennis en begrip van inhoudsmaten, afpassen met natuurlijke maten, onderling herleiden van enkele veel voorkomende inhoudsmaten, kennis van maten en het toepassen van deze aspecten. Meten: gewicht Bij dit onderwerp gaat het om basiskennis en begrip van gewichtsmaten, aflezen van meetinstrumenten, onderling herleiden van maten, kennis van maten en het toepassen van deze aspecten. 10 Meten: toepassingen Bij dit onderwerp worden de grenzen tussen de afzonderlijke meetgebieden overschreden. Dat is bijvoorbeeld het geval als in de opgave een relatie gelegd wordt tussen tijd en afstand of tussen omtrek en oppervlakte of oppervlakte en prijs. 11 Meetkunde Hierbij gaat het om eenvoudige kennis en begrippen waarmee de ruimte meetkundig geordend, beschreven en verklaard kan worden. Centraal bij dit onderwerp staat de vaardigheid ‘ruimtelijk redeneren’. 12 Tijd Bij dit onderwerp gaat het om basiskennis en begrip van klok en kalender en het rekenen met tijd in toepassingssituaties. 13 Geld Bij dit onderwerp gaat het om rekenen met geld, waarbij specifieke handelingen met munten en bankbiljetten uitgevoerd moeten worden. In tabel 3.6 is aangegeven in welke toetsen de verschillende leerstofonderdelen voorkomen. Op de overzichten zijn de categorieën die op de verschillende onderdelen van meten betrekking hebben samengevoegd tot ‘Meten’ omdat er in die toetsen maar een beperkt aantal meetopgaven voorkomt en een opdeling niet zinvol is.
23
Tabel 3.6
Onderdelen die in de toetsen Rekenen-Wiskunde voor speciale leerlingen voorkomen. M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
1 Getallen en getalrelaties
X
X
X
X
X
X
X
X
X
X
X
2 Bewerkingen: optellen en aftrekken
X
X
X
X
X
X
X
X
X
X
X
3 Bewerkingen: vermenigvuldigen en delen
X
X
X
X
X
X
X
X
X
X
X
4 Complexe toepassingen
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
5 Verhoudingen 6 Meten: lengte M
M
M
M
M
M
M
M
M
M
M
E
E
E
E
E
E
E
E
E
E
E
T
T
T
T
T
T
T
T
T
T
T
E
E
E
E
E
E
E
E
E
E
E
N
N
N
N
N
N
N
N
N
N
N
12 Tijd
X
X
X
X
X
X
X
X
X
13 Geld
X
X
X
X
X
X
X
X
X
7 Meten: oppervlakte 8 Meten: inhoud 9 Meten: gewicht 10 Meten: toepassingen 11 Meetkunde
Naast een uitgebreide inhoudsbeschrijving per afnamemoment is er in de Inhoudsverantwoording van de toetsen Rekenen-Wiskunde voor speciale leerlingen een serie overzichten opgenomen die leerkrachten zicht geven op de doorgaande lijn bij de verschillende onderscheiden onderwerpen. Met behulp van die overzichten kunnen de leerkrachten de scores van leerlingen inhoudelijk interpreteren. De betreffende paragrafen bestaan uit grafieken waarop de p50- en p80-kanspunten van items van de in de toetsen onderscheiden onderdelen zijn afgebeeld, alsmede de vaardigheidsverdelingen op een aantal afnamemomenten. In figuur 3.1 wordt een voorbeeld gegeven van de doorgaande lijn M3-E5 bij het onderwerp Getallen en getalrelaties. Figuur 3.2 laat de opgaven zien die horen bij de eerste twaalf balkjes in figuur 3.1. Met een willekeurig vaardigheidsniveau als uitgangspunt kan de leerkracht uit de overzichten afleiden welke opgaven van dat onderdeel op dat vaardigheidsniveau goed beheerst worden, welke matig en welke onvoldoende.
24
Figuur 3..1
Voorbee eld van een doorgaande lijijn
25
Figuur 3..2
Opgave en 1 tot en me et 12 bij de do oorgaande lijn n van figuur 3.1 3
Leerlingzorg en Rekenen-W Wiskunde voor speciale le eerlingen mak ken deel uit van een systeeem van leerliingzorg. De toetse Dat syste eem bestaat uit u onderwijs-- en leerlingm materialen die ingezet kunn nen worden bbij het cyclisch he proces van onde erwijs op maa at: signaleren, analyseren,, handelen en n terugkoppeling door midddel van evalu uatie. In paragrraaf 4.3 de ha andleiding bij de toetsen R Rekenen-Wisk kunde voor speciale leerlinngen (Cito, 20 010a) is een korte e beschrijving g opgenomen n van de verscchillende fase en. Ook vindt men daar beeknopte inform matie over de u uitgaven Diag gnosticeren en plannen en n de hulpboek ken Rekenen. Voor gedetaailleerde inforrmatie wordt verrwezen naar Diagnosticerren en planne en in de onderrbouw (Cito, 2008), 2 Diagnnosticeren en plannen in de bovvenbouw (verrschijnt 2012)) en Rekenen n Hulpboeken n groep 3 tot en e met 6 (Citoo, 2002b, Cito o, 2002c, Cito, 200 02d, Cito, 200 02e, Cito, 200 02f, Cito, 2002 2g, Cito, 2003 3 en Cito, 200 03a).
26
Om interne begeleiders en individuele leerkrachten voor te bereiden op een zo effectief mogelijke inzet van alle materialen worden regelmatig cursusbijeenkomsten georganiseerd. Omdat in deze verantwoording alleen de toetsen Rekenen-Wiskunde voor speciale leerlingen verantwoord worden, volstaan we hier met een overzicht van de materialen voor leerlingzorg (figuur 3.3). De in figuur 3.3 genoemde ‘toetsen Rekenen-Wiskunde’ omvatten zowel de reguliere uitgaven Rekenen-Wiskunde als de toetsen Rekenen-Wiskunde voor speciale leerlingen.
Figuur 3.3
Overzicht van de activiteiten en materialen ten behoeve van de leerlingzorg RekenenWiskunde
27
28
4
Kalibratie en normering
4.1
Kalibratie
Met het oog op de ontwikkeling van de toetsen Rekenen-Wiskunde voor speciale leerlingen zijn van 2007 tot en met 2010 proefonderzoeken uitgevoerd naar de kwaliteit van de opgaven voor speciale leerlingen met functioneringsniveau Midden groep 3 tot en met Eind groep 5. De opgaven die werden geselecteerd voor deze proefonderzoeken kwamen allemaal uit de reguliere LOVS-toetsen en zijn aangevuld met reeds gekalibreerde opgaven die niet in de reguliere uitgaven opgenomen waren. De opgaven zijn in proefonderzoeken in de jaren 2007 tot en met 2010 voorgelegd aan groepen leerlingen van scholen voor speciaal basisonderwijs en scholen voor speciaal onderwijs cluster 2, cluster 3 en cluster 4.
4.1.1
Proefonderzoeken
De proefonderzoeken leveren gegevens op over de kwaliteit en de moeilijkheid van de opgaven voor de speciale leerlingen, en over vraagonzuiverheid. Op grond van deze gegevens wordt een selectie van items gemaakt voor de definitieve toets. Al eerder werd opgemerkt dat in het proefonderzoek, dat aan de opgavenbanken en dus de kalibratie ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van de proefonderzoeken maakten alle opgaven. Opgaven werden verdeeld in blokken en aan elke leerling werden een of meer blokken voorgelegd. De blokken die gezamenlijk aan een groep leerlingen worden voorgelegd, worden ‘boekjes’ genoemd; de verschillende boekjes overlappen elkaar. Deze overlap zorgt ervoor dat het design verbonden is, een noodzakelijke voorwaarde om CMLschattingen van de itemparameters te kunnen bepalen. Digitaal Om een eerste indruk te krijgen van de bruikbaarheid van de items uit de (digitale) LOVS-toetsen voor regulier onderwijs werd in 2007 een digitaal proefonderzoek uitgevoerd. Aan 819 leerlingen uit het SBO die functioneren op de niveaus van groep 3 tot en met 5 werden 280 digitale items voorgelegd. De items werden verdeeld over 18 taken, waarbij elke taak uit ongeveer 30 items bestond. De taken vertoonden onderling overlap zodat we een verbonden design hadden. Elke leerling maakte steeds twee taken. Het gemiddelde aantal itemantwoorden per opgave lag op 195. Naar aanleiding van de resultaten op het proefonderzoek in 2007 werden enkele items licht gewijzigd en in een nieuw digitaal onderzoek in 2008 afgenomen bij 1023 leerlingen uit het SBO die functioneerden op de niveaus van groep 3 tot en met 5. Bovendien werden er enkele nieuwe items voor de lagere niveaus én werd een compleet nieuwe set (uit het reguliere digitale LOVS) voor het niveau E5 geproeftoetst. Aangezien uit het eerste onderzoek gebleken was dat de leerlingen in het SBO de taken aan de lange kant vonden, zijn de taken ingekort. De items werden verdeeld over 11 boekjes, elk bestaande uit drie taken van ongeveer 20 items. Tussen de boekjes is overlap in taken en de boekjes zijn zo via een onvolledig design verbonden. Doordat in de boekjes ook items voorkomen uit de bestaande digitale LOVS-toetsen voor regulier onderwijs is het design ook verbonden aan deze bestaande toetsen en de bestaande LOVS kalibratiebank. Het aantal digitaal geproeftoetste items is nu 395 en gemiddeld werd elk item aangeboden aan ongeveer 155 leerlingen. Op basis van de resultaten van beide proeftoetsingen gezamenlijk zijn de digitale toetsen voor speciale leerlingen samengesteld. Papier In januari 2010 heeft bij leerlingen die functioneren op het niveau van groep 3 tot en met 5 een proefonderzoek plaatsgevonden waarin items zijn opgenomen uit de papieren uitgave van de reguliere LOVS-toetsen. Daardoor is het mogelijk om de items uit dit proefonderzoek op dezelfde schaal te kalibreren als de items uit de papieren uitgaves van de reguliere LOVS-toetsen Rekenen-Wiskunde.
29
In het proefonderzoek van januari 2010 werden 14 boekjes elk bestaande uit 3 taken (elk van ongeveer 20 items) samengesteld en twee boekjes bestaande uit 4 taken. Van alle boekjes waren twee versies (A en B). Het afnamedesign is weergegeven in tabel 4.1.
Tabel 4.1
Afnamedesign proefonderzoek papier januari 2010
Boekje R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R12 R14 R16 niveau N R1
38
R2
9
<M3
430
34
M3-A
383
R3 R4
5
27 54
M3-B
398
2
12 27 54
E3-A
354
E3-B
369
R5
27 54
R6
4
27 53
R7
26 53
R8
4
R9
26 53 27 61
R10
25 60
R12
35
59
R14
8
30
R16
60 30
79
M4-A
579
M4-B
546
E4-A
357
E4-B
416
M5-A
387
M5-B
293
E5-A
113
E5-B
237
In tabel 4.1 vinden we voor elk van 13 afgenomen toetsen steeds de overlap in aantallen items met de andere toetsen. Zo betekent de 9 in rij R2 en kolom R1 dat de toetsen R1 en R2 negen items gemeenschappelijk hadden. Op de diagonaal staat steeds het aantal items van de betreffende toets. In de laatste twee kolommen vinden we de niveau-aanduiding van de toets en het aantal leerlingen (N) dat die toets heeft gemaakt. Voor de items in de toetsen R11, R13 en R15 zijn voor deze doelgroep speciale versies gemaakt: de items zijn voorzien van een kader. Zie hiervoor tabel 4.2.
Tabel 4.2
Afnamedesign proefonderzoek papier januari 2010: kaderversies
boekje Niveau
N
Toets
R11
M5-B
320 kaderversie van R12
R13
E5-A
94 kaderversie van R14
R15
E5-B
208 kaderversie van R16
De overlap tussen de kaderversies is uiteraard dezelfde als die tussen de corresponderende reguliere toetsen. Deze variant op de gewone opgaven bood ons de mogelijkheid om eventuele verschillen als gevolg van afnamevorm te kunnen onderzoeken. De gedachte achter deze versie was dat een kader de doelgroep van speciale leerlingen meer houvast zou bieden. Een voorbeeld van een item met en zonder kader is te zien in figuur 4.1.
30
Figuur 4..1
Opga ave met en zo onder kader
Met kader
Zonder kader
d afnamevo orm geen effe ect had: de ge eschatte itemp parameters vvoor de reguliere items Uiteindelijk bleek dat de aarvan is besloten de reguuliere items zo onder en de kaderitems warren (statistisch) equivalentt. Op basis da kader te handhaven. onderzoek de eden in totaal 5484 leerling gen mee van SBO-, SO cluster 2-, SO cluster 3- en SO Aan het o cluster 4--scholen. In totaal werden 532 items ge eproeftoetst, waarbij elk ite em door gem middeld 571 le eerlingen werd gem maakt. Op ba asis van de resultaten van deze proeftoetsing is de definitieve d sel ectie voor de e toetsen Rekenen n-Wiskunde voor speciale leerlingen be epaald.
K Kalibratiegegevens
4.1.2
a zin n de procedurres beschreve en die leiden tot gekalibreeerde opgaven nbanken. In hoofdsstuk 2 zijn in algemene Tevens iss daar ingega aan op het me eetmodel datt ten grondsla ag ligt aan de toetsen Rekeenen-Wiskun nde voor speciale leerlingen. In n deze paragrraaf gaan we nog wat nauwkeuriger in op de stappeen die in het kader k van atie zijn geno omen (4.1.2.1). In paragraa af 4.1.2.2 gev ven we resultaten van anaalyses die duidelijk de kalibra maken dat de kalibrattie geslaagd genoemd g kan n worden. De stappen in n de kalibratie e 4.1.2.1 D Met kalib bratie wordt bedoeld dat we kengetallen n zoeken bij de d items die de d antwoordeen van de leerrlingen goed rep presenteren. Hoe H de kenge etallen gezoccht worden, lig gt deels vast door het gekoozen model (zie paragraa af 2.4.2) en ho oe succesvol deze operatiie is, kan stattistisch getoettst worden. E Eenvoudig gez zegd, schatten we in OPLM met de CML L-methode de itemparametters en contro oleren we of ddeze de data goed n exacte besc chrijving van d de statistische toetsen die in OPLM gebbruikt worden n, hun voorspelllen. Voor een eigensch happen en feitelijke implem mentatie in OP PLM verwijze en we naar Ve erhelst (1993 ). Hier beperk ken we ons tot een korte bescchrijving van de principes van de statistische toetsen die gebruikt kt zijn in de eprocedure. De D statistische e toetsen in O OPLM hebben n goede statis stische en assymptotische kalibratie eigensch happen daar OPLM O behoo ort tot de expo onentiële familie, met de gewogen som mscore, k
s ai xi ,
(4.1)
i 1
als een ‘a afdoende statistiek’ voor de d vaardigheid ekent dat alle informatie in de data met d . Dit bete betrekkin ng tot de vaarrdigheid in de eze statistiek a aanwezig is. Hiervan word dt gebruikgem maakt bij de statistische toetsen in OPLM. Het basisprincipe b e van de statis stische toetse en in OPLM iss dat op grond van de afdoende e statistiek s de personen n in de data kkunnen worde en gegroepee erd. En binne en deze groep pen kan de ve erwachte prop portie goede antwoorden op o een item oonder het model, w met de d feitelijk geo ede antwoordden, prop ( | s ) . In het observeerde proportie goe p( | s) , vergeleken worden polytome e geval worde en de items gedichotomise eerd, de proportie goede antwoorden a veerwijst dan na aar de hoge item mscore (zie Verhelst, V 1993 3, hoofdstuk 7 7). Via de bas sisvergelijking g van OPLM kunnen we eenvoudig
31
de conditionele kans op het goed beantwoorden van de items afleiden en daarmee kunnen we p( | s) evalueren, prop ( | s ) volgt uit de data. Discrepanties tussen p( | s) en prop ( | s ) duiden op schendingen van het model. Deze discrepanties vormen de basis voor de diverse statistische toetsen in OPLM. De toetsingsgrootheid voor de veronderstelde discriminatie-indices is gegeven door
M f sH ( p( | s) prop( | s)) f sL ( prop( | s) p( | s)).
(4.2)
Deze zogenaamde M-toetsen verdelen de scoregroepen in een laag deel ( L ) en een hoog deel ( H ) en f is een monotone functie. M-toetsen hebben een duidelijke interpretatie: is M significant positief dan is de veronderstelde steilheid van de ICC (item karakteristieke curve) overschat in het model, is M daarentegen erg laag dan is de index te klein. Verhelst laat zien voor welke functie, f , M N (0,1) . In OPLM zijn drie verschillende M-toetsen geïmplementeerd die verschillen in de definitie van de hoge en lage scoregroepen. Naast deze M-toetsen is er een algemene itemtoets die de volgende vorm heeft
S f ( p ( | s ) prop ( | s )) .
(4.3)
Deze zogenaamde S-toets heeft een verdeling onder het model. Analoog hieraan is er ook een toets om vormen van vraagonzuiverheid (in het Engels ‘item bias’ of ‘differential item functioning’, afgekort DIF) op te sporen: 2
S h( p I ( | s) propI ( | s), ( p II ( | s) propII ( | s)) ,
(4.4)
waarbij I en II de twee niveaus van de variabele indiceren waarvoor we de bias onderzoeken. Als globale model toets is de R1c-toets (Glas, 1988) geschikt. Ook de distributie van alle afzonderlijke S-toetsen komt hiervoor in aanmerking. Als we deze S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn, dan zouden de overschrijdingskansen uniform verdeeld moeten zijn op het (0,1) interval. Kortom, als we afzien van de formeel-statistische achtergrond van de gehanteerde toetsen, kan de kalibratieprocedure als volgt worden samengevat: 1 Kies geschikte waarden voor de discriminatie-indices in OPLM. 2 Vervolgens schatten we de itemparameters met behulp van de CML-methode. 3 Met behulp van de M-toetsen controleren we of de discriminatie-indices goed zijn ingesteld. 4 Een volgende controle betreft de overschrijdingskansen van de S-toetsen en een grafische modelcontrole door middel van het programma OPDRAW (grafische inspectie van de ICC’s). 5 Vervolgens vindt een globale modelcontrole plaats in de vorm van een R1c-toets en de verdeling van de overschrijdingskansen van de S-toetsen. 6 Daarna toetsen we nadrukkelijk op vormen van item bias, in dit geval naar schooltype. De stappen 1 tot en met 6 worden een aantal malen doorlopen tot het resultaat bevredigend is. Afhankelijk van de uitkomsten kunnen items worden verwijderd. Ook inhoudelijke overwegingen (zie hiervoor hoofdstuk 2 over de achtergronden van de toetsinhoud) spelen een rol in dit beslissingsproces. In het kalibratieonderzoek was voorzien in een koppeling met de opgaven uit de reeds bestaande LOVS-schaal Rekenen-Wiskunde voor het reguliere onderwijs. De opgaven en dus ook de nieuwe toetsen liggen op de al bestaande schaal en doen een beroep op hetzelfde complex aan vaardigheden of ‘latente trek’. In hoofdstuk 6 over validiteit wordt dit nader toegelicht. 4.1.2.2 Toetsing van het IRT-model Het is niet eenvoudig om de kwaliteit van de kalibratie aan te tonen. De belangrijkste statistische instrumenten om de passing van een opgave in het IRT-model te bewerkstellingen en uiteindelijk te documenteren betreffen de hierboven al besproken S-toetsen. Het lastige daarvan is, dat de toetsing voor een groot deel visueel gebeurt. Dit kunnen we illustreren aan de hand van figuur 4.2 (zie Staphorsius, 1994, blz. 239). Figuur 4.2 beeldt voor een opgave de gegevens af waarop de betreffende S-toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst, 1992). Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal acht) scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even grote score. De geobserveerde
32
proportie es juiste antwo oorden van deze d groepen (telkens gesymboliseerd door een x) zzijn door de middelste m stippellijn n verbonden. De volle lijn daarentegen d verbindt de proporties p die e op grond va n de paramete erschattingen n voorspeld ku unnen worde en. De twee buitenste lijnen n geven het 995%betrouwb baarheidsinte erval aan. De breedte van d e mate afhan kelijk van hett aantal dit interval is in belangrijke leerlingen n dat de opga ave heeft bea antwoord. Uit de figuur blijkt heel duidelijk dat de geoobserveerde proportie es, zoals bedo oeld, binnen het h 95%- betrrouwbaarheid dsinterval van n de (geschattte) voorspeld de proportie es liggen, en dit d komt in gro ote lijnen ove ereen met een n niet-significante S-toetsinngsgrootheid (Verhelstt et al., 1994)).
Figuur 4..2
Grafisch he voorstelling van een Si –toets
ndoenlijk om voor v alle opga aven dergelijkke grafische voorstellingen v n in deze veraantwoording op te Het is on nemen. D Daarom bepe erken we ons per toetsverssie tot het item m met de slec chtste en de bbeste S-pass sing, aangevuld met een qu ua S-toetsingsresultaat ge emiddelde (da at wil zeggen,, meest repreesentatieve) passing. p De voorb beelden in figuur 4.3 illustreren dat voorr beide toetsv versies (papie er en digitaal)) zelfs bij de slechtst s passende e opgaven sp prake is van een e zeer aanvvaardbaar be eeld. Er wordtt in deze gevaallen voor een n deel (van de o onderscheide en scoregroep pen) niet bean ntwoord aan de eis dat de e geobserveerrde proportie binnen het 95%-- betrouwbaarheidsinterva al van de gescchatte proporrties ligt. Dit beeld b doet zicch slechts bij enkele e opgaven voor die dan n ook een uitz zondering vorrmen. De overige opgaven n voldoen vooor alle scoregroepen die eis. De affbeeldingen voor v de repressentatieve en n best passen nde opgaven illustreren ditt. Dit leidt wel aan d tot de conclusie dat bij vrijwel alle opgaven o in de e toetsen Rekenen-Wiskunde een graffische voorste elling van nkomt; andere e opgaven zijnn bij de kalibrratie niet de S-toettsing hoort die in grote lijnen met figuurr 4.1 overeen in de item mbank opgenomen. Dit is, zeker gezien n de relatief grote g aantallen observatiess die in het ge eding zijn, een zeerr sterke aanw wijzing dat het meetinstrum ment en het meetmodel datt ontwikkeld iss, respectieve elijk gebruikt is, adequaat zijn om het gedrag van de e leerlingen te e verklaren. Bovendien B blijjkt, en dat is vanuit v n belangrijk ker, dat geme eten verschille en in gedrag tussen t de leeerlingen te verklaren theoretisch oogpunt nog cept. zijn door één unidimensionaal conc
33
Figuur 4.3
Voorbeelden van S-toetsen voor de toetsen Rekenen-Wiskunde voor speciale leerlingen functionerend op niveau M3 tot en met E5 met per versie de best passende, de slechtst passende en een qua passing representatieve opgave
Papier
-.7
Digitaal
.4
Best passend
-.5
-.5
1.2
Best passend
.4
Slechtst passend
Representatieve passing
.1
0
1.1
Slechtst passend
.4
.1
1.2
Representatieve passing
In feite kan men bij de kalibratie beter varen op deze grafische weergaven dan op toetsingsresultaten in termen van exacte getallen en de significantie daarvan. Niettemin zijn er bij de kalibratie S-toetsen uitgevoerd die een indicatie geven van de kwaliteit van de kalibratie. Daarbij zijn we vooral geïnteresseerd in de distributie van de overschrijdingskansen van deze verzameling toetsingsresultaten. Als we de S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn, dan zouden de overschrijdingskansen uniform verdeeld moeten zijn binnen het (0,1) interval, uiteraard met zo weinig mogelijk significante resultaten. Tabel 4.3 waarin het (0,1) interval is opgedeeld in tien gelijke stukken, geeft een beeld van de uitkomsten bij een kalibratie van alle opgaven in de proeftoetsen Rekenen-Wiskunde voor speciale leerlingen. Daarnaast is aangegeven in hoeveel gevallen de overschrijdingskans kleiner was dan .01, respectievelijk .05. Het is duidelijk dat voor beide toetsen de verdeling redelijk gelijkmatig is over het gehele interval van overschrijdingskansen. Deze resultaten geven een bevestiging van het eerder geschetste beeld, dat met uitzondering van enkele opgaven, sprake is van niet-significante S-toetsen. Zij vormen een kwantitatieve ondersteuning van de conclusie dat de opgaven een unidimensionaal construct representeren.
34
Tabel 4.3
Verdeling van overschrijdingskansen bij S-toetsen voor papieren en digitale toetsen 0.--/---/----.1-----.2-----.3-----.4----.5-----.6-----.7-----.8-----.9-----1. 9/ 20/ 14 36 50 40 50 29 37 31 39 42 1/ 8/ 21 25 37 36 30 29 32 43 46 48
Papier Digitaal
In tabel 4.4 zijn de R1c-waarden weergegeven voor dezelfde afnames waarvoor in tabel 4.3 de resultaten van de S-toetsen zijn weergegeven. R1c is een statistiek die zicht geeft op de modelpassing van de toets als geheel. Voor een acceptabele modelfit geldt als vuistregel dat R1c bij voorkeur niet significant zou moeten zijn en niet groter dan ongeveer anderhalf maal het aantal vrijheidsgraden (df). Het is duidelijk dat de modelpassing van de toetsen optimaal is voor de digitale toetsen en ruim aan de vuistregel voldoet voor de papieren toetsen. Aan het feit dat het toetsingsresultaat significant is, hoeft bij deze aantallen weinig waarde te worden gehecht.
Tabel 4.4
R1c-waarden voor de papieren en digitale toetsen
Toetsversie Papier Digitaal
R1c 3931.233 1157.555
df 3029 1129
P 0.0000 0.2717
Ten slotte bespreken we nog een methode om de modelpassing te verantwoorden die wordt besproken in het COTAN Beoordelingssysteem (COTAN, 2010, p. 40). Het betreft hier een poging om de nauwkeurigheid van de itemparameterschattingen te beoordelen op basis van een constante (in het COTAN-Beoordelingssysteem met ‘c’ aangeduid) die weergeeft hoe de relatie is tussen de standaardfout van de moeilijkheidsparameter van een item en de standaarddeviatie van de vaardigheidsverdeling van de kalibratiepopulatie. Het beoordelingssysteem geeft ook richtlijnen voor het beoordelen van de grootte van deze ‘c’. Deze dient te worden beoordeeld als goed als de waarde lager is dan of gelijk aan .20. Waarden tussen .30 en .40 kunnen nog als voldoende worden beschouwd. De waarden voor deze constante zijn weergegeven in tabel 4.5. De gemiddelde waarden van de constante is uitstekend te noemen. Bij de papieren toetsen waren er slechts zes items met een c-waarde groter dan .20; bij de digitale opgaven waren er dat 20. De conclusie mag luiden dat we op basis van deze analyse de kalibratie geslaagd kunnen noemen.
Tabel 4.5
Nauwkeurigheid van de itemparameterschattingen (constante ‘c’)
Toetsmoment Papier Digitaal
Constante ‘c’ Range Gemiddelde 0.04-0.25 0.09 0.05-0.36 0.11
Wat betreft de laatste stap in de kalibratieprocedure zijn er DIF-analyses uitgevoerd voor alle opgaven uit de papieren en digitale toetsen voor speciale leerlingen voor schooltype. Op deze plaats volstaat het vermelden van het feit dat er vooral bij de papieren toetsen een substantieel deel van de items DIF vertoonden naar schooltype. De uitkomsten van deze analyses worden uitgebreider besproken in paragraaf 4.3.
35
4.1.3
Conclusie
Op basis van de hierboven beschreven resultaten kan de conclusie luiden dat voor de toetsen RekenenWiskunde voor speciale leerlingen de kalibratie vrij goed geslaagd is. Hiermee is het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse, als puur formeel proces, kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten dekkend is voor en samenvalt met het construct dat we in de toetsen Rekenen-Wiskunde voor speciale leerlingen proberen te meten (zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld)? In hoofdstuk 6 over validiteit zal worden nagegaan of de gemeten concepten inderdaad overeenkomen met het begrip zoals bedoeld. De vraag is dan in het geval van het onderdeel Rekenen-Wiskunde: kan het unidimensionale concept onder de opgaven in de opgavenbank Rekenen-Wiskunde inderdaad worden opgevat als de vaardigheid ‘Rekenen-Wiskunde’? Een geslaagde kalibratie op een unidimensionaal construct beschouwen we als een noodzakelijke voorwaarde voor deze begripsvaliditeit.
4.2
Normering
De normering die wordt gebruikt voor de toetsen Rekenen-Wiskunde voor speciale leerlingen is gelijk aan de normering van de reguliere toetsen Rekenen-Wiskunde uit het Cito Volgsysteem primair onderwijs (LOVS). Dit is mogelijk gezien de koppeling van de proefonderzoeken aan de onderzoeken in het reguliere LOVS via de in voorgaande paragraaf besproken designs alsmede de geslaagde kalibratie aan de kalibratiebank. Bovendien behoren de leerlingen waarvoor de toetsen Rekenen-Wiskunde voor speciale leerlingen bedoeld zijn ook tot de populatie reguliere leerlingen. De normeringen voor de toetsen RekenenWiskunde voor het reguliere basisonderwijs werden door de Cotan als goed beoordeeld. De hierna volgende paragrafen 4.2.1 en 4.2.2 met gegevens over het normeringsonderzoek zijn overgenomen uit de wetenschappelijke verantwoording van de toetsen Rekenen-Wiskunde (Janssen, Verhelst, Engelen & Scheltens, 2010).
4.2.1
Normeringsgegevens en representativiteit
De normering van de LOVS-toetsen voor het regulier onderwijs is gebaseerd op meerdere onderzoeken. In kalibratieonderzoeken – die tevens dienden als normeringsonderzoeken – werden gegevens verzameld over de landelijke verdeling van de vaardigheid van de leerlingen op alle afnamemomenten M3–M8. De leerlingen die hebben deelgenomen aan deze onderzoeken, zijn over meerdere leerjaren gevolgd en op zo veel mogelijk tijdstippen getoetst zodat in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten verzameld konden worden. Het Computerprogramma LOVS biedt daarnaast scholen de mogelijkheid afnamegegevens van de toetsen naar Cito te sturen (de zo genoemde ‘dataretour’). Cito gebruikt deze gegevens onder andere voor kwaliteitscontroles van de toetsen. Voor de LOVS-normeringsafnames zijn representatieve steekproeven getrokken uit de verzameling van alle basisscholen in Nederland. Steekproef 2003_1 In januari 2003 is deze steekproef van start gegaan met 68 scholen die in groep 3, groep 4 en groep 5 de leerlingen rekentaken hebben voorgelegd. De leerlingen van deze eerste steekproef zijn drie afnamemomenten gevolgd: M3 – E3 – M4, M4 – E4 – M5 en M5 – E5 – M6.
36
Steekproef 2003_2 De tweede steekproef telde 20 scholen die in juni 2003 van start zijn gegaan met leerlingen uit groep 4 en 5. Deze leerlingen zijn ook drie afnamemomenten gevolgd (respectievelijk op de momenten E4, M5, E5 en E5, M6, E6). Een aantal van deze scholen (die geen Entreetoets groep 5 afnemen) hebben boekjes gemaakt waarin een aantal opgaven uit de Entreetoets groep 5 opgenomen waren. Steekproef 2004_1 De derde steekproef bestaat uit 39 scholen die in januari 2004 zijn gestart in groep 6, 7 en 8. De leerlingen van groep 6 en 7 zijn drie afnamemomenten gevolgd: M6 – E6 – M7 en M7 – E7 – M8. De leerlingen die in januari 2004 in groep 8 zaten hebben maar één afnamemoment meegedaan. Veel van deze leerlingen hebben ook de reguliere Eindtoets Basisonderwijs gemaakt. Via deze leerlingen is de link LVS-toetsen – Eindtoets gelegd. Steekproef 2004_2 Deze steekproef bestond uit 20 deelnemende scholen die geen Entreetoets 6 afnemen. Zij hebben taken gemaakt met LVS-opgaven en opgaven uit de Entreetoets om de link tussen de LVS-items en items uit de Entreetoets groep 6 te leggen. Steekproef 2005_1 De vijfde steekproef bestond uit 42 scholen die in januari 2005 zijn gestart in groep 7 en 8. De leerlingen van groep 7 zijn gedurende twee afnamemomenten gevolgd. Op het E7-moment is een link gelegd met de Entreetoets van groep 7 en op het M8-moment een link met de Eindtoets (via leerlingen die ook de Eindtoets Basisonderwijs maakten) en PPON (via opgaven uit de PPON-verzameling van eind groep 8). Aparte steekproeven zijn vanwege de specifieke aard van peilingsonderzoeken getrokken voor PPON medio basisonderwijs (afname januari 2003) en PPON einde basisonderwijs (afname juni 2004). In de afnamedesigns op microniveau is gezorgd voor een wederzijdse link tussen de LVS-opgavenverzameling en de PPON-opgavenverzameling. Uitgaande van een gemiddelde groepsgrootte van 25 leerlingen per school was de gewenste steekproefomvang voor de steekproef 2003_1 bepaald op 70 basisscholen, ongeveer 1750 leerlingen. Voor de steekproeftrekking zijn de scholen verdeeld in drie groepen of strata op basis van hun schoolscores. De schoolscore is gebaseerd op de formatiegewichten van de leerlingen en bestaat uit de ratio van het gewogen aantal leerlingen en het nominale aantal leerlingen, met aftrek van een correctieterm van het gewogen aantal leerlingen. Deze correctieterm bedraagt 9% van het nominale aantal leerlingen, waardoor de schoolscore (uitgaande van de voorheen geldende formatiegetallen, zie het kopje ‘toelichting formatiegewicht) een bereik heeft van 0.91 tot 1.81. De stratumindeling weerspiegelt in globale termen een indeling van de schoolpopulatie op basis van de sociaal-economische achtergrond van de schoolbevolking. Toelichting formatiegewicht Het formatiegewicht wordt gebruikt voor de bepaling van de formatieomvang op een school. Voor de bepaling van het formatiegewicht worden leerlingen gecategoriseerd naar een combinatie van opleidingsniveau, sociaal-economische status en etnische herkomst van de ouders. Er werden vijf formatiegewichten onderscheiden: ─ 1.25 (later factor 0.25) voor Nederlandse arbeiderskinderen (in termen van opleidings- en/of beroepsniveau van de ouders); ─ 1.40 (later factor 0.40) voor schipperskinderen in internaat of pleeggezin; ─ 1.70 (later factor 0.70) voor kinderen uit de reizende en trekkende bevolking; ─ 1.90 (later factor 0.90) voor kinderen uit gezinnen waarvan ten minste een van de ouders van niet-Nederlandse herkomst is (en beperkingen kent in opleidings- en beroepsniveau); ─ 1.00 (later factor 0.00) voor alle andere kinderen. De stratumgrenzen zijn gelegd bij de schoolscores 1.00 en 1.20.
37
Tabel 4.6
De stratumindeling van de basisscholen in 2003 (N=7172; telbestand oktober 2002)
Stratum
Schoolscore
Omschrijving
Omvang in populatie
1
≤ 1,00
Overwegend kinderen van ouders met afgeronde voortgezette opleidingen, weinig allochtone kinderen
59,5%
2
1.01-1.20
Relatief meer Nederlandse arbeiderskinderen, weinig allochtone kinderen
26,8%
3
> 1.20
Vooral Nederlandse arbeiderskinderen en allochtone kinderen
13,7%
Naar rato van ieder stratum binnen de populatie is een basissteekproef van scholen getrokken. Voor elke school in de basissteekproef werden reservescholen getrokken met dezelfde of meest naastgelegen schoolscore. Gegeven de respons uit de basissteekproef zijn in tweede instantie voor elke niet deelnemende school in stratum 1 drie reservescholen, in stratum 2 twee reservescholen en in stratum 3 vier reservescholen aangeschreven. In totaal zijn er voor de vijf steekproeven 864 scholen benaderd, waarvan er 189 (dat is 22% ) aan de LVS-normeringsafnames Rekenen-Wiskunde hebben meegedaan. De beoogde steekproefomvang van 190 scholen is daarmee nagenoeg gerealiseerd. De redenen waarom scholen niet meedoen zijn verschillend, maar hebben vaak te maken met de werkdruk. Ook waren er scholen die zich niet voor drie afnamemomenten wilden binden. Met dit aantal scholen zijn we erin geslaagd alle items door minimaal 275 leerlingen te laten beantwoorden. Daarmee zijn de toetsen door voldoende leerlingen gemaakt om een betrouwbaar beeld te kunnen schetsen van de vaardigheid in de populatie leerlingen.
Tabel 4.7 Steekproef
Verdeling deelnemende scholen over de strata Stratum 1
Stratum 2
2003_1
38
22
8
68
2003_2
14
4
2
20
2004_1
22
13
4
39
2004_2
15
2
3
20
2005_1
28
12
2
42
Totaal In % Populatie
Stratum 3
Totaal
117
53
19
189
62%
28%
10%
100%
59,5%
26,8%
13,7%
100%
Uit tabel 4.7 blijkt dat de verdeling over de strata in onze steekproeven in grote lijnen overeenkomt met de landelijke stratumindeling van de basisscholen in Nederland. In de meeste gevallen is er een kleine procentuele oververtegenwoordiging van de stratum 1-scholen en een lichte procentuele ondervertegenwoordiging van de stratum 3-scholen. Om een beeld te krijgen van de regionale spreiding hebben we tabel 4.8 samengesteld waarin de deelnemende scholen naar stratum en postcode zijn ingedeeld.
38
Tabel 4.8 Postcode
Deelnemende scholen alle steekproeven naar stratum en postcode Stratum 1
10-19
Stratum 2
17
2
Stratum 3
Totaal
1
20
Totaal in % 10,6%
20-29
15
9
2
26
13,8%
30-39
13
10
6
29
15,3%
40-49
14
5
19
0,0%
50-59
18
3
4
25
13,2%
60-69
10
7
2
19
10,0%
70-79
15
7
1
23
12,2%
80-89
7
6
1
14
7,4%
90-99
8
4
2
14
7,4%
Totaal
117
53
19
189
100%
In deze tabel worden negen postcodegebieden onderscheiden, te weten het gebied met postcodes die beginnen met een 1 tot en met het gebied met postcodes die beginnen met een 9. In de steekproef zijn scholen vertegenwoordigd uit al deze postcodegebieden. De vertegenwoordiging varieert van 7,4% (de postcodegebieden die beginnen met een 8 en met een 9) tot 15,3% (de postcodegebieden die beginnen met een 3). Het feit dat in de werving van scholen de stratumindeling uitgangspunt was, vormt geen garantie voor de representativiteit van de normsteekproef. Daarom is achteraf nog een controle uitgevoerd met behulp van de variabele regio.
Tabel 4.9 Regio
Verdeling naar regio in de steekproef in vergelijking met populatiegegevens
Leerlingen Scholen Aantal Percentage
Noord
10,4%
15,9%
25
13,2%
Oost
22,6%
24,1%
48
25,4%
West
45,9%
41,1%
78
41,3%
Zuid
21,1%
18,9%
38
20,1%
189
100%
Totaal
De landelijke percentages zijn afkomstig van analyses in het kader van de verantwoording van de Intelligentietoets (Van Boxtel & Hemker, 2009, pp. 26-27) en hebben betrekking op schooljaar 2006-2007. Omdat we ervan uitgaan dat de verdeling in de periode 2003-2005 hier niet veel van afwijkt, zijn de CFIgegevens van de periode 2003-2005 niet nader in kaart gebracht. De vier regioniveaus komen overeen met de volgende indeling naar provincies: – Noord: Groningen, Friesland en Drenthe; – Oost: Gelderland, Overijssel en Flevoland; – West: Utrecht, Noord- en Zuid-Holland; – Zuid: Zeeland, Noord-Brabant en Limburg. Uit tabel 4.9 blijkt dat de verdeling van de scholen in de steekproef over de regio’s overeenkomt met de landelijke verdeling van de scholen over de regio’s. De verdeling van scholen in de steekproef over de regio’s is dan ook representatief voor de landelijke verdeling van scholen over de regio’s. Representativiteit naar sekse en leeftijd werd niet geëvalueerd. Aangenomen werd dat daar er geen aparte jongens- en meisjesscholen zijn en daar alle leerlingen van de steekproefscholen deelnamen aan het onderzoek, de steekproef representatief zal zijn voor sekse en leeftijd.
39
Steekproeven voor de digitale afnames Voor de digitale afnames zijn geen representatieve steekproeven getrokken. Het doel van die afnames betrof immers geen normering, maar kalibratie, met het oog op het schatten van de itemparameters. Scholen die toetsen voor groep 3 en 4 bestelden, konden op de antwoordkaart naast de bestelling tevens aangeven of zij belangstelling hadden voor een papieren-digitale afname. Deelnemende scholen is een rapportage toegezegd, verzorgd door Cito. De eerste 70 scholen die zich aanmeldden, zijn aangeschreven met een uitvoerige uitleg van de procedure die gevolgd zou worden bij de papieren digitale afname. Bij de volgende digitale afnames zijn telkens een aantal nieuwe scholen die zich in eerste instantie hadden aangemeld benaderd om mee te doen. Daarnaast werd na iedere digitale afname een aantal scholen die al hadden meegedaan gevraagd nog een afnamemoment mee te doen, zodat we ook volggegevens konden verzamelen. Alleen voor de B8/M8-afname zijn geen nieuwe scholen meer benaderd, maar hebben we de scholen die eind groep 7 hadden meegedaan gevraagd opnieuw mee te doen. Ondanks het feit dat een aantal scholen niet meer meedeed, bleven er genoeg scholen over om voldoende gegevens te verzamelen. Tijdens de afnames bleek telkens weer een aantal scholen af te haken. Veelal vanwege het feit dat ze digitale afnames toch niet goed georganiseerd kregen binnen hun school (onvoldoende infrastructuur en/of niet genoeg computers). In tabel 4.10 is aangegeven hoeveel scholen hebben meegedaan met de gecombineerde papieren en digitale afnames.
Tabel 4.10
Aantal scholen en leerlingen bij de papieren-digitale afnames
Toets Afname
Aantal scholen
Aantal leerlingen 1304
M3
Januari 2006
51
E3
Juni 2006
40
1032
M4
Januari 2006
53
1215
E4
Juni 2006
41
948
M5
Januari 2007
43
981
E5
Juni 2007
43
970
M6
Januari 2008
42
929
E6
Juni 2008
42
957
M7
Januari 2009
71
1516
E7
Juni 2009
57
1144
B8
November 2009
43
778
4.2.2
Normeringsmomenten
De gegevens van de kalibratieonderzoeken zijn gebruikt om de vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen. In de vorige paragraaf is aangetoond dat de getrokken steekproeven bij de papieren toetsen representatief waren naar stratum en regio (op basis van provincie). Representativiteit naar sekse en leeftijd mag daarnaast aangenomen worden. Daarom kunnen de gegevens uit de kalibratieonderzoeken (papier) tevens worden voor de normering. De normering voor de digitale toetsen is identiek aan die voor de papieren toetsen.
40
Tabel 4.11
Gemiddelde vaardigheidsscore en standaardafwijking bij de LOVS-toetsen RekenenWiskunde van groep 3 tot en met 8 Gemiddelde vaardigheid
Standaardafwijking
M3
26,04
14,60
E3
34,80
14,60
M4
47,00
14,68
E4
56,44
14,64
M5
69,00
14,48
E5
74,08
14,52
M6
82,16
14,52
Normgroep
E6
87,16
12,64
M7
96,52
12,64
E7
100,04
12,64
B8
103,48
12,68
M8
107,52
12,68
4.2.3
Functioneringsniveaus
Zoals al vermeld in hoofdstuk 3 is er bij de toetsen Rekenen-Wiskunde voor speciale leerlingen voor gekozen functioneringsniveaus te rapporteren. De schattingen van de gemiddelde vaardigheid van leerlingen op de normeringsmomenten kunnen worden gebruikt om een omzetting te maken van de vaardigheidsscores naar functioneringsniveau. Voor het berekenen van de functioneringsniveaus is de gemiddelde vaardigheidsscore berekend bij de door het gemiddelde te nemen van de gemiddelde vaardigheidsscores van het tussenmomenten (Ɵ onder- en bovengelegen niveau (respectievelijk Ɵ en Ɵ ). Ɵ
Ɵ
Ɵ
(4.5)
2
De grenzen tussen de functioneringsniveaus zijn bepaald door het gemiddelde te nemen van de gemiddelde vaardigheidsscores van het onder- en bovengelegen niveau. De gemiddelde vaardigheidsscores en de grenzen zijn telkens op ,5 afgerond. In tabel 4.12 is een overzicht gegeven van de bij de functioneringsniveaus behorende vaardigheidsscores en onder- en bovengrenzen.
41
Tabel 4.12
Overzicht functioneringsniveaus en bijbehorende gemiddelde vaardigheidsscore en bijbehorende onder- en bovengrens
Functioneringsniveau <M3 M3 M3E3 E3 E3M4 M4 M4E4 E4 E4M5 M5 M5E5 E5 E5M6 M6 M6E6 E6 >E6
4.3
Gemiddelde vaardigheidsscore
Minimum
Maximum
26,5 30,5 34,5 41,5 47,5 52,5 56,5 62,5 68,5 71,5 74,5 78,5 82,5 85,5 87,5 -
24,5 28,5 32,5 37,5 44,5 49,5 54,5 59,5 65,5 70,5 73,5 76,5 80,5 83,5 86,5 89,5
24,49 28,49 32,49 37,49 44,49 49,49 54,49 59,49 65,49 70,49 73,49 76,49 80,49 83,49 86,49 89,49 -
DIF-onderzoek
Voor de proefafnames in het SBO en SO zijn geen representatieve steekproeven genomen. Het doel van die afnames was om de bruikbaarheid van de items in het SBO en SO na te gaan. Scholen schreven zich op basis van vrijwilligheid in. De scholen kregen na de afname een rapportage met de schatting van de vaardigheidsscore van de deelnemende leerlingen en het bijbehorende functioneringsniveau. In paragraaf 4.1 is aangetoond dat de items uit de toetsen Rekenen-Wiskunde voor speciale leerlingen voor zowel de papieren als de digitale versies goed beschreven kunnen worden met een een-dimensionaal model: alle opgaven meten eenzelfde vaardigheid. Een openstaande vraag is nog of deze vaardigheid dezelfde is als die bij de reguliere toetsen LOVS Rekenen-Wiskunde. Als dit namelijk niet zo zou zijn dan is de vergelijkbaarheid van de toetsen LOVS Rekenen-Wiskunde en de toetsen Rekenen-Wiskunde voor speciale leerlingen niet bewezen en kunnen de normeringsgegevens (en de daarvan afgeleide functioneringsniveaus) niet gebruikt worden. Wat betreft de DIF-onderzoeken voor de digitale items kunnen we kort zijn: slechts 19 items vertoonden een (lichte mate) van DIF. Op zo’n groot aantal (395) gepreteste items is dat min of meer verwaarloosbaar. Anders en ook onverwacht was de situatie bij de papieren items. Daar vertoonden 65 van de 532 gepreteste items in meer of mindere mate DIF tussen het reguliere basisonderwijs en het speciaal onderwijs en speciaal basisonderwijs. Helaas zijn er geen inhoudelijke verklaringen gevonden waarom specifiek deze items DIF vertoonden. Sommige items vertoonden DIF in het voordeel van het reguliere onderwijs, ander items wezen net de andere kant op. Uiteindelijk bleken voor de uitgave 338 items in aanmerking te komen, waaronder ook items met DIF. Deze konden gezien de restricties op de toetsinhoud niet allemaal weggelaten worden. De hierna volgende analyses laten echter zien dat dit geen problemen voor de vaardigheidsschattingen opleverde. In tabel 4.13 is per toets weergegeven hoeveel items DIF vertonen.
42
Tabel 4.13
DIF-items in de uitgegeven papieren toetsen DIF-items SBO en SO aantal percentage
Alleen SBO
Toets
K
Aantal
percentage
M3
48
12
25,0
12
25,0
M3E3
51
12
23,5
8
15,7
E3
50
12
24,0
6
12,0
E3M4
51
16
31,4
5
9,8
M4
48
11
22,9
5
10,4
M4E4
47
6
12,8
5
10,6
E4
56
6
10,7
7
12,5
E4M5
56
11
19,6
6
10,7
M5
58
12
20,7
3
5,2
M5E5
60
6
10,0
5
8,3
E5
78
13
16,7
4
5,1
In de tabel is te zien dat het percentage DIF over het algemeen kleiner wordt naarmate de leerlingen vaardiger worden (dus bij toetsen van een hoger niveau). Bovendien is uit de tabel op te maken dat het percentage DIF voornamelijk wordt bepaald door leerlingen uit het SO. Een inhoudelijke verklaring hebben we hiervoor nog niet kunnen vinden. De meeste opgaven vertoonden geen DIF en het uiteindelijke effect van de DIF in de opgaven op de kalibratie en de vaardigheidsschattingen voor de leerlingen in het speciaal (basis)onderwijs blijkt vrijwel nihil, zoals onderstaande analyses aantonen. In figuur 4.4 is bijvoorbeeld voor de toets E3M4 weergegeven hoe de itemparameters zich verhouden tot de PO-schaal (dat is de vaardigheidsschaal zoals deze is ontwikkeld voor leerlingen in het reguliere basisonderwijs) als we alleen de gegevens vanuit het speciaal (basis)onderwijs zouden gebruiken.
Figuur 4.4
Uitgave toets E3M4: Itemparameters regulier versus speciaal onderwijs
E3M4 2
PO-schaal
1 0 -4
-3
-2
-1
-1
0
1
2
Item-parameters
-2 -3 -4 DIF
Duidelijk is te zien dat de meerderheid van de items op één lijn ligt: voor deze items geldt dat de items geen DIF hebben. Voor de items die niet op de lijn liggen, is er mogelijkerwijs sprake van DIF: de afstand tot de lijn is echter beperkt. Bovendien is te zien dat de items die niet op de lijn liggen, zowel boven als onder de lijn liggen, en dus niet systematisch naar boven of onder afwijken.
43
Voor het schatten van de vaardigheid van de leerling blijkt het effect van de DIF-items verwaarloosbaar. Voor de toets E3M4 is dat – opnieuw bij wijze van voorbeeld – schematisch weergegeven in figuur 4.5.
Figuur 4.5
Uitgave toets E3M4: Vaardigheidsscores regulier versus speciaal onderwijs
PO-schaal
E3M4
-3
-2
-1
2 1.5 1 0.5 0 -0.5 0 -1 -1.5 -2 -2.5
1
2
Vaardigheidscores
DIF
Elk puntje in de figuur weerspiegelt de (geschatte) vaardigheidsscore op basis van de kalibratie met de itemparameters uit de reguliere kalibratie versus een kalibratie op met de itemparameters zoals die zouden gelden voor speciale leerlingen. Links onderin vinden we de vaardigheidsscores voor een leerling die alle items fout gemaakt heeft; rechtsboven voor een leerling met alle opgaven juist. Overduidelijk is te zien dat alle punten op een rechte lijn liggen; de correlatie tussen de beide setjes vaardigheidsscores is zelfs 1.00. Het uiteindelijke effect van de DIF is dus verwaarloosbaar. Dit komt doordat de DIF de ene keer in het voordeel van de speciale leerlingen werkt, en de andere keer in hun nadeel. Zo heffen de afwijkingen elkaar als het ware op. Bovendien vertoont het grootste gedeelte van de items geen DIF.
44
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat leerlingen die deelgenomen hebben aan het normeringsonderzoek allen slechts een deel gemaakt hebben van de items die uiteindelijk in de toetsen opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we aan met τ(θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een één-één relatie (de een kan uit de andere berekend worden) maar het is natuurlijk niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt) en de geobserveerde score bij een eenmalige afname zal een afwijking vertonen van de verwachte score, waardoor we met een eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. De variantie van de geobserveerde toetsscore duiden we aan met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores gaan berekenen.
Var(t) = E[Var(t | ( ))]
(5.1)
Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan
MAcc =
Var( ) Var( ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 en 5.2 bevatten informatie over de meeteigenschappen van de rekenvaardigheidsschaal Rekenen-Wiskunde, respectievelijk voor de papieren toetsen en de digitale toetsen voor speciale leerlingen. De maximumscore voor iedere papieren toets is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. Bij de digitale toetsen (tabel 5.2) gebruiken we de gewogen scores. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vierde kolom bevat informatie over de geschatte standaarddeviatie van iedere toets. De vijfde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen is. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog tot zeer hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de Rekenen-Wiskundetoetsen uit het LOVS) geeft de COTAN (Commissie Testaangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen de 0,70 en de 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (Evers et al., 2010, p. 36).
45
Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen.
Tabel 5.1
Toets
Beschrijvende gegevens bij de papieren versie van de toetsen Rekenen-Wiskunde voor speciale leerlingen Maximumscore
Gemiddelde
Standaarddeviatie
Standaardmeetfout
Betrouwbaarheid (MAcc)
M3
48
33,9
9,22
2,63
0,92
M3E3
51
37,2
9,70
2,74
0,92
E3
50
35,5
9,26
2,75
0,91
E3M4
51
35,7
9,88
2,82
0,92
M4
48
32,9
9,84
2,72
0,92
M4E4
47
32,6
9,21
2,69
0,92
E4
56
38,4
10,92
2,96
0,93
E4M5
56
38,0
11,10
3,02
0,93
M5
58
40,2
11,80
3,01
0,94
M5E5
60
40,5
12,99
3,07
0,94
E5
78
51,4
17,09
3,55
0,96
Tabel 5.2
Toets
Beschrijvende gegevens bij de digitale versie van de toetsen Rekenen-Wiskunde voor speciale leerlingen Maximumscore
Gemiddelde
Standaarddeviatie
Standaardmeetfout
Betrouwbaarheid (MAcc)
M3
163
94,1
32,58
9,22
0,92
M3E3
165
96,1
35,54
9,63
0,93
E3
173
97,4
38,28
10,01
0,93
E3M4
165
94,3
36,62
9,76
0,93
M4
171
96,3
38,84
10,05
0,93
M4E4
176
101,9
40,56
10,27
0,94
E4
211
122
49,23
11,36
0,95
E4M5
201
123,3
45,43
10,91
0,94
M5
194
118
43,22
10,67
0,94
M5E5
213
123,6
49,86
11,48
0,95
E5
287
162,6
68,19
13,47
0,96
5.2
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen Rekenen-Wiskunde voor speciale leerlingen. De figuren 5.1 tot en met 5.3 geven grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de papieren toetsen. De figuren 5.4 tot en met 5.6 geven de lokale meetnauwkeurigheid van de digitale toetsen weer. In deze figuren is voor iedere toets de grootte van de meetfout afgebeeld. Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de steekproef die de toets gemaakt heeft.
46
ner is in de la De figure en maken duidelijk dat de meetfout klein agere en de gemiddelde g vaaardigheidsniveaus dan in de e hogere vaarrdigheidsnive eaus. Het wass de bedoeling dat het disc criminerend vvermogen van n de toets vooral bijj de zwakke leerlingen opttimaal zou zij n, omdat we met name de e vaardigheid van deze lee erlingen goed in kkaart willen brrengen.
Figuur 5..1
Grootte van de meettfouten voor d de papieren to oetsen M3, M3E3 M en E3 een de 3- en E3-popu ulatie kansdichtheidfuncties voor de M3
Figuur 5..2
Grootte van de meettfouten voor d de papieren to oetsen E3M4 4 , M4, M4E4 en E4 en de 4- en E4-popu ulatie kansdichtheidfuncties voor de M4
47
Figuur 5..3
Grootte van de meettfouten voor d de papieren to oetsen E4M5 5, M5, M5E5 een E5 en de 5- en E5-popu ulatie kansdichtheidfuncties voor de M5
Figuur 5..4
Grootte van de meettfouten voor d de digitale toe etsen M3, M3 3E3 en E3 en de 3- en E3-popu ulatie kansdichtheidfuncties voor de M3
48
Figuur 5..5
Grootte van de meettfouten voor d de digitale toe etsen E3M4, M4, M M4E4 enn E4 en de 4- en E4-popu ulatie kansdichtheidfuncties voor de M4
Figuur 5..6
Grootte van de meettfouten voor d de digitale toe etsen E4M5, M5, M M5E5 enn E5 en de 5- en E5-popu ulatie kansdichtheidfuncties voor de M5
o een iets andere manierr een beeld van v de De betrouwbaarheidstabellen (zie hiervoor bijla ge 2) geven op meetnauwkeu urigheid. Bove endien geven n zij ook aank knopingspunte en voor de w wijze waarop men m in de (lokale) m praktijk m met scores en n vaardigheidsniveaus dien nt om te gaan n.
49
Als voorbeeld daarvan bespreken we tabel 5.3, die betrekking heeft op de papieren toets M3. De tabel laat zien dat 37,4 procent van de leerlingen die op basis van hun geschatte vaardigheidsscore in functioneringsniveau E3 vallen, ook met hun werkelijke vaardigheidsscore in dit functioneringsniveau vallen. Als ook de aangrenzende ‘cellen’ in de matrix (die betrekking hebben op de functioneringsniveaus M3E3 en E3M4) in de interpretatie worden betrokken, dan blijkt 85,9 procent van de leerlingen die bij de M3-toets met hun geschatte vaardigheidsscore in het functioneringsniveau E3 vallen, met hun werkelijke vaardigheidsscore in de functioneringsniveaus M3E3, E3 of E3M4 te vallen. Als we op dezelfde manier voor de hele tabel de lokale meetnauwkeurigheid bezien aan de hand van de percentages op de hoofddiagonaal met zijn aangrenzende functioneringsniveaus (het gearceerde gebied), dan zien we steeds dat de overgrote meerderheid van de gevallen in dit gearceerde gebied ligt. Deze percentages bevestigen het eerder geschetste beeld van een goede betrouwbaarheid en dienovereenkomstige meetnauwkeurigheid, ook op lokaal niveau. Op deze manier geven ook de overige tabellen in bijlage 2 weer hoe de meetnauwkeurigheid per toets (papier en digitaal) is.
Tabel 5.3
Betrouwbaarheidstabel bij de papieren versie van de toets M3 Rekenen-Wiskunde voor speciale leerlingen Toets M3
Scoregroep
Scoregroep
waarin ware score valt <M3
<M3
M3
M3E3
E3
E3M4
M4
>M4
87,9
27,1
9,7
1,7
0,1
0,0
0,0
M3
8,9
35,7
26,2
9,2
1,2
0,1
0,0
M3E3
2,7
26,2
33,9
23,9
7,2
1,3
0,1
E3
0,5
9,9
24,4
37,4
26,2
9,2
1,5
E3M4
0,0
1,1
5,7
24,6
45,1
37,5
13,7
M4
0,0
0,0
0,2
2,9
14,9
28,1
22,0
>M4
0,0
0,0
0,0
0,4
5,2
23,8
62,7
Bij bovenstaande conclusies past een kanttekening. De functioneringsniveaus die in deze toetsen voor speciale leerlingen worden onderscheiden liggen dicht bij elkaar. De in bovenstaand voorbeeld besproken niveaus (M3E3, E3 en E3M4) liggen slechts een kwart schooljaar uit elkaar (met het regulier basisonderwijs als referentiekader). Daar is bewust voor gekozen. Veel speciale leerlingen ontwikkelen zich langzamer dan de doorsnee leerling in het regulier basisonderwijs. Om ook kleine stappen in de ontwikkeling te kunnen afbeelden is het aantal niveaus waarvoor toetsen beschikbaar zijn uitgebreid in vergelijking met het aantal niveaus in de reguliere toetsen. Naast de gebruikelijke toetsen die qua niveau een half jaar uit elkaar liggen (op de meetmomenten medio en eind) zijn tussentoetsen ontwikkeld. Deze tussentoetsen vallen qua niveau tussen het medio en eindmeetmoment of het eindmoment en het medio meetmoment van het volgende leerjaar in. Op twee meetmomenten per jaar kunnen de leerlingen met een speciale leerbehoefte nu bijvoorbeeld toetsen maken die niet direct een half jaar uit elkaar liggen, maar slechts een kwart jaar. Op deze manier is het mogelijk om meer differentiatie in het functioneringsniveau van de leerlingen aan te brengen. Er kunnen op deze manier tot wel elf verschillende functioneringsniveaus worden gerapporteerd. Dit is gunstig, want zo kunnen ook kleine stapjes in de ontwikkeling in beeld worden gebracht. Tegelijk moet worden vastgesteld dat men in het differentiëren naar vaardigheidsniveau niet oneindig kan doorgaan. De meetnauwkeurigheid van de toetsen (ook al is de – lokale – betrouwbaarheid als goed te kwalificeren) legt in dit opzicht beperkingen op, zoals de hierboven besproken tabellen laten zien. Daarom geven we hier nadrukkelijk aan dat de functioneringsniveaus vooral een uitstekend middel vormen om te kunnen communiceren over het door de leerling bereikte vaardigheidsniveau. Interpretatie van de ontwikkeling van
50
de leerling in termen van gedifferentieerde functioneringsniveaus dient echter wel met enige voorzichtigheid te geschieden. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleiding bij de toetsen (Cito, 2010a). In de schaalscoretabellen van bijlage 2 in deze handleidingen is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 68%-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting.
51
52
6
Validiteit
De twee eisen waar de toetsen Rekenen-Wiskunde voor speciale leerlingen aan moeten voldoen om valide te zijn, kunnen aangeduid worden met de termen inhoudsvaliditeit en begripsvaliditeit. De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt.
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van de toetsen wordt gegarandeerd door de wijze waarop de opgaven ontwikkeld zijn. Eerder is al aangegeven dat aan de ontwikkeling van de opgaven een uitgebreide methodeanalyse is voorafgegaan. Deze methodeanalyse maakte duidelijk in welke groepen de verschillende aspecten van rekenen-wiskunde aan de orde komen. In de analyse zijn de volgende methoden betrokken: De Wereld in Getallen (derde editie, 2001-2007) Pluspunt (tweede editie, 2000-2008) Rekenrijk (tweede editie, 2000-2009) Talrijk (1996-2002) Wis en reken (1996-2006) Alles telt (eerste editie, 2001-2006) De toetsen zijn zodanig samengesteld dat de voor de verschillende afnamemomenten relevante subcategorieën erin vertegenwoordigd zijn. Tabel 6.1 laat zien hoeveel items van elke categorie in de papieren toetsen Rekenen-Wiskunde voor speciale leerlingen opgenomen zijn. Tabel 6.2 laat zien hoeveel items van elke categorie in de digitale toetsen Rekenen-Wiskunde voor speciale leerlingen opgenomen zijn.
Tabel 6.1
Overzicht van aantallen items in de papieren toetsen Rekenen-Wiskunde voor speciale leerlingen bij de verschillende hoofdcategorieën
Hoofdcategorieën
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
1. Getallen en getalrelaties
16
17
16
15
9
9
11
11
9
10
11
2. Optellen en aftrekken
16
19
19
14
15
12
14
15
16
13
11
3. Vermenigvuldigen en delen
12
9
8
13
13
13
17
17
17
17
30
4. Meten en meetkunde
4
6
7
8
12
13
8
8
13
58
60
78
5. Meten, meetkunde, tijd en geld
9
11
13
14
13
6. Tijd en geld Totaal
48
51
50
51
53
48
47
56
56
Tabel 6.2
Overzicht van aantallen items in digitale toetsen Rekenen-Wiskunde voor speciale leerlingen bij de verschillende hoofdcategorieën
Hoofdcategorieën
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
1. Getallen en getalrelaties
18
18
18
15
12
12
12
12
9
10
10
2. Optellen en aftrekken
23
21
18
14
16
13
14
15
17
14
11
3. Vermenigvuldigen en delen
9
9
11
14
13
14
19
18
16
16
31
4. Meten en meetkunde
4
6
7
8
12
13
9
8
14
59
60
79
5. Meten, meetkunde, tijd en geld
11
13
15
16
15
6. Tijd en geld Totaal
54
54
54
54
54
54
61
60
De validiteit van de inhoud van de toetsen is verder te onderbouwen door te wijzen op de relatie tussen de kerndoelen basisonderwijs en de inhoudsbeschrijving van de toetsen Rekenen-Wiskunde voor speciale leerlingen. De kerndoelen beschrijven de leerstof die in het basisonderwijs moet worden onderwezen. Deze kerndoelen gelden ook voor het SBO en SO en zijn dus van toepassing op de inhoud van de toetsen Rekenen-Wiskunde voor speciale leerlingen. In 2004 heeft het Ministerie van OCW het Voorstel herziene kerndoelen basisonderwijs (OCW, 2004) gepubliceerd. Deze zijn in 2006 aangenomen. Vanaf augustus 2009 moeten deze kerndoelen binnen de basisscholen zijn ingevoerd. De vertaling van de kerndoelen naar de praktijk is gebeurd in de publicatie van SLO: Tussendoelen & Leerlijnen bij kerndoelen (SLO, z.j.). De relatie tussen deze kerndoelen en de inhoudsbeschrijving van de toetsen Rekenen-Wiskunde voor speciale leerlingen is in tabel 6.3 in kaart gebracht. De toetsen Rekenen-Wiskunde voor speciale leerlingen zijn beschikbaar voor de niveaus groep 3 tot en met groep 5. Vandaar dat in tabel 6.3 slechts onderwerpen aan de orde komen die betrekking hebben op deze niveaus.
54
Tabel 6.3
Relatie tussen de kerndoelen basisonderwijs 2006* en de onderwerpen in toetsen RekenenWiskunde voor speciale leerlingen functioneringsniveaus groep 3 tot en met 5.
Domeinen / kerndoelen
Onderwerpen in de toetsen Rekenen-Wiskunde voor speciale leerlingen**
23 De leerlingen leren wiskundetaal gebruiken
In alle toetsen wordt verondersteld dat de leerlingen dit kunnen.
24 De leerlingen leren praktische en formele rekenwiskundige problemen op te lossen en redeneringen helder weer te geven.
In alle toetsen wordt verondersteld dat de leerlingen dit kunnen.
25 De leerlingen leren aanpakken bij het oplossen van In alle toetsen wordt verondersteld dat de leerlingen dit rekenwiskundige problemen te onderbouwen en kunnen. leren oplossingen te beoordelen. 26 De leerlingen leren structuur en samenhang van 1. in de toetsen M3-E5***: Getallen en getalrelaties aantallen, gehele getallen, kommagetallen, 2. in de toetsen M3-E5: Optellen en aftrekken breuken, procenten en verhoudingen op hoofdlijnen 3. in de toetsen M3-E5: Vermenigvuldigen en delen te doorzien en er in praktische situaties mee te rekenen. 27 De leerlingen leren de basisbewerkingen met gehele getallen in elk geval tot 100 snel uit het hoofd uitvoeren, waarbij optellen en aftrekken tot 20 en de tafels van buiten gekend zijn.
In alle toetsen wordt verondersteld dat de leerlingen dit kunnen. Met name 2. in de toetsen M3-E5: Optellen en aftrekken 3. in de toetsen M3-E5: Vermenigvuldigen en delen
28 De leerlingen leren schattend tellen en rekenen
2. in de toetsen M5-E5: Optellen en aftrekken
29 De leerlingen leren handig optellen, aftrekken, vermenigvuldigen en delen.
2. in de toetsen M3-E5: Optellen en aftrekken 3. in de toetsen M3-E5: Vermenigvuldigen en delen
30 De leerlingen leren schriftelijk optellen, aftrekken, 2. in de toetsen M3-E5: Optellen en aftrekken vermenigvuldigen en delen volgens meer of minder 3. in de toetsen M3-E5: Vermenigvuldigen en delen verkorte standaardprocedures. 31 De leerlingen leren de rekenmachine met inzicht te Dit komt in latere leerjaren aan de orde. gebruiken. 32 De leerlingen leren eenvoudige meetkundige problemen op te lossen.
5. in de toetsen E3M4-E4M5: Meten, meetkunde, tijd en geld 4. in de toetsen M3-E3; M5-E8: Meten, meetkunde
33 De leerlingen meten en leren te rekenen met eenheden en maten, zoals bij tijd, geld, lengte, omtrek, oppervlakte, inhoud, gewicht snelheid en temperatuur.
5. in de toetsen E3M4-E4M5: Meten, meetkunde, tijd en geld 4. in de toetsen M3-E3: M5-E8: Meten, meetkunde 6. in de toetsen M5-E8: Tijd en geld
*
Ministerie van Onderwijs, Cultuur en Wetenschap (2006). Kerndoelen primair onderwijs.
**
De cijfers in de tweede kolom verwijzen naar de hoofdcategorieën zoals vermeld in tabel 6.1 en 6.2.
***
M3-E5 duidt een range aan; in dit geval de toetsen M3, M3E3, E3, E3M4, M4, M4E4, E4, E4M5, M5, M5E5 en E5.
De vaardigheid in de toetsen Rekenen-Wiskunde voor speciale leerlingen heeft betrekking op kennis, inzichten en het kunnen toepassen van die kennis en inzichten. Tegenwoordig wordt door vele rekendidactici in dit kader het begrip gecijferdheid gebruikt. Met dit begrip vat men de hoofdzaken van het reken-wiskundeonderwijs samen. In navolging van McIntosh, Reys en Reys (1992) wordt gecijferdheid (rekenvaardigheid) gezien als een dynamisch geheel, waarin getallen, operaties en toepassingen aan
55
elkaar gerelateerd zijn. Als belangrijke aspecten van gecijferdheid gelden: – De structuur van de telrij doorzien, alsmede de structuur van getallen. Dat betekent onder andere getallen kunnen ordenen, kunnen plaatsen op een getallenlijn en een idee hebben van de orde van grootte van getallen. – De relaties tussen getallen doorzien, basisbewerkingen kunnen uitvoeren (en soms zelfs geautomatiseerd hebben), inzicht hebben in hoe de operaties met getallen uitwerken en de relaties tussen de operaties doorzien. – De basisbewerkingen kunnen toepassen bij het oplossen van geëigende problemen, zowel globaal als precies rekenend. Toepassen van kennis en inzichten in getallen en getalstructuren wordt niet alleen ingezet bij het uitvoeren van operaties, maar ook toegepast in meetcontexten en bij toepassingen met verhoudingen, breuken en procenten. Aan deze samenhang wordt heden ten dage veel aandacht besteed (SLO, z.j.) Al de genoemde aspecten zijn onderdelen van de rekenvaardigheidsschaal Rekenen-Wiskunde en als zodanig terug te vinden in het categorieënoverzicht van tabel 3.3, waarin de onderdelen die in de toetsen Rekenen-Wiskunde voor speciale leerlingen M3 tot en met E5 aan de orde komen. Voor een gedetailleerde beschrijving van deze aspecten en de deelvaardigheden wordt verwezen naar de inhoudsverantwoording bij de toetsen Rekenen-Wiskunde voor speciale leerlingen (Cito, 2010b) en de Hulpboeken Rekenen (Citogroep, 2002)
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toetsen Rekenen-Wiskunde voor speciale leerlingen beschreven. Een eerste belangrijke aanwijzing voor de begripsvaliditeit van de toetsen is dat het merendeel van de opgaven die uiteindelijk in de toetsen zijn opgenomen en die betrekking hadden op de hiervoor beschreven deelvaardigheden, voldeden aan de aannamen van het OPLM-model. Dat is een goede waarborg voor de constructvaliditeit van de toets, omdat er evidentie is voor de aanname dat een en dezelfde vaardigheid ten grondslag ligt aan de responsen op de opgaven in de toets (Embretson, 1983). De opgaven Rekenen-Wiskunde vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Klaarblijkelijk zijn de verschillende deelvaardigheden bij rekenen-wiskunde sterk aan elkaar verwant. Een tweede duidelijke aanwijzing voor de begripsvaliditeit van de toetsen is te vinden in de eerder afgebeelde kansdichtheidfuncties van de populaties bij de verschillende afnamemomenten (zie figuur 5.1 tot en met figuur 5.6). Tabel 6.4 geeft informatie over de gemiddelde vaardigheid en de spreiding daarvan in de verschillende normgroepen nog eens kwantitatief weer. De gemiddelde vaardigheid van de leerlingen neemt van afname tot afname toe. Dat impliceert dat de methodenanalyse die ten grondslag lag aan de samenstelling van de toetsen een correct beeld heeft gegeven van de wijze waarop het onderwijs rond reken-wiskundeactiviteiten in de regel vormgegeven is.
56
Tabel 6.4
Gemiddelde vaardigheidsscore en standaardafwijking bij de toetsen Rekenen-Wiskunde voor speciale leerlingen, niveau groep 3 tot en met 5 Gemiddelde vaardigheid
Standaardafwijking
M3
26,02
14,60
M3E3
30,41
14,59
Toets
E3
34,79
14,59
E3M4
40,90
14,63
M4
47,00
14,66
M4E4
51,72
14,66
E4
56,44
14,65
E4M5
62,72
14,57
M5
68,99
14,49
M5E5
71,53
14,51
E5
74,07
14,53
De gemiddelde vaardigheidsscores en standaardafwijkingen gelden zowel voor de papieren versies als de digitale versies van de toetsen. De gegevens in tabel 6.4 en de inhoud van de figuren 5.1 tot en met 5.6 maken duidelijk dat de verwerving van reken-wiskundevaardigheden bij alle groepen leerlingen geleidelijk verloopt. Op basis van de behaalde scores van een leerling en de verwachting van de vooruitgang die normaal in een periode geboekt wordt, is het mogelijk om voor de leerling een toets op maat te kiezen. Het bovenstaande maakt duidelijk dat leerkrachten in staat zijn om de vorderingen van de leerlingen met betrekking tot rekenen-wiskunde nauwlettend te volgen door het halfjaarlijks afnemen van de toetsen Rekenen-Wiskunde voor speciale leerlingen. Een derde aanwijzing voor de begripsvaliditeit vinden we in de correlaties tussen de latente vaardigheden van leerlingen op de toetsen LOVS Rekenen-Wiskunde. De toetsen moeten in staat zijn om veranderingen te meten. Door het kalibratieonderzoek liggen de opgaven op één onderliggende schaal Rekenen-Wiskunde. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt. De gemiddelden per afnamemoment verschillen immers.
Tabel 6.5
M3
Correlaties tussen de latente vaardigheden van leerlingen op de toetsen LOVS RekenenWiskunde M3 tot en met E5
E3
M4
E4
M5
M3
1.00
E3
0.86
1.00
M4
0.74
0.86
1.00
E4
0.69
0.80
0.93
1.00
M5
*
*
*
0.91
1.00
E5
*
*
*
0.87
0.96
E5
1.00
* Deze correlaties zijn niet bekend, omdat de leerlingen niet tot op dat moment gevolgd zijn.
57
Uit tabel 6.5 blijkt dat de correlaties op twee opeenvolgende tijdstippen hoog zijn en dat de correlaties van de latente vaardigheden van leerlingen op tijdstippen die verder van elkaar af liggen, afnemen. De correlatie tussen de latente vaardigheden op twee opeenvolgende toetsen is met 0.96 het hoogst tussen de M5- en E5-toets en met 0.86 het laagst tussen de M3- en E3-toets en de E3- en M4-toets. Dat betekent dat we de score van een leerling op een bepaalde toets zeer goed kunnen voorspellen met behulp van de score op de voorafgaande toets. Bovenstaande tabellen zijn gebaseerd op de gegevens uit het normeringsonderzoek, dat in het regulier basisonderwijs heeft plaatsgevonden. Leerlingen in het SBO en SO hebben we niet gedurende langere tijd gevolgd. De gegevens van het reguliere onderwijs zijn echter ook voor de doelgroep van speciale leerlingen van toepassing, omdat de opgaven op dezelfde schaal liggen. Correlaties tussen de geobserveerde vaardigheden op onderdelen van het rekenen-wiskundedomein in de Entreetoets groep 5 (waarvan de opgaven ook deel uitmaken van de LOVS-opgavenbank rekenenwiskunde) en andere onderdelen van de Entreetoets groep 5 (Cito, 2002) geven ook belangrijke aanwijzingen voor de begripsvaliditeit. Van de Entreetoets groep 5 rapporteren we in tabel 6.6 de correlatiecoëfficiënten tussen de volgende onderdelen: Rekenen-Wiskunde: Getallen en bewerkingen (REKgb), Rekenen-Wiskunde Meten, Meetkunde, Tijd en Geld (REKmtg), Begrijpend lezen (BLZ), Spellen (SP), Schrijven van teksten (Schr), Woordenschat (Wsc), Wereldoriëntatie: hanteren van naslagwerken (WOn), Wereldoriëntatie: lezen van kaarten (WOk), Wereldoriëntatie: lezen van schema’s, tabellen en grafieken (WOs). Voor RekenenWiskunde (REKgb en REKmtg) is ook de totaalscore opgenomen.
Tabel 6.6
Correlaties tussen de geobserveerde vaardigheden op Rekenen-Wiskunde en andere variabelen, gemeten met de Entreetoets groep 5 (Cito, 2002) REKtot
REKgb
REKmtg
REKtot
1.00
REKgb
0.98
1.00
REKmtg
0.94
0.85
1.00
BLZ
0.61
0.58
0.59
SP
0.50
0.47
0.49
Schr
0.61
0.58
0.61
Wsc
0.58
0.55
0.58
WOn
0.64
0.61
0.63
WOk
0.61
0.57
0.61
WOs
0.71
0.67
0.69
Uit tabel 6.9 blijkt dat de correlatie tussen Rekenen-Wiskunde Totaal en het onderdeel Rekenen-Wiskunde: Getallen en bewerkingen met 0.98 iets hoger is dan de correlatie tussen Rekenen-Wiskunde Totaal en het onderdeel Rekenen-Wiskunde: Meten, Meetkunde, Tijd en Geld (0.94). De correlatie tussen de twee rekenonderdelen ‘Getallen en bewerkingen’ enerzijds en ‘Meten en tijd’ anderzijds is met 0.85 ook hoger dan de correlatie met andere onderdelen. Verder zien we dat Rekenen-Wiskunde Totaal hoog (0.71) correleert met het onderdeel Wereldoriëntatie: lezen van schema’s, tabellen en grafieken. Het lezen van schema’s, tabellen en grafieken heeft inhoudelijk raakvlakken met Rekenen-Wiskunde. Deze correlaties zijn hoger dan de correlaties van Rekenen-Wiskunde met minder aan Rekenen-Wiskunde verwante taken zoals Begrijpend lezen en Spellen, waarvan de correlaties met Rekenen-Wiskunde Totaal respectievelijk 0.61 en 0.50 zijn.
58
7
Samenvatting
In dit hoofdstuk vatten we kort samen wat in de voorafgaande hoofdstukken is besproken. In hoofdstuk 2 zijn de uitgangspunten bij de toetsconstructie beschreven. In hoofdstuk 3 is de inhoud van de toetsen Rekenen-Wiskunde voor speciale leerlingen uitvoerig beschreven. Hierbij is zowel ingegaan op het proces van totstandkoming van de reguliere toetsen Rekenen-Wiskunde als op het proces van de ontwikkeling van de toetsen Rekenen-Wiskunde voor speciale leerlingen. De opgaven in de toetsen Rekenen-Wiskunde voor speciale leerlingen komen overeen met de opgaven in de reguliere toetsen, om zo vergelijkbaarheid met het reguliere onderwijs te waarborgen. In hoofdstuk 4 rapporteerden we over de kalibratie en het normeringsonderzoek. We hebben daar laten zien dat de kalibratie voor de toetsen Rekenen-Wiskunde voor speciale leerlingen geslaagd is. Daarmee hebben we gerechtvaardigd dat een leerling op basis van alle opgaven in de toetsen één toetsscore krijgt, die een schatting geeft van de onderliggende vaardigheid Rekenen-Wiskunde. In dit hoofdstuk is tevens een beschrijving opgenomen van het door de Cotan als goed beoordeelde normeringsonderzoek dat in het reguliere basisonderwijs heeft plaatsgevonden. Dit onderzoek is ook van toepassing op de doelgroep van speciale leerlingen, omdat we hen vergelijken met de leerlingen in het reguliere onderwijs, aangezien beide doelgroepen aan dezelfde kerndoelen moeten voldoen. Verder rapporteren we in dit hoofdstuk de resultaten van de DIF-onderzoeken, die aantonen dat de in sommige opgaven gevonden DIF een te verwaarlozen effect heeft op de vaardigheidsschattingen. In hoofdstuk 5 rapporteerden we over de betrouwbaarheid en de meetnauwkeurigheid. De betrouwbaarheidscoëfficiënten (MAcc’s) zijn zowel voor de papieren als de digitale versie van de toetsen hoog tot zeer hoog. Ze variëren van 0,91 tot 0,96. In de figuren 5.1 tot en met 5.6 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. De toetsen blijken met name daar de hoogste nauwkeurigheid te laten zien waar wij dit het meest wenselijk achten, namelijk op de lagere en gemiddelde vaardigheidsniveaus. Over validiteit rapporteerden wij in hoofdstuk 6. De toetsen Rekenen-Wiskunde voor speciale leerlingen sluiten nauw aan bij het doel en de inhoud van het onderwijs in Rekenen-Wiskunde op de basisschool (zie paragraaf 6.1). De toetsen sluiten aan bij de kerndoelen (Ministerie van Onderwijs, Cultuur en Wetenschap 2006) en uitwerkingen van de kerndoelen (SLO, z.j., Tule inhouden & activiteiten Rekenen-Wiskunde; TALteam 1999, 2001, 2004, 2005 en 2007). Een belangrijke indicatie voor de begripsvaliditeit van de reken-wiskundeopgaven uit de toetsen komt uit het kalibratieonderzoek (hoofdstuk 4). Daaruit is gebleken dat de verzameling opgaven waaruit de toetsen Rekenen-Wiskunde voor speciale leerlingen zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen Rekenen-Wiskunde voor speciale leerlingen gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. In paragraaf 6.2 is ook aangegeven dat de correlaties tussen de latente vaardigheden op twee opeenvolgende toetsen hoog zijn. Dat betekent dat we scores van een leerling op een bepaalde toets goed kunnen voorspellen met behulp van de score op de voorafgaande toets. Voorts laten de verschillen in gemiddelde toetsresultaten in de elkaar opvolgende afnamemomenten de toename in vaardigheid zien die van deze toetsen verwacht mogen worden. Indirect vormen deze resultaten een ondersteuning voor de begripsvaliditeit. Een andere belangrijke aanwijzing voor begripsvaliditeit is af te leiden uit de correlaties tussen de onderdelen van het domein Rekenen-Wiskunde in de Entreetoets groep 5 (waarvan de opgaven ook deel uitmaken van de opgavenbank Rekenen-Wiskunde) en andere onderdelen van de Entreetoets groep 5 (Cito, 2002). De correlaties tussen de Rekenen-Wiskunde-onderdelen zijn hoger dan de correlaties met andere onderdelen die minder verwant met Rekenen-Wiskunde zijn, zoals Spelling.
59
60
8
Literatuur
Cito (z.j.). Handleiding Computerprogramma LOVS. Arnhem: Cito. Cito (2002). Entreetoets groep 5. Arnhem: Cito. Cito (2002a). Leerlingvolgsysteem, Rekenen-Wiskunde 2002. Arnhem: Cito. Cito (2002b). Rekenen hulpboek groep 3 eind. Arnhem: Cito. Cito (2002c). Rekenen hulpboek groep 3 medio. Arnhem: Cito. Cito (2002d). Rekenen hulpboek groep 4 eind. Arnhem: Cito. Cito (2002e). Rekenen hulpboek groep 4 medio. Arnhem: Cito. Cito (2002f). Rekenen hulpboek groep 5 eind. Arnhem: Cito. Cito (2002g). Rekenen hulpboek groep 5 medio. Arnhem: Cito. Cito (2003). Rekenen hulpboek groep 6 eind. Arnhem: Cito. Cito (2003a). Rekenen hulpboek groep 6 medio. Arnhem: Cito. Cito (2005). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 3. Arnhem: Cito. Cito (2005a). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 4. Arnhem: Cito. Cito (2006). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 5. Arnhem: Cito. Cito (2007). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 6. Arnhem: Cito. Cito (2008). Diagnosticeren en plannen in de onderbouw, Rekenen-Wiskunde. Arnhem: Cito. Cito (2008a). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 7 Arnhem: Cito. Cito (2009). Leerling- en onderwijsvolgsysteem, Rekenen-Wiskunde, groep 8. Arnhem: Cito. Cito. (2010). Cito Volgsysteem voor primair en speciaal onderwijs. Rekenen-Wiskunde. Speciale leerlingen. Functioneringsniveaus groep 3 tot en met 5. Arnhem: Cito. Cito. (2010a). Cito Volgsysteem voor primair en speciaal onderwijs. Rekenen-Wiskunde. Speciale leerlingen. Functioneringsniveaus groep 3 tot en met 5. Handleiding. Arnhem: Cito. Cito. (2010b). Cito Volgsysteem voor primair en speciaal onderwijs. Rekenen-Wiskunde. Speciale leerlingen. Functioneringsniveaus groep 3 tot en met 5. Inhoudsverantwoording. Arnhem: Cito. Eggen, T.J.H.M. (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Embretson, S.E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin 93, 179-197.
61
Evers, A., W. Lucassen, R. Meijer & Sijtsma, K. (2010). COTAN beoordelingssysteem voor de kwaliteit van tests. Amsterdam: NIP/COTAN. Expertgroep Doorlopende Leerlijnen Taal en Rekenen. (2008). Over de drempels met Rekenen. Enschede: Expertgroep Doorlopende Leerlijnen Taal en Rekenen. Glas, C. A. W. (1988). The derivation of some tests for the Rasch model from the multinomial distribution. Psychometrika 53. pp. 525–546 Glas, C.A.W. & Verhelst, N.D. (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage. Janssen, J. & Engelen, R. (2001). Verantwoording van de toetsen Rekenen-Wiskunde 1, 2 en 3. Arnhem: Citogroep. Janssen, J., Verhelst, N. D., Engelen, R., & Scheltens, F. (2010). Wetenschappelijke verantwoording van de toetsen LOVS Rekenen-Wiskunde voor groep 3 tot en met 8. Arnhem: Cito. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. McIntosh, A., Reys, B., & Reys, A. (1992). A proposed framework for examining basic number sense. In: For the Learning of Mathematics (1992, 12, 3, pag. 2-9) Ministerie van Onderwijs, Cultuur en Wetenschappen (2004). Voorstel herziene kerndoelen basisonderwijs. Ministerie van Onderwijs, Cultuur en Wetenschap. (2006). Kerndoelen primair onderwijs. Op 4 januari 2009 ontleend aan http:// www.slo.nl/primair/kerndoelen/Kerndoelenboekje.pdf Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: The Danish Institute of Educational Research. (Expanded edition, 1980. Chicago: The University of Chicago Press.) Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente. TAL-team. (1999). Jonge kinderen leren rekenen: hele getallen. Groningen: Wolters Noordhoff. TAL-team. (2001). Kinderen leren rekenen. Groningen: Wolters Noordhoff. TAL-team. (2004). Jonge kinderen leren meten en meetkunde. Groningen: Wolters Noordhoff. TAL-team. (2005). Breuken, procenten, kommagetallen en verhoudingen. Tussendoelen Annex Leerlijnen. Groningen: Wolters Noordhoff. TAL-team. (2007). Meten en meetkunde in de bovenbouw. Groningen: Wolters Noordhoff. Van Boxtel, H. ,& B.T. Hemker, B. T. (2009). Wetenschappelijke verantwoording van de Intelligentietest Eindtoets Basisonderwijs. Arnhem: Cito. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij hetcomputerprogramma. Arnhem: CITO.
62
Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D., & Glas, C.A.W. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1994). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (red.). Psychometrie in de praktijk. Arnhem: Cito. Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. Arnhem; Cito. SLO (z.j.). Tule inhouden & activiteiten Rekenen-Wiskunde. Op 11 januari 2009 ontleend aan http://tule.slo.nl/RekenenWiskunde/F-KDRekenenWiskunde.html.
63
64
Bijlagen
65
66
Bijlage 1 Profielanalyse met IRT, Norman Verhelst
Profielanalyse met Item Respons Theorie
Norman Verhelst
Cito, maart 2007
1
© Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2007) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Stichting Cito Instituut voor Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inleiding In een aantal projecten binnen Cito is het de gewoonte toetsgegevens te analyseren met een unidimensionaal IRT model, zoals het Raschmodel of OPLM. In het PPON project is de inhoudelijke bepaling van de verzameling items die aldus wordt geanalyseerd vrij beperkt. In andere toepassingen, bijvoorbeeld het LVS, wordt een soortgelijk model toegepast op een inhoudelijk veel breder domein van items. In het domein Rekenen-Wiskunde bijvoorbeeld, worden aan het eind van het basisonderwijs 24 verschillende schalen onderscheiden binnen PPON, terwijl in het LVS gestreefd wordt om alle onderdelen uit het domein op een enkele schaal onder te brengen. Deze op het eerste gezicht niet consistente aanpak heeft praktische en historische redenen die hier niet aan de orde zullen worden gesteld; wat ons hier zal bezighouden is de vraag of en in welke mate twee zo duidelijk verschillende wijzen van analyseren psychometrisch kunnen worden verantwoord. Het probleem wordt aangepakt vanuit een praktische vraagstelling: indien we de items uit een breed domein indelen in een aantal (inhoudelijk of op anderszins zinvolle manier bepaalde) categorieën, welk nut en welke zin heeft het bestuderen van de deelscores op deze onderdelen als we het hele domein als een unidimensionale verzameling beschouwen. Een rijtje deelscores uit de verschillende subdomeinen wordt een profiel genoemd, vandaar de titel van dit rapport. Het rapport bestaat essentieel uit twee delen. In het eerste deel wordt beargumenteerd in welke zin het bestuderen van profielen zinvol is bij het gebruik van een unidimensionaal model. In het tweede deel wordt nader ingegaan op de technische uitwerking van zo’n profielanalyse. Dit gedeelte wordt dan meteen ook geïllustreerd met voorbeelden uit de Citopraktijk. Functie van de profielanalyse Men zou het volgende standpunt kunnen innemen: indien alle items uit een breed domein inderdaad een enkele latente dimensie aanspreken (een enkel concept) en we zijn in staat nauwkeurig te specificeren op welke wijze dit ‘aanspreken’ moet worden begrepen, dan heeft het bestuderen van profielen weinig of geen zin.We kunnen dan immers de positie van een leerling op het latente continuum (met een gekende nauwkeurigheid) bepalen aan de hand van antwoorden op een willekeurige deelverzameling van items uit het brede domein, waarbij moet worden aangetekend dat de graad van nauwkeurigheid afhangt van welke items men kiest – en meer in het bijzonder van het aantal items dat men kiest. Om concreet te maken wat hier precies wordt bedoeld, lichten we het voorgaande toe met een voorbeeld. Veronderstel dat we het brede domein Rekenen kunnen opdelen in twee deeldomeinen – breuken en meetkunde. Zeggen dat breuken en meetkunde-items hetzelfde concept aanspreken betekent dat de prestatie van een leerling op beide deeldomeinen alleen afhangt van eenzelfde vaardigheid, die we hier voor het gemak rekenvaardigheid noemen. Dit impliceert dat we de rekenvaardigheid van een leerling kunnen bepalen door hem een toets voor te leggen die uitsluitend items met breuken bevat, of uitsluitend meetkunde-items of een willekeurig mengsel van breuken en meetkunde-items. Dit is een belangrijk principe in de psychometrie, dat soms wordt aangeduid met de term ‘specifieke objectiviteit’. Daarmee is natuurlijk niet alles gezegd over de meetnauwkeurigheid. Stel dat in de hele itembank met meetkunde-items en breuken items, deze laatste categorie gemiddeld genomen substantieel moeilijker is dan de eerste, en wel zodanig dat hele zwakke leerlingen bijna geen enkel breuken-item correct kunnen beantwoorden, en dat heel vaardige leerlingen bijna geen fouten maken op de meetkunde-items. Dan ligt het een beetje voor de hand dat we voor een
3
nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een toets die hoofdzakelijk meetkunde-items bevat, en voor een sterke leerling met een toets die vooral breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang (‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag – hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid of vanuit twee verschillende vaardigheden. Het voorgaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke eigenschappen hebben, want die staan garant voor de eigenschap dat we verschillende leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we moeten aantonen is dat het gebruikte meetmodel geldig (valide) is voor de item-antwoorden die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we kunnen zeggen dat het principieel onmogelijk is. Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die nulhypothese te komen. Dit is de logische status van de statistische procedures in experimenteel onderzoek. Bij het evidentie zoeken ten voordele van een gebruikt model wordt deze werkwijze omgekeerd, en men spreekt van toetsen voor ‘goodness-of-fit’. Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is gemakkelijk in te zien door zich toetsen voor te stellen waarvan de analyse gebaseerd is op een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen onderscheidend vermogen of ‘power’ heeft. Gegeven een bepaalde statistische procedure (bijvoorbeeld een t-toets om de hypothese van gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen voor goodness-of-fit speelt er meestal nog een andere kwestie. Het gebruikte meetmodel (bijvoorbeeld OPLM) is een complexe nulhypothese, en het heeft helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde toetsprocedures veel power hebben, terwijl voor andere tekortkomingen andere procedures
4
meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen voor goodnessof-fit ingebouwd, en deze toetsen hebben vooral een goed onderscheidend vermogen om te ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar voor sommige schendingen van het model hebben deze toetsen weinig of geen power. Hier is een voorbeeld: een paar jaar geleden is op het Cito de Interessetest gemaakt voor leerlingen van groep 8. Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie, Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt voor jongens en voor meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die werd gebruikt om dit aan het licht te brengen was een statistische toets voor goodness-of-fit die speciaal is ontworpen om verschillen in functioneren van het model in verschillende deelpopulaties (hier: jongens en meisjes) te ontdekken. Het voorbeeld kan een paar zaken duidelijk maken: uit de bespreking van het voorbeeld kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is. Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is uitgevoerd voor jongens en meisjes, en niet, bijvoorbeeld, voor leerlingen die in de eerste zes maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn geboren. De reden hiervoor is dat er vooraf een vermoeden bestond dat er voor interesses wel eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het gebruikte meetmodel. In het voorbeeld van de Interessetest werd ervan uitgegaan dat de populatie waarvoor de test is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen. In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling een voorbeeld is van multidimensionaliteit. Daar is weinig tegen in te brengen tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bijvoorbeeld OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets Basisonderwijs wordt voor de items Rekenen meestal een unidimensionaal model gebruikt, maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het
5
toelaatbaar kan worden geacht een unidimensionaal model voor de drie deelvaardigheden te gebruiken. Dit brengt ons op een probleem dat direct met de toetspraktijk heeft te maken. Bij het schatten van de modelparameters wordt maar ten dele gebruik gemaakt van de informatie die in de data aanwezig is. Voor het OPLM bijvoorbeeld gebruiken we alleen de randtotalen van de gegevenstabel: van elk item het aantal keren dat het correct is beantwoord en van elke leerling zijn score op de toets (ongewogen bij het Raschmodel en gewogen in het OPLM). De overblijvende informatie wordt dan gebruikt om het model (statistisch) te toetsen: als de parameters (redelijk) nauwkeurig geschat zijn, kunnen allerlei eigenschappen van de datamatrix worden voorspeld, en deze voorspellingen kunnen worden vergeleken met de werkelijke eigenschappen van de datamatrix. Een voorbeeld: voor alle leerlingen met een bepaalde score op de toets (bijvoorbeeld 25) kan men voorspellen welke proportie van die leerlingen een bepaald item (bijv. item 1) correct heeft beantwoord, en deze voorspelde proportie kan men vergelijken met de proportie in de data, die men kan vinden door een simpele telling. Het probleem is echter dat er talloos veel verschillende voorspellingen kunnen worden gemaakt, en dat de overeenkomst tussen data en voorspelling soms minder goed zal zijn dan men zou willen, puur door toeval. Het heeft dus weinig zin om hap snap enkele voorspellingen eruit te pikken en de overeenkomst met de data te beoordelen. Het is wel zinvol om weloverwogen de voorspellingen te kiezen vanuit theoretische of didactische overwegingen en te overwegen wat men zou moeten of kunnen doen in geval de overeenkomst tussen data en voorspellingen niet goed is. Profielanalyse zoals hier verder zal worden uitgewerkt past in deze opvatting. Een profiel is een rijtje deelscores op bepaalde categorieën van items, maar men kan in principe de categorizering definiëren zoals men wil. Men zou inhoudelijke categorieën kunnen bepalen (zoals meetkunde, breuken, getalsrelaties, etc.), maar men kan ook andere categoriedefinities hanteren, zoals de even genummerde items tegenover de oneven genummerde, om maar een dwaas voorbeeld te noemen. Een goede categorisering is geen psychometrisch of statistisch probleem, maar een inhoudelijk probleem, en het is aan de inhoudelijke medewerkers hierover na te denken en een verantwoorde keuze te maken. In het genoemde voorbeeld van de rekenitems (in deeldomeinen) zou men een aantal overwegingen kunnen aanvoeren voor de gekozen categorisering: • Het bestaan van aparte methoden voor de genoemde onderdelen; • De noodzaak van bepaalde psychologische vaardigheden voor sommige onderdelen (zoals ruimtelijk inzicht voor meetkunde); • Het bestaan van didactische praktijken waarbij onderdelen ook echt bloksgewijs worden onderwezen; • De mogelijkheid van (partiële) incompetentie van (sommige) leerkrachten, etc. De eigenlijke profielanalyse bestaat dan uit drie onderdelen: • Het berekenen van het verwachte profiel met gebruikmaking van de parameters van het meetmodel; • De vergelijking van individuele geobserveerde profielen met dit verwachte profiel. Bij deze vergelijking kan men verschillende standpunten innemen: o Als de afwijking tussen geobserveerde en verwachte profielen erg groot is voor zeer veel leerlingen kan men de validiteit van het meetmodel in twijfel gaan trekken, en eventueel een herziening en/of uitbreiding van het meetmodel overwegen. Dit is eigenlijk een taak die behoort tot het monitoren van het hele systeem.
6
•
o Men kan echter ook afwijkingen aggregeren op een hoger niveau, bijvoorbeeld de school of de klas, en bijvoorbeeld vinden dat in een bepaalde school de afwijkingen van het verwachte profiel voor alle leerlingen in dezelfde richting wijzen zoals een relatief lage deelscore op het onderdeel breuken in vergelijking met de andere onderdelen. Dit te ontdekken, ordelijk te beschrijven en te rapporteren is een monitoring functie op school- of klasniveau. Om dit goed en op een verantwoorde manier te doen is geen triviale taak en er is nog behoorlijk veel werk te doen om op dit niveau goede service aan de scholen te kunnen aanbieden. o Natuurlijk kan men ook de afwijking tussen een individueel profiel (van een leerling) en het verwachte profiel bepalen en tot een (beschrijvend) besluit komen, ongeveer met de uitspraak dat de afwijking bij leerling A groot is en bij leerling B klein. In het tweede deel van dit rapport wordt uiteengezet hoe men op een rationele manier grote afwijkingen kan definiëren. De moeilijkste taak is echter het formuleren van besluiten en adviezen. Afwijkende patronen kunnen ook bij toeval ontstaan en hoeven niet per se op een probleem te wijzen bij de leerling. In de statistiek spreekt men van fouten van de eerste soort, soms ook aangeduid als vals alarm. Omgekeerd zullen niet alle problemen door een profielanalyse aan het licht komen. In het eerste geval is het botweg adviseren tot bijles of remediërende programma’s niet altijd een wijze handeling. Als een probleem gesignaleerd wordt (op statistische wijze) is het meestal verstandiger eerst bijkomende evidentie te zoeken dat het inderdaad om een probleem gaat. In een systeem als het LVS worden bijvoorbeeld mogelijkheden geboden omdat daar gegevens van dezelfde leerling op verschillende tijdstippen beschikbaar zijn. Maar het uitwerken van een geschikte procedure voor een aggregatie van profielen over de tijd is niet op stel en sprong gemaakt. Er ligt dus nog een groot onontgonnen veld van nadenken en uitwerken voor ons.
Profielanalyse op individueel niveau Als een leerling een toets maakt kunnen we deelscores berekenen op willekeurige onderdelen van de toets. We zullen aannemen dat de toetsitems in p (> 1) categorieën zijn onderverdeeld, waarbij elk item in niet meer dan een categorie valt. Voor elke categorie kunnen we de deelscore van de leerling berekenen en het rijtje van p deelscores noemen we het geobserveerde profiel. De deelscores kunnen gewone tellingen zijn: hoeveel items van elke categorie heeft de leerling correct beantwoord, of het kunnen gewogen scores zijn omdat niet alle items hetzelfde gewicht hebben. In Figuur 1 staat een voorbeeld uit de Eindtoets Basisonderwijs 2006 voor het onderdeel Rekenen, waarbij drie categorieën zijn onderscheiden. De verticale as geeft de gewogen score weer op de drie onderdelen. De gewogen score op het hele onderdeel Rekenen bedraagt voor de betrokken leerling 120 punten.
7
80
gewogen score
60
40
20
0 getal
m eten
breuken
Figuur 1. Een geobserveerd profiel met gewogen scores Het hele onderdeel Rekenen bestaat uit 60 items en de maximale gewogen score bedraagt 270. Op het eerste gezicht zou men kunnen zeggen dat de leerling zwak presteert op de categorie ‘meten’ en sterk op de categorie ‘breuken’, maar elke grond voor zulk een interpretatie ontbreekt: we weten immers niet hoeveel items er in elke categorie zijn en we kennen het gewicht van de afzonderlijke items niet. Geven we deze informatie erbij, dan kunnen we al iets van het probleem wegnemen. In figuur 2 is weer een profiel gegeven (van de zelfde leerling als in Figuur 1), maar nu zijn de resultaten uitgedrukt als percentage van de maximumscore in elke categorie, zodat de dubbelzinnigheid veroorzaakt door verschillende aantallen items of verschillende gewichten in ieder geval is weggenomen.
procent van de maximale score
80
60
40
20
0 getal
m eten
breuken
Figuur 2. Geobserveerd profiel uitgedrukt als percentage van de maximumscore In Figuur 2 lijkt de zwakste prestatie nu in de categorie getallen, maar ook dit resultaat kan misleidend zijn, want het zou zo kunnen zijn dat de items in de categorie ‘getallen’ veel moeilijker zijn dan in de twee andere categorieën. De spontane interpretatie bij een visuele weergave van een profiel is het nemen van de nullijn (of een willekeurige andere horizontale lijn in de figuur) als referentielijn, en dat kan aanleiding geven tot niet gerechtvaardigde interpretaties of conclusies.
8
Het referentieprofiel Om terdege rekening te houden met de verschillen in moeilijkheid van de onderscheiden categorieën kunnen we het beste een soort verwacht profiel gaan nemen als referentielijn. Maar we dienen goed te formuleren wat we met ‘verwachting’ bedoelen. Nemen we bijvoorbeeld als verwachting de gemiddelde categoriescore in de populatie van leerlingen van groep acht die deelnemen aan de Eindtoets, dan wordt de vergelijking weer gecompliceerd omdat het aldus gedefinieerde verwachte profiel in twee opzichten kan verschillen van het geobserveerde profiel uit Figuur 1: het kan verschillen door het algemene niveau (in het voorbeeld doet het dit ook, want een gewogen score van 120 op het onderdeel Rekenen is een tamelijk lage score) en het kan ook verschillen qua vorm. De directe visuele interpretatie van beide profielen wordt daardoor bemoeilijkt. We kunnen het probleem vereenvoudigen door een specifiek geobserveerd profiel te vergelijken met een gemiddeld profiel van alle leerlingen die op de hele toets (d.i. op het hele onderdeel Rekenen) dezelfde of ongeveer dezelfde score behalen als de score van het geobserveerde profiel. Dit verwachte profiel kunnen we op twee manieren bepalen: empirisch of theoretisch. Empirisch betekent dat we in het databestand van de Eindtoets het gemiddelde profiel bepalen van alle leerlingen met dezelfde score op het hele onderdeel Rekenen als de onderzochte leerling. Voor het onderzoek naar een andere leerling met een andere gewogen score op het onderdeel Rekenen kunnen we hetzelfde doen. We moeten deze hele procedure dus uitvoeren voor alle mogelijke scores op het onderdeel Rekenen. Drukken we het geobserveerde profiel uit met gewogen scores, dan moeten we deze procedure toepassen voor alle mogelijke gewogen scores. In termen van computertijd is dit niet zo’n groot probleem, maar wel in termen van statistische stabiliteit. Immers de frequentie van sommige gewogen scores zal behoorlijk groot zijn, maar voor andere scores zullen we onvermijdelijk te maken krijgen met kleine tot zeer kleine frequenties. De statistische stabiliteit van de verwachte profielen zal dan van score tot score gaan verschillen en dit is een onwenselijke situatie. Bovendien komt er nog een probleem bij als we een dergelijke werkwijze zouden willen toepassen in het LVS. Bij de Eindtoets worden de data centraal verzameld op het Cito, maar bij het LVS is dat niet zo. De data die daar beschikbaar zijn betreffen alleen de leerlingen van de school zelf en dan wordt de empirische aanpak wel heel problematisch. Als de gegevens met OPLM gecalibreerd zijn kunnen we ook theoretisch het verwachte profiel afleiden. De verwachte (gewogen) score voor elke categorie is een (nogal ingewikkelde) functie van de itemparameters (de discriminatie-indices en de moeilijkheidsparameters). Details over hoe die verwachte waarden worden berekend worden gegeven in Appendix A van dit rapport. In Figuur 3a wordt hetzelfde geobserveerde profiel afgebeeld als in Figuur 2, maar nu samen met het verwachte profiel. In Figuur 3b zijn beide profielen omgezet als percentage van de maximum te behalen score op elke categorie.
9
procent v.d. maximum score
gewogen score
80 60 40 20
obs exp
0 getal
meten
breuken
80 60 40 20
%obs %exp
0 getal
Figuur 3a. Profielen met gewogen scores
meten
breuken
Figuur 3b. Profielen met procenten
verschil geobs. min verw. (in %)
De visuele aanblik van beide figuren verschilt in bepaalde opzichten: in Figuur 3a zien we een dipje voor ‘meten’ dat in Figuur 3b verdwenen is, maar dat komt omdat de categorie ‘meten’ het minste items bevat met daarenboven nog eens het kleinste gemiddeld gewicht. Er zijn echter ook bepaalde eigenschappen die in beide figuren onveranderd blijven: op de categorie ‘getal’ doet de leerling het slechter dan verwacht; op de categorie ‘breuken’ doet hij het beter dan verwacht en op de categorie ‘meten’ is de geobserveerde prestatie zeer gelijkend aan de verwachte prestatie. En dit is precies de informatie die we nodig hebben, zodat het er eigenlijk niet veel toe doet of we Figuur 3a dan wel 3b kiezen. 20 15 10 5 0 -5
getal
meten
breuken
-10 -15 -20
Figuur 4. Afwijkingen van het verwachte profiel (in percentages) Samenvattend: het verwachte profiel is wat we gemiddeld kunnen verwachten van leerlingen die dezelfde gewogen toetsscore behalen als in het geobserveerde profiel (in het voorbeeld van Figuur 3 is dat 120). Voor elke categorie kunnen we met een simpele visuele inspectie nagaan of de leerling boven of onder de verwachting presteert, gezien zijn algemene niveau. In Figuur 4 geven we nog een andere visuele presentatie van de verschillen zoals afgebeeld in Figuur 3b: daar geven we aan (in procenten) hoever de leerling afwijkt van het verwachte percentage voor elke categorie. De nullijn komt dus overeen met het verwachte profiel. Door de wijze waarop het profiel (met gewogen scores) is gedefinieerd is het noodzakelijkerwijze zo dat de som van de categoriescores van het geobserveerde profiel gelijk is aan de som bij het verwachte profiel. Het kan dus nooit voorkomen dat het ene profiel volledig boven het andere ligt. Bij de afbeelding van de percentages geldt dat ook, maar daar is het niet noodzakelijk dat de som van de percentages in een profiel gelijk is aan 100, omdat de gewogen scores per categorie gedeeld worden door de maximumscore van die 10
categorie en die maxima zullen in de regel niet gelijk zijn aan elkaar. Daardoor is de som van de percentages in Figuur 4 ook niet gelijk aan nul. Afstand tussen twee profielen De verschillen tussen geobserveerd en verwacht profiel zoals in Figuur 3a zijn wel verbaal omschreven, maar voor verder onderzoek is het noodzakelijk dat die verschillen ook gekwantificeerd worden en bij voorkeur zo compact mogelijk. Het liefste met één getal dat op een of andere manier de afstand uitdrukt tussen de twee profielen. Er zijn veel mogelijke manieren om de afstand tussen twee profielen uit te drukken en wij kiezen er een die in de statistiek populair is, namelijk de chi-kwadraatafstand. We illustreren dit met de twee profielen uit Figuur 3a, waarvan de numerieke gegevens zijn ondergebracht in Tabel 1. De getalswaarden die overeenkomen met Figuur 3a zijn weergegeven in de rij ‘behaald’, waarbij de verwachte score tussen haakjes staat. Zoals te doen gebruikelijk bij contingentietabellen wordt deze rij echter ook gecompleteerd door een rij ‘niet behaald’: bij de categorie ‘getal’ is de maximale score 107, de geobserveerde score is 35, dus heeft de leerling 107 – 35 = 72 punten niet behaald. Tabel 1. Geobserveerd en verwacht profiel behaald niet behaald totaal
getal 35 (49.94) 72 (57.06) 107
meten 24 (26.42) 37 (34.58) 61
breuken 61 (43.65) 41 (58.36) 102
totaal 120 150 270
Elk van de zes grijsgekleurde cellen in Tabel 1 bevat een geobserveerde score (Oi) en een verwachte score (Ei) en de chi-kwadraatafstand tussen de twee profielen wordt gedefinieerd als 6 (O − Ei ) 2 X2 =∑ i = 20.83 Ei i =1 waarbij meteen de uitkomst van de formule voor de gegevens van Tabel 1 is ingevuld.
Het voordeel van een afstandsmaat is dat alle geobserveerde profielen met eenzelfde totaalscore nu kunnen worden geordend in termen van hun gelijkenis met het verwachte profiel (dat voor iedereen hetzelfde is). Maar we kunnen de profielen niet zomaar inwisselen tegen de afstand tot het verwachte profiel: immers twee profielen die op dezelfde afstand liggen van het verwachte profiel kunnen heel erg goed op elkaar lijken maar onderling ook heel verschillend zijn. Wat het geval is, kunnen we niet meer uit de afstandsmaat afleiden. Met de afstandsmaat op zichzelf kunnen we trouwens ook niet veel doen. In het voorbeeld bedraagt de afstand 20.83, maar daarmee weten we nog niet of dit nu heel gewoon is of eigenlijk toch wel een beetje aan de kleine kant of uitzonderlijk groot. Om zo een vraag zinvol te kunnen beantwoorden, moeten we antwoord geven op de volgende vraag: hoe ziet de verdeling van de chi-kwadraat afstanden eruit bij een totaalscore van 120 (en in de veronderstelling dat het gehanteerde OPLM model geldig is)? Of meer in het algemeen: kunnen we de overschrijdingskans van de gevonden waarde van 20.83 in die verdeling bepalen?
11
Indien die overschrijdingskans heel erg klein is, zeg 1%, dan weten we dat een chikwadraatafstand van 20.83 of groter slechts in 1% van de gevallen voorkomt indien het model voor deze leerling geldig is. Op grond van dit kleine percentage kunnen we ons geloof in het model (voor die leerling) opzeggen, en besluiten dat er wat aan de hand is met die leerling. Als de overschrijdingskans echter behoorlijk groot is, zeg 35%, betekent dit dat onder het model een chi-kwadraatafstand van 20.83 of groter voorkomt in 35 % van de gevallen, en ons besluit zal (waarschijnlijk) zijn dat we hier geen reden hebben om iets speciaals te signaleren. Maar wat hier met een hoop woorden is omschreven is niets anders dan een statistische toets. Hoe we die toets in concreto moeten uitvoeren beschrijven we hierna. De verdeling van de chi-kwadraatafstanden tussen geobserveerde en verwachte profielen De gedaante van Tabel 1 en van de formule die er op volgt zou kunnen suggereren dat de chikwadraatafstand de theoretische chi-kwadraatverdeling volgt. Dat zou zo zijn indien de rekentoets 270 items zou bevatten (het aantal items gelijk aan het grand total van de tabel), maar hier is dat niet zo: het onderdeel Rekenen in de Eindtoets bestaat slechts uit 60 items. We hebben dus geen theoretische basis om te beweren dat we de theoretische chi-kwadraatverdeling (met 2 vrijheidsgraden) kunnen gaan gebruiken. De theoretische verdeling op theoretische gronden afleiden is een moeilijke onderneming, maar gelukkig kunnen we dankzij de beschikbaarheid van snelle computers de theoretische verdeling willekeurig dicht benaderen door simulatietechnieken. We beschrijven kort hoe dit wordt gedaan. We vertrekken van een gegeven totaalscore, bijvoorbeeld 120 zoals in het voorbeeld hierboven. Als we de parameters van alle items in het OPLM model kennen kunnen we berekenen hoe groot de kans is dat iemand met een totaalscore van 120 item 1 (met een gewicht van 4) correct beantwoordt. Stel dat die kans 0.6 is. Dan gooien we (electronisch) een muntstuk op dat precies een kans van 0.6 heeft om ‘Munt’ op te leveren. Gebeurt dit, dan noteren we een correct antwoord op item 1, gebeurt het niet dan noteren we een fout antwoord. Als het antwoord op het eerste item correct was, dan moet de gesimuleerde leerling nog 120 – 4 = 116 punten behalen op de 59 overblijvende items; was het eerste item fout dan moet hij op de overblijvende 59 items alsnog een score van 120 behalen. En de procedure kan zich dus herhalen voor item 2, enzovoort tot alle items beantwoord zijn. Als de gesimuleerde persoon alle items heeft beantwoord kunnen we zijn geobserveerd profiel berekenen en dus ook de chi-kwadraatafstand tot het verwachte profiel. De details over het berekenen van de kans op een goed antwoord worden beschreven in Appendix B van dit rapport. Als we de hele procedure van de vorige alinea een groot aantal keren herhalen, bijvoorbeeld 30,000 keer, dan beschikken we over 30,000 chi-kwadraatafstanden waarvan we de cumulatieve frequentieverdeling kunnen tekenen. Dit hebben we ook inderdaad gedaan, en het resultaat staat in Figuur 5, samen met de theoretische cumulatieve chi-kwadraatverdeling met twee vrijheidsgraden.
12
cumulatief percentage cumulatief percentage
100 score = 120 chi2(2)
75
50
25
0 0
10
20
30
40
Chi-kwadraatafstand Chi-kwadraatafstand Figuur 5. Gesimuleerde verdeling voor een totaalscore van 120 en de theoretische chi-kwadraatverdeling met twee vrijheidsgraden We merken twee zaken op bij Figuur 5: 1. De twee verdelingen verschillen heel erg van elkaar en er kan geen sprake van zijn de theoretische chi-kwadraatverdeling te beschouwen als een goede benadering van de werkelijke (of gesimuleerde) verdeling. De mediaan bijvoorbeeld, (het punt waar de horizontale rasterlijn met label ‘50’ de curve snijdt) bedraagt 6.06 bij de gesimuleerde verdeling en 1.39 bij de theoretische chi-kwadraatverdeling. 2. De curve van de gesimuleerde verdeling is minder glad dan de curve van de theoretische verdeling. Dit wordt veroorzaakt door twee factoren. De eerste is dat het aantal gesimuleerde leerlingen weliswaar behoorlijk groot is maar toch eindig. Een deel van de onregelmatigheden zouden kunnen worden weggepoetst door bijvoorbeeld een steekproef te nemen die tien keer zo groot is. Maar er zouden toch nog onregelmatigheden overblijven omdat de chi-kwadraatafstanden die we berekenen geen continue grootheid zijn, maar discreet. Voor praktische doeleinden echter, is de gesimuleerde curve glad genoeg. Percentiel 90 bijvoorbeeld bedraagt 19.65 en de geobserveerde chikwadraatafstand in het voorbeeld bedraagt 20.83 (aangegeven door de positie van de verticale streepjeslijn), waardoor we weten dat deze waarde een overschrijdingskans heeft van minder dan 10%. Percentiel 95 in de gesimuleerde verdeling bedraagt 25.32 en de overschrijdingskans van de geobserveerde chi-kwadraatafstand is dus groter dan 5%. Deze waarde kan worden afgelezen aan de positie van de horizontale streepjeslijn: het cumulatieve percentage van de chi-kwadraatafstand 20.83 is ongeveer 91%, zodat de overschrijdingskans ongeveer 9% is. In principe zijn we nu klaar met de leerling uit het voorbeeld: Figuur 3 geeft duidelijk het verwachte en geobserveerde profiel aan, en de statistische toets vertelt ons dat het verschil significant is op het 10% niveau maar niet op het 5% niveau. En hier houdt de functie van de statistiek op. Of we dit resultaat nu aan de leerkracht moeten melden met groot alarm of klein alarm of geen alarm is in wezen een arbitraire kwestie waar de statistiek geen uitspraak kan over doen.
13
Tot hiertoe hebben we alleen de verdeling bestudeerd voor een geobserveerde totaalscore van 120, maar het spreekt vanzelf dat we iets dergelijks moeten doen voor bijna alle mogelijke totaalscores. We kunnen dit in principe doen voor alle mogelijke totaalscores, maar dit heeft niet veel zin. Het gemiddelde gewicht van de items Rekenen in de Eindtoets 2006 ligt tussen 4 en 5. Dit betekent dat een leerling met een gewogen totaalscore van 15 drie of vier juiste antwoorden heeft gegeven. Het is dus vrij zinloos om voor zo’n lage score een profielanalyse te doen met drie categorieën. Een soortgelijk argument geldt natuurlijk ook voor zeer hoge totaalscores: het heeft weinig zin een profielanalyse te maken voor een leerling die maar twee of drie foute antwoorden heeft gegeven.
cumulatief percentage cumulatief percentage
In Figuur 6 staat een (stukje van) de cumulatieve gesimuleerde verdelingen voor een vijftal totaalscores. Voor elke verdeling zijn weerom 30,000 gesimuleerde leerlingen gebruikt. We merken dat de curves vrij goed op elkaar lijken, maar dan toch niet weer zo goed dat we met een gerust hart kunnen zeggen dat ze ‘eigenlijk’ aan elkaar gelijk zijn (waarbij we dan haarfijn zouden moeten uitleggen wat we met ‘eigenlijk’ bedoelen.) Wat we wel kunnen zeggen is dat de curves dermate op elkaar lijken dat het onmogelijk is in Figuur 6 een patroon te ontdekken, gesteld dat dit er al zou zijn.
80
60
40 score = 40 score = 80 score = 120
20
score = 160 score = 200
0 0
3
6
9
12
Chi-kwadraatafstand Chi-kwadraatafstand Figuur 6. Gesimuleerde cumulatieve verdelingen voor vijf verschillende totaalscores Om een mogelijk patroon te kunnen ontdekken is Figuur 7 gemaakt. Daar zijn voor alle totaalscores in het interval [25, 245] de percentielen 50, 75, 90, 95, 97 en 99 grafisch weergegeven. Bemerk dat de percentielen hier moeten worden afgelezen op de verticale as. Over mogelijke patronen in die figuur merken we het volgende op: 1. Voor de allerlaagste gerapporteerde scores (25 en 26) zien we dat de curves omhoog schieten. Zo’n gekke uitschieters zien we bij nog lagere scores en ook bij extreem hoge scores. Dit geeft ons nog een extra reden om profielanalyse bij extreme scores gewoon achterwege te laten. 2. De percentielen 50 en 75 zijn merkwaardig constant op respectievelijk de waarden 6 en 12
14
3. Voor de andere geplotte percentielen zien we duidelijk een patroon: ze bereiken de hoogste waarde in het middengebied en worden kleiner naarmate de score groter of kleiner wordt. 4. Het feit dat de curves voor de hoge percentielen onregelmatiger verlopen dan voor de percentielen 50 en 75 moet waarschijnlijk worden geweten aan het discrete karakter van de chi-kwadraatafstand.
40
Chi-kwadraatafstand
32 p50
24
p75 p90 p95
16
p97 p99
8
0 25
50
75
100
125 150 toetsscore
175
200
225
Figuur 7. Zes percentielen van de verdelingen van de chi-kwadraatafstanden Moeten we nu met alle details zoals die zijn weergegeven in Figuur 7 gaan rekening houden als we profielen zouden willen rapporteren in het LVS bijvoorbeeld? Dit lijkt wat overdreven. Stel dat we een overschrijdingskans van 10% of minder de moeite waard vinden om aan de leerkracht te rapporteren dat de desbetreffende leerling een atypisch antwoordprofiel heeft. Uit Figuur 7 kunnen we gemakkelijk afleiden dat we een goede benadering krijgen als we signaleren bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen). Voor de extreme scores (zeg tussen 25 en 50 en tussen 225 en 245) zal overschrijdingskans dan wel iets kleiner zijn dan 10% en zo men wil zou men de drempel voor die scores iets lager kunnen zetten. We moeten echter niet gaan overdrijven, want anders vinden we schijnnauwkeurigheid zoals zal blijken in de volgende sectie. Profielanalyse als modeltoets Alle analyses die we tot hiertoe hebben gerapporteerd zijn uitgevoerd in de veronderstelling dat het OPLM model (met de parameterschattingen uit de calibratie) geldig is voor alle leerlingen. Maar als dat zo is, dan moet ongeveer 10% van alle leerlingen die aan de Eindtoets hebben deelgenomen een profiel chi-kwadraatafstand opleveren die significant is op het 10% niveau. Dat kunnen we empirisch nagaan. Voor alle leerlingen die aan de Eindtoets Basisonderwijs 2006 hebben deelgenomen en die op het onderdeel rekenen een totaalscore hadden groter dan 35 en kleiner dan 246 hebben we de chi-kwadraatafstand uitgerekend en
15
geclassificeerd in een van vier categorieën: een overschrijdingskans niet groter dan 50%; tussen 25% en 50%; tussen 10% en 25% en kleiner dan 10%. De resultaten zijn weergegeven in Tabel 2. De rechterkolom geeft voor elk van de vier categorieën het verwachte percentage aan. De andere kolommen geven voor verschillende score-intervallen (aangegeven in de bovenste rij) de geobserveerde percentages aan. In elke kolom tellen de percentages op tot 100. Tabel 2. Percentages leerlingen in de Eindtoets Basisonderwijs 2006 36-75 47.09 24.63 16.20 12.08
76-105 46.34 24.24 15.84 13.58
106-135 43.80 24.92 16.20 15.08
135-165 44.17 25.01 15.94 14.87
166-195 43.81 25.01 16.39 14.79
196-225 44.42 25.13 16.49 13.96
226-245 45.06 25.97 16.58 12.39
totaal 44.53 25.16 16.32 13.99
verwacht 50 25 15 10
Het is voldoende om naar de onderste rij in Tabel 2 te kijken om te zien dat er behoorlijk meer significanties op het 10% niveau zijn dan we op grond van het OPLM model mogen verwachten. Daaruit we moeten besluiten dat het model niet geldig is. Wat nu? Als we een beter model hadden (en een computerprogramma waarmee we de hele calibratie met een onvolledig design) konden overdoen, dan zou dat de aangewezen weg zijn: gebruik niet een slecht model als je een beter hebt. Maar het ziet er niet naar uit dat dit een realistische optie is; dus zullen we op een of andere manier een compromis moeten zien te vinden. Stel dat we in het geval van de individuele profielanalyse een profiel als atypisch hadden willen aanmerken bij een overschrijdingskans van 10% (dus bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen)). Dan zouden we (voor de populatie die aan de Eindtoets deelnam) dat niet doen in 10% van de gevallen maar in 14% (voorlaatste kolom, onderste rij in Tabel 7). Als we dit te veel vinden dan moeten we de drempel hoger gaan stellen; als we dit nog aanvaardbaar vinden dan weten we dat we in meer dan 10% een boodschap zullen afgeven. Als we dit op een adequate wijze aan het onderwijsveld weten mee te delen, dan kan dit heel aanvaardbaar zijn. Er zit echter een klein addertje onder het gras. De gegevens voor Tabel 2 komen van de Eindtoets, maar de profielanalyse is in eerste instantie bedoeld voor het LVS en niemand weet of een soortgelijke tabel voor het LVS ook soortgelijke percentages als die in Tabel 2 zal opleveren, want we hebben geen gegevens van het LVS. Een aantal losse opmerkingen Het profiel dat we als voorbeeld hebben behandeld (zie bijv. Figuur 3) heeft drie categorieën. De statistische analyse laat zien dat het geobserveerde profiel significant (op 10% niveau) van het verwachte profiel afwijkt. Deze uitkomst vertelt niet waaruit deze afwijking precies bestaat en waar (eventueel) het meeste aandacht moet worden aan besteed. Maar een visuele inspectie van de afwijkingen (bijvoorbeeld aan de hand van Figuur 4) laat hierover weinig twijfel bestaan. Omdat profielen ipsatief zijn (d.w.z. hun som is constant) is het aantal mogelijke ‘vormen van de afwijkingen’ redelijk beperkt, en lijkt de interpretatie behoorlijk eenvoudig. Wanneer echter het aantal categorieën toeneemt gaan de restricties die volgen uit de ipsativiteit steeds minder een rol spelen, en krijgen we een groeiend aantal mogelijke patronen van de afwijkingen tussen geobserveerd en verwacht profiel waarbij de interpretatie soms niet zo voor de hand liggend zal zijn. Het verdient daarom aanbeveling het aantal categorieën beperkt te houden. In de praktijk moeten we denken aan drie of vier. 16
Complementair hiermee is het wellicht nuttig een ander mogelijk probleem te signaleren: als het aantal categorieën toeneemt zal het gemiddeld aantal items per categorie afnemen. Maar categorieën met een klein aantal items kunnen een misleidende (visuele) indruk maken bij een presentatie zoals in Figuur 4. Veronderstel dat een categorie maar drie items bevat (van hetzelfde gewicht), dan kan in het geobserveerde profiel het percentage op die categorie maar vier verschillende waarden aannemen: nul, 33.3, 66.7 en 100, en wat ook de waarde is van het percentage juist in het verwachte profiel, minstens twee van de vier mogelijke uitkomsten zullen een grote afwijking te zien geven die op zichzelf niet veel hoeft te betekenen. Bij het definiëren van de categorieën is het raadzaam hier aandacht aan te besteden. Stel dat men er niet in slaagt een klein aantal evenwichtig verdeelde categorieën te definiëren, omdat er een inhoudelijk zinvolle restcategorie blijkt te bestaan die echter slechts een zeer klein aantal items bevat. Men kan dan zonder problemen die items uit de profielanalyse weglaten, met dien verstande dat de toetsscore en de verwachte profielen alleen op de andere items worden berekend. Men dient echter goed uit te kijken hier: twee leerlingen met dezelfde score op de niet uitgesloten items hebben dan hetzelfde verwachte profiel, maar dat impliceert niet dat die twee leerlingen dezelfde score hebben op de hele toets. Algebraïsch en statistisch is er ook geen enkel probleem om een item in meer dan een categorie op te nemen, maar als men dit doet bepaalt men het verwachte profiel conditioneel op een toetsscore waarbij het tweemaal gecategoriseerde item ook twee keer meetelt. Het is dus de vraag of een dergelijke werkwijze de interpreteerbaarheid van de profielen en hun afwijkingen ten goede komt.
17
Appendix A: verwachte profielen
Het OPLM wordt gekarakteriseerd door de volgende item respons functie voor item i: exp[ai (θ − β i )] fi (θ ) = P ( X i = 1| θ ) = 1 + exp[ai (θ − β i )] We definiëren ε i = exp(− ai βi ) Veronderstel dat de items zijn opgedeeld in C categorieën, en voor elke categorie c definiëren we de verzameling Ec = {ε i | item i behoort tot categorie c} en haar complement E c = {ε i | ε i ∉ Ec } De verzameling parameters voor alle items in de toets duiden we aan met E. Uit de theorie over de conditionele maximum likelihood schatting in het OPLM zijn genoegzaam de zogenaamde combinatorische basisfuncties bekend: k
γ s (ε1 ,… , ε k ) = ∑∏ ε ix
i
(*) i =1
waarin k
(*) betekent: ∑ ai xi = s, ( xi ∈ {0,1}) i =1
Het argument van deze functies is dus een rijtje ε ’s, en de functie is symmetrisch; derhalve kunnen we voor een willekeurige verzameling ε -parameters ook kortweg de functie aanduiden als γ s ( E ) . Voor een gewogen score s kleiner dan nul of groter dan de maximaal te behalen score definiëren we dat de functie de waarde nul aanneemt. Op die manier is de functie gedefinieerd voor alle gehele getallen. Voor een gegeven toetsscore s en een deelscore sc op de deeltoets die bestaat uit de items van categorie c is de kans op sc conditioneel op s gegeven door γ s ( Ec )γ s − sc ( E c ) P ( Sc = sc | s ) = c γ s (E) waaruit dan direct volgt dat de verwachte waarde van de deelscore op categorie c items conditioneel op de totaalscore s gegeven is door Mc
E ( Sc | s ) = ∑ jP( Sc = j | s ) j =0
waarin Mc de maximale deelscore is in categorie c. Het is wellicht instructief het speciale geval te beschouwen waar alle items hetzelfde gewicht en dezelfde moeilijkheid hebben. Zij k het totaal aantal items in de toets, en kc het aantal items in categorie c, dan is de kans op deelscore sc gegeven door ⎛ kc ⎞ ⎛ k − kc ⎞ ⎜ ⎟⎜ ⎟ sc ⎠ ⎝ s − sc ⎠ ⎝ P ( Sc = sc | s) = ⎛k ⎞ ⎜ ⎟ ⎝s⎠ d.w.z., Sc volgt de hypergeometrische verdeling.
18
Appendix B. Steekproeftrekken onder restricties
We beschouwen alleen het geval van binaire items. Het algoritme werkt sequentieel. Als op een bepaald item succes wordt geboekt wordt de lopende score met het gewicht van dat item verminderd. We definiëren S als de score die nog moet behaald worden na het beantwoorden van een gedeelte van de items. Bij aanvang van het algoritme is S de totaalscore. Na beëindiging heeft S de waarde nul. We definiëren E0 als de verzameling ε -parameters voor de gehele toets met k items en Ei als Ei = E − {ε1 ,… , ε i }, (i < k ) Voor i = 1,…,k passen we sequentieel de volgende procedure toe 1. bereken Pi:
Pi =
ε iγ s − a ( Ei ) i
γ s ( Ei −1 )
2. Trek een uniform verdeeld random getal z uit (0,1). a. Indien z > Pi is een fout antwoord gegeven: Xi=0; b. Indien z ≤ Pi is een correct antwoord gegeven: Xi=1 en de lopende score wordt met ai verminderd: s := s-ai. Het algoritme kan voortijdig worden afgebroken in twee gevallen. Als de lopende score s gelijk is aan nul zijn de resterende items fout beantwoord; als de lopende score gelijk is aan de som der gewichten van de resterende items zijn al die items noodzakelijkerwijze goed beantwoord.
19
20
Bijlage 2 Betrouwbaarheidstabellen Tabel 1
Betrouwbaarheidstabel bij de papieren versie van de toets M3E3 Rekenen-Wiskunde voor speciale leerlingen Toets M3E3
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
>M4E4
<M3
86,8
23,8
5,1
0,6
0,1
0,0
0,0
0,0
M3
10,1
37,2
20,2
5,7
0,9
0,0
0,0
0,0
M3E3
2,7
28,0
34,8
21,1
6,3
0,7
0,1
0,0
E3
0,4
10,1
30,8
41,1
25,6
6,9
1,8
0,4
E3M4
0,0
1,0
8,8
28,2
46,6
35,4
18,2
6,0
M4
0,0
0,0
0,4
3,0
15,3
30,3
27,7
15,4
Scoregroep
M4E4
0,0
0,0
0,0
0,3
4,4
17,7
26,7
23,6
>M4E4
0,0
0,0
0,0
0,0
0,9
8,9
25,5
54,6
Tabel 2
Betrouwbaarheidstabel bij de papieren versie van de toets E3 Rekenen-Wiskunde voor speciale leerlingen Toets E3
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
>E4
<M3
85,4
25,9
6,2
0,7
0,0
0,0
0,0
0,0
0,0
M3
11,3
38,2
22,6
6,2
0,5
0,0
0,0
0,0
0,0
M3E3
2,9
26,8
36,9
22,5
4,5
0,3
0,0
0,0
0,0
E3
0,4
8,6
28,3
42,5
23,1
4,2
0,6
0,1
0,0
E3M4
0,0
0,6
5,9
26,0
49,9
33,8
12,8
3,4
0,7
M4
0,0
0,0
0,1
1,9
17,1
34,8
28,0
14,3
4,6
M4E4
0,0
0,0
0,0
0,1
4,1
19,8
31,3
28,9
14,1
E4
0,0
0,0
0,0
0,0
0,6
5,9
18,9
28,0
23,5
>E4
0,0
0,0
0,0
0,0
0,1
1,2
8,4
25,4
57,1
Tabel 3
Scoregroep
Betrouwbaarheidstabel bij de papieren versie van de toets E3M4 Rekenen-Wiskunde voor speciale leerlingen Toets E3M4
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
>E4M5
<M3
83,1
23,6
4,1
0,3
0,0
0,0
0,0
0,0
0,0
0,0
M3
13,3
38,3
20,7
3,7
0,1
0,0
0,0
0,0
0,0
0,0
M3E3
3,3
28,8
39,4
18,0
1,4
0,0
0,0
0,0
0,0
0,0
E3
0,3
8,8
30,7
44,5
14,5
1,4
0,1
0,0
0,0
0,0
E3M4
0,0
0,5
5,0
31,3
54,1
27,0
7,7
1,3
0,2
0,0
M4
0,0
0,0
0,0
2,1
23,8
40,8
26,5
9,8
3,5
0,3
M4E4
0,0
0,0
0,0
0,1
5,5
24,0
35,7
28,3
15,1
3,2
E4
0,0
0,0
0,0
0,0
0,6
5,9
21,6
33,4
29,2
11,8
E4M5
0,0
0,0
0,0
0,0
0,0
0,8
7,3
21,1
32,1
27,2
>E4M5
0,0
0,0
0,0
0,0
0,0
0,0
1,0
6,1
19,8
57,4
Scoregroep
87
Tabel 4
Betrouwbaarheidstabel bij de papieren versie van de toets M4 Rekenen-Wiskunde voor speciale leerlingen Toets M4
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
>M5
<M3
77,3
23,4
4,0
0,2
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M3
16,9
37,6
18,6
2,6
0,1
0,0
0,0
0,0
0,0
0,0
0,0
M3E3
5,2
29,8
38,1
16,2
1,3
0,0
0,0
0,0
0,0
0,0
0,0
E3
0,6
8,8
33,7
47,8
15,2
0,6
0,0
0,0
0,0
0,0
0,0
E3M4
0,0
0,4
5,6
32,1
59,3
22,7
3,1
0,3
0,0
0,0
0,0
M4
0,0
0,0
0,0
1,1
21,1
45,1
22,4
5,7
0,8
0,0
0,0
M4E4
0,0
0,0
0,0
0,0
2,9
26,3
42,3
27,3
8,0
1,0
0,2
Scoregroep
E4
0,0
0,0
0,0
0,0
0,1
5,0
25,6
39,8
26,6
8,6
2,1
E4M5
0,0
0,0
0,0
0,0
0,0
0,4
6,1
22,7
39,4
31,3
13,4
M5
0,0
0,0
0,0
0,0
0,0
0,0
0,4
3,7
17,7
30,7
23,3
>M5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,5
7,6
28,4
60,9
Tabel 5
Betrouwbaarheidstabel bij de papieren versie van de toets M4E4 Rekenen-Wiskunde voor speciale leerlingen Toets M4E4
Scoregroep waarin ware score valt
<M3E3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
>M5E5
<M3E3
76,0
22,9
3,9
0,1
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M3E3
17,4
36,1
16,8
1,4
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3
6,2
34,1
45,4
14,3
0,6
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
0,4
6,8
32,5
58,2
21,8
3,1
0,2
0,0
0,0
0,0
0,0
Scoregroep
M4
0,0
0,1
1,4
22,7
46,0
24,1
5,3
0,4
0,0
0,0
0,0
M4E4
0,0
0,0
0,0
3,3
26,8
45,3
28,6
6,7
0,7
0,1
0,0
E4
0,0
0,0
0,0
0,1
4,6
23,4
41,8
27,9
7,6
1,7
0,3
E4M5
0,0
0,0
0,0
0,0
0,2
4,0
21,3
43,3
32,9
15,6
4,6
M5
0,0
0,0
0,0
0,0
0,0
0,1
2,6
16,8
32,6
30,0
14,7
M5E5
0,0
0,0
0,0
0,0
0,0
0,0
0,2
3,3
13,1
18,7
14,3
>M5E5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
1,6
13,1
33,8
66,1
88
Tabel 6
Betrouwbaarheidstabel bij de papieren versie van de toets E4 Rekenen-Wiskunde voor speciale leerlingen Toets E4
Scoregroep waarin ware score valt
<E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
>E5
<E3
74,6
17,3
1,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3
21,3
45,5
12,3
0,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
4,1
35,8
58,7
17,7
1,4
0,0
0,0
0,0
0,0
0,0
0,0
M4
0,0
1,4
24,8
47,8
19,3
2,5
0,1
0,0
0,0
0,0
0,0
M4E4
0,0
0,0
3,2
29,8
48,8
23,7
3,3
0,1
0,0
0,0
0,0
E4
0,0
0,0
0,1
4,2
26,9
47,1
24,5
3,9
0,5
0,2
0,0
E4M5
0,0
0,0
0,0
0,1
3,5
24,7
50,4
31,5
12,2
6,0
1,0
Scoregroep
M5
0,0
0,0
0,0
0,0
0,0
1,9
18,4
39,3
33,7
25,3
7,7
M5E5
0,0
0,0
0,0
0,0
0,0
0,1
2,6
14,6
22,5
22,1
10,9
E5
0,0
0,0
0,0
0,0
0,0
0,0
0,6
6,9
16,4
19,8
15,0
>E5
0,0
0,0
0,0
0,0
0,0
0,0
0,1
3,7
14,7
26,6
65,4
Tabel 7
Betrouwbaarheidstabel bij de papieren versie van de toets E4M5 Rekenen-Wiskunde voor speciale leerlingen Toets E4M5
Scoregroep waarin ware score valt
<E3M4
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
>E5M6
<E3M4
71,6
10,3
0,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
26,7
56,2
16,5
1,2
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4
1,7
29,2
47,0
16,3
1,5
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
0,0
4,2
31,6
48,2
20,0
2,0
0,0
0,0
0,0
0,0
0,0
Scoregroep
E4
0,0
0,1
4,4
30,1
49,6
19,4
1,5
0,1
0,0
0,0
0,0
E4M5
0,0
0,0
0,1
4,1
27,1
52,1
24,3
7,1
1,7
0,3
0,0
M5
0,0
0,0
0,0
0,1
1,7
22,4
44,4
32,0
14,9
5,8
1,0
M5E5
0,0
0,0
0,0
0,0
0,0
3,2
18,4
26,1
20,6
12,5
3,2
E5
0,0
0,0
0,0
0,0
0,0
0,7
8,3
19,5
24,4
21,0
7,5
E5M6
0,0
0,0
0,0
0,0
0,0
0,1
2,8
11,8
24,1
29,5
17,7
>E5M6
0,0
0,0
0,0
0,0
0,0
0,0
0,4
3,4
14,2
30,9
70,6
89
Tabel 8
Betrouwbaarheidstabel bij de papieren versie van de toets M5 Rekenen-Wiskunde voor Speciale leerlingen Toets M5
Scoregroep waarin ware score valt
<M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
>M6
<M4
74,0
17,0
1,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4
22,2
48,4
16,4
0,9
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
3,6
31,2
49,1
16,2
0,8
0,0
0,0
0,0
0,0
0,0
0,0
E4
0,1
3,4
30,0
52,6
15,5
0,5
0,0
0,0
0,0
0,0
0,0
E4M5
0,0
0,1
3,1
29,3
57,9
18,4
2,3
0,5
0,0
0,0
0,0
M5
0,0
0,0
0,0
1,0
23,3
49,5
26,8
11,3
2,3
0,3
0,0
M5E5
0,0
0,0
0,0
0,0
2,1
20,8
31,3
23,1
8,8
2,1
0,2
Scoregroep
E5
0,0
0,0
0,0
0,0
0,2
8,3
24,2
29,6
20,0
8,1
1,5
E5M6
0,0
0,0
0,0
0,0
0,0
2,3
13,0
26,1
34,1
25,7
7,6
M6
0,0
0,0
0,0
0,0
0,0
0,2
2,0
7,0
18,9
24,4
11,8
>M6
0,0
0,0
0,0
0,0
0,0
0,0
0,4
2,5
15,8
39,5
78,9
Tabel 9
Betrouwbaarheidstabel bij de papieren versie van de toets M5E5 Rekenen-Wiskunde voor speciale leerlingen Toets M5E5
Scoregroep waarin ware score valt
<M4E4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
M6E6
>M6E6
<M4E4
80,7
18,5
1,1
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
17,5
52,3
18,6
0,7
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4
1,8
27,4
54,9
14,9
0,3
0,0
0,0
0,0
0,0
0,0
0,0
E4M5
0,0
1,8
25,0
60,6
19,3
1,9
0,2
0,0
0,0
0,0
0,0
Scoregroep
M5
0,0
0,0
0,5
22,4
55,8
27,9
7,5
1,5
0,1
0,0
0,0
M5E5
0,0
0,0
0,0
1,4
18,7
33,7
22,2
8,1
1,4
0,2
0,0
E5
0,0
0,0
0,0
0,1
5,1
24,7
32,7
22,2
7,6
1,9
0,1
E5M6
0,0
0,0
0,0
0,0
0,8
10,6
29,3
39,0
28,8
13,0
1,7
M6
0,0
0,0
0,0
0,0
0,0
1,1
6,5
18,8
27,6
21,3
5,1
M6E6
0,0
0,0
0,0
0,0
0,0
0,2
1,4
7,8
20,2
25,0
10,5
>M6E6
0,0
0,0
0,0
0,0
0,0
0,0
0,2
2,7
14,3
38,5
82,5
90
Tabel 10
Betrouwbaarheidstabel bij de papieren versie van de toets E5 Rekenen-Wiskunde voor speciale leerlingen Toets E5
Scoregroep waarin ware score valt
<E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
M6E6
E6
>E6
<E4
83,3
14,3
0,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4
15,9
57,4
13,3
0,2
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4M5
0,8
28,0
66,8
18,9
0,8
0,0
0,0
0,0
0,0
0,0
0,0
M5
0,0
0,4
19,0
59,5
25,7
4,3
0,3
0,0
0,0
0,0
0,0
M5E5
0,0
0,0
0,5
17,8
40,1
20,8
4,3
0,4
0,0
0,0
0,0
E5
0,0
0,0
0,0
3,4
26,0
38,6
20,0
4,6
0,6
0,0
0,0
E5M6
0,0
0,0
0,0
0,3
7,2
31,4
47,4
29,8
9,5
1,8
0,1
Scoregroep
M6
0,0
0,0
0,0
0,0
0,3
4,5
20,9
34,0
23,8
9,2
1,1
M6E6
0,0
0,0
0,0
0,0
0,0
0,5
6,0
21,8
31,4
22,5
4,5
E6
0,0
0,0
0,0
0,0
0,0
0,0
1,0
7,6
22,0
28,8
10,9
>E6
0,0
0,0
0,0
0,0
0,0
0,0
0,1
1,8
12,6
37,7
83,4
Tabel 11
Betrouwbaarheidstabel bij de digitale versie van de toets M3 Rekenen-Wiskunde voor speciale leerlingen Toets M3
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
>M4
<M3
91,1
30,9
7,4
0,8
0,0
0,0
0,0
M3
7,0
38,0
24,8
6,5
0,6
0,0
0,0
M3E3
1,7
24,1
37,4
24,5
5,1
0,3
0,0
E3
0,2
6,5
25,6
42,7
24,7
4,8
0,3
E3M4
0,0
0,6
4,8
24,1
51,7
39,1
8,6
M4
0,0
0,0
0,0
1,4
15,5
35,0
22,5
>M4
0,0
0,0
0,0
0,0
2,4
20,8
68,6
Tabel 12
Scoregroep
Betrouwbaarheidstabel bij de digitale versie van de toets M3E3 Rekenen-Wiskunde voor speciale leerlingen Toets M3E3
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
>M4E4
<M3
89,2
27,5
5,6
0,5
0,0
0,0
0,0
0,0
M3
8,8
39,1
24,1
4,9
0,3
0,0
0,0
0,0
M3E3
1,8
26,7
39,4
23,0
2,8
0,0
0,0
0,0
E3
0,2
6,4
27,2
47,5
23,3
2,5
0,3
0,0
E3M4
0,0
0,3
3,8
23,1
54,8
34,0
12,7
1,7
M4
0,0
0,0
0,0
1,0
15,9
39,2
33,1
10,1
M4E4
0,0
0,0
0,0
0,0
2,7
19,6
32,9
22,7
>M4E4
0,0
0,0
0,0
0,0
0,3
4,6
21,0
65,5
Scoregroep
91
Tabel 13
Betrouwbaarheidstabel bij de digitale versie van de toets E3 Rekenen-Wiskunde voor speciale leerlingen Toets E3
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
>E4
<M3
86,8
25,8
4,8
0,3
0,0
0,0
0,0
0,0
0,0
M3
10,7
41,4
22,8
3,9
0,1
0,0
0,0
0,0
0,0
M3E3
2,3
27,0
42,6
19,9
1,4
0,0
0,0
0,0
0,0
E3
0,1
5,6
26,6
49,6
20,1
1,0
0,1
0,0
0,0
E3M4
0,0
0,3
3,2
25,4
59,2
29,9
7,1
1,0
0,0
M4
0,0
0,0
0,0
0,8
17,2
44,3
30,9
9,3
1,1
M4E4
0,0
0,0
0,0
0,0
1,9
20,9
38,8
31,9
9,2
Scoregroep
E4
0,0
0,0
0,0
0,0
0,1
3,7
18,5
36,6
24,0
>E4
0,0
0,0
0,0
0,0
0,0
0,2
4,6
21,1
65,7
Tabel 14
Betrouwbaarheidstabel bij de digitale versie van de toets E3M4 Rekenen-Wiskunde voor speciale leerlingen Toets E3M4
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
>E4M5
<M3
80,8
23,9
5,1
0,2
0,0
0,0
0,0
0,0
0,0
0,0
M3
14,7
38,0
19,9
3,9
0,0
0,0
0,0
0,0
0,0
0,0
M3E3
4,0
28,4
40,0
18,3
1,5
0,0
0,0
0,0
0,0
0,0
E3
0,5
9,3
31,2
48,8
17,3
0,9
0,1
0,0
0,0
0,0
E3M4
0,0
0,4
3,9
28,0
60,3
27,2
4,7
0,4
0,1
0,0
M4
0,0
0,0
0,0
0,7
18,5
45,9
26,4
7,1
1,1
0,1
M4E4
0,0
0,0
0,0
0,0
2,2
23,3
43,5
29,9
9,5
0,8
E4
0,0
0,0
0,0
0,0
0,1
2,7
21,1
38,5
31,7
8,0
E4M5
0,0
0,0
0,0
0,0
0,0
0,2
4,1
21,2
40,3
26,4
>E4M5
0,0
0,0
0,0
0,0
0,0
0,0
0,2
2,9
17,3
64,7
Tabel 15
Scoregroep
Betrouwbaarheidstabel bij de digitale versie van de toets M4 Rekenen-Wiskunde voor speciale leerlingen Toets M4
Scoregroep waarin ware score valt
<M3
M3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
>M5
<M3
74,0
25,0
4,5
0,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M3
18,6
34,8
19,0
3,5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M3E3
6,2
28,5
38,1
17,7
1,3
0,0
0,0
0,0
0,0
0,0
0,0
Scoregroep
E3
1,1
10,9
32,3
47,4
15,6
0,4
0,0
0,0
0,0
0,0
0,0
E3M4
0,0
0,8
6,0
30,5
61,8
23,8
2,3
0,1
0,0
0,0
0,0
M4
0,0
0,0
0,1
0,7
19,7
49,6
24,6
3,3
0,2
0,0
0,0
M4E4
0,0
0,0
0,0
0,0
1,5
23,2
47,0
25,8
4,2
0,4
0,0
E4
0,0
0,0
0,0
0,0
0,0
2,9
23,3
45,5
24,8
5,1
0,6
E4M5
0,0
0,0
0,0
0,0
0,0
0,1
2,7
23,2
48,9
34,3
8,1
M5
0,0
0,0
0,0
0,0
0,0
0,0
0,1
2,0
17,8
37,2
24,0
>M5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,1
4,1
23,0
67,2
92
Tabel 16
Betrouwbaarheidstabel bij de digitale versie van de toets M4E4 Rekenen-Wiskunde voor speciale leerlingen Toets M4E4
Scoregroep waarin ware score valt
<M3E3
M3E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
>M5E5
<M3E3
72,7
21,8
3,2
0,1
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M3E3
18,6
34,7
15,6
1,2
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3
8,1
36,6
45,5
14,5
0,3
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
0,6
6,9
34,5
60,9
21,0
1,7
0,0
0,0
0,0
0,0
0,0
M4
0,0
0,1
1,2
21,2
51,1
21,8
2,5
0,1
0,0
0,0
0,0
M4E4
0,0
0,0
0,0
1,9
24,9
50,5
23,2
2,6
0,1
0,0
0,0
E4
0,0
0,0
0,0
0,1
2,6
23,7
48,1
23,4
3,1
0,2
0,0
E4M5
0,0
0,0
0,0
0,0
0,0
2,3
24,6
52,3
31,0
12,2
2,2
M5
0,0
0,0
0,0
0,0
0,0
0,0
1,6
18,6
41,0
32,7
11,2
M5E5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
2,4
14,7
23,4
14,9
>M5E5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,6
10,1
31,6
71,7
Tabel 17
Scoregroep
Betrouwbaarheidstabel bij de digitale versie van de toets E4 Rekenen-Wiskunde voor speciale leerlingen Toets E4
Scoregroep waarin ware score valt
<E3
E3
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
>E5
<E3
74,1
17,0
1,5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3
20,6
46,3
13,1
0,2
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
5,3
35,2
61,9
20,2
1,0
0,0
0,0
0,0
0,0
0,0
0,0
M4
0,0
1,5
22,0
53,0
20,9
1,0
0,0
0,0
0,0
0,0
0,0
M4E4
0,0
0,0
1,6
25,3
53,9
21,1
1,2
0,0
0,0
0,0
0,0
E4
0,0
0,0
0,0
1,2
22,8
54,5
20,0
1,2
0,0
0,0
0,0
E4M5
0,0
0,0
0,0
0,0
1,4
22,7
58,4
26,3
4,8
0,8
0,1
M5
0,0
0,0
0,0
0,0
0,0
0,7
18,8
47,7
34,4
14,7
2,8
M5E5
0,0
0,0
0,0
0,0
0,0
0,0
1,5
16,7
29,6
25,9
7,5
E5
0,0
0,0
0,0
0,0
0,0
0,0
0,2
6,3
19,5
27,8
13,4
>E5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
1,8
11,5
30,9
76,2
Scoregroep
93
Tabel 18
Betrouwbaarheidstabel bij de digitale versie van de toets E4M5 Rekenen-Wiskunde voor speciale leerlingen Toets E4M5
Scoregroep waarin ware score valt
<E3M4
E3M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
>E5M6
<E3M4
73,1
12,3
0,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E3M4
25,5
58,2
18,1
1,3
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4
1,5
26,7
50,1
18,1
1,1
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
0,0
2,7
29,2
52,6
20,1
0,9
0,0
0,0
0,0
0,0
0,0
E4
0,0
0,0
2,4
26,0
53,1
18,6
0,9
0,1
0,0
0,0
0,0
E4M5
0,0
0,0
0,0
2,1
24,9
57,7
23,7
4,1
0,8
0,1
0,0
M5
0,0
0,0
0,0
0,0
0,7
20,8
48,5
31,2
14,2
3,9
0,3
M5E5
0,0
0,0
0,0
0,0
0,0
1,8
18,4
30,2
24,3
11,4
1,6
E5
0,0
0,0
0,0
0,0
0,0
0,2
6,8
22,7
30,2
23,2
5,5
E5M6
0,0
0,0
0,0
0,0
0,0
0,0
1,5
10,0
21,9
33,4
16,8
>E5M6
0,0
0,0
0,0
0,0
0,0
0,0
0,2
1,7
8,6
28,0
75,8
Tabel 19
Scoregroep
Betrouwbaarheidstabel bij de digitale versie van de toets M5 Rekenen-Wiskunde voor speciale leerlingen Toets M5
Scoregroep waarin ware score valt
<M4
M4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
>M6
<M4
75,2
17,9
1,7
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4
20,4
44,0
17,9
1,4
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
4,2
33,5
47,8
18,6
0,8
0,0
0,0
0,0
0,0
0,0
0,0
E4
0,2
4,5
29,6
50,2
16,0
0,6
0,0
0,0
0,0
0,0
0,0
E4M5
0,0
0,1
3,0
28,8
59,1
22,3
2,8
0,3
0,0
0,0
0,0
M5
0,0
0,0
0,0
0,9
22,1
50,7
31,4
10,4
1,7
0,1
0,0
M5E5
0,0
0,0
0,0
0,0
1,7
19,5
33,6
22,1
7,7
1,2
0,1
E5
0,0
0,0
0,0
0,0
0,2
5,8
22,3
33,2
22,0
7,7
0,7
E5M6
0,0
0,0
0,0
0,0
0,0
1,1
8,9
27,1
38,8
28,6
5,6
M6
0,0
0,0
0,0
0,0
0,0
0,0
0,9
5,9
20,0
28,1
11,1
>M6
0,0
0,0
0,0
0,0
0,0
0,0
0,0
1,1
9,8
34,4
82,4
Scoregroep
94
Tabel 20
Betrouwbaarheidstabel bij de digitale versie van de toets M5E5 Rekenen-Wiskunde voor speciale leerlingen Toets M5E5
Scoregroep waarin ware score valt
<M4E4
M4E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
M6E6
>M6E6
<M4E4
77,3
17,9
1,7
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
M4E4
19,0
48,0
18,0
0,8
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4
3,7
31,0
51,0
16,0
0,5
0,0
0,0
0,0
0,0
0,0
0,0
E4M5
0,1
3,1
28,5
61,8
21,1
1,6
0,2
0,0
0,0
0,0
0,0
M5
0,0
0,0
0,8
20,1
54,0
29,5
8,7
1,0
0,0
0,0
0,0
M5E5
0,0
0,0
0,0
1,2
18,8
36,1
24,5
6,2
0,6
0,2
0,0
E5
0,0
0,0
0,0
0,0
5,0
24,8
35,5
21,6
5,5
0,8
0,0
E5M6
0,0
0,0
0,0
0,0
0,6
7,5
25,9
43,8
28,7
11,6
1,0
M6
0,0
0,0
0,0
0,0
0,0
0,5
4,6
19,2
31,1
23,5
4,7
M6E6
0,0
0,0
0,0
0,0
0,0
0,0
0,5
6,5
22,7
32,4
11,1
>M6E6
0,0
0,0
0,0
0,0
0,0
0,0
0,1
1,6
11,3
31,6
83,2
Tabel 21
Scoregroep
Betrouwbaarheidstabel bij de digitale versie van de toets E5 Rekenen-Wiskunde voor speciale leerlingen Toets E5
Scoregroep waarin ware score valt
<E4
E4
E4M5
M5
M5E5
E5
E5M6
M6
M6E6
E6
>E6
<E4
82,8
16,9
0,5
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4
16,2
56,8
14,4
0,1
0,0
0,0
0,0
0,0
0,0
0,0
0,0
E4M5
0,9
26,0
63,5
17,9
0,7
0,1
0,0
0,0
0,0
0,0
0,0
M5
0,0
0,4
21,0
58,8
26,1
4,3
0,2
0,0
0,0
0,0
0,0
M5E5
0,0
0,0
0,6
19,5
42,8
24,2
3,9
0,1
0,0
0,0
0,0
E5
0,0
0,0
0,0
3,4
24,7
40,8
21,4
3,3
0,2
0,0
0,0
E5M6
0,0
0,0
0,0
0,3
5,6
27,7
50,3
28,5
7,3
1,1
0,1
M6
0,0
0,0
0,0
0,0
0,1
2,8
20,0
39,4
26,3
8,3
0,5
M6E6
0,0
0,0
0,0
0,0
0,0
0,0
3,6
23,0
34,2
25,7
3,2
E6
0,0
0,0
0,0
0,0
0,0
0,0
0,6
5,1
24,0
34,6
10,7
>E6
0,0
0,0
0,0
0,0
0,0
0,0
0,1
0,7
7,9
30,2
85,5
Scoregroep
95
Cito | Volgsysteem primair en speciaal onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording toetsen Rekenen-Wiskunde voor speciale leerlingen Functioneringsniveaus groep 3 tot en met 5 Floor Scheltens, Ronald Engelen, Iris Verbruggen