Wetenschappelijke verantwoording
Begrijpend lezen voor groep 3 tot en met 6 Hiske Feenstra Frans Kamphuis Frans Kleintjes Ronald Krom
Cito, november 2010
1
© Cito B.V. Arnhem (2010) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotokopie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
5
2 2.1 2.2 2.3 2.4 2.4.1 2.4.2
Uitgangspunten van de toetsconstructie Meetpretentie 7 Doelgroep 7 Gebruiksdoel en functie 7 Theoretische inkadering 8 Inhoudelijk 8 Psychometrisch 11
3 3.1 3.2
Beschrijving van de toets 19 Opbouw, structuur, afname van de toetsen en rapportage Inhoudsverantwoording 21
4 4.1 4.2 4.3
Het normeringsonderzoek 29 Opzet en verloop van het normeringsonderzoek Representativiteit 32 Kalibratie en normering 35
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 39 Nauwkeurigheid 40
6 6.1 6.2
Validiteit 49 Inhoudsvaliditeit Begripsvaliditeit
7
Samenvatting
8
Literatuur
7
49 49
53
55
3
29
39
19
4
1
Inleiding
Deze wetenschappelijke verantwoording heeft betrekking op de toetsen Begrijpend lezen voor groep 3 tot en met 6 uit het Leerling- en onderwijsvolgsysteem (LOVS). Tezamen met de inhoud van de toetspakketten LOVS Begrijpend lezen (Cito 2006a; 2006b; 2007; 2008) levert deze verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de betreffende meetinstrumenten. Het genoemde materiaal maakt een beoordeling van de toetsen LOVS Begrijpend lezen mogelijk op de volgende aspecten: Uitgangspunten van de toetsconstructie; De kwaliteit van het toetsmateriaal; De kwaliteit van de handleiding; Normen; Betrouwbaarheid; Validiteit. Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het LOVS niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toetsen in LOVS Begrijpend lezen voor de jaargroepen 3, 4, 5 en 6. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van de toetspakketten.
5
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
Binnen het leesonderwijs op de basisschool wordt een onderscheid gemaakt tussen technisch lezen en begrijpend lezen. Het technisch lezen is geen doel op zich, maar wordt gezien als een voorwaardelijke activiteit voor het leren begrijpen van teksten. Het begrijpen van geschreven teksten oftewel het lezen met begrip is een vaardigheid die traditioneel wordt gemeten met leesbegriptoetsen. Ook de toetsen in LOVS Begrijpend lezen 3, 4, 5 en 6 beogen die vaardigheid te meten en de opgaven in deze toetsen zijn er dan ook operationaliseringen van. (Zie verder paragraaf 2.4.1)
2.2
Doelgroep
De toetsen in LOVS Begrijpend lezen zijn bestemd voor leerlingen in groep 3 tot en met 6 in het basisonderwijs. Voor de toetsen in groep 3 zijn de populatieparameters alleen op ‘einde leerjaar’ bepaald, voor de toetsen in groep 4 zowel op ‘midden leerjaar’ als op ‘einde leerjaar’ en voor de toetsen in groep 5 en verder alleen op ‘midden leerjaar’. Deze verdeling van toetsmomenten over leerjaren is als volgt tot stand gekomen: ten eerste is de technische leesvaardigheid van leerlingen vóór het afnamemoment E3 nog niet voldoende om na te gaan of de leerlingen ook met begrip kunnen lezen; ten tweede volstaat vanaf groep 5 één meetmoment per jaar om de vaardigheidsontwikkeling van de leerlingen bij te houden. Het afnamemoment van de eerste toets is afhankelijk van de leesvaardigheid van de leerlingen (ten minste het niveau ‘einde aanvankelijk leesonderwijs’).
2.3
Gebruiksdoel
LOVS Begrijpend lezen heeft twee hoofddoelen en een nevendoel. De hoofddoelen zijn: niveaubepaling en progressiebepaling. Het nevendoel heeft betrekking op het selecteren van passend leesmateriaal. Niveaubepaling De toetsafnamen in het kader van LOVS Begrijpend lezen geven de leerkracht informatie over het leesvaardigheidsniveau van zijn leerlingen, individueel of als groep. Iedere behaalde leesvaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 3.1 voor de verdeling van de niveaugroepen en 4.2 voor de beschrijving van de referentiegroep). Progressiebepaling De toetsen in LOVS Begrijpend lezen geven de leerkracht informatie over de ontwikkeling van de leesvaardigheid van zijn leerlingen, individueel of als groep, gedurende (bijna) de gehele basisschoolperiode (vanaf einde leerjaar 3). Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – de aantallen opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal. Deze unidimensionele vaardigheidsschaal die aan de toetsen LOVS Begrijpend lezen ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1994). Selectie van leesstof Het nevendoel van LOVS Begrijpend lezen is het afstemmen van de leesstof op de leesvaardigheid. Deze afstemming kan plaatsvinden omdat de scores die leerlingen op de toetsen in LOVS Begrijpend lezen behalen omgezet kunnen worden in een CLIB-waarde. CLIB staat voor Cito LeesIndex voor het Basisonderwijs, een index voor zowel de begrijpend-leesvaardigheid van lezers als de begripsmatige leesbaarheid of moeilijkheid van teksten (Staphorsius, 1994). Zoals de vaardigheidsscores van leerlingen op de toetsen in LOVS Begrijpend lezen omgezet kunnen worden in een CLIB, kan ook de moeilijkheid die
7
een tekst heeft uitgedrukt worden in een CLIB. Met behulp van de CLIB worden leesvaardigheid en leesbaarheid (i.e. vereiste leesvaardigheid) op één schaal gebracht. Dit maakt het – in het kader van een individueel leesadvies – mogelijk om voor een leerling leesteksten te selecteren met een moeilijkheid die afgestemd is op de leesvaardigheid waarover hij of zij kan beschikken. Een toenemend aantal jeugdboeken wordt van een CLIB-niveau voorzien en de uitgevers ervan plaatsen deze index, samen met het AVI-niveau voor de leestechnische moeilijkheid, in een beeldmerk dat in hun boeken wordt afgedrukt.
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
Uitgaande van de brede opvatting over functioneel taalgebruik wordt leesvaardigheid in het algemeen omschreven als de vaardigheid om schriftelijke teksten te begrijpen en te gebruiken in overeenstemming met het leesdoel. Lezen is een complex proces dat interactie inhoudt tussen de lezer met zijn vaardigheden, de tekst en de context. Deze drie componenten worden in onderstaande paragrafen verder toegelicht. 2.4.1.1
Leesvaardigheden
Lezen is een proces waarbij de lezer in interactie met de tekst betekenis toekent aan de tekst. Vroeger ging men ervan uit dat de betekenis vooral in de tekst besloten lag. Heden ten dage wordt benadrukt dat de betekenis vooral in het hoofd van de lezer wordt gevormd. De nadruk ligt op de interactieve aard van lezen en op het constructieve proces van begrijpen (zie bijvoorbeeld Bruner, 1985; 1986; Campbell et al., 2001). De lezer heeft een actieve en initiërende rol. Hij drijft op zijn eigen gedachten en ervaringen terwijl hij een tekst leest en hij reflecteert op de tekst en op zijn eigen gedachten en ervaringen. De lezer construeert betekenis op basis van de tekst én op basis van eigen kennis. In reactie op de tekst brengt iedere lezer zijn eigen kennis in, eerdere leeservaringen, motieven om te lezen, bewustzijn van genre en tekststructuur en vaardigheden en strategieën. Er is sprake van een continue wisselwerking tussen tekstgestuurde en kennisgestuurde verwerking van teksten, tussen bottom-up en top-down processen (zie bijvoorbeeld Aarnoutse, 1998; Kamil et al., 2000; Pressley et al., 1992; Reitsma & Walraven, 1991). Tekstgestuurde verwerking is gericht op de inhoud van de tekst, er wordt gebruikgemaakt van woorden, passages en hun onderlinge betekenisrelaties om tot begrip te komen. Kennisgestuurde verwerking duidt op de inzet van de eigen kennis van de wereld en kennis van teksten, van taal en van contexten. Beide typen verwerkingsprocessen staan in voortdurende wisselwerking met elkaar teneinde tot begrip van een tekst te komen. Bi gemakkelijke teksten kan de lezer vertrouwen op de automatische piloot, maar als de teksten moeilijker en complexer worden moet de lezer meer bewuste sturing geven aan het proces van betekenisconstructie (Baker & Brown, 1984; Garner, 1987). Succesvolle lezers schakelen dan over op een flexibel en contextgevoelig gebruik van leesstrategieën (Pressley & Afflerbach, 1995, Pressley, 2000). Naast cognitieve en metacognitieve aspecten zijn er ook sociaal-culturele factoren (Alexander & Jetton, 2000; Langer, 1990) en motivationele factoren in het geding (Elsäcker, 2002; Guthrie & Wigfield, 1997; Verhoeven & Snow, 2001). Goede lezers weten wanneer te lezen, hoe te lezen en hoe te reflecteren op datgene wat gelezen is. Een synthese van uitgevoerd onderzoek heeft duidelijk gemaakt in welke opzichten goede, zelfstandige, vaardige lezers zich onderscheiden van minder goede lezers (Paris, Wasik & Turner, 1991; Pearson, Roehler, Dole & Duffy, 1992). Karakteristieken van goede lezers zijn: – Zij hebben positieve gewoontes en attitudes ten aanzien van lezen – Zij lezen met voldoende vlotheid, zodat zij zich kunnen concentreren op de betekenis van de tekst. – Zij maken gebruik van wat zij al weten om de tekst te begrijpen. – Zij vormen begrip van wat ze lezen en interpreteren de betekenis en beoordelen deze kritisch. – Zij gebruiken een scala van effectieve strategieën om hun begrip te ondersteunen en om de voortgang van hun leesproces te plannen, uit te voeren en te controleren. – Zij lezen een grote variëteit van teksten en lezen voor verschillende doeleinden. Deze karakteristieken representeren het arsenaal aan kennis en vaardigheden waarover goede lezers beschikken. Zij vormen de ankerpunten voor de specificatie van leesvaardigheid. Hieronder wordt leesvaardigheid verder verdeeld in de vaardigheden begrijpen, interpreteren en reflecteren.
8
Begrijpen De vaardigheid begrijpen heeft betrekking op de verwerking van de tekst als zodanig, van de informatie die expliciet in de tekst vermeld is. Het gaat, met andere woorden, om tekstgebaseerde verwerking. Tekstgebaseerde verwerking maakt gebruik van de inhoud (de betekenis van woorden en begrippen, woordgroepen, zinnen, alinea's en hun onderlinge betekenisrelaties), van expliciete relaties tussen tekstelementen (linguïstische kenmerken zoals woord- en zinsvolgorde en verwijzingen, en talige en grafische structuurmarkeerders) en van de expliciete tekststructuur. Uit het antwoord van de leerlingen op opgaven die de vaardigheid begrijpen toetsen, moet blijken dat zij de tekst begrepen hebben. Het simpele feit dat de gevraagde informatie gevonden is, is niet voldoende. De informatie moet ook begrepen worden. Dat wil op zijn minst zeggen dat de leerlingen de informatie moeten kunnen herhalen, maar dieper begrip tonen ze wanneer ze met de informatie iets kunnen doen, bijvoorbeeld deze kunnen parafraseren (omschrijven) of toepassen. Hieronder wordt de vaardigheid begrijpen gespecificeerd, onderscheiden in aspecten van de betekenis en inhoud en aspecten van de opbouw en structuur. Nadrukkelijk zij vermeld dat de specificatie niet uitputtend is. Betekenis en inhoud – kennis van woorden, begrippen en woordgroepen; – specifieke, expliciete inhoudselementen in de tekst. Opbouw en structuur – eenvoudige, expliciete verbanden in een zin of tussen opeenvolgende zinnen; – complexe feitelijke relaties; – overkoepelende relaties: een expliciete algemene uitspraak die diverse andere uitspraken overkoepelt; – eenvoudige, tekstgebaseerde inferenties: het leggen van verbanden tussen stukjes informatie die expliciet in de tekst staan, terwijl de verbinding zelf niet geëxpliciteerd is, maar wel duidelijk is. Interpreteren Van werkelijk en diepgaand tekstbegrip is pas sprake wanneer tekstgebaseerde en kennisgestuurde verwerking in samenhang en gelijktijdig ingezet worden. Een lezer benadert een tekst niet blanco, hij neemt al zijn eerdere leeservaringen mee tijdens het lezen van een nieuwe tekst en zet tevens al zijn achtergrondkennis in bij de verwerking van de tekst. Dit samenspel van tekstgebaseerde en kennisgestuurde verwerking is aan de orde bij de vaardigheid interpreteren. Impliciete informatie speelt een belangrijke rol bij het lezen van teksten. In een tekst wordt niet altijd alles expliciet vermeld. Dat kan ook niet, omdat teksten dan onnodig lang zouden worden. De schrijver kan en mag bepaalde kennis bij zijn lezers bekend veronderstellen. Die kennis hoeft dan niet steeds geëxpliciteerd te worden. Het is vervolgens wel aan de lezer om zich te realiseren welke kennis impliciet bekend wordt verondersteld en deze en andere kennis zo nodig te activeren. De lezer gaat als het ware de informatie in de tekst invullen en aanvullen met kennis uit andere bronnen. Het onderkennen en afleiden van impliciete informatie in een tekst, oftewel het maken van inferenties, is dus een belangrijk aspect van deze vaardigheid. Het resultaat van het interpretatieproces vormt een diepgaand begrip van de tekst. De lezer doorgrondt de tekst en verbindt de informatie in de tekst tot een geheel in relatie tot eigen kennis en ervaring. Uit de antwoorden van de leerlingen op opgaven die deze vaardigheid toetsen, moet deze diepgaande interpretatie blijken. Omdat inferenties impliciet zijn, laten ze enige interpretatie toe van de lezer vanuit zijn eigen perspectief. Er kunnen dus verschillende interpretaties juist zijn, er is meer variatie in begrip tussen lezers, er is een creatief element aanwezig in de antwoorden van de leerlingen. Maar tegelijk is er ook steeds sprake van een gemeenschappelijke basis, namelijk de informatie die in de tekst beschreven staat. Nog een opmerking in algemene zin. Het inzetten van eigen kennis en ervaring brengt het leesproces een eindje in de richting van het schoolvak wereldoriëntatie. De scheidslijn tussen taal/lezen en de andere vakken is soms een dunne en is niet altijd eenduidig te markeren. De extreme posities zijn duidelijk: bij lezen gaat het om tekstbegrip, bij wereldoriëntatie om kennis van de wereld. Maar ergens tussen deze extremen in raken beide domeinen elkaar. Aan dit dilemma valt niet te ontkomen. In onderstaande specificatie is gepoogd dit continuüm van talige aspecten naar kennis van de wereld in de opeenvolging van aspecten weer te geven.
9
Betekenis en inhoud – afleiden van de betekenis van moeilijke woorden en begrippen uit de omringende tekst; – doorgronden van de globale inhoud van de tekst door expliciete en/of impliciete informatie verspreid over de gehele tekst met elkaar te verbinden; – activeren van voorkennis: talige kennis, kennis van teksten en kennis van de wereld; gebruiken van informatie en ideeën die geactiveerd worden tijdens het lezen en die niet expliciet in de tekst vermeld zijn; – uitbreiden van de betekenis van de tekst. Opbouw en structuur doorzien van de structuur van teksten; bijvoorbeeld: – logische lijn in de tekst ontdekken; – het resultaat van een te zetten stap in een instructieve tekst; – hoe ontwikkelt zich de plot in een verhaal; – volgorde van handelingen en gebeurtenissen in een verhaal, al dan niet chronologisch; – vertelperspectief. Reflecteren Het kenmerkende van de vaardigheid reflecteren is de beschouwende, evaluerende en kritische kijk op teksten. De lezer neemt afstand van de tekst en beschouwt deze. Vanuit een persoonlijk perspectief of met een objectieve blik richt de lezer zich op het belang, de kwaliteit en de integriteit van de tekst. Hij beschouwt en evalueert betekenis en inhoud, taal, tekstuele en contextuele elementen. Het gaat hier niet meer om begrip als zodanig, maar om denken over, reflecteren en abstract redeneren. Het resultaat wordt gevormd door uitspraken over de tekst in evaluerende en waarderende zin. Evenals bij de voorgaande vaardigheid interpreteren is bij de vaardigheid reflecteren de scheidslijn met wereldoriëntatie soms moeilijk te markeren. Reflectie op de inhoud van een tekst heeft raakvlakken met reflectie op kennis van de wereld. Bovendien is bij de vaardigheid reflecteren de persoon van de lezer in het geding, waarschijnlijk nog in sterkere mate dan bij de vaardigheid interpreteren. Onderstaande specificatie poogt met deze punten enige rekening te houden door te starten met de meer talige aspecten, gevolgd door de zaken van meer persoonlijke aard en kennis van de wereld. Betekenis en inhoud – inzetten van kennis over taal – onderscheiden van feit en mening: in het bijzonder meningen die als feiten gepresenteerd (lijken te) worden Opbouw en structuur – inzetten van kennis over teksten: over tekstsoort, tekststructuur, genre en register, doel en publiek 2.4.1.2
Teksten
De teksten in de toetsen Begrijpend lezen betreffen schriftelijk materiaal. Dit is de samenvattende noemer voor handgeschreven en gedrukte teksten, en voor teksten in elektronische weergave. Het onderscheid in teksten is van belang omdat verschillende teksten ten dele verschillende accenten in de leesprocessen uitlokken (Goldman & Rakestraw, 2000). Het gaat om allerlei soorten teksten in zowel lopende als discontinue vorm. Lopende teksten worden onderverdeeld in informatieve teksten en fictie. Deze hoofdcategorieën worden nader beschreven in genres. Genres zijn herkenbare vormen van communicatie die zich onderscheiden in doel, structuur en inhoud. Enkele voorbeelden zijn een nieuwsartikel in de krant, een leerboek, een protestbrief, een advertentie, spelinstructies, reparatievoorschriften, procedures in de klas of in de hobby- of sportclub, wegenkaarten en een vertrektijdenschema, respectievelijk een verhaal, een gedicht en een popsong, Belangrijk is het authentieke gehalte van de teksten die aangeboden worden. Het gaat niet meer aan, zoals in vervlogen tijden, om specifiek teksten te (laten) schrijven voor evaluatiedoeleinden, een uitzondering daargelaten. Het is de bedoeling zoveel mogelijk gebruik te maken van bestaande teksten. Een apart probleem betreft de mogelijke bekendheid van bestaande teksten. Om dit probleem tegen te gaan worden in ieder geval geen teksten uit methodes en uit leesseries, en in het algemeen uit educatief materiaal gebruikt. Een grote variatie in soorten teksten, inhouden en thema’s, genres, en andere zaken zal de mogelijke bekendheid van teksten zoveel mogelijk spreiden over de verschillende leerlingen. Verder zullen
10
leerlingen in de evaluatiecontext doorgaans op een andere manier met teksten omgaan dan in het dagelijks leven, zodat een mogelijke bekendheid ook daarmee zijn grenzen heeft. Behalve op de hierboven genoemde wijze variëren de teksten ook ten aanzien van het taalgebruik, de lengte van de tekst, het tijdsperspectief bij fictie, de dichtheid van informatie, mate van abstractie van ideeën, complexiteit van de argumentatie, de aanwezigheid van ongebruikelijke gezichtspunten en wordt er rekening gehouden met overwegingen aangaande geslacht, rol, ras, etniciteit, cultuur en religie en aanverwante zaken. 2.4.1.3
Contexten
De manier waarop een lezer leest, hangt ten dele af van het doel waarmee hij leest en het type tekst. Het leesdoel en het daarmee samenhangende verwachtingspatroon kunnen het begripsproces beïnvloeden. Hiermee wordt ten minste voor een deel bepaald welke vaardigheden en strategieën geëigend zijn om de betekenis te achterhalen en tevens de mate waarin de tekstinhoud wordt geïntegreerd in de reeds aanwezige kennis. Het leesdoel dat door de verschillende teksttypen wordt opgeroepen en dat geassocieerd is met verschillende leeservaringen kan van invloed zijn op de inhoud en de manier van begrijpen. In de dimensie van de context worden in het bijzonder de leesdoelen geëxpliciteerd. De context betreft de situatie waarin de vaardigheid normaliter uitgeoefend wordt. De volgende contexten worden onderscheiden: – persoonlijk gebruik; – openbaar gebruik; – onderwijs. Dit onderscheid is gerelateerd aan de doelen die de taalgebruiker nastreeft, doelen in de persoonlijke levenssfeer, en meer in het algemeen doelen om aan de samenleving deel te nemen en doelen om eigen kennis en mogelijkheden verder te ontwikkelen. Bij lezen is sprake van een zeer nauwe verwevenheid van tekst en context. De verschijningsvorm van de tekst geeft voor een groot gedeelte tegelijk de context weer. Toch is het ook bij de constructie van de toetsen voor begrijpend lezen zaak de dimensie van de context in ogenschouw te nemen, om de nodige variatie in het leesmateriaal te waarborgen. 2.4.2
Psychometrisch
2.4.2.1
Opgavenbanken
Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Cito Leerling- en Onderwijsvolgsysteem, de Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de toetsen LOVS Begrijpend lezen is gebruikgemaakt van de opgavenbank Begrijpend lezen. Voor andere vakgebieden in het LOVS als Spelling, Woordenschat, Rekenen-Wiskunde en Studievaardigheden zijn eveneens opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet eenvoudigweg een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. In deze paragraaf wordt beschreven wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid begrijpend lezen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van leesvaardigheid uit, waarbij een groter getal wijst op een grotere leesvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden: de eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie.
11
Latente vaardigheid De antwoorden van een leerling op de items worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank leesbegrip meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke testtheorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; er moet aangetoond worden dat al die veronderstellingen deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waar in de volgende paragraaf dieper op in wordt gegaan. Maar voor de items in een toets gebruikt kunnen worden, moet ook geprobeerd worden de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt heet kalibratiesteekproef. Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen gebeurt aan de hand van een zogeheten ‘onvolledig design’ en moet met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de kalibratie is gebruikt, de geïnteresseerde lezer wordt verwezen naar Eggen (1993).
12
Belangrijke implicaties gekalibreerde opgavenverzameling Als de kalibratie met succes uitgevoerd is, is het resultaat een zogenaamde gekalibreerde itembank. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kan met een willekeurige selectie items uit de bank de vaardigheid worden gemeten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat de meetresultaten (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Voor een nauwkeuriger meting (bij een gegeven aantal items in de toets) moeten de moeilijkheidsgraden van de items in overeenstemming gebracht worden met het vaardigheidsniveau van de leerlingen. Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank Begrijpend lezen. Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden. Al hetgeen dat geldt voor de ‘papieren’ items uit de itembank, geldt daarom eveneens voor ‘digitale’ items uit dezelfde itembank. 2 Om een schatting te kunnen maken van de verdeling van de vaardigheid in een welomschreven populatie, worden selecties van items voorgelegd aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van LOVS zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf eind groep 3 tot eind groep 8. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items bij een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. Voor een voorbeeld hiervan, zie Staphorsius (1994). In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. 3 Aan leerlingen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8 kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de percentielen in de populatie van groep 6, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6.” 4 De vergelijking die in het voorgaande gemaakt is, kan evengoed plaatsvinden als de (achterstands-) leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6 wordt voorgelegd. Immers, het kalibratieonderzoek heeft aangetoond dat alle items dezelfde vaardigheid meten. Een nieuwe toets meet dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken. Tot zover de nadere bepaling van het begrip ‘opgavenbank’. In de volgende hoofdstukken van dit deel van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en toegelicht voor de opgavenbank Begrijpend lezen. De verantwoording van de inhoudelijke constructie van deze opgavenbank staat in hoofdstuk 3. In hoofdstuk 4 wordt (onder andere) de psychometrische constructie van de opgavenbanken besproken (kalibratie). 2.4.1.2 Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst & Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste (praktische obstakels) van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering tekort als het gaat om de centrale vraag: hoe wordt duidelijk dat de equivalering zinvol is? Op die vraag heeft IRT een antwoord.
13
In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid wordt θ (theta) gekozen. De vaardigheid θ is niet rechtstreeks observeerbaar. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd1. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans:
f i ( ) = P ( X i = 1 | )
(2.1)
Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door
f i ( )=
exp ( - i ) 1 + exp ( - i )
(2.2)
waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.2 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, volgt
f i ( i )=
exp ( i - i ) 1 1 = = 1 + exp ( i - i ) 1 + 1 2
(2.3)
Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. De parameter βi kan dus terecht omschreven worden als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
1
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT, ook wel aanduidt met 'latente trek'-modellen.
14
Figuur 2.2
Twee itemresponscurven in het Raschmodel
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo’n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.2. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Hieruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een ‘laaggroep’, met de vijftig procent laagste scores, en een ‘hooggroep’, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet beschreven te kunnen worden met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ2. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode doet geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen ‘omwisseling’ van ‘proporties juist’ in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door
f i ( )=
2
exp [ ai ( - i ) ] 1 + exp [ ai ( - i )]
,
(2.4)
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
15
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.3 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. Figuur 2.3
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuze-opgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de test kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hier hiermee rekening gehouden. Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de ‘marginale grootste aannemelijkheidsmethode’ (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Omdat leerlingen bovendien gevolgd worden is het mogelijk gelijktijdig de verdelingen op de verschillende normeringsmomenten te schatten. Bij de analyse is
16
gebruikgemaakt van multivariate latente analysetechnieken waarmee gemiddelden en covarianties voor alle variabelen worden geschat in een onvolledig design. Daarvoor hebben we speciale software gebruikt (Multi) in combinatie met het OPLM als meetmodel (Kamphuis, 1992, 1993, Kamphuis en Engelen, 1992). Deze gemiddelden en covarianties vormen ook het basismodel voor de predicties in het Computerprogramma LOVS.
17
18
3
Beschrijving van de toets
3.1
Opbouw, structuur, afname van de toets en rapportage
Opbouw LOVS Begrijpend lezen voor de jaargroepen 3, 4, 5 en 6 bevat vijf toetsen: E3, M4, E4, M5 en M6, primair bedoeld voor – achtereenvolgens – leerlingen einde groep 3, leerlingen halverwege en einde groep 4 en leerlingen halverwege groep 5 en 6. Van alle toetsen is ook een digitale variant beschikbaar. De digitale variant bevat precies dezelfde opgaven als de papieren variant en is op dezelfde manier opgebouwd. Structuur De leesvaardigheid van leerlingen in één groep kan sterk uiteenlopen. Daarom zijn voor ieder afnamemoment twee in moeilijkheid verschillende toetsen samengesteld, die leerkrachten gedifferentieerd kunnen toewijzen aan hun leerlingen. De opgaven in LOVS Begrijpend lezen zijn daartoe per afnamemoment verdeeld over drie toetsmodules. Deze drie modules verschillen in moeilijkheid en maken vertakt toetsen (multistage testing) mogelijk. (Zie voor de informatiewinst bij vertakt toetsen: Verhelst, 1989.) De modules in Begrijpend lezen in bijvoorbeeld de toets E3 zijn: E3 Start, E3 Vervolg 1 en E3 Vervolg 2. E3 Start past bij de gemiddelde vaardigheid van leerlingen aan het einde van jaargroep 3. E3 Vervolg 1 is gemakkelijker dan E3 Start en E3 Vervolg 2 is moeilijker dan E3 Start. Alle leerlingen in groep 3 maken E3 Start. Minder goede lezers maken daarna E3 Vervolg 1. De betere lezers maken na de startmodule: E3 Vervolg 2. (Zie ook figuur 3.1) Analoog aan de modulering van de deeltoetsen in LOVS Begrijpend lezen voor groep 3, bevatten ook de toetsen voor groep 4, 5 en 6 drie in moeilijkheid verschillende modules. In tabel 5.3 in paragraaf 5.2 wordt per toets aangegeven bij welke score op de startmodule welke vervolgmodule gemaakt moet worden en waarom dat juist bij die scores is. Figuur 3.1
Vertakt toetsen in LOVS Begrijpend lezen module Vervolg 1 de zwakkere lezers
module Start alle leerlingen in de groep module Vervolg 2 de betere lezers
De toetsmodules bevatten elk 25 opgaven. Alle leerlingen in de groep maken dus 50 opgaven. Ondanks het feit dat bij adaptief toetsen niet alle leerlingen dezelfde toets maken, biedt het gehanteerde meetmodel de mogelijkheid om leerlingen met elkaar en met de leerlingen in de landelijke normgroep te vergelijken. De onderliggende meettechniek voorziet er namelijk in dat iedere ruwe score – op welk van beide combinaties van toetsmodules deze score ook behaald is – kan worden omgezet in een score op één en dezelfde vaardigheidsschaal. De gedifferentieerde toewijzing van opgaven aan leerlingen heeft een belangrijke achtergrond: de meting van de vaardigheid geeft een nauwkeuriger resultaat naarmate de moeilijkheid van de opgaven beter past bij het vaardigheidsniveau van een leerling. En uiteraard is het maken van een toets op maat prettiger voor de leerlingen. Afname De papieren toetsen worden klassikaal en schriftelijk afgenomen. De leerlingen krijgen een klassikale instructie met oefenopgaven, waarna zij individueel aan de toets kunnen werken. Alle leerlingen in de groep maken eerst de toetsmodule Start. Afhankelijk van de score die zij op deze module behalen, krijgen ze vervolgens óf toetsmodule Vervolg 1 óf toetsmodule Vervolg 2 voorgelegd. De digitale versies worden
19
individueel op de computer gemaakt. De leerling krijgt voorafgaand aan de eerste toetsmodule een uitleg over het maken van de digitale opgaven en maakt enkele oefenopgaven. In de toetsmappen is een handleiding opgenomen behorend bij de papieren toetsen en een aparte handleiding voor de digitale toetsen. Vanaf januari 2010 is er één digitale handleiding voor alle leerjaren beschikbaar gekomen, die voor scholen via internet gedownload kan worden. In deze handleidingen staan de uitgebreide afname-instructies voor de leerkracht. De papieren toetsen Begrijpend lezen zijn zowel handmatig na te kijken en te analyseren als met behulp van het Computerprogramma LOVS. Bij de digitale versies van de toetsen worden de antwoorden van de leerlingen door de computer gescoord en hoeft de leerkracht de toetsen dus niet zelf na te kijken. Rapportage De resultaten van leerlingen op de toetsen LOVS Begrijpend lezen worden normgericht geïnterpreteerd aan de hand van de vaardigheidsverdeling in een referentiegroep. De referentiegroep is op basis van de scores van de leerlingen in deze groep op twee manieren in vijf niveaugroepen verdeeld. De eerste manier levert de niveaugroepen A tot en met E op en is gebaseerd op een indeling in kwartielen. De niveaugroepen A, B en C bestrijken elk een kwart van de populatie. Het vierde kwartiel wordt opgesplitst in twee subgroepen: D (15%) en E (10%). De tweede indeling, met de niveaugroepen I tot en met V, gaat uit van vijf groepen van ieder 20%. Deze laatste indeling is dus symmetrisch opgebouwd en heeft als voordeel – boven de indeling gebaseerd op kwartielen – dat er een gemiddelde3 groep onderscheiden wordt, namelijk niveaugroep III. Zie figuur 3.2 voor een beschrijving van de niveaugroepen. Figuur 3.2
Niveaugroepen in het LOVS
Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
De resultaten kunnen door de leerkracht verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding worden in hoofdstuk 4 en 5 een aantal mogelijkheden besproken om handmatig en met behulp van het computerprogramma overzichten te maken (zoals bijvoorbeeld leerlingrapporten,
3
Het betreft hier geen gemiddelde in de statistische betekenis van het woord. In feite is het zo dat de gemiddelde ruwe score (bij een scheve verdeling) niet eens in de middelste groep hoeft te liggen.
20
groepsrapporten, dwarsdoorsnedes en trendanalyses) om op groepsniveau en schoolniveau de kwaliteit van het gegeven onderwijs te analyseren.
3.2
Inhoudsverantwoording
In deze paragraaf worden allereerst de teksttypen en -genres beschreven die onderscheiden worden in de toetsen LOVS Begrijpend lezen voor groep 3 tot en met 6. Ook komen de verschillende opgavenvormen en opgaventypen die in de toetsen gebruikt worden aan de orde. Daarna wordt de vraag naar deelvaardigheden van begrijpend lezen behandeld. Ten slotte worden de selectiecriteria beschreven die gebruikt zijn bij het samenstellen van de toetsen Begrijpend lezen. Deze informatie vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in de toetspakketten Begrijpend lezen. Daar vindt u voor elke toets specifieke voorbeelden van de verschillende soorten teksten en opgaven die in de toetsen voorkomen. 3.2.1
Teksttypen in LOVS Begrijpend lezen
De opgaven in de toetsen Begrijpend lezen hebben in alle gevallen betrekking op teksten of delen van teksten. Deze teksten kunnen ondergebracht worden in een aantal teksttypen. De volgende typen teksten worden onderscheiden (Zwarts & Rijlaarsdam, 1991): – Informatief-rapporterende teksten De schrijver geeft feitelijke informatie over de werkelijkheid. – Informatief-beschouwende teksten De schrijver geeft niet alleen feitelijke informatie over de werkelijkheid, maar voegt er ter verduidelijking ook zijn meningen, opvattingen en standpunten aan toe. – Regulerend-directieve teksten De schrijver wil het gedrag, het handelen van de lezer richten en sturen. – Regulerend-argumentatieve teksten De schrijver wil vooral het denken van de lezer beïnvloeden. – Fictionele teksten De schrijver beschrijft een verbeelde werkelijkheid. Bij de verdeling van de teksttypen in de toetsen Begrijpend lezen was het uitgangspunt zo goed mogelijk aan te sluiten bij het dagelijks aanbod aan leesteksten dat de leerlingen thuis en op school tegenkomen. Een groot deel van de teksten zou daarom moeten bestaan uit teksten uit leesboeken en een ander groot deel uit informatieve teksten. In tabel 3.1 is te zien dat aan deze voorwaarde is voldaan: de teksten in LOVS Begrijpend lezen zijn voor het merendeel informatief-rapporterende en fictionele teksten. In de lagere leerjaren ligt het accent vooral op fictionele teksten; in de hogere leerjaren verschuift dat naar informatieve teksten.
21
Tabel 3.1
Teksttypen in LOVS Begrijpend lezen: percentage (aantal)
Teksttype Toets
Informatiefrapporterend
InformatiefRegulerendbeschouwend directief
RegulerendFictioneel argumentatief
Totaal aantal teksten
E3 Start
-
-
-
-
100% (7)
7
E3 Vervolg 1
-
-
-
-
100% (9)
9
E3 Vervolg 2
-
-
-
-
100% (8)
8
M4 Start
43% (3)
14% (1)
14% (1)
29% (2)
7
M4 Vervolg 1
43% (3)
29% (2)
-
-
29% (2)
7
M4 Vervolg 2
29% (2)
14% (1)
-
-
58% (4)
7
E4 Start
38% (3)
13% (1)
13% (1)
-
38% (3)
8
E4 Vervolg 1
-
-
-
25% (1)
75% (3)
4
E4 Vervolg 2
50% (4)
25% (2)
-
13% (1)
13% (1)
8
-
-
20% (1)
-
80% (4)
5
M5 Vervolg 1
67% (2)
-
-
-
33% (1)
3
M5 Vervolg 2
43% (3)
14% (1)
-
-
43% (3)
7
M6 Start
60% (2)
20% (1)
-
-
20% (1)
5
M6 Vervolg 1
60% (3)
-
-
-
40% (2)
5
M6 Vervolg 2
80% (4)
20% (1)
-
-
-
5
M5 Start
3.2.2
Tekstgenres in LOVS Begrijpend lezen
Hierboven werden een vijftal teksttypen onderscheiden. Bij dat onderscheid gaat het om functies of doelen van teksten: met bijvoorbeeld een argumentatieve tekst wil de schrijver de lezer ergens van overtuigen, met een fictionele tekst wil de schrijver lezers vermaken of boeien, enzovoort. Teksten kunnen ook op grond van een ander criterium onderscheiden worden. Een tekst kan een brief zijn, maar ook een verslag, een recept, enzovoort. Dit onderscheid wordt omschreven als het tekstgenre. Tekstgenres waar basisschoolleerlingen mee te maken kunnen krijgen zijn onder andere: verhaal, gedicht, artikel, verslag, brief en instructie. Soms hebben tekstgenre en teksttype een een-op-een-relatie: een verslag rapporteert altijd; een recept is altijd directief. Soms ligt de relatie echter complexer: in een brief kan gerapporteerd worden, maar er kan ook iets in beargumenteerd worden en er kunnen alle mogelijke aanwijzingen (directieven) in gegeven worden. De verdeling van tekstgenres in de toetsen Begrijpend lezen is gebaseerd op het dagelijks aanbod aan leesteksten dat de leerlingen thuis en op school tegenkomen. Een groot deel van de teksten zou daarom moeten bestaan uit (delen van) verhalen uit leesboeken en een ander groot deel uit eenvoudige informatieve teksten. In tabel 3.2 is te zien dat aan deze voorwaarde is voldaan: de teksten in LOVS Begrijpend lezen zijn voor het merendeel verhalen, artikelen en verslagen. In de lagere leerjaren komen vooral verhalen, verslagen en enkele korte tekstjes als een mop, rijmpje, brief of gedicht voor; in de hogere leerjaren verschuift het accent naar het genre artikel. Deze verdeling in genres hangt vanzelfsprekend nauw samen met de verdeling van teksttypen in paragraaf 3.2.1.
22
Tabel 3.2
Tekstgenres in LOVS Begrijpend lezen: percentage (aantal)
Tekstgenre
Totaal Verhaal
Artikel
Gedicht
Verslag
Instructie
Mop
Rijmpje
Brief
Bericht
Toets
aantal teksten
E3 Start
43% (3)
-
-
29% (2)
-
14% (1)
14% (1)
-
-
7
E3 Vervolg 1
100% (9)
-
-
-
-
-
-
-
-
9
E3 Vervolg 2
75% (6)
-
-
25% (2)
-
-
-
-
-
8
M4 Start
14% (1)
29% (2)
29% (2)
29% (2)
-
-
-
-
-
7
M4 Vervolg 1
43% (3)
14% (1)
29% (2)
-
-
-
14% (1)
-
7
M4 Vervolg 2
57% (4)
29% (2)
-
14% (1)
-
-
-
-
-
7
E4 Start
25% (2)
63% (5)
-
13% (1)
-
-
-
-
-
8
E4 Vervolg 1
50% (2)
-
25% (1)
-
-
-
-
25% (1)
-
4
E4 Vervolg 2
13% (1)
75% (6)
-
-
-
-
-
-
13% (1)
8
M5 Start
80% (4)
-
-
-
20% (1)
-
-
-
-
5
M5 Vervolg 1
67% (2)
33% (1)
-
-
-
-
-
-
-
3
M5 Vervolg 2
43% (3)
57% (4)
-
-
-
-
-
-
-
7
M6 Start
20% (1)
60% (3)
-
20% (1)
-
-
-
-
-
5
M6 Vervolg 1
40% (2)
40% (2)
-
20% (1)
-
-
-
-
-
5
M6 Vervolg 2
20% (1)
80% (4)
-
-
-
-
-
-
-
5
3.2.3
Opgavenvormen in LOVS Begrijpend lezen
De opgaven in de toetsen van LOVS Begrijpend lezen zijn onder te brengen in een aantal categorieën, gelet op de vorm van de opgaven. Om te beginnen zijn alle opgaven in deze toetsen meerkeuzeopgaven. Hierdoor wordt het nakijken van en het bepalen van de scores op de toetsen zo eenvoudig en zo objectief mogelijk gehouden. Het nakijken van open opgaven vereist scoringsvoorschriften, waarmee het aanzienlijk lastiger werken is dan met de objectief toepasbare toetssleutels. Deze sleutels staan in de vorm van lijsten met goede antwoorden in de handleidingen bij de toetsen in LOVS Begrijpend lezen. Traditioneel zijn opgaven Begrijpend lezen van de vorm 'vragen over teksten'. Een opgave uit deze categorie kan omschreven worden als: een vraag die gesteld wordt naar aanleiding van een tekst of een deel van een tekst (een of meer zinnen, een of meer alinea's enzovoort). Het is de opgavenvorm die ook in de leesmethoden het vaakst gehanteerd wordt. Daarnaast wordt in LOVS Begrijpend lezen de opgavenvorm ‘opgaven in de vorm van een husseltekst’ onderscheiden. Bij deze opgavenvorm krijgt de leerling een opsomming van vier of vijf zinnen die samen een kort verhaaltje vormen. De zinnen staan echter niet in de juiste volgorde, en de leerlingen kiezen de zin waarmee het verhaaltje moet beginnen. Bij ‘opgaven bij een invultekst’ worden teksten aangeboden waaruit zinnen of delen van zinnen zijn weggelaten. De leerlingen kiezen vervolgens het alternatief dat het best in de tekst past, door zowel het stuk vóór de invulplaats, als het stuk na de invulplaats te lezen. Een bijzondere vorm van een opgave bij een invultekst is de zogeheten ‘teksttoetsopgave’. Deze opgaven bestaan uit een korte tekst waaruit één tekstgedeelte is weggelaten. De keuze voor het juiste alternatief kan alleen gemaakt worden als de gehele tekst begrepen is. Tot slot kan een en dezelfde tekst meerdere opgavenvormen aan zich binden: in LOVS Begrijpend lezen gaat het in deze ‘combinatiecategorie’ dan steeds om een of meer opgaven bij een invultekst, over welke tekst ook een of meer opgaven van de vorm vragen over teksten worden gesteld. Bij de verdeling van de opgavenvormen over de toets Begrijpend lezen was het uitgangspunt dat het zwaartepunt van de toets uit vragen bij teksten moet bestaan, aangezien dit de meest bekende en meest gebruikte vorm van leesopgaven is, ook in de lesmethoden. In tabel 3.3 is te zien dat alleen in de toets M4 Start geen teksten voorkomen met daarbij alleen vragen over de tekst, en dat – met uitzondering van de toets E3 Vervolg 1 – verder het grootste deel van de toets inderdaad steeds bestaat uit vragen over teksten. In de lagere leerjaren bevatten alle toetsen ook enkele husselverhaaltjes en komen enkele
23
teksttoetsopgaven en opgaven uit de combinatiecategorie voor. Vanaf leerjaar 6 worden alleen invulopgaven en vragen over teksten ingezet. Tabel 3.3
Opgavenvormen in LOVS Begrijpend lezen: percentage (aantal)
Opgavenvorm Toets
Husselverhaal
Totaal Invulopgave
Teksttoetsopgave
Vraag over tekst
Combinatie
aantal opgaven
E3 Start
20% (5)
24% (6)
-
56% (14)
-
25
E3 Vervolg 1
20% (5)
36% (9)
-
28% (7)
16% (4)
25
E3 Vervolg 2
12% (3)
36% (9)
4% (1)
48% (12)
-
25
M4 Start
16% (4)
64% (16)
-
-
20% (5)
25
M4 Vervolg 1
20% (5)
28% (7)
4% (1)
36% (9)
12% (3)
25
M4 Vervolg 2
16% (4)
36% (9)
8% (2)
40% (10)
-
25
E4 Start
16% (4)
28% (7)
4% (1)
52% (13)
-
25
E4 Vervolg 1
28% (7)
16% (4)
-
45% (9)
20% (5)
25
E4 Vervolg 2
12% (3)
-
16% (4)
72% (18)
-
25
M5 Start
16% (4)
4% (1)
-
80% (20)
-
25
M5 Vervolg 1
24% (6)
-
-
76% (19)
-
25
M5 Vervolg 2
8% (2)
20% (5)
-
72% (18)
-
25
M6 Start
-
32% (8)
-
68% (17)
-
25
M6 Vervolg 1
-
40% (10)
-
60% (15)
-
25
M6 Vervolg 2
-
16% (4)
-
84% (21)
-
25
3.2.4
Opgaventypen in LOVS Begrijpend lezen
In de vorige paragraaf werd een categorisering van opgaven in de toetsen van LOVS Begrijpend lezen beschreven op basis van de in de opgaven gehanteerde itemvormen. Het is ook mogelijk om opgaven in leestoetsen te onderscheiden naar de verwerkingsprocessen waarop de opgaven geacht worden een beroep te doen en de aspecten van teksten die de opgaven bevragen. Dit onderscheid wordt bedoeld als in deze paragraaf gesproken wordt van opgaventypen en -subtypen. Bij de toetsconstructie voor de toetsen Begrijpend lezen was het uitgangspunt dat het accent van de toetsen op vragen over betekenis en inhoud zou liggen, afgewisseld met vragen over de opbouw en de structuur van teksten. Dit mede met het oog op het aparte onderdeel Studieteksten in de toetsen Studievaardigheden, waarbij de opbouw en structuur het uitgangspunt van de toetsconstructie is. In tabel 3.4 is te zien dat de opgaven in LOVS Begrijpend lezen in de lagere leerjaren inderdaad vooral over de betekenis en inhoud van de teksten gaan, waarbij de vragen zowel tekstgebaseerd als tekst- en kennisgebaseerd zijn. Tekstgebaseerde vragen over de opbouw en structuur van teksten komen in de lagere leerjaren relatief vaak voor, het gaat hier om de zogeheten husselverhaaltjes, waarbij de eerste zin van een kort verhaaltje gekozen moet worden.
24
Tabel 3.4
Opgaventypen in LOVS Begrijpend lezen: percentage (aantal)
Opgaventype
Tekstgebaseerd Betekenis en inhoud
Toets
Tekst- en kennisgebaseerd
Opbouw en structuur
Betekenis en inhoud
Opbouw en structuur
Totaal aantal opgaven
E3 Start
24% (6)
36% (9)
36% (9)
4% (1)
25
E3 Vervolg 1
24% (6)
36% (9)
40% (10)
-
25
E3 Vervolg 2
40% (10)
28% (7)
32% (8)
-
25
M4 Start
28% (7)
20% (5)
52% (13)
4% (1)
25
M4 Vervolg 1
52% (13)
24% (6)
20% (5)
4% (1)
25
M4 Vervolg 2
16% (4)
24% (6)
56% (14)
4% (1)
25
E4 Start
32% (8)
24% (6)
44% (11)
-
25
E4 Vervolg 1
20% (5)
28% (7)
52% (13)
-
25
E4 Vervolg 2
16% (4)
36% (9)
44% (11)
4% (1)
25
M5 Start
44% (11)
4% (1)
32% (8)
20% (5)
25
M5 Vervolg 1
52% (13)
20% (5)
16% (4)
12% (3)
25
M5 Vervolg 2
36% (9)
12% (3)
32% (8)
20% (5)
25
M6 Start
40% (10)
16% (4)
48% (12)
4% (1)
25
M6 Vervolg 1
48% (12)
12% (3)
36% (9)
4% (1)
25
M6 Vervolg 2
28% (7)
28% (7)
40% (10)
16% (4)
25
3.2.4.1
Tekstgebaseerde opgaven
De toetsen in LOVS Begrijpend lezen bevatten allereerst opgaven die betrekking hebben op de verwerking van de tekst als zodanig; op het begrijpen van de informatie die expliciet in de tekst vermeld is. Er zijn binnen dit type opgaven opgenomen die gericht zijn op aspecten van de betekenis en inhoud van teksten, maar ook opgaven die de opbouw en structuur van teksten tot onderwerp hebben. In de vragen naar aspecten van betekenis en inhoud gaat het om de kennis van woorden, begrippen en woordgroepen, en wordt er gevraagd naar specifieke, expliciete inhoudselementen in de tekst (bijvoorbeeld de naam van de hoofdpersoon in een verhaal, de tijd waarin het verhaal speelt, de plaats waar het verhaal zich afspeelt). De opgaven over opbouw en structuur vragen naar expliciete relaties binnen zinnen, tussen zinnen en tussen grotere tekstdelen. De itemvorm die we hierboven met 'husseltekstopgave' aanduidden, is bijvoorbeeld gericht op de expliciete relatie tussen zinnen. 3.2.4.2
Tekst- en kennisgebaseerde opgaven
In het hierboven beschreven opgaventype gaat het om tekstgebaseerde leesprocessen. Maar – zie ook paragraaf 2.4.1 – van werkelijk en diepgaand tekstbegrip kan pas gesproken worden wanneer tekstgebaseerde én kennisgestuurde processen beide een rol spelen. Een lezer benadert een tekst niet blanco, hij neemt zijn eerdere leeservaringen mee tijdens het lezen van een nieuwe tekst en zet bij de verwerking ervan tevens al zijn achtergrondkennis in. Impliciete informatie speelt een belangrijke rol bij het lezen van teksten. Het onderkennen en afleiden van impliciete informatie in een tekst oftewel het interpreteren van de informatie is een belangrijk aspect van de leesvaardigheid. Zonder het maken van inferenties zal een lezer niet tot diepgaand begrip van de tekst kunnen komen. Tekstbegrip op dit niveau veronderstelt namelijk dat de lezer de tekst doorgrondt en de informatie in de tekst tot een geheel verbindt in relatie met de eigen kennis en ervaring. De toetsen in LOVS Begrijpend lezen bevatten dan ook opgaven waarin de leerlingen tekstgebaseerde en kennisgebaseerde verwerkingsprocessen in samenhang en gelijktijdig moeten toepassen. Ook binnen dit opgaventype worden opgaven onderscheiden die de betekenis en inhoud betreffen en opgaven met betrekking tot de opbouw en structuur van teksten. De vragen naar betekenis en inhoud zijn gericht op diverse aspecten. Om de belangrijkste te noemen: het afleiden van de betekenis van moeilijke
25
woorden en begrippen uit de omringende tekst, het doorgronden van de globale inhoud van de tekst door expliciete en impliciete informatie verspreid over de gehele tekst met elkaar te verbinden. Denk hierbij bijvoorbeeld aan vragen naar het centrale thema, de hoofdgedachte, het lezerspubliek en het doel van de tekst. En het activeren van de eigen kennis ten dienste van het maken van inferenties, bijvoorbeeld om figuurlijk taalgebruik te begrijpen of om voorspellingen te doen over het vervolg van een verhaal op grond van het gelezen tekstgedeelte en de eigen achtergrondkennis en ervaringen. In de opgaven betreffende opbouw en structuur gaat het vooral om het doorzien van de organisatie van teksten. De leerlingen moeten op basis van de expliciete en impliciete informatie in een tekst en op basis van bijvoorbeeld de titel en subtitels van een tekst of de lay-out van de tekst (witregels, alineëring en dergelijke) vragen beantwoorden over de al dan niet chronologische volgorde van handelingen en gebeurtenissen in een verhaal, over de plotontwikkeling, over de logische lijn in een tekst enzovoort. Opgaven van dit subtype komen in de toetsen LOVS Begrijpend lezen voor de lagere jaargroepen (3 en 4) nog niet of nauwelijks voor. Aangenomen mag worden dat het merendeel van de leerlingen dan nog te weinig leeservaring meebrengt om dergelijke opgaven met een redelijke kans op succes te kunnen maken. Ook voor opgaven die een (taal)beschouwende en kritische kijk op teksten veronderstellen, is in deze jaargroepen nog geen plaats ingeruimd. De kennis en vaardigheden waarop door opgaven van dit type een beroep wordt gedaan voeren nog te ver voor leerlingen in de onderbouw. De leerling moet bij het maken van deze opgaven als het ware afstand nemen van de tekst zelf. Het gaat hier niet om tekstbegrip als zodanig, maar om het reflecteren op de kwaliteit, het belang en de integriteit van teksten. Voor het beantwoorden van deze opgaven moeten leerlingen hun kennis over taal en teksten inzetten, bijvoorbeeld om de invloed en werking van bepaalde subtiele bewoordingen te onderkennen, om bepaalde stijlkenmerken te herkennen of om de kwaliteit van teksten, de geschiktheid van een tekst voor een bepaalde doelgroep, dan wel het vakmanschap van de schrijver te beoordelen. In de toets voor groep 6 wordt dit subtype voor het eerst ingezet; zij het nog in bescheiden mate. 3.2.5
Deelvaardigheden van begrijpend lezen?
Hierboven werden de opgaventypen die in de toetsen Begrijpend lezen onderscheiden worden omschreven. In paragraaf 3.1 van deze verantwoording is de schaal Begrijpend lezen geïntroduceerd. Op deze meetschaal kan de leesvaardigheid van leerlingen afgebeeld worden, maar ook kunnen de opgaven van de toetsen Begrijpend lezen er naar moeilijkheid op gerangschikt worden. Alle opgaven – van welke vorm, van welk opgaventype dan ook – hebben een plaats op deze ene schaal. De opgaven van de toetsen Begrijpend lezen vormen, zoals dat heet, een unidimensionele meetschaal: de opgaven meten een en dezelfde vaardigheid. Een vaardigheid waaraan in het primair onderwijs de naam Begrijpend lezen is gegeven. Het is niet zo dat de opgaven van één (sub)type systematisch op een bepaald deel van de schaal liggen en de opgaven van een ander (sub)type op een ander deel van de schaal. Uit de schaal kan dus ook niet afgeleid worden dat bijvoorbeeld het tweede (sub)type opgaven moeilijker is dan het eerste (sub)type. Het is dan ook niet zinvol om scores per opgaventype te rapporteren als een soort deeltoets, en om deze scores van een leerling te presenteren als een niveau-indicatie van een onderliggende deelvaardigheid van het begrijpend lezen. De opgaven hierboven zijn desondanks ingedeeld in opgaventypen, omdat een dergelijke indeling in de ontwikkelingsfase van de toetsen – met name tijdens het construeren van de opgaven – ervoor zorgt dat de vaardigheid Begrijpend lezen in al zijn facetten en van alle kanten belicht wordt. 3.2.6
Selectie van opgaven voor de toetsen LOVS Begrijpend lezen
Alle opgaven die in de toetsen Begrijpend lezen zijn opgenomen werden speciaal voor deze toetsen geconstrueerd door een constructiegroep, voornamelijk bestaande uit (ex-)leerkrachten uit het basisonderwijs. De opgaven zijn eerst in een proefafname voorgelegd aan leerlingen in de jaargroepen waarvoor ze bedoeld waren (waarbij het streven was dat elke opgave door minimaal 300 leerlingen gemaakt werd). Het doel van dergelijke proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door goede lezers dan door minder goede lezers fout gemaakt worden) geïdentificeerd en verwijderd worden. De opgaven met een acceptabele moeilijkheid (in klassieke termen: p-waarde tussen .40 en .90) die door de betere lezers significant vaker goed werden gemaakt dan door de minder goede lezers (rir vanaf .20) kwamen in principe in aanmerking voor opname in de definitieve toetsen Begrijpend lezen. Bij het selecteren van de opgaven speelden echter ook inhoudelijke criteria. Ten eerste moeten de uiteindelijke toetsmodules een evenwichtige verzameling teksten en opgaven bevatten. Hierbij werd gelet
26
op teksttype, tekstgenre, opgaventype, opgavenvorm en de inhoud (het onderwerp) van de teksten. Daarnaast is ervoor gezorgd dat het aantal opgaven in verhouding staat tot de tekst waarbij de opgaven horen. Het is niet wenselijk dat de leerlingen een relatief lange tekst moeten lezen, om daar vervolgens slechts twee of drie opgaven bij te moeten maken. In de meeste gevallen kon aan zowel de psychometrische (p-waarde, rir) als de inhoudelijke criteria voldaan worden, maar in sommige gevallen zijn er op basis van de inhoudelijke criteria opgaven opgenomen die (net) niet de gewenste psychometrische waarden hadden. De selecteerde opgaven werden vervolgens ingedeeld voor opname in de normeringsonderzoeken. In tegenstelling tot de proefafnames, waar opgaven random over toetsboekjes werden verdeeld, zijn in de normeringsonderzoeken met zorg modules samengesteld volgens het model van een Startmodule van een gemiddelde moeilijkheid, een module Vervolg 1 die gemakkelijker was dan de Startmodule en een module Vervolg 2 die moeilijker was dan de Startmodule. Elke module bevatte een evenwichtige verzameling teksten en opgaven, zowel qua inhoud als qua vorm. De modules in het normeringsonderzoek leken dus al zoveel mogelijk op de definitieve modules. Wel bevatte elke module enkele opgaven méér dan de definitieve modules, met het oog op eventuele uitval van items wegens slecht functioneren. Vervolgens zijn uit elke module een aantal opgaven verwijderd om te komen tot het gewenste aantal opgaven in de definitieve toets. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek een te hoge of te lage moeilijkheid of een te laag discriminerend vermogen. Soms ook vielen opgaven af die psychometrisch gezien goed functioneerden, maar die op inhoudelijke gronden afgewezen werden (hiervoor werden dezelfde criteria gehanteerd als bij de proefafname). Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te moeilijk of te makkelijk waren, maar die wel zorgen voor een inhoudelijk beter samengestelde verzameling opgaven en teksten. Bij elke verzameling opgaven bij een tekst vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden.
27
28
4
Het normeringsonderzoek
4.1
Opzet en verloop van het normeringsonderzoek
Met het oog op de ontwikkeling van de toetsen zijn van 2004 t/m 2007 voor de jaargroepen 3, 4, 5 en 6 opgaven geconstrueerd voor de afnamemomenten ‘eind groep 3’ (E3), ‘medio groep 4’ (M4), ‘eind groep 4’ (E4), ‘medio groep 5’ (M5) en ‘medio groep 6’ (M6). Deze opgaven zijn in een kalibratieonderzoek in de jaren 2005 t/m 2008 voorgelegd aan groepen leerlingen van een groot aantal scholen en leerlingen. Op het kalibratieonderzoek volgde een normeringsonderzoek, waarbij de toetsen werden voorgelegd aan leerlingen uit de doelgroep op de normeringsmomenten M(idden) of E(inde) in respectievelijk januari of juni. De normering van M4 en M5 vond plaats in januari 2006, de normering van E3 en E4 in juni 2006 en M6 werd in januari 2008 genormeerd. Kalibratieonderzoek Het kalibratieonderzoek levert gegevens op over de kwaliteit en de moeilijkheid van de opgaven. Op grond van deze gegevens is een selectie van items gemaakt voor de normering van de toetsen op verschillende afnamemomenten. Al eerder werd opgemerkt dat in het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Opgaven werden verdeeld over clusters, en aan elke leerling werden een of meer clusters van items voorgelegd. De clusters die gezamenlijk aan een groep leerlingen worden voorgelegd, worden ‘boekjes’ genoemd; de verschillende boekjes overlappen elkaar. Deze overlap zorgt ervoor dat het design verbonden is, een noodzakelijke voorwaarde om CML-schattingen van de itemparameters te kunnen bepalen. Een voorbeeld van zo’n design staat in de verantwoording van de Toetsen Begrijpend lezen (afgekort: TBL; Staphorsius, Krom, Kleintjes en Verhelst, 2001). In het kalibratieonderzoek van oktober 2005 zijn ruim 900 items voorgelegd aan 3842 leerlingen van groep 3, groep 4 en groep 5, verdeeld over 33 verschillende boekjes met elk ongeveer 60 items en bedoeld voor de toetsingsmomenten E3, M4, E4 en M5, in een onvolledig, maar ‘verbonden’ design. Ieder item kwam voor in twee boekjes. Het gemiddeld aantal leerlingantwoorden per item was 233. Dit kalibratieonderzoek leverde onvoldoende geschikte items op voor M5. Daarom in is juni 2006 aanvullend kalibratieonderzoek uitgevoerd voor de constructie van M5. Dit betrof één boekje, waarbij naast 10 gekalibreerde items uit het kalibratieonderzoek van oktober 2005, 55 nieuwe items aan 635 leerlingen zijn voorgelegd. Voor M6 werd het onderzoek uitgevoerd in 2007 met een verbinding naar het onderzoek in november 2005, om de items op dezelfde schaal te kunnen afbeelden. Daarbij waren 1561 leerlingen betrokken in 10 designgroepen, en werden in totaal 238 items ingezet en per item gemiddeld 300 leerlingantwoorden verzameld. Kalibratieonderzoek digitale items Om voor de digitale items en dus ook de digitale toetsen de ‘papieren’ normering te kunnen gebruiken is in een apart kalibratieonderzoek onderzocht of de digitale items ook op de schaal Begrijpend lezen passen. Een voorbeeld van het gebruikte design voor de kalibratie van de digitale toets M5 staat in tabel 4.1. Voor alle andere toetsen is eenzelfde onderzoeksopzet gebruikt. In tabel 4.2 staat het aantal leerlingen per afnamemoment. Merk op dat de data die verzameld worden in het papier-digitaalonderzoek toegevoegd worden aan de dataset die dient voor de schaling van de items in de itembank. Het aantal itemantwoorden per item voor de papieren items is dan ook veel hoger dan in het design van tabel 4.1, omdat voor deze items zowel in het kalibratieonderzoek als later in het normeringsonderzoek gegevens verzameld zijn.
29
Tabel 4.1 Booklet
Afnamedesign kalibratieonderzoek papier-digitaal M5 Start
M5 Start
M5 Vervolg 1
M5 Vervolg 2
M5 Vervolg 1
M5 Vervolg 2
Papier
Digitaal
Papier
Papier
Digitaal
Digitaal
1
X
2
X
X X
4
X
Tabel 4.2
leerlingen 300
X
3
Aantal
X
300 150
X
150
Aantal leerlingen in het kalibratieonderzoek papier-digitaal
Afnamemoment Aantal leerlingen Gemiddeld aantal leerlingantwoorden digitale items
E3
M4
E4
M5
M6
689
1329
1006
425+1202
996
237
407
262
451
204
Normeringsonderzoek Het normeringsonderzoek levert aanvullende gegevens op over de kwaliteit en de moeilijkheid van de opgaven én over de landelijke verdeling van de vaardigheid van de leerlingen op de verschillende afnamemomenten. Tijdens dit onderzoek zijn de leerlingen op zo veel mogelijk tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te kunnen verzamelen en om op basis daarvan de ontwikkeling van de begrijpend-leesvaardigheid in kaart te brengen. Vanwege de korte ontwikkeltijd was het niet mogelijk dezelfde leerlingen te volgen tijdens hun gehele schoolcarrière. De normeringsgroepen komen uit twee steekproeven. Eén voor de normering van E3, M4 E4 en M5 en één voor M6. In tabel 4.4 staat hoe de leerlingen verdeeld waren op de verschillende tijdstippen en hoeveel leerlingen ook op een later normeringstijdstip deelnamen. De items voor de afnamemomenten E3, E4 en E5 zijn in oktober 2005 gepretest. De leerlingen die aan dit onderzoek deelnamen zaten toen in de groepen 4, 5 en 6. Het was uiteraard beter geweest het onderzoek voor deze afnamemomenten in mei-juni te houden, maar dat was praktisch gezien niet haalbaar. De proefafnames hadden bijna een jaar uitgesteld moeten worden en dat zou de uitgave van de toetsen met minstens een jaar hebben vertraagd.
Tabel 4.3
Aantal leerlingen per afnamemoment E3
Kalibratie oktober 2005 Normering januari 2006 Normering juni 2006 Normering januari 2008
M4
1239
E4
M5
1305
1298
785 443
M6
819 674 662
Dataretour M5
1049
Dataretour M6
1033
374
Het Computerprogramma LOVS biedt scholen de mogelijkheid afnamegegevens van de toetsen naar Cito te sturen. Cito gebruikt deze gegevens onder andere voor kwaliteitscontroles van de toetsen. Om de normeringssteekproeven te verbinden is gebruikgemaakt van gegevens uit deze ‘dataretour’. De normeringsgegevens zijn samen met gegevens van het kalibratieonderzoek en gegevens uit dataretour gebruikt om de vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen. Daarvoor is gebruikgemaakt van het softwareprogramma MULTI (Kamphuis, 1992, 1993, Kamphuis en Engelen, 1992).
30
De getallen in tabel 4.4 behoeven enige verklaring. De leerlingen komen uit verschillende cohorten: de groep van 1682 leerlingen is samengesteld uit een cohort van 1239 leerlingen uit het kalibratieonderzoek van oktober 2005 (die zaten in oktober in groep 4) en een cohort van 443 leerlingen uit het normeringsonderzoek van juni 2006. 645 leerlingen van de 1239 uit het kalibratieonderzoek hebben (ook) deelgenomen aan de normering van M4 en 430 aan de normering E4. De getallen in de andere kolommen hebben een soortgelijke interpretatie.
Tabel 4.4
E3 M4 E4 M5 M6
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip E3 1682 645 430 0 0
M4
E4
M5
M6
785 487 0 0
1979 673 0
819 0
662
In tabel 4.5 staat het aantal leerlingen per afname. Dit geeft een beter beeld van de aantallen waarop de normering is gebaseerd.
Tabel 4.5
Aantal leerlingen per afnamemoment
Kalibratie oktober 2005 Normering januari 2006 Normering juni 2006 Normering januari 2008
E3 1239
M4
E4 1305
785 443
M5 1298 819
M6
674 662
De gegevens uit de normeringsonderzoeken zijn samen met die van het kalibratieonderzoek gebruikt om de vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen. Daarvoor is gebruikgemaakt van het softwareprogramma Multi (Kamphuis, 1992, Mislevy, 1984, Rubin, 1987, Mislevy, 1991). Multi veronderstelt dat deze latente vaardigheidsverdeling multivariaat normaal verdeeld is. Gegeven de itemparameters uit OPLM en gegeven de data (de scores behaald door de leerlingen op de gemaakte toetsen), worden in Multi de gemiddelden en covariaties van deze multivariate latente verdeling geschat. Merk op dat bovenstaand design onvolledig is, leerlingen maken op maximaal drie tijdstippen een toets. Met behulp van de geschatte gemiddelden en covarianties kan Multi voor elke leerling op alle tijdstippen 'plausible values' (indien geobserveerd) of 'imputations' (indien niet geobserveerd) genereren. Het resultaat van deze procedure is dat we nu beschikken over een volledige dataset met voor iedere leerling een vaardigheidsscore op alle momenten. We beschikken zo over de verdeling van de vaardigheidscores van 3438 leerlingen op ieder toetsmoment. De representativiteit van deze leerlingen wordt in paragraaf 4.2 onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. Merk tevens op dat als op deze dataset gemiddelden en covarianties berekend worden, de uitkomst zal resulteren in de geschatte gemiddelden en covarianties uit Multi. De gevolgde procedure maakt het mogelijk uit deze dataset alle leerlingen te identificeren die aan het normeringsonderzoek hebben deelgenomen. Deze leerlingen vormen de basis voor de later te presenteren normeringsgegevens: de gemiddelden en standaardafwijking voor de afzonderlijke tijdstippen (zie tabel 4.14). Deze normeringsgroepen hebben een vaardigheidsverdeling die normaal verdeeld is, en op steekproeffluctuaties na, gelijk is aan de vaardigheidsverdeling die door Multi is berekend voor de 3438 leerlingen. In de normering is daarom gebruikgemaakt van de schatting uit Multi voor de vaardigheidsverdelingen per toetsmoment. Voor de volledigheid is het aantal leerlingen per normeringsmoment in tabel 4.14 gegeven omdat dat het aantal is waarop de schatting van de verdelingen uiteindelijk gebaseerd is. Merk ten slotte nog op dat uit de veronderstelling van een normale verdeling van de vaardigheid geenszins volgt dat de verdeling van de scores normaal is. De vorm van de scoreverdeling hangt af van de itemparameters. Een toets met makkelijke items heeft een andere scoreverdeling dan een toets met moeilijke items.
31
Design normeringsonderzoek Een voorbeeld van het gebruikte design voor de normering van de toets M6 staat in tabel 4.6. Voor alle andere toetsen is eenzelfde onderzoeksopzet gebruikt. Het opnemen van een anker met het vorige normeringsmoment is noodzakelijk om de items op dezelfde schaal te kunnen brengen (zie ook hierboven). In het design staat ook het beoogde aantal leerlingen, op sommige normeringsmomenten werd dit aantal ruimschoots gehaald, op andere momenten was de respons wat lager, maar was het totaal aantal leerlingen toch ruim voldoende om een verantwoorde normering op te baseren. Merk op dat het design voor E3 afwijkt, omdat er geen ankering mogelijk is met een eerder tijdstip.
Tabel 4.6
Voorbeelddesign normeringsonderzoek Boekje nummer
Toetsonderdeel M5-V2 anker M6-Start nieuw M6-V1 nieuw M6-V2 nieuw
4.2
1 x x
2
3
4
x
x
x x x
x
Aantal leerlingen 300 300 300 300
Representativiteit
De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het percentage achterstandsleerlingen, de geografische spreiding en de mate van verstedelijking. Voor alle toetsmomenten is normeringsonderzoek uitgevoerd. In tabel 4.5 hierboven staan per normeringsmoment het aantal leerlingen en ook het aantal leerlingen dat daarvan op een volgend normeringsmoment deelnam. De gevolgde procedure maakt het mogelijk uit deze dataset alle leerlingen te selecteren die aan het normeringsonderzoek hebben deelgenomen. De representativiteit van deze leerlingen wordt onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. De leerlingen uit het onderzoek zaten op 59 scholen. Van deze scholen wordt in deze paragraaf de representativiteit beschreven. Aangezien niet van alle scholen de vereiste achtergrondgegevens bekend waren, worden resultaten voor 56 scholen gerapporteerd. Representativiteit naar achterstandsleerlingen (sociaaleconomische status). De steekproef voor de normeringen is getrokken uit een steekproefkader dat speciaal voor dit doel is gemaakt. Voor het LOVS dienden de CFI-gegevens van 2006 als basis voor het steekproefkader. Deze gegevens betreffen alle 7100 basisscholen met: – de BRIN-code; – het met de BRIN-code overeenstemmende CAS (Cito Adres Systeem)-nummer; – het totaal aantal leerlingen overeenkomend met de BRIN-code, opgesplitst naar leeftijdsgroepen en binnen leeftijd naar formatiegewicht4 als beschreven in tabel 4.7.
4
De formatiegewichten zijn een indicatie van het aantal achterstandsleerlingen op een school. Ze worden volgens het scoringsvoorschrift van het Ministerie van OCenW aan leerlingen toegekend.
32
Tabel 4.7 Gewicht 1.25 1.40 1.70 1.90
1.00
Gewichtenregeling Uitleg De leerling is een arbeiderskind in termen van opleidings- en/of beroepsniveau van de ouders De leerling is een schipperskind in internaat of pleeggezin De leerling is een kind van ouders die behoren tot de reizende of rondtrekkende bevolking De leerling heeft ten minste één ouder van niet Nederlandse herkomst (de toekenning wordt beperkt door het – hier niet nader gespecificeerd – opleidings- en beroepsniveau) Aan de leerling kan geen van bovenstaande gewichten worden toegekend
In het steekproefkader van 7100 scholen zijn vier categorieën gedefinieerd die zijn weergegeven in tabel 4.8. In deze tabel staat ook het aantal scholen naar gemiddeld leerlinggewicht. Hoewel de verdeling van de steekproefscholen niet geheel overeenkomt met die van de populatie, is de afwijking niet significant (Chi-kwadraat=3.69 df=3, p=0.29). We vinden dus geen evidentie dat de steekproef niet representatief is met betrekking tot achterstandsleerlingen.
Tabel 4.8
Aantal scholen naar gemiddeld schoolgewicht
Totaal Gemiddeld schoolgewicht aantal 1.00-1.10 4722 1.11-1.25 1316 1.26-1.40 410 1.40-1.90 669 Totaal 7117
% 66 18 6 9
Steekproef aantal 31 15 3 7 56
% 55 27 5 13
Representativiteit naar schoolgrootte en percentage achterstandsleerlingen Het eerder besproken bestand van ruim 7100 scholen is als steekproefkader genomen; in dit bestand zijn acht categorieën gedefinieerd op de volgende manier: a
Voor elke school is bepaald welk percentage leerlingen een formatiegewicht had van 1.25 of 1.90, waarbij leerlingen met een gewicht anders dan 1, 1.25 of 1.90 buiten beschouwing zijn gelaten. De percentageberekening is gebaseerd op alle leerlingen van de school. Dit percentage wordt symbolisch voorgesteld met de letter P. Gebaseerd op P zijn vier groepen scholen gevormd. b Binnen elke P-groep zijn twee subgroepen gevormd: een kleine school telt minder dan 200 leerlingen; een grote school 200 of meer leerlingen. Aldus zijn acht strata gevormd. De verdeling van de scholen over deze acht strata is weergegeven in tabel 4.9. Voor Cito is het van praktisch belang de schoolgrootte mee te nemen om de vereiste steekproefomvang te kunnen realiseren. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen van de doelgroep in de steekproef zitten. Daarbij bestaat het risico dat de vereiste steekproefgrootte al snel gerealiseerd wordt door deelname van enkele grote scholen. Daardoor zouden kleine scholen mogelijk ondervertegenwoordigd zijn in de steekproef. Een steekproeftrekking met een vast aantal leerlingen per school stuit op praktische bezwaren van scholen en van Cito; de school zou dan aselect leerlingen moeten aanwijzen en voor Cito zouden de kosten voor de steekproef aanzienlijk hoger zijn omdat er op deze manier meer scholen zouden moeten worden geworven.
33
Tabel 4.9
Stratum 1 2 3 4 5 6 7 8 Totaal
Definitie van de strata (gebaseerd op CFI gegevens van 2006)
Definitie P>50% 25% < P ≤ 50% 10% < P ≤ 25% P ≤ 10%
groot klein groot klein groot klein groot klein
Aantal Percentage leerlingen leerlingen 87294 5.63 48340 3.12 133111 8.59 71471 4.61 351875 22.71 146867 9.48 544766 35.16 165788 10.70 1549512 100.00
Aantal scholen 301 354 446 579 1127 1215 1675 1403 7100
Aantal leerlingen per groep 36.25 17.07 37.31 15.43 39.03 15.11 40.65 14.77
Toelichting op tabel 4.9: – De kolom ‘aantal leerlingen’ geeft het aantal leerlingen dat op een school van het betrokken stratum zit. – De kolom ‘percentage leerlingen’ geeft het percentage leerlingen op scholen van het betrokken stratum. – De kolom ‘aantal scholen’ geeft het aantal scholen in elke categorie. – De kolom ‘aantal leerlingen per groep’ is een schatting van het aantal leerlingen per jaargroep per school. Het is gedefinieerd als ‘aantal leerlingen’ gedeeld door (8*aantal scholen), waarbij verondersteld wordt dat elke jaargroep (ongeveer) evenveel leerlingen telt. De verdeling van de scholen uit het normeringsonderzoek staat in tabel 4.11. Vergelijking van de verdeling van de steekproef met de landelijke verdeling laat zien dat er sprake is van een lichte oververtegenwoordiging van scholen in stratum 3 en 4. Het verwachte aantal scholen in de verschillende strata op basis van de landelijke verdeling is te laag om toetsing met betrekking tot significantie zinvol te kunnen interpreteren. Dit is het geval in de strata 1 tot en met 4. De tabel laat zien dat in de steekproef een vertegenwoordiging van grote en kleine scholen aanwezig is en dat ook scholen met verschillende proporties achterstandsleerlingen in de steekproef vertegenwoordigd zijn. De oververtegenwoordiging komt overeen met de eerder vastgestelde oververtegenwoordiging in tabel 4.8.
Tabel 4.11 Stratum 1 2 3 4 5 6 7 8
Scholen uit de steekproef naar stratum Landelijk 301 354 446 579 1127 1215 1675 1403 7100
% 4 5 6 8 16 17 24 20 100
Steekproef 4 4 8 9 5 8 9 9 56
% 7 7 14 16 9 14 16 16 100
Representativiteit naar geografische verdeling. De verdeling van alle scholen en de scholen in de normeringssteekproef naar regio staat in tabel 4.12. Regio Noord bestaat uit de provincies Groningen, Friesland en Drenthe, Oost uit de provincies Overijssel, Gelderland, Flevoland, West uit de provincies Utrecht, Noord- en Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg. Hoewel er een lichte oververtegenwoordiging is van scholen uit de regio Oost, is dit niet significant (Chi kwadraat = 1,68, df=3, p=0.642). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn.
34
Tabel 4.12 Regio Noord Oost West Zuid
Verdeling aantal scholen naar regio Landelijk 1132 1716 2926 1347 7121
%
16 24 41 19 100
%
Steekproef 11 10 24 11 56
20 18 43 20 100
Representativiteit naar verstedelijking De verdeling van alle scholen en de scholen in de normeringssteekproef naar verstedelijking staat in tabel 4.13. In de steekproef zijn de matig en niet verstedelijkte gebieden wat oververtegenwoordigd en weinig verstedelijkte gebieden wat ondervertegenwoordigd. De frequentie van het verwachte aantal scholen is te laag om toetsing met betrekking tot significantie zinvol te kunnen interpreteren. De tabel laat zien dat in de steekproef een vertegenwoordiging van scholen in verstedelijkt gebied aanwezig is.
Tabel 4.13
Aantal scholen naar verstedelijking
Mate van Verstedelijking Landelijk 1 zeer sterk 834 2 sterk 1555 3 matig 1388 4 weinig 1903 5 niet 1439 Totaal 7119
% 12 22 19 27 20 100
Steekproef 6 9 15 8 18 56
% 11 16 27 14 32 100
Representativiteit naar sekse Voor de normering is het van belang dat zowel jongens als meisjes representatief vertegenwoordig zijn. Daar er in Nederland geen aparte jongens- en meisjesscholen zijn nemen wij aan – gegeven de wijze van steekproeftrekking – dat er een representatieve vertegenwoordiging van jongens en meisjes is. Representativiteit naar leeftijd Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief vertegenwoordigd zijn. Gegeven de wijze van steekproeftrekking nemen wij aan dat alle leeftijden behorende bij een jaargroep vertegenwoordigd zijn. Vergelijkbaarheid van nieuwe en oude normeringen Het gegeven dat de ‘nieuwe’ normering vergelijkbaar is met de bestaande ‘oude’ normering van de Toetsen Begrijpend Lezen beschouwen we als onderbouwing van de representativiteit van de nieuwe normeringsgroepen. Op deze plaats wijzen we daarom vooruit naar tabel 6.2, waarin voor alle genoemde populaties ‘oude’ gemiddelden staan, en naar tabel 4.14 met de gemiddelden uit de ‘nieuwe’ normering.
4.3
Kalibratie en normering
4.3.1
Resultaten kalibratie- en normeringsonderzoek
Al vaker werd opgemerkt dat in het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Ook voor de normering werd een onvolledig design gebruikt. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Dit bleek het geval te zijn. Items die niet voldeden aan de passingscriteria die hierna beschreven worden, werden uit de verzameling verwijderd.
35
In het kalibratieonderzoek was voorzien in een koppeling met de opgaven en itembank Begrijpend lezen en dus ook met de reeds bestaande schaal Begrijpend lezen (zie verantwoording Toetsen Begrijpend lezen, Staphorsius, Krom, Kleintjes & Verhelst, 1998). De nieuwe opgaven en dus ook de nieuwe toetsen liggen op de al bestaande schaal. In hoofdstuk 6 over validiteit wordt dit nader toegelicht. 4.3.2
Toetsing van het IRT-model
De passing van het model wordt geïllustreerd met figuur 4.1 (zie Staphorsius, 1994, blz. 239). Figuur 4.1 beeldt voor een opgave de gegevens af waarop de zogenaamde Si -toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal 8) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die op grond van de parameterschattingen voorspeld kunnen worden. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 4.1 bedraagt dit aantal meer dan 3000. Uit de figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%- betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante Si-toetsingsgrootheid (Verhelst, et al., 1994). In de kalibratieonderzoeken voor de opgavenbank Begrijpend lezen is steeds getoetst of de opgaven pasten bij het model. In deze paragraaf staan de achtergronden van de toetsing van de opgaven.
Figuur 4.1
Grafische voorstelling van een Si -toets
Bij de opgaven in onze opgavenbanken hoort een grafische voorstelling van de Si -toetsing die in grote lijnen met figuur 4.1 overeenkomt. Dit is, zeker gezien de relatief grote aantallen observaties die in het geding zijn, een zeer sterke aanduiding dat het ontwikkelde meetinstrument en het gebruikte meetmodel adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept.
36
Hiermee is het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratie-analyse, als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten dekkend is voor, en samenvalt met het construct zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel Begrijpend lezen: kan het unidimensionale concept onder de opgaven in de opgavenbank Begrijpend lezen inderdaad worden opgevat als de vaardigheid ‘begrijpend lezen’? 4.3.3
Normering
In paragraaf 2.4.2 zijn belangrijke implicaties voor een gekalibreerde opgavenverzameling gegeven. Het slagen van kalibratie betekent dat met een selectie van items uit de bank de vaardigheid gemeten kan worden bij een leerling. Hoe nauwkeurig deze meting is, staat in paragraaf 5.2. Er kan nu een schatting gemaakt worden van de verdelingen van de vaardigheid in welomschreven populaties, omdat selecties van items voorgelegd zijn aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen in de doelgroep in de steekproef zitten. Het gemiddelde en de standaardafwijking worden geschat zoals beschreven in paragraaf 4.1. Met deze schattingen worden dan ook schattingen gemaakt van de percentielen in de populatie, die van belang zijn voor de indeling van leerlingen in de niveaucategorieën die zijn beschreven in paragraaf 3.1.
Tabel 4.14
Overzicht van de vaardigheidsverdelingen per normeringsmoment
Normeringsmoment E3 M4 E4 M5 M6
Aantal leerlingen 443 785 674 819 662
Gemiddelde -2.40 8.91 13.18 22.32 33.13
37
Standaarddeviatie 15.63 14.29 15.28 13.91 13.24
38
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Begrijpend lezen opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde wordt aangeduid met τ(θ). Als bovendien bekend is hoe θ in de populatie verdeeld is, kunnen ook het gemiddelde en de variantie van de ware scores in de populatie bepaald worden. De variantie van de ware scores in de populatie worden aangegeven met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor met een eenmalige toetsafname niet meer zonder fout de waarde van θ bepaald kan worden. De variantie van de geobserveerde toetsscore wordt aangegeven met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kan ook de gemiddelde variantie van de geobserveerde toetsscores berekend gaan worden.
Var(t) = E[Var(t | ( ))]
(5.1)
Deze variantie kan opgevat worden als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid volgt dan
MAcc =
Var( ) Var( ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Begrijpend lezen. In de eerste kolom staan voor elk afnamemoment de twee mogelijke combinaties van modules: een leerling maakt ofwel eerst module Start en daarna module Vervolg 1 (S+V1) ofwel eerst module Start en daarna module Vervolg 2 (S+V2). De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vierde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen (of toetsonderdelen) is. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de toetsen LOVS Begrijpend lezen) geeft de COTAN (COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70 en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN Beoordelingssysteem voor de kwaliteit van tests, 2009, p. 33). Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen.
39
Tabel 5.1 Toets E3 S+V1 E3 S+V2 M4 S+V1 M4 S+V2 E4 S+V1 E4 S+V2 M5 S+V1 M5 S+V2 M6 S+V1 M6 S+V2
Beschrijvende gegevens bij de papieren versie van de toetsen LOVS Begrijpend lezen Maximumscore 50 50 50 50 50 50 50 50 60 60
Gemiddelde 34,6 30,0 35,6 30,9 34,0 28,5 33,8 27,9 33,5 29,7
Standaardmeetfout 2,8 3,0 2,8 3,0 2,9 3,1 2,8 3,1 3,0 3,2
Betrouwbaarheid 0,93 0,93 0,91 0,90 0,88 0,89 0,90 0,89 0,84 0,85
In tabel 5.2 vindt u de gegevens voor de digitale versies van de toetsen Begrijpend lezen.
Tabel 5.2 Toets E3 S+V1 E3 S+V2 M4 S+V1 M4 S+V2 E4 S+V1 E4 S+V2 M5 S+V1 M5 S+V2 M6 S+V1 M6 S+V2
5.2
Beschrijvende gegevens bij de digitale versie van de toetsen LOVS Begrijpend lezen Maximumscore 50 50 50 50 50 50 50 50 60 60
Gemiddelde 29,2 25,6 29,6 24,2 28,6 24,2 28,6 24,2 29,4 24,2
Standaardmeetfout 3,0 3,2 3,0 3,0 3,0 3,1 3,0 3,1 3,1 3,1
Betrouwbaarheid 0,93 0,91 0,92 0,92 0,93 0,90 0,93 0,90 0,86 0,83
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid van de toetsen en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen Begrijpend lezen. De figuren 5.1 tot en met 5.6 geven grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Hierbij is onderscheid gemaakt tussen de twee mogelijke samenstellingen van de toets op elk afnamemoment: ofwel Start plus Vervolg 1 (in de grafieken weergegeven als SV1) ofwel Start plus Vervolg 2 (in de grafieken SV2 genoemd). Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen.
40
Figuur 5.1
Grootte van de meetfouten voor de papieren toets E3 en de kansdichtheidfuncties voor de E3-populatie B e g r ijp e n d le z e n E 3
T o e t s E 3 - S V 1 p a p ie r T o e t s E 3 - S V 2 p a p ie r P o p u la t ie E 3
0 .0 2 5
0 .0 2 0
0 .0 1 5
10
kansdichtheid
standaardmeetfout
15
0 .0 1 0 5 0 .0 0 5
0
0 .0 0 0 -2 0
0
20
40
s c h a a ls c o r e
Figuur 5.2
Grootte van de meetfouten voor de digitale toets E3 en de kansdichtheidfuncties voor de E3populatie B e g r ijp e n d le z e n E 3 T o e t s E 3 - S V 1 d ig i T o e t s E 3 - S V 2 d ig i P o p u la t ie E 3
0 .0 2 5
0 .0 2 0
0 .0 1 5
10
0 .0 1 0 5 0 .0 0 5
0
0 .0 0 0 -2 0
0
20
s c h a a ls c o r e
41
40
kansdichtheid
standaardmeetfout
15
Figuur 5.3
Grootte van de meetfouten voor de papieren toetsen M4 en E4 en de kansdichtheidfuncties voor de M4- en E4-populatie B e g r ijp e n d le z e n M 4 - E 4 T o e ts M 4 -S V 1 T o e ts M 4 -S V 2 T o e ts E 4 -S V 1 T o e ts E 4 -S V 2 P o p u la t ie M 4 P o p u la t ie E 4
p a p ie r p a p ie r p a p ie r p a p ie r
0 .0 2 5
0 .0 2 0
10
0 .0 1 5
kansdichtheid
standaardmeetfout
15
0 .0 1 0 5 0 .0 0 5
0
0 .0 0 0 -1 0
10
30
50
s c h a a ls c o r e
Figuur 5.4
Grootte van de meetfouten voor de digitale toetsen M4 en E4 en de kansdichtheidfuncties voor de M4- en E4-populatie B e g r ijp e n d le z e n M 4 - E 4 T o e ts M 4 -S V 1 T o e ts M 4 -S V 2 T o e ts E 4 -S V 1 T o e ts E 4 -S V 2 P o p u la t ie M 4 P o p u la t ie E 4
d ig i d ig i d ig i d ig i
0 .0 2 5
0 .0 2 0
10
0 .0 1 5
0 .0 1 0 5 0 .0 0 5
0
0 .0 0 0 -1 0
10
30
s c h a a ls c o r e
42
50
kansdichtheid
standaardmeetfout
15
Figuur 5.5
Grootte van de meetfouten voor de papieren toetsen M5 en M6 en de kansdichtheidfuncties voor de M5- en M6-populatie B e g r ijp e n d le z e n M 5 - M 6 T o e ts M 5 -S V 1 T o e ts M 5 -S V 2 T o e ts M 6 -S V 1 T o e ts M 6 -S V 2 P o p u la t ie M 5 P o p u la t ie M 6
p a p ie r p a p ie r p a p ie r p a p ie r
0 .0 3
0 .0 2 10
kansdichtheid
standaardmeetfout
15
0 .0 1 5
0
0 .0 0 0
20
40
60
s c h a a ls c o r e
Figuur 5.6
Grootte van de meetfouten voor de digitale toetsen M5 en M6 en de kansdichtheidfuncties voor de M5- en M6-populatie B e g r ijp e n d le z e n M 5 - M 6 T o e ts M 5 -S V 1 T o e ts M 5 -S V 2 T o e ts M 6 -S V 1 T o e ts M 6 -S V 2 P o p u la t ie M 5 P o p u la t ie M 6
d ig i d ig i d ig i d ig i
0 .0 3
0 .0 2 10
0 .0 1 5
0
0 .0 0 0
20
40
60
s c h a a ls c o r e
Toewijzing van leerlingen aan de toetsversies De lokale meetnauwkeurigheid speelt een belangrijke rol bij het toewijzen van de juiste vervolgmodule. In de grafieken met de lokale meetnauwkeurigheid (figuur 5.1 t/m 5.6) is zichtbaar dat de meetnauwkeurigheid van een toets afneemt met toenemende vaardigheid en dat deze per toets (i.e. een combinatie van een start- en een vervolgmodule) verschilt. In de grafieken is af te lezen dat daarom vanaf een zekere vaardigheid de meetnauwkeurigheid van de combinatie Start + Vervolg 2 groter is dan van Start + Vervolg 1. De score op de module Start die correspondeert met die zekere vaardigheid, is de
43
kansdichtheid
standaardmeetfout
15
grensscore voor de verwijzing. Op grond van de score op de module Start wordt een leerling nauwkeuriger gemeten met Start en V1 als een leerling een score heeft die lager is dan de grensscore en beter met Start en V2 als een leerling op Start een score heeft die hoger is. Voor E3 Start + Vervolg 1 en E3 Start + Vervolg 2 bijvoorbeeld ligt die vaardigheid bij -0.5. De corresponderende toetsscore op E3 Start is 14. Deze toetsscore wordt dan grensscore voor de verwijzing. De grensscores voor de andere toetsen zijn op overeenkomstige wijze bepaald. In tabel 5.3 staan de scores voor verwijzing.
Tabel 5.3
E3 M4 E4 M5 M6
Toewijzing vervolgmodules papieren en digitale toetsen
Papier Vervolg 1 Vervolg 2 0-14 15-25 0-17 18-25 0-11 12-25 0-13 14-25 0-12 13-25
Digitaal Vervolg 1 Vervolg 2 0-14 15-25 0-15 16-25 0-13 14-25 0-13 14-25 0-13 14-25
Betrouwbaarheidstabellen De betekenis van de meetnauwkeurigheid voor de beslissingen die met de toetsen genomen worden, staan in de onderstaande betrouwbaarheidstabellen. De betrouwbaarheidstabellen 5.4 en 5.5 laten het effect van de lokale meetnauwkeurigheid zien. Zo laat tabel 5.4 bijvoorbeeld zien dat 83,6 procent van de leerlingen die bij de E3-toets in scoregroep E vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen. Anders gezegd: de kans dat een E-leerling terecht als een E-leerling wordt bestempeld is ongeveer 84 procent. Verder laat de tabel zien dat 16,4 procent van de leerlingen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. Bij het berekenen van deze betrouwbaarheidstabellen is rekening gehouden met vertakt toetsen (multistage testing). Leerlingen die lager scoren dan de grensscore op de module Start maken Vervolg 1, leerlingen die hoger scoren maken Vervolg 2. In de betrouwbaarheidstabellen is de populatie dus geëvalueerd met betrekking tot die toets die ze volgens dit voorschrift moeten maken. Zie tabel 5.3 voor alle grensscores op de modules Start. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleidingen van de toetspakketten (Cito, 2006a; 2006b; 2007; 2008). In de schaalscoretabellen van bijlage 2 in deze handleidingen is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 67-procents-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting.
Tabel 5.4
Betrouwbaarheidstabellen bij de papieren versie van de toetsen LOVS Begrijpend lezen
Toets E3
Toets E3 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 83,6 16,4 0,1 0,0 0,0
D 10,9 68,8 20,3 0,0 0,0
C 0,0 10,3 73,9 15,7 0,1
B 0,0 0,0 14,6 70,2 15,1
Scoregroepen V tot en met I
A 0,0 0,0 0,1 14,7 85,3
Scoregroep waarin ware score valt V IV III II I
44
V 84,8 15,1 0,1 0,0 0,0
IV 10,6 70,5 18,5 0,4 0,0
III 0,1 18,2 62,6 18,9 0,2
II 0,0 0,4 17,4 63,9 18,3
I 0,0 0,0 0,2 15,1 84,7
Toets M4
Toets M4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 82,2 17,6 0,2 0,0 0,0
D 11,4 65,0 23,5 0,1 0,0
C 0,1 11,0 67,5 21,0 0,4
B 0,0 0,1 16,5 65,1 18,4
Scoregroepen V tot en met I
A 0,0 0,0 0,3 17,6 82,1
Toets E4
Scoregroep waarin ware score valt V IV III II I
E 79,8 19,5 0,7 0,0 0,0
D 14,0 59,6 26,3 0,1 0,0
C 0,3 12,1 71,6 16,0 0,1
B 0,0 0,1 18,3 66,3 15,4
A 0,0 0,0 0,3 16,7 83,1
Scoregroep waarin ware score valt V IV III II I
II 0,0 1,0 20,9 60,7 17,4
I 0,0 0,0 1,1 22,0 76,9
V 82,0 17,7 0,3 0,0 0,0
IV 12,3 65,6 21,4 0,7 0,0
III 0,2 18,8 60,0 20,6 0,5
II 0,0 0,7 20,5 59,2 19,6
I 0,0 0,0 0,6 16,8 82,7
Toets M5 Scoregroepen E tot en met A
E 74,4 24,4 1,3 0,0 0,0
D 10,4 57,5 31,7 0,5 0,0
C 0,3 15,7 71,0 12,8 0,1
B 0,0 0,5 34,3 58,7 6,4
Scoregroepen V tot en met I
A 0,0 0,0 1,2 27,5 71,3
Toets M6
Scoregroep waarin ware score valt V IV III II I
V 82,2 17,2 0,6 0,0 0,0
IV 16,5 61,8 20,6 1,0 0,0
III 1,4 36,2 53,4 9,0 0,1
II 0,0 5,2 43,4 46,5 4,9
I 0,0 0,0 3,6 31,8 64,5
Toets M6 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
III 0,2 18,5 56,3 24,2 0,8
Scoregroepen V tot en met I
Toets M5 Scoregroep waarin ware score valt E D C B A
IV 12,6 64,3 22,1 1,0 0,0
Toets E4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 84,2 15,6 0,2 0,0 0,0
E 67,7 28,9 3,4 0,0 0,0
D 12,6 51,6 34,3 1,5 0,0
C 0,6 14,2 60,2 24,0 1,0
B 0,0 0,4 21,1 60,2 18,2
Scoregroepen V tot en met I
A 0,0 0,0 1,2 22,5 76,3
Scoregroep waarin ware score valt V IV III II I
45
V 75,7 22,8 1,4 0,0 0,0
IV 16,0 57,9 23,2 2,9 0,1
III 1,0 24,7 47,3 24,8 2,3
II 0,0 3,0 25,3 51,6 20,1
I 0,0 0,1 2,8 23,3 73,7
Tabel 5.5
Betrouwbaarheidstabellen bij de digitale versie van de toetsen LOVS Begrijpend lezen
Toets E3
Toets E3 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 80,4 19,4 0,2 0,0 0,0
D 10,3 68,1 21,6 0,0 0,0
C 0,0 10,5 73,6 15,8 0,1
B 0,0 0,0 16,2 69,2 14,5
Scoregroepen V tot en met I
A 0,0 0,0 0,1 15,7 84,2
Toets M4
Scoregroep waarin ware score valt V IV III II I
E 79,2 20,4 0,4 0,0 0,0
D 11,7 64,5 23,8 0,1 0,0
C 0,1 11,3 71,6 16,9 0,1
B 0,0 0,0 15,8 70,5 13,6
A 0,0 0,0 0,1 15,2 84,7
Scoregroep waarin ware score valt V IV III II I
II 0,0 0,6 20,0 63,9 15,5
I 0,0 0,0 0,4 17,8 81,8
V 84,4 15,5 0,2 0,0 0,0
IV 12,9 65,6 20,9 0,5 0,0
III 0,2 17,3 62,0 20,4 0,2
II 0,0 0,4 18,6 66,9 14,1
I 0,0 0,0 0,3 18,0 81,7
Toets E4 Scoregroepen E tot en met A
E 80,9 18,7 0,4 0,0 0,0
D 11,8 63,3 24,9 0,0 0,0
C 0,1 9,7 73,1 17,0 0,1
B 0,0 0,0 16,2 69,1 14,7
Scoregroepen V tot en met I
A 0,0 0,0 0,1 15,3 84,6
Toets M5
Scoregroep waarin ware score valt V IV III II I
V 85,4 14,5 0,1 0,0 0,0
IV 11,6 68,1 19,8 0,5 0,0
III 0,1 17,7 61,6 20,2 0,3
II 0,0 0,5 20,1 63,2 16,2
I 0,0 0,0 0,5 17,2 82,3
Toets M5 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
III 0,1 17,2 61,6 20,8 0,3
Scoregroepen V tot en met I
Toets E4 Scoregroep waarin ware score valt E D C B A
IV 11,4 68,9 19,3 0,4 0,0
Toets M4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 85,5 14,4 0,1 0,0 0,0
E 80,4 19,2 0,4 0,0 0,0
D 12,3 64,2 23,5 0,1 0,0
C 0,1 11,3 71,2 17,4 0,1
B 0,0 0,1 17,4 67,4 15,1
Scoregroepen V tot en met I
A 0,0 0,0 0,2 16,0 83,8
46
Scoregroep waarin ware score valt V IV III II I
V 85,2 14,6 0,2 0,0 0,0
IV 13,1 65,2 21,1 0,6 0,0
III 0,2 18,3 60,5 20,7 0,4
II 0,0 0,8 21,5 61,8 15,9
I 0,0 0,0 0,6 18,0 81,4
Toets M6
Toets M6 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 71,5 26,7 1,9 0,0 0,0
D 11,8 55,2 32,2 0,8 0,0
C 0,4 13,3 63,4 22,2 0,7
B 0,0 0,5 22,7 59,7 17,1
Scoregroepen V tot en met I
A 0,0 0,0 1,1 21,3 77,6
47
Scoregroep waarin ware score valt V IV III II I
V 77,8 21,3 0,9 0,0 0,0
IV 13,2 60,2 23,9 2,6 0,0
III 0,7 23,2 49,0 25,2 2,0
II 0,0 3,5 26,3 51,5 18,6
I 0,0 0,1 2,7 22,6 74,7
48
6
Validiteit
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De opgaven in de toetsen Begrijpend lezen in het LOVS sluiten nauw aan bij het doel en de inhoud van onderwijs in begrijpend lezen op de basisschool. Van de leerlingen die de toetsen maken, wordt gevraagd eerst aandachtig een tekst te lezen en vervolgens daarover opgaven te beantwoorden. De inhoud van de vragen komt overeen met de vragen in taal- en leesmethoden in het basisonderwijs. De toetsen bestaan uit een gevarieerd aanbod van teksten. Ze verschillen in soort (fictie, non-fictie), lengte en in moeilijkheid. Een verder inhoudelijke analyse van de toetsen Begrijpend lezen staat in paragraaf 3.2 van deze verantwoording.
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan de verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toetsen Begrijpend lezen beschreven. 6.2.1
Passing van het meetmodel
De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Items die niet voldeden aan de passingscriteria die we beschreven in 4.3.2, werden uit de verzameling verwijderd. Het betrof items waarop waarschijnlijk wordt gegokt, items die niet juist geformuleerd zijn, items die een slecht onderscheidend vermogen bleken te hebben, of items die bij nader inzien toch niet alleen begrijpend lezen bleken te meten. De vraag of het unidimensionale concept onder de opgaven in de opgavenbank Begrijpend lezen kan worden opgevat als de vaardigheid ‘begrijpend lezen’, kan met behulp van de gegevens in hoofdstuk 4 met ‘ja’ beantwoord worden. De geslaagde kalibratie maakt duidelijk dat het aannemelijk is dat er sprake is van unidimensionaliteit en dat deze gekalibreerde opgavenbank de latente trek meet die we de vaardigheid begrijpend lezen noemen. 6.2.2
Equivalentie met eerdere toetsen
Met het oog op de validering van de opgavenbank Begrijpend lezen zijn verschillende studies uitgevoerd en gerapporteerd (Staphorsius, 1994; Staphorsius, Krom & Kleintjes, 2001; Staphorsius, Verhelst & Kleintjes, 2001). Hier wordt in aanvulling daarop een analyse gegeven van onderzoeksgegevens die in het jaar 2006 verzameld zijn in het kader van een kwaliteitscontrole van de Entreetoets groep 6.
49
Tabel 6.1
Blez Schr PV Spel Wsch TaalT ReGB ReMT ReT StvN StvK StvG StvT
Blez 1.00 0.84 0.52 0.57 0.75 0.90 0.60 0.64 0.66 0.74 0.67 0.71 0.79
Correlaties tussen Begrijpend lezen en andere variabelen gemeten met de Entreetoets groep 6 (2006) Schr
PV
Spel
Wsch
TaalT
ReGB
ReMT
ReT
StvN
StvK
StvG
StvT
1.00 0.54 0.59 0.76 0.92 0.64 0.66 0.69 0.77 0.67 0.73 0.81
1.00 0.40 0.46 0.55 0.46 0.46 0.48 0.48 0.45 0.47 0.52
1.00 0.50 0.78 0.51 0.49 0.53 0.54 0.45 0.48 0.55
1.00 0.86 0.54 0.63 0.62 0.71 0.62 0.66 0.74
1.00 0.66 0.70 0.72 0.80 0.69 0.74 0.83
1.00 0.84 0.96 0.63 0.64 0.71 0.74
1.00 0.95 0.68 0.68 0.74 0.78
1.00 0.69 0.70 0.77 0.80
1.00 0.67 0.73 0.89
1.00 0.71 0.88
1.00 0.91
1.00
De Entreetoets groep 6 (Cito, 2000) bestaat onder andere uit een onderdeel Begrijpend lezen (Blez), waarin opgaven aan de orde komen die vergelijkbaar zijn met de opgaven in de toetsen LOVS Begrijpend lezen. De andere taalonderdelen zijn: Schrijfvaardigheid (Schr), Herkennen Persoonsvorm (PV), Spelling (Spel) en Woordenschat (Wsch). Voor Rekenen-Wiskunde zijn de onderdelen Getallen en bewerkingen (ReGB) en Meten, Tijd en Geld (ReMT) opgenomen. Studievaardigheden ten slotte bestaat uit de onderdelen Hanteren van Naslagwerken (StvN), Kaartlezen (StvK) en Lezen van Schema’s Tabellen en Grafieken (StvG). In tabel 6.1 worden de correlatiecoëfficiënten tussen de hierboven genoemde onderdelen van de Entreetoets gerapporteerd. Voor Taal, Rekenen-Wiskunde en Studievaardigheden zijn ook de totaalscores opgenomen: respectievelijk TaalT, ReT en StvT. Uit de tabel blijkt dat de correlaties tussen Begrijpend Lezen (Blez) en de semantische taken (schrijfvaardigheid, woordenschat en studieteksten) hoger zijn dan tussen de meer formele onderdelen als spelling en herkennen van de persoonsvorm. Ook tussen Begrijpend lezen en Rekenen is de correlatie lager dan tussen Begrijpend lezen en andere taken waarin semantische vaardigheden domineren. Een aanwijzing voor de validiteit van de opgaven Begrijpend lezen is de relatief hoge correlatie tussen StvN (Studievaardigheden ‘Hanteren van Naslagwerken’) en Blez (r = 0.74). StvN is een taak die veel raakvlakken heeft met Begrijpend lezen. Van de leerlingen wordt in deze taak gevraagd om op allerlei manieren informatie te parafraseren (bijvoorbeeld het samenvatten van informatie in een passend trefwoord of het formuleren van een vraag naar de kern van de boodschap). 6.2.3
Longitudinale vaardigheidstoename
Vergelijkbaarheid van de oude en nieuwe normering Het normeringsonderzoek dat referentiegegevens opleverde voor de CLIB Toetsen Begrijpend Lezen (Cito, 1992) is verantwoord in Staphorsius (1994) en Staphorsius, Verhelst & Kleintjes (2001). Het ijkingsonderzoek voor de Toetsen Begrijpend Lezen is verantwoord in Staphorsius, Krom, Kleintjes & Verhelst (2001). In genoemde publicaties zijn de steekproeven gecontroleerd op representativiteit. In tabel 6.2 staan voor alle genoemde populaties de schatting van het gemiddelde, de standaarddeviatie en het aantal leerlingen in de normeringssteekproef. De CLIB (Cito LeesIndex Basisonderwijs) is een transformatie van de vaardigheidsschaal en is verantwoord in Staphorsius (1994).
50
Tabel 6.2
Schatting van het gemiddelde en standaardafwijking van de CLIB in de populaties E4-E8
Normeringsmoment E4 M5 E5 M6 E6 M7 E7 M8 E8
Gemiddelde 14 22 30 33 42 49 55 58 65
SD 17 16 17 17 18 17 21 19 23
Aantal leerlingen 1253 965 1373 986 1288 943 1325 901 1422
In tabel 6.3 staan nogmaals de gemiddelde CLIB-waarde en de standaardafwijking per normeringsgroep: E3; M4; E4; M5; en M6. Rekening houdend met wat in hoofdstuk 5 gezegd is over de representativiteit en het aantal leerlingen waarop de normering is gebaseerd, kan vastgesteld worden dat de ‘oude’ gemiddeldes ongeveer gelijk zijn aan de gemiddeldes die bepaald werden in de recente normeringssteekproeven. Wel zijn de standaarddeviaties ten opzichte van de oude normering enigszins. gekrompen. De items van de nieuwe toetsen zijn gekalibreerd op de oude, bestaande schaal Begrijpend lezen, en de toetsen op de verschillende meetmomenten leiden tot vergelijkbare normeringen. Deze vergelijkbaarheid van de normeringsgegevens is een onderbouwing van de validiteit van de nieuwe toetsen.
Tabel 6.3
Gemiddelde vaardigheidsscore (CLIB) en standaardafwijking bij de toetsen LOVS Begrijpend lezen
Normeringsmoment E3 M4 E4 M5 M6
Gemiddelde -2.40 8.91 13.18 22.32 33.13
Standaarddeviatie 15.63 14.29 15.28 13.91 13.24
Responsiviteit De toetsen in het LOVS moeten in staat zijn om veranderingen te kunnen meten. Door het kalibratieonderzoek liggen de opgaven op één onderliggende schaal Begrijpend lezen. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt, de gemiddelden per afnamemoment verschillen immers. Uit de (latente) correlaties in tabel 6.4 blijkt dat de correlaties hoog genoeg zijn om te kunnen beweren dat bijna alle leerlingen een zekere groei doormaken, maar niet zo hoog om te kunnen stellen dat dit voor alle leerlingen het geval is. Het bovenstaande is een onderbouwing dat de toetsen LOVS Begrijpend lezen in staat zijn veranderingen (responsiviteit) te meten. (In de tabel ontbreekt afnamemoment M6 omdat de gegevens hiervoor uit een aparte steekproef afkomstig zijn.)
Tabel 6.4
Latente correlaties tussen leerlingen op de verschillende normeringsmomenten
Normeringsmoment E3 M4 E4 M5
E3
M4
E4
0.78 0.78 0.66
0.85 0.73
0.85
51
52
7
Samenvatting
In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken. Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen uitvoerig zijn beschreven, werd in hoofdstuk 4 over het normeringsonderzoek gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de papieren afnames en de gecombineerde papierendigitale afnames zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles achteraf (wat betreft spreiding over regio’s) wijzen uit dat de steekproeven representatief genoemd kunnen worden voor de populatie van scholen in Nederland. De vergelijkbaarheid van de ‘nieuwe’ normering met de bestaande ‘oude’ normering van de Toetsen Begrijpend Lezen is ook aangevoerd als onderbouwing van de representativiteit van de nieuwe normeringsgroepen. Het normeringsonderzoek leverde de resultaten op zoals vermeld in tabel 4.14: Overzicht van de vaardigheidsverdelingen per normeringsmoment. In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten (MAcc’s) zijn zowel voor de papieren als de digitale versie van de toetsen hoog tot zeer hoog. Ze variëren van 0,83 tot 0,93. In de figuren 5.1 tot en met 5.6 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. Over validiteit werd in hoofdstuk 6 gerapporteerd. De toetsen LOVS Begrijpend lezen sluiten nauw aan bij het doel en de inhoud van het onderwijs in begrijpend lezen in de basisschool (zie paragraaf 6.1). Een andere belangrijke indicatie voor de validiteit van de opgaven LOVS Begrijpend lezen komt uit het kalibratieonderzoek (hoofdstuk 4). Daaruit is gebleken dat de verzameling opgaven waaruit de toetsen Begrijpend lezen zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept (paragraaf 6.2.1). In paragraaf 6.2.2 zijn de correlaties beschreven tussen het onderdeel Begrijpend lezen in de Entreetoets groep 6 (waarvan de opgaven ook deel uitmaken van de LOVS-opgavenbank Begrijpend lezen) en andere onderdelen van de Entreetoets groep 6 (Cito, 2000). Uit deze gegevens blijkt dat de scores op het onderdeel Begrijpend lezen sterk samenhangen met scores op de onderdelen die inhoudelijk veel raakvlakken hebben met begrijpend lezen, namelijk de andere (semantische) taalonderdelen Woordenschat en Schrijven en het onderdeel Hanteren van Naslagwerken (Studievaardigheden). De laatste aanwijzing voor de validiteit van de toetsen werd beschreven in paragraaf 6.2.3. In deze paragraaf is beschreven dat de normeringsgegevens van de oude en nieuwe toetsen Begrijpend lezen ongeveer gelijk zijn, wat een onderbouwing is van de validiteit van de nieuwe toetsen. Daarnaast is aangegeven dat de correlaties tussen de latente vaardigheden op twee opeenvolgende toetsen hoog zijn. En dat de verwachting is dat de vaardigheidsscore ook toeneemt van meetmoment tot meetmoment. Dat betekent dat de scores van een leerling op een bepaalde toets goed voorspeld kunnen worden met behulp van de score op de voorafgaande toets.
53
54
8
Literatuur
Aarnoutse, C.A.J. & Leeuwe, J.F.J. van (1988). Het belang van technisch lezen, woordenschat en ruimtelijke intelligentie voor begrijpend lezen. Pedagogische Studiën, 2, 49-59. Alexander, P.A..,& Jetton, T.L. (2000). Learning from Text: A Multidimensional and Developmental Perspective. In P.B. Kamil, P.B. Mosenthal, P.D. Pearson & R. Barr, (Eds.) (pp. 285-310). Handbook of Reading Research, Volume 3. Mahwah, NJ: Lawrence Erlbaum. Baker, L. & Brown, A.L. (1984). Metacognitive skills and reading. In P.D. Pearson (Ed.), Handbook of Reading Research, Volume I (pp. 353-394). New York: Longman. Bruner, J.S. (1985). The role of interaction formats in language acquisition. In J.P. Forgas (Ed.), Language and social situations (pp. 31-46). New York: Springer Verlag. Bruner, J. S. (1986). Actual minds, possible worlds. Cambridge, MA: Harvard University Press. Campbell, J.R., Kelly, D.L., Mullis, I.V.S., Martin, M.O. & Sainsbury, M. (2001). Framework and Specifications for PIRLS Assessment 2001 (2nd edition). Chestnut Hill, MA: PIRLS International Study Center, Boston College. Cito (1992). CLIB-toetsen Begrijpend lezen. Arnhem: Cito. Cito (2000). Entreetoets groep 6. Arnhem: Cito. Cito (2006a). LOVS Begrijpend lezen groep 3. Arnhem: Cito. Cito (2006b). LOVS Begrijpend lezen groep 4. Arnhem: Cito. Cito (2007). LOVS Begrijpend lezen groep 5. Arnhem: Cito. Cito (2008). LOVS Begrijpend lezen groep 6. Arnhem: Cito. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159. COTAN (2009). Beoordelingssysteem voor de kwaliteit van tests. Amsterdam, NIP/Cotan. Eggen, T.J.H.M. (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Elsäcker, W. (2002). Development of Reading Comprehension: The Engagement Perspective (dissertatie). Nijmegen: KUN. Engelen, R.J.H. en Eggen, T.J.H.M. (1993). Equivaleren. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Garner, (1987). Metacognition and reading comprehension. Norwood, NJ: Ablex. Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Goldman, S.R. & Rakestraw, J.A. jr. (2000). Structural Aspects of Constructing Meaning From Text. In P.B. Kamil, P.B. Mosenthal, P.D. Pearson & R. Barr, (Eds.) (pp. 311-335). Handbook of Reading Research, Volume 3. Mahwah, NJ: Lawrence Erlbaum.
55
Guthrie, J.T. & Wigfield, A. (1997). Reading engagement. Motivating readers through integrated instruction. Newark, DE: IRA. Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Kamphuis, F. (1993). Multi. Arnhem: Cito. Kamphuis, F. (1998). Estimation and prediction of individual ability in longitudinal studies. In: J.H.L. Oud & R.A.W. van den Blokland-Vogelesang (Eds.). Advances in longitudinal and multivariate analysis in the behavioural sciences. Nijmegen: ITS. Kamil, P.B., Mosenthal, P.B., Pearson, P.D. & Barr, R. (Eds.) (2000). Handbook of Reading Research, Volume 3. Mahwah, NJ: Lawrence Erlbaum. Langer, J.A. (1990). The process of understanding: Reading for literary and informative purposes. Research in the Teaching of English, 24, 3, pp. 229-260. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Mislevy, RJ. (1984). Estimating latent distributions, Psychometrika, 49(3), 359-381. Mislevy, R. J. (1991). Randomization-based inferences about latent variables from complex samples. Psychometrika, 56, 2, pp. 177-196. Paris, S.G., Wasik, B.A. & Turner, J.C. (1991). The development of strategic readers. In R. Barr, M.L. Kamil, P.B. Mosenthal & P.D Pearson (Eds.), Handbook of Reading Research, Volume 2. (pp. 609-640). New York: Longman. Pearson, P.D., Roehler, L.R., Dole, J.A. & Duffy, G.G. (1992). Developing expertise in reading comprehension. In S.J. Samuels & A.E. Farstrup (Eds.), What research has to say about reading instruction (pp. 145-199). Newark, DE: IRA. Pressley, (2000). What Should Comprehension Instruction Be the Instruction Of. In P.B. Kamil, P.B. Mosenthal, P.D. Pearson & R. Barr, (Eds.) (pp.545-561). Handbook of Reading Research, Volume 3. Mahwah, NJ: Lawrence Erlbaum. Pressley, M. & Afflerbach, P. (1995). Verbal protocols of reading: The nature of constructively responsive reading. Hillsdale, NJ: Erlbaum. Pressley, M., Harris, K.R. & Marks, M.B. (1992). But good strategy instructors are constructivists! Educational Psychology Review, 4, 3-31. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Reitsma, P. & Walraven, M. (1991). Inleiding: ontwikkelingen in theorie en onderzoek. In P. Reitsma & M. Walraven (Eds.), Instructie in begrijpend lezen. Delft: Eburon.
Rubin, D (1987). Multiple imputation for non-response in surveys. New York: Wiley. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente. Staphorsius, G., Krom, R.S.H., Kleintjes, F.G.M. & Verhelst, N.D. (1998). Toetsen Begrijpend Lezen, handleiding. Arnhem: Cito.
56
Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D. (1989). Informatiewinst bij vertakt toetsen. In: W.J. van der Linden & L.J.Th. van der Kamp (red.). Meetmethoden en data-analyse (pp. 89-96). Lisse: Swets en Zeitlinger. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen & P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D. & Glas, C.A.W. (1995) The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponstheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Verstralen, H.H.F.M. & Eggen, T.H.J.M. (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verhoeven, L. & Snow, C. (Eds.) (2001). Literacy and motivation. Reading Engagement in Individuals and Groups. Mahwah, NJ: Erlbaum. Zwarts, M. & Rijlaarsdam, G.C.W. (1991). Verantwoording van de taalpeiling einde basisonderwijs 1988. Arnhem: Cito.
57