Wetenschappelijke Verantwoording van de toetsen Technisch lezen voor groep 3 tot en met 5 uit het LOVS
Ineke Jongen Ronald Krom Marieke van Onna Norman Verhelst
Cito, Arnhem 2011 1
© Cito B.V. Arnhem (2011) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook. 2
Inhoud
1
Inleiding
5
Deel 1 Wetenschappelijke verantwoording van de toetsen Leestechniek 2 2.1 2.2 2.3 2.4
Uitgangspunten van de toetsconstructie Meetpretentie 9 Doelgroep 9 Gebruiksdoel en functie 10 Theoretische inkadering 11
3 3.1 3.2
Beschrijving van de toets 21 Opbouw, structuur, afname van de toetsen en rapportage Inhoudsverantwoording 22
4 4.1 4.2 4.3
Het normeringsonderzoek 27 Opzet en verloop van het normeringsonderzoek Representativiteit 27 Kalibratie en normering 32
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 35 Nauwkeurigheid 36
6 6.1 6.2
Validiteit 39 Inhoudsvaliditeit Begripsvaliditeit
7
9
21
27
35
39 40
Deel 2 Wetenschappelijke verantwoording van de toetsen Leestempo 7 7.1 7.2 7.3 7.4
Uitgangspunten van de toetsconstructie Meetpretentie 47 Doelgroep 47 Gebruiksdoel en functie 47 Theoretische inkadering 48
47
8 8.1 8.2
Beschrijving van de toets 55 Opbouw, structuur, afname van de toetsen en rapportage Inhoudsverantwoording 56
9 9.1 9.2 9.3
Het normeringsonderzoek 59 Opzet en verloop van het normeringsonderzoek Representativiteit 60 Kalibratie en normering 65
10 10.1 10.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 69 Nauwkeurigheid 70
11 11.1 11.2
Validiteit 75 Inhoudsvaliditeit Begripsvaliditeit
59
69
75 76
3
55
45
12 12.1 12.2
Samenvatting 81 Samenvatting toetsen Leestechniek 81 Samenvatting toetsen Leestempo 81
13
Literatuur
Bijlagen
83
87
4
1
Inleiding
Deze wetenschappelijke verantwoording heeft betrekking op de toetsen Technisch lezen voor groep 3 tot en met 5. Samen met de inhoud van de toetspakketten LOVS Technisch lezen (Cito 2009a; 2009b; 2009c) levert deze verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de betreffende meetinstrumenten. De toetsen Technisch lezen kennen twee opgavenvormen: opgaven Leestechniek (midden en eind groep 3) en opgaven Leestempo (eind groep 3 tot en met groep 5). De toetsen Technisch lezen opgavenvorm Leestechniek zullen gemakshalve verder ‘(toetsen) Leestechniek’ genoemd worden; voor de toetsen Technisch lezen opgavenvorm Leestempo wordt de naam ‘(toetsen) Leestempo’ gehanteerd. Een andere terminologische kwestie is het gebruik van de term leesvaardigheid: tenzij nadrukkelijk anders vermeld, wordt daarmee de technische leesvaardigheid van leerlingen bedoeld. Hoe verhouden de beide toetsen zich tot elkaar? De toets Leestechniek is te beschouwen als een ‘voorloper’ op de toets Leestempo. Bij de toets Leestechniek, voor leerlingen in groep 3, gaat het om het lezen van woorden; bij de toets Leestempo, voor eind groep 3 tot en met groep 5, om het lezen van teksten. De scores die leerlingen op beide toetsvormen behalen liggen niet op een en dezelfde vaardigheidsschaal: er is een schaal Leestechniek en een schaal Leestempo. Beide toetsen worden hieronder afzonderlijk verantwoord: Leestechniek in deel 1 en Leestempo in deel 2. De wetenschappelijke verantwoording maakt, samen met de inhoud van de toetspakketten LOVS Technisch lezen voor groep 3 tot en met 5, een beoordeling van de toetsen LOVS Technisch lezen mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie – De kwaliteit van het toetsmateriaal – De kwaliteit van de handleiding – Normen – Betrouwbaarheid – Validiteit Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het LOVS niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (Leestechniek: hoofdstuk 2 en 3; Leestempo: hoofdstuk 7 en 8), de normen (Leestechniek: hoofdstuk 4; Leestempo: hoofdstuk 9), de betrouwbaarheid en meetnauwkeurigheid (Leestechniek: hoofdstuk 5; Leestempo: hoofdstuk 10) en de begripsvaliditeit (Leestechniek: hoofdstuk 6; Leestempo: hoofdstuk 11) van de toetsen in LOVS Technisch lezen voor de jaargroepen 3, 4 en 5. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van de toetspakketten.
5
6
Deel 1
Wetenschappelijke verantwoording van de toetsen Leestechniek
7
8
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
Binnen het leesonderwijs op de basisschool wordt een onderscheid gemaakt tussen technisch lezen en begrijpend lezen. Het technisch lezen is geen doel op zich, maar wordt gezien als een voorwaardelijke activiteit voor het leren begrijpen van teksten. Het ontsleutelen van geschreven woorden is een vaardigheid die traditioneel wordt gemeten met hardop-leestoetsen, zoals uit onderstaande tabel 2.1 is af te lezen. De toetsen Leestechniek in LOVS Technisch lezen groep 3 daarentegen beogen de technische leesvaardigheid te meten door middel van zogenaamde stilleestoetsen. In paragraaf 3.2 wordt (aan het eind) verder ingegaan op het verschil tussen de hardop- en stilleessituatie. Tabel 2.1
Instrumenten voor het meten van de technische leesvaardigheid1
Naam AVI De Klepel Differentiële zinnenleestest Drie-Minuten-Toets Een-Minuut-Test Schoolvaardigheidstoets Technisch lezen Technisch lezen 345678, 90A/B Technisch lezen: Leestechniek Technisch lezen: Leestempo TPVO
Gevraagde leesgedrag hardop lezen hardop lezen hardop lezen hardop lezen hardop lezen hardop lezen
Te lezen materiaal teksten pseudowoorden zinnen woorden woorden teksten
hardop lezen
woorden
stil lezen
Uitgever Cito Pearson Berkhout Cito Pearson Boom
Jaar van uitgave 2009 1994 1982 2009 1999 2007 2005
woorden
678 OnderwijsAdvisering Cito
stil lezen
teksten
Cito
2009
hardop lezen
woorden
A-vision
2008
2009
Hieronder in tabel 2.2 staat specifieker hoe de vier instrumenten die Cito uitgeeft op het gebied van technisch lezen zich tot elkaar verhouden. Tabel 2.2
Cito-instrumenten voor technisch lezen
Op woordniveau
Op tekstniveau
Hardop lezen
DMT
AVI
Stillezen
Leestechniek
Leestempo
2.2
Doelgroep
De toetsen Leestechniek in LOVS Technisch lezen zijn bestemd voor en genormeerd bij leerlingen in groep 3 in het basisonderwijs. Voor de toetsen in groep 3 zijn de populatieparameters zowel op ‘midden leerjaar’ als op ‘einde leerjaar’ bepaald. De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere leerlingen in Nederland.
1
Bron: Toetsgids (www.toetswijzer.kennisnet.nl)
9
2.3
Gebruiksdoel en functie
LOVS Technisch lezen heeft twee hoofddoelen en twee nevendoelen. De hoofddoelen zijn: niveaubepaling en progressiebepaling. De nevendoelen hebben betrekking op het selecteren van passend leesmateriaal (voor alle leerlingen) en op het analyseren van de door de leerling gemaakte fouten met het oog op het aanbieden van gerichte remediëring (voor geselecteerde leerlingen). Deze laatstgenoemde signalering staat geheel los van de niveau- en progressiebepaling en is in de kalibratieen normeringsonderzoeken niet wetenschappelijk getoetst. Niveaubepaling De toetsafnamen in het kader van LOVS Technisch lezen geven de leerkracht informatie over het leesvaardigheidsniveau van zijn leerlingen, individueel of als groep. Iedere behaalde leesvaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 3.1 voor de verdeling van de niveaugroepen en 4.2 voor de beschrijving van de referentiegroep). Progressiebepaling De toetsen in LOVS Technisch lezen geven de leerkracht informatie over de ontwikkeling van de leesvaardigheid van zijn leerlingen, individueel of als groep, in groep 3. Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – de aantallen opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal. Deze unidimensionele vaardigheidsschaal die aan de toetsen Leestechniek binnen de toetsen LOVS Technisch lezen ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1994). Zoals in de inleiding reeds vermeld is, bestaat er voor de toetsen Leestempo een aparte vaardigheidsschaal. Selectie van leesstof Het nevendoel van LOVS Technisch lezen is het afstemmen van de leesstof op de leesvaardigheid. Deze afstemming kan plaatsvinden omdat de scores die leerlingen op de toetsen in LOVS Technisch lezen behalen omgezet kunnen worden in een AVI-niveau. Zoals de vaardigheidsscores van leerlingen op de toetsen in LOVS Technisch lezen omgezet kunnen worden in een AVI-niveau, kan ook de leesmoeilijkheid die een tekst heeft, uitgedrukt worden in een AVI-niveau. Met behulp van het AVI-niveau worden leesvaardigheid en leesbaarheid (i.e. vereiste leesvaardigheid) op één schaal gebracht. Dit maakt het – in het kader van een individueel leesadvies – mogelijk om voor een leerling leesteksten te selecteren met een moeilijkheid die afgestemd is op de leesvaardigheid waarover hij of zij kan beschikken. Een toenemend aantal jeugdboeken wordt van een AVI-niveau voorzien en de uitgevers ervan plaatsen deze index, samen met eventueel het CLIB-niveau voor de begripsmatige moeilijkheid van de tekst, in een beeldmerk dat in hun boeken wordt afgedrukt. Signalering via categorieënanalyse (woordcategorie en foutensoort) Met behulp van de analyseformulieren bij de toetsen Leestechniek in LOVS Technisch lezen groep 3 kan de leerkracht op eenvoudige wijze zien met welke woordcategorieën een of meerdere leerlingen problemen hebben. De gehanteerde indeling gaat uit van drie parameters: het aantal lettergrepen, de combinatie van aantal klinkers (k) en medeklinkers (m) en het voorkomen van gesloten of open lettergreep (zie ook paragraaf 3.2). Een dergelijke analyse is alleen relevant voor de E3-toets; de opgaven van de M3-toets behoren namelijk alle tot één categorie. Individuele leerlingen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen wellicht baat hebben bij extra instructie en gerichte oefeningen. Door het invullen van een analyseformulier of het invoeren van de antwoorden van de leerling in het Computerprogramma LOVS kan de leerkracht nagaan met welke woordcategorie(ën) een leerling problemen had in de toets Technisch lezen. Het analyseformulier biedt ook de mogelijkheid om in kaart te brengen welke soort fóuten een leerling maakt. Daarbij is het uitgangspunt dat de keuze voor een bepaalde afleider correspondeert met een bepaald soort fout: als een leerling bijvoorbeeld kiest voor ‘straat’ in plaats van het grondwoord ‘staart’ spreekt men van een zogenaamde ‘weglaat-, toevoeg- of dooreengooi-fout (WTD)’. Zoals al aan het begin van deze paragraaf werd gezegd, is er geen kwalitatief of kwantitatief onderzoek gedaan naar het adequaat functioneren van de categorieënanalyse. De signalering via categorieënanalyse heeft dan ook geen enkele wetenschappelijke status of pretentie. Haar enige functie is het doen van een handreiking naar
10
leerkrachten die gericht extra ondersteuning willen bieden aan leerlingen die moeite hebben met het correct lezen van bepaalde soorten woorden.
2.4
Theoretische inkadering
2.4.1
Inhoudelijk1
Inleiding Voorwaardelijk voor het lezen met begrip is het complex van processen dat in het onderwijs in ons land bekend staat als technisch lezen. Binnen het technisch lezen spelen twee processen een essentiële rol: decoderen en het proces van de woordherkenning. Decoderen, ook wel ontsleutelen of verklanken genoemd, is het omzetten van een visuele code in een klankcode: het leggen van relaties tussen 'spraakklanken' en geschreven woorden, waarbij de aanhalingstekens rond het woord spraakklanken in deze omschrijving bedoeld zijn om aan te geven dat het bij decoderen niet per definitie om het hardop uitspreken van ontsleutelde woorden hoeft te gaan; het verklanken van woorden kan hoorbaar of niet-hoorbaar gebeuren. Bij het decoderen gaat het om het leggen van relaties tussen woorden in hun orthografische vorm en de daarmee geassocieerde klankvorm. De sterkte van de cognitieve representatie van de klankvormen en de snelheid en accuratesse waarmee die representaties kunnen worden opgeroepen en verwerkt, bepalen iemands decodeervaardigheid. Anders gezegd, leerlingen zijn decodeervaardig in de mate dat deze deelprocessen bij hen accuraat en vlot verlopen. In met name het aanvankelijk (technisch-)leesonderwijs wordt dan ook gestreefd naar het bewerkstelligen van stabiele en vlot beschikbare orthografie-klankassociaties bij leerlingen. Woordherkenning betreft het activeren van de met een woord verbonden inhoudelijke informatie, met het oog op de toekenning van betekenis aan dat woord. Zelfs bij de start van het aanvankelijk leesonderwijs – voor de meeste van hen in groep 3 van de basisschool – hebben leerlingen al een behoorlijke (mondelinge) woordenschat. Het proces van de woordherkenning komt in dat licht neer op het relateren van bekende semantische informatie (woordbetekenissen) aan op dat moment nog tamelijk onbekende orthografische informatie (geschreven woorden), die – zie onder – al dan niet verklankt is. Uiteraard verloopt de woordherkenning efficiënter en sneller naarmate meer woorden, en meer woorden vollediger, gerepresenteerd zijn in het brein van de lezer. Het decodeerproces, het proces van de woordherkenning en de relatie tussen deze processen wordt beschreven in diverse theoretische modellen die zijn ontwikkeld om het leesproces te beschrijven. In het onderstaande worden de voornaamste van deze modellen besproken. Bestudering van deze modellen is van belang omdat zij de variatie in de ontwikkeling van de leesvaardigheid kunnen verklaren. Leesmodellen In principe is er bij het lezen van een woord rechtstreekse woordherkenning mogelijk op basis van de orthografie van dat woord; zeker bij een gevorderde lezer. Maar er is nog een ander optie: de orthografie kan eerst omgezet – gedecodeerd – worden in een fonologische representatie die vervolgens wordt gebruikt bij de woordherkenning. Deze opties worden traditioneel respectievelijk direct en indirect genoemd. De mate waarin de ene of de andere optie wordt toegepast is een klassiek thema in het leesonderzoek; met consequenties voor de wijze waarop het leren lezen vormgegeven zou moeten worden (Harm & Seidenberg, 2004, maar zie ook Bosman & Van Orden, 2003). Onderzoekers nemen wat dit betreft uiteenlopende standpunten in. Er zijn er die aan de fonologie geen enkele rol toeschrijven als het om woordherkenning gaat, terwijl anderen fonologie daarbij juist noodzakelijk achten. En er zijn er ook die er een 'verzoenende' visie op nahouden, welke inhoudt dat beide opties belangrijk zijn maar onder verschillende omstandigheden; bijvoorbeeld bij de herkenning van zogeheten regelmatige versus onregelmatige woorden: woorden die conform hun uitspraak gespeld worden, zoals 'jas', versus woorden waarvoor dat niet geldt, zoals 'jus'. Modellen die het leesproces beschrijven, moeten deze en eventueel nog andere opties kunnen verantwoorden. Het linguïstisch analysemodel, dat tot in de jaren zestig van de vorige eeuw de theorievorming met betrekking tot het lezen heeft gedomineerd, kan dat niet. Lezen wordt in dat model beschouwd als het omzetten van individuele grafemen in fonemen op basis van een systeem van regels: de zogeheten grafeem-foneemcorrespondentieregels. Een regelsysteem als dit kan het lezen van woorden die in dit opzicht onregelmatig zijn echter niet verklaren. Voor het correct verklanken van deze woorden is aanvullende informatie nodig. Deze informatie – de aard en de rol ervan – heeft een plaats gekregen in het dubbele-routemodel.
1
Paragraaf 2.4.1 maakt onderdeel uit van zowel de Wetenschappelijke verantwoording van het toetspakket Technisch lezen (toetsen Leestechniek én Leestempo) als van de Wetenschappelijke verantwoordingen van de DMT en de AVI-toets (Krom e.a. 2010).
11
Dubbele-routemodel Het oorspronkelijke dubbele-routemodel (Coltheart, 1978) beschrijft het leesproces in termen van twee gescheiden, onafhankelijk van elkaar werkende, routes: een fonologische route en een lexicale route. Daarnaast is in het model een belangrijke rol weggelegd voor het zogeheten mentale lexicon; een intern representatiesysteem waarin informatie over woorden is opgeslagen: orthografische, fonologische, syntactische en semantische informatie. Dit model veronderstelt dat bij het (indirecte) lezen via de fonologische route een woord van links naar rechts, letter voor letter, verklankt wordt met behulp van een systeem van grafeemfoneemcorrespondentieregels om, na het auditief synthetiseren van de fonologische code tot één geheel, in het mentale lexicon als woord herkend en van betekenis voorzien te worden. Bij het lezen via de lexicale route zou de orthografische representatie van een woord direct als geheel in het mentale lexicon geactiveerd worden, waardoor vervolgens de betekenis van dat woord beschikbaar komt, zonder dat eerst een fonologische omzetting heeft plaatsgevonden. De termen direct en indirect verwijzen naar de aanname dat de indirecte of fonologische aanpak meer tijd kost en dus minder efficiënt is dan de directe of lexicale aanpak. De lexicale route zou alleen mogelijk zijn bij het lezen van woorden die een orthografische representatie hebben in het mentale lexicon; anders gezegd: woorden die een lezer relatief vaak heeft gelezen. Voor het lezen van woorden waarvoor weinig of geen informatie in het mentale lexicon beschikbaar is (respectievelijk onbekende, infrequente of pseudowoorden), zou de fonologische route gebruikt moeten worden. Experimenteel onderzoek heeft enkele resultaten opgeleverd die door het oorspronkelijke dubbele-routemodel goed verklaard kunnen worden: bestaande woorden worden sneller gelezen dan pseudowoorden; woorden met een regelmatige orthografieklankcorrespondentie worden sneller gelezen dan onregelmatige woorden en hoogfrequente woorden worden sneller gelezen dan laagfrequente woorden (Bosman, 2000). Bovendien worden lange hoogfrequente woorden even snel gelezen als korte hoogfrequente woorden, maar worden lange pseudowoorden langzamer gelezen dan korte pseudowoorden (Juphard et al. 2004). Daartegenover staan vele experimentele bevindingen die de houdbaarheid van het model in zijn oorspronkelijke vorm serieus hebben aangetast. Allereerst is duidelijk geworden dat er bij het lezen geen sprake kan zijn van volkomen gescheiden routes oftewel van een complete onderlinge onafhankelijkheid tussen de fonologische en lexicale route (Coltheart & Rastle, 1994; Paap & Noel, 1991; Rapcsak et al., 2007). Ten tweede blijkt het omzetten van een visuele code naar een klankcode – het systeem van correspondentie-regels dat een belangrijke functie heeft bij het lezen via de indirecte weg – niet alleen te spelen op het niveau van het grafeem maar ook op niveaus van eenheden groter dan het grafeem (Paap & Noel, 1991). Ten derde toont veel experimenteel onderzoek aan – maar zie Pugh et al. (1994) en Taft (2006) – dat lezen zonder gebruik te maken van de klánk van woorden niet mogelijk is of niet plaats vindt (Van Orden et al. 1988), en dat dit geldt voor lezers op alle vaardigheidsniveaus. Daaruit blijkt dat het indirecte lezen via de fonologische route geen tijdelijk stadium is. Het komt niet alleen voor bij beginnende lezers, maar ook bij ervaren lezers en bij hen niet alleen tijdens het lezen van onbekende woorden (Bosman, 2000; McLeod et al., 2001). Evidentie als hierboven beschreven, heeft geleid tot 1) bijstellingen van het dubbele-routemodel en 2) het ontstaan van alternatieve, connectionistische, ideeën. Zie voor een bespreking van twee relevante connectionistische modellen de paragraaf hieronder. Deze paragraaf vervolgt met de bespreking van de belangrijkste bijstelling van het dubbele-routemodel: het dubbele-route-cascademodel of DRC-model, (Coltheart et al., 1993); een digitale realisatie van het dubbele-routemodel. Digitaal in die zin dat het uitgevoerd is als computerprogramma waarmee taken die in experimenteel leesonderzoek gebruikelijk zijn, gesimuleerd kunnen worden. Het model wordt cascadisch genoemd vanwege de manier waarop de doorvoer van activatie in het model plaatsvindt: cascadische systemen werken niet met drempelwaarden. Dit betekent dat ook heel geringe activatieniveaus onbelemmerd kunnen 'doorstromen' van het ene modulaire niveau naar het andere. Sinds de introductie is het DRC-model in veel empirisch onderzoek op de proef gesteld en heeft het deze tests doorstaan (Ziegler et al. 2000). Onder andere in Rastle & Coltheart (1999), waarin twee experimenten worden beschreven die steun aandragen voor de aanwezigheid van twee routes, over het differentieel gebruik waarvan lezers ook een bepaalde mate van controle blijken te hebben. Ziegler et al. (2000) tonen aan dat het DRC-model ook van toepassing is op het Duits. En in een recentere beschrijving van het DRC-model claimen Coltheart et al. (2001) dat hun model zeer succesvol is in het simuleren van een baaierd aan verschijnselen op het gebied van (ondermeer) het hardop lezen. Zij eindigen hun artikel met een lange lijst van voorbeelden die deze claim moeten staven. Steun voor het model komt ook van Rapcsak, et al. (2007) die resultaten presenteren waaruit blijkt dat het DRC-model niet alleen de leesprestaties van normale lezers kan voorspellen maar ook die van patiënten met verworven alexie en agraphie. Besner & Roberts (2003) stellen desondanks een wijziging van het model voor. Deze wijziging grijpt aan op het cascadische karakter van het model en komt erop neer dat het de voorkeur verdient om, in plaats van een model dat volledig cascadisch van aard is, op lagere niveaus in het model toch 'drempels' in te bouwen. Dit zou het model in staat stellen om met z'n simulaties het menselijk leesgedrag nog weer beter te benaderen. Coltheart et al. (2001) slagen erin om met het DRC-model achttien effecten op alleen al het terrein van het hardop lezen te simuleren. Hoewel DRC aldus voldoende ondersteund lijkt te worden vanuit de empirie 12
– hetgeen aansluit bij onze intuïtie dat een model dat erin slaagt een grote reeks van verschijnselen te verklaren een goed model is – is het model niet onweersproken. Een model is slechts een middel; het doel is een theorie die leesgedrag en de neurale fundamenten daarvan verklaart. Modellen moeten niet alleen beoordeeld worden naar de mate waarin zij robuuste effecten op een bepaald terrein, zoals hardop lezen, kunnen verklaren, maar ook naar de mate waarin zij daarbuiten ‘functioneren’; bijvoorbeeld bij het verklaren van de relatie tussen gedrag en bepaalde neurofysiologische substraten (Seidenberg, 2007). Deze pretentie heeft het DRC-model niet, in ieder geval niet expliciet, maar hebben connectionistische modellen wél.1 Connectionistische modellen Sinds de late jaren tachtig van de vorige eeuw worden in het leesonderzoek connectionistische modellen toegepast. Het gaat daarbij om computermodellen die gebaseerd zijn op theorieën over hoe lezen in z'n werk gaat. En die onder andere pogen te verklaren hoe kinderen leren lezen, hoe het lezen van goede lezers verloopt en hoe leesproblemen, zoals dyslexie, verklaard kunnen worden. Het is een benadering die steunt op gedachten en aannamen over de manier waarop kennis in ons brein gerepresenteerd is, over de manier waarop die kennis verworven is en over de manier waarop deze gebruikt wordt. Connectionistische modellen ontwikkelen en toetsen hypothesen over hoe mensen lezen, en dat ten dienste van een algemene theorie: een theorie die omvangrijker is dan louter een leestheorie. Ontwikkelaars van connectionistische modellen hebben het idee van het mentale lexicon verlaten. In plaats daarvan wordt een uitgebreid netwerk van orthografische, fonologische en semantische eenheden verondersteld, waartussen bij het lezen van een woord verbindingen (connecties; vandaar de naamgeving van deze modellen) worden gelegd. Kern van het connectionisme is dat bij het lezen de verklanking van een woord of pseudowoord tot stand komt in één geïntegreerd proces, waarin op basis van kennis van statistische regelmatigheden op verschillende niveaus activatie wordt opgebouwd. Letterclusters, syllaben, morfemen en woorden die vaker zijn omgezet in klanken, worden volgens deze theorie sneller en preciezer herkend (Schijf, 2009). In de literatuur zijn twee belangrijke connectionistische modellen beschreven. Het parallelle gedistribueerde verwerkingsmodel en het fonologisch-coherentiemodel. Parallelle gedistribueerde verwerkingsmodel Het parallelle gedistribueerde verwerkings- of PDP-model, waarin PDP staat voor parallel distributed processing, is ontwikkeld door Seidenberg & McClelland (1989). In het dubbele-routemodel worden de lexicale en fonologische route als onafhankelijk opgevat. Het alternatief van het PDP-model is dat beide routes parallel werken. Vandaar de term parallel in de naam van het model; distributed slaat op de manier waarop informatie gerepresenteerd wordt geacht. Bij een gedistribueerde representatie wordt een bepaald kenmerk gerepresenteerd door een activatiepatroon. Hiertegenover staat een lokale representatie, waarin een bepaald kenmerk gerepresenteerd wordt door één enkele eigenschap, die functioneert als een detector welke geactiveerd wordt als het kenmerk aanwezig is. De ontwikkelaars van het PDP-model, die overigens niet zo zwaar lijken te tillen aan het verschil 'lokaal – gedistribueerd' (Seidenberg, 2007), opteren met name voor een gedistribueerde representatie omdat zij in hun model gebruik wensen te maken van mechanismen die consistent zijn met de gevonden evidentie met betrekking tot het functioneren van het brein. Parallel gedistribueerde netwerken bieden onderzoekers aldus redelijk goede benaderingen van de manier waarop informatie zich over het brein verspreid (Plunkett (2001) en ze hebben daarmee dan ook een behoorlijke psychologische realiteit. Dit in tegenstelling tot het fonologisch coherentiemodel (zie onder). Daarin wil men een directe analogie met het zenuwstelsel juist vermijden. Het in dat model gepresenteerde netwerk is wel op de werking van het zenuwstelsel geïnspireerd, maar de bouwstenen ervan zijn geen psychologisch reële eenheden (Bosman & Van Orden, 2003). Het oorspronkelijke PDP-model bestaat uit verzamelingen van onderling verbonden orthografische en fonologische eenheden, en een tussenniveau van 'verborgen' eenheden. Laatstgenoemde eenheden zijn noodzakelijk omdat er grenzen zijn aan de verwerkingscapaciteit van netwerken met daarin alleen directe verbindingen; de verborgen eenheden voegen aan het systeem indirecte verbindingen toe. De verbindingen tussen de verschillende eenheden zijn voorzien van gewichten die bepalen hoeveel informatie doorgegeven wordt. Deze gewichten weerspiegelen een leereffect; de aggregatie van alle training die iemand in z'n ‘leescarrière’ heeft ondergaan. Het model van Seidenberg & McClelland (1989) voldoet uitstekend in het geval van eenlettergrepige woorden, dat wil zeggen: het kan de verklanking van dit type woorden goed verklaren, maar het model heeft een beperkte waarde als het om de verklanking van pseudowoorden gaat. Volgende versies van het PDP-model (Harm & Seidenberg, 1999; Plaut et al., 1996) voldoen tamelijk goed in het geval van eenlettergrepige zowel als pseudowoorden. Harm & Seidenberg (1999) onderzoeken de rol van fonologische informatie bij het vroege lezen en in dyslexie. Hun model behelst een uitbreiding van de principes zoals geformuleerd in Seidenberg & 1
Levy et al. (2009) slagen er overigens in fMRI-onderzoek in om functionele verbindingen in het brein op te sporen die betrokken zijn bij het lezen van woorden en pseudowoorden op een manier die consistent is met het DRC-model.
13
McClelland (1989) en Plaut et al. (1996); het simuleert de ontwikkeling van de leesvaardigheid en de stoornissen die tijdens die ontwikkeling kunnen optreden en draagt daardoor bij aan ons begrip van het leren lezen en het ontstaan van dyslexie. In Harm et al. (2003) wordt het model van Harm & Seidenberg (1999) gebruikt om na te gaan waarom, met het oog op het opheffen van leesproblemen, bepaalde interventies effectiever zijn dan andere. De simulaties met dit model leren ons waarom interventies die gericht zijn op de ontwikkeling van grafeem-foneemkoppelingen effectiever zijn dan interventies die zich uitsluitend richten op het bevorderen van het fonemisch bewustzijn. In een latere versie van het PDP-model is ook een semantische component ingebouwd (Harm & Seidenberg, 2004), met name om een bijdrage te leveren aan het langlopende debat over de rol van fonologische informatie bij het stil lezen. Dit model richt zich in essentie op de vraag hoe betekenis geactiveerd wordt in een systeem waarin zowel een visuele (van orthografie naar betekenis) als een fonologische route (van orthografie via fonologie naar betekenis) beschikbaar is. Een dergelijk systeem blijkt efficiënter te werken wanneer beide routes gebruikt worden dan wanneer een van de twee geïsoleerd gebruikt wordt. Aanvankelijk, bij de beginnende lezer, wordt de semantische activatie grotendeels aangedreven via de orthografie-fonologie-betekenisroute. Na verloop van tijd begint de orthografie-betekenisroute meer invloed te krijgen. Uiteindelijk is de situatie zo dat er bij het lezen van de meeste woorden input van beide routes komt. Fonologisch-coherentiemodel Een ander relevant connectionistisch model is het fonologisch-coherentiemodel. Dit model is voor het eerst gepresenteerd in Van Orden et al. (1990) – waarin ook de assumpties van het dubbele-routemodel besproken en ondergraven worden – en later verder uitgewerkt in onder andere Van Orden & Goldinger (1994) en Bosman & Van Orden (1997). Het model is gebaseerd op de principes van de dynamische systeemtheorie en geoperationaliseerd als een netwerk waarin drie zogeheten knoopfamilies worden verondersteld: letterknopen, foneemknopen en semantische-kenmerkknopen (Bosman, 2000). Deze knoopfamilies zijn onderling op een recurrente wijze verbonden, dat wil zeggen dat de activatie tussen de knoopfamilies in beide richtingen verloopt (zie voor empirische evidentie: Stone et al., 1997); een belangrijk onderscheid ten opzichte van het PDP-model, dat een zogeheten feedforward-model is waarin de activatie zich slechts in één richting verspreidt (Bosman & Van Orden, 2003). Ook de verbindingen tussen de knopen binnen een familie zijn recurrent maar deze verbindingen zijn inhibitoir, terwijl de verbindingen tússen verschillende families steeds excitatoir zijn. Deze laatste verbindingen zijn niet alle even sterk. Dit is een essentieel kenmerk van het systeem; het weerspiegelt de sterkte van de relaties tussen de drie knoopfamilies. De sterkste verbindingen zijn die tussen de letter- en de foneemknopen; dat ligt voor de hand: er bestaan immers zeer consistente relaties tussen letters en fonemen. En dit verklaart ook waarom de fonologie een fundamentele rol speelt bij het lezen. Daarentegen is het verband tussen spraakklanken en betekeniselementen, en tussen letters en betekenis-elementen veel geringer. Het verband tussen de foneem- en semantische-kenmerkknopen is overigens sterker dan tussen de letter- en semantische-kenmerkknopen; dit omdat we leren spreken voordat we leren lezen (Bosman, 2000; Bosman & Van Orden 2003). Als dit connectionistisch netwerk een geschreven woord krijgt voorgelegd, worden de letterknopen geactiveerd. Deze sturen hun activatie door (feedforward) naar de foneem- en semantischekenmerkknopen. Vervolgens sturen de foneemknopen hun activatie terug (feedback) naar de letterknopen en door (feedforward) naar de semantische-kenmerkknopen. Deze sturen hun activatie ook terug (feedback) naar de letterknopen en door (feedforward) naar de foneemknopen. De letterknopen zenden vervolgens hun activatie weer door (feedforward) naar de foneem- en semantische-kenmerkknopen, enzovoort (Bosman & Van Orden, 1997; Bosman & Van Orden, 2003). Er ontstaat een interactief patroon van voor- en terugwaartse activaties waarbij knopen van alle drie de knoopfamilies worden geactiveerd en inconsistenties tussen de activaties van de knopen goeddeels worden weggewerkt. In dit proces komt aldus woordherkenning tot stand door recurrente, onderlinge beïnvloeding van knopen van verschillende knoopfamilies: een dynamisch proces van coöperatie en competitie, waaruit – als de voorwaartse en terugwaartse activaties overeenkomen (het principe van de zelfconsistentie; Van den Broeck & Ruijssenaars, 1995) – coherente structuren ontstaan als relatief stabiele terugkoppelingslussen. Onder invloed van een covariant leerproces worden relaties tussen knopen uit verschillende knoopfamilies tijdelijk als functionele eenheden, de zg. subsymbolen (Van Orden et al., 1990), vastgelegd in het geheugen. Tijdens dat proces wordt de sterkte van de verbindingen tussen subsymbolen voortdurend aangepast op basis van de leeservaring. Woordherkenningsprocessen gaan hierdoor steeds efficiënter en sneller verlopen. Amalgaammodellen Het debat over de theorie van het leesproces wordt nog steeds gevoerd (zie bijvoorbeeld Coltheart, 2006; Harm & Seidenberg, 2004; Seidenberg, 2007) en kan in de context van deze verantwoording geen onderwerp zijn, maar in de nieuwste (computationele) modellen worden aspecten van het dubbele-routemodel steeds vaker gecombineerd met connectionistische opvattingen. Schijf (2009) noemt in dit verband het CDP-model (Connectionist Dual Process Model of Reading Aloud) van Perry c.s. uit 2007. Maar al in de jaren tachtig van de 14
vorige eeuw beschrijven Reggia et al. (1988) een model dat steun geeft aan een gewijzigd dubbele-routemodel waarin een rol voor interactieve routes is weggelegd. Hun Dual-route Connectionist Model of Print-to-sound Transformation hanteert bovendien een destijds nieuwe benadering van de dynamiek in connectionistische modellen: een zogeheten competitief activatiemechanisme in plaats van expliciete inhibitoire verbindingen tussen verschillende niveaus. Ook in Bjaalid et al. (2002) wordt een gecombineerd framework voorgesteld; een samensmelting van de dubbele-route- en connectionistische woordherkennings-modellen. Houghton & Zorzi (2003) doen hetzelfde, maar dan voor het spellen. Met het Mixtures of Experts Network Model probeert Asakawa (2008) het DRC-model en het PDP-model te integreren teneinde de ogenschijnlijke willekeur van beide modellen wat betreft het verklaren van de neuropsychologische evidentie en van gegevens uit experimenteel onderzoek het hoofd te kunnen bieden. Tot besluit Zoals gezegd is deze verantwoording niet de plaats om de validiteit van de onderscheiden modellen tot in alle details te bediscussiëren. Voor ons doel is het belangrijk dat de modellen een aantal eigenschappen gemeen hebben. Om te beginnen voorspellen ze alle, het ene beter dan het andere, dat bekendheid met en van het te lezen (woord- en tekst)materiaal het lezen – de nauwkeurigheid en de vlotheid ervan – ten goede komt. Aan de kant van de lezer is dit een leer- of trainingseffect: hoe vaker hij bepaalde letters, letterclusters, woorden en woordgroepen heeft gedecodeerd, des te preciezer en sneller verloopt het leesproces. Aan de andere kant, zal een lezer bepaalde woord(groep)en vaker tegenkomen dan andere woord(groep)en; de gebruiksfrequentie – en in het kielzog daarvan de bekendheid – van woorden verschilt, met als absolute ondergrens per definitie die van pseudowoorden. Daarnaast gaat het in alle bovenbeschreven modellen om sterkte van representaties en verbindingen, om doorvoer van activatie, om dynamiek in al dan niet interactieve patronen, om toegang tot systemen of modules; eigenschappen en processen die de verschillen tussen de zwakkere en de betere lezers verklaren en die in hun samenhang – op individueel niveau – resulteren in de leesvaardigheid van, in het geval van onze doelgroep, een leerling. Diens leesvaardigheidsniveau, d.i. de kwaliteit van zijn leesvaardigheid of het gebrek daaraan, wordt gekenmerkt door een bepaalde vlotheid en een bepaalde mate van nauwkeurigheid (het aantal leesfouten dat gemaakt wordt) tijdens het lezen. De toets Leestechniek richt zich primair op accuraatheid en secundair op snelheid bij het lezen. Hoe deze aspecten van de technische leesvaardigheid in het hier verantwoorde instrument geoperationaliseerd worden, wordt beschreven in paragraaf 3.2 Leren lezen De basis voor de ontwikkeling van de technische leesvaardigheid ligt in de voor- en vroegschoolse periode (Verhoeven & Aarnoutse, 2000). In een omgeving waarin kinderen op betekenisvolle wijze met geschreven taal in aanraking komen, kunnen zij de functie daarvan en enige schriftconventies leren kennen. Het lees- en schrijfgedrag van kleuters is echter nog slechts oriënterend; vaak bootst het kind lees- en schrijfgedrag na. Meestal leert het de eigen naam en andere bekende woorden. Ook worden vaak letters van het alfabet gekend en onderscheiden in woorden. Sommige kinderen komen zelfs zo ver dat zij min of meer spontaan zelfstandige woorden leren synthetiseren. De ervaring leert echter dat een groot aantal kinderen moeite heeft met het doorzien van de alfabetische structuur van ons schriftsysteem. Deze – en de meeste andere – kinderen wordt, doorgaans in jaargroep 3, in een gestructureerd curriculum stap-voor-stap het inzicht in het alfabetische principe bijgebracht. Daarin wordt in de regel uitgegaan van twee fasen. In de eerste fase leren kinderen dat woorden zijn opgebouwd uit klanken en dat grafemen die klanken representeren. In een tijdsbestek van gemiddeld vier maanden leren zij hoe de klanken van onze taal door middel van letters kunnen worden weergegeven. Zo ontwikkelen zij op systematische wijze een fonemisch bewustzijn, leren zij de relatie tussen letters en klanken, en leren zij van daaruit woorden te lezen (decoderen) en te spellen (coderen). Deze fase beperkt zicht tot de zogeheten klankzuivere woorden met een eenvoudige MKM-structuur (medeklinker-klinker-medeklinker, bijvoorbeeld: mes en pan). In de daaropvolgende fase leren kinderen de elementaire lees- (en spel) handeling die ze hebben verworven te versnellen en uit te breiden naar woorden met medeklinkercombinaties en meerlettergrepige woorden (vgl. Wentink, 1997). Doordat kinderen de eerder geleerde decodeer- en woordherkenningsvaardigheden in steeds hoger tempo leren toepassen, kunnen zij met toenemend gemak eenvoudige teksten lezen. Op het eind van jaargroep 5 kunnen zij ongeveer 3000 woorden vlot lezen en begrijpen. (Hun mondelinge woordenschat bedraagt dan zo'n 9000 woorden.) Onder invloed van het gegeven dat kinderen de relaties tussen grafemen, spraakklanken en woorden steeds sneller doorzien, gaan de (technisch-)leesprocessen steeds meer een automatisch verloop krijgen. Kinderen bouwen hun leesvaardigheid dan min of meer zelfstandig verder uit. Daarbij geldt dat het lezen van onbekende woorden ook van de geoefende lezer bewuste aandacht vraagt. Het aantal bekende woorden neemt in de loop van het basisonderwijs echter steeds verder toe en de leerlingen kunnen tegen het einde van de basisschool ongeveer evenveel woorden in geschreven vorm lezen en begrijpen als zij kennen in gesproken vorm. Voor de meeste leerlingen verloopt de ontwikkeling van de technische leesvaardigheid zonder 15
noemenswaardige problemen. Onderzoek laat echter zien dat er bij screening van deze vaardigheid sprake is van grote standaardafwijkingen in de scoreverdeling (Blomert, 2003; Struiksma, 2003). Er lijkt iets meer duidelijkheid te komen over het antwoord op de vraag in hoeverre het technisch lezen van allochtone leerlingen achterblijft bij dat van hun autochtone leeftijdsgenoten. Ouder onderzoek wees op een stagnerende ontwikkeling van allochtone leerlingen (Verhoeven, 1990), maar uit recentere studies blijkt dat allochtone leerlingen op dit terrein inmiddels geen noemenswaardige problemen meer ondervinden. Alleen bij het lezen van langere, gelede woorden zou nog sprake zijn van een beperkte achterstand (Verhoeven, 2000; Droop & Verhoeven, 2003). 2.4.2
Psychometrisch
2.4.2.1
Opgavenbanken
Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Cito Leerling- en Onderwijsvolgsysteem, de Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de LOVS-toetsen Technisch lezen is gebruik gemaakt van de opgavenbank Technisch lezen, opgavenvorm Leestechniek. Voor andere vakgebieden in het LOVS als Spelling, Woordenschat, Rekenen-Wiskunde en Studievaardigheden zijn eveneens opgavenbanken in gebruik. Ook bestaat er een opgavenbank Technisch lezen, opgavenvorm Leestempo (zie deel 2). Een opgavenbank is nadrukkelijk niet eenvoudigweg een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. In deze paragraaf wordt beschreven wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid technisch lezen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van leesvaardigheid uit, waarbij een groter getal wijst op een grotere leesvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden: de eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden van een leerling op de items worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank technisch lezen meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct 16
beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; er moet aangetoond worden dat al die veronderstellingen deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop in de volgende paragraaf dieper in wordt gegaan. Maar voor de items in een toets gebruikt kunnen worden, moet ook geprobeerd worden de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt heet kalibratiesteekproef. Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen gebeurt aan de hand van een zogeheten ‘onvolledig design’ moet met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de kalibratie is gebruikt, de geïnteresseerde lezer wordt verwezen naar Eggen (1993). Belangrijke implicaties gekalibreerde opgavenverzameling Als de kalibratie met succes uitgevoerd is, is het resultaat een zogenaamde gekalibreerde itembank. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kan met een willekeurige selectie items uit de bank de vaardigheid worden gemeten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat de meetresultaten (de schatting van de vaardigheid) onvoldoende nauwkeurig zullen zijn. Voor een nauwkeuriger meting (bij een gegeven aantal items in de toets) moeten de moeilijkheidsgraden van de items in overeenstemming gebracht worden met het vaardigheidsniveau van de leerlingen. 2 Om een schatting te kunnen maken van de verdeling van de vaardigheid in een welomschreven populatie, worden selecties van items voorgelegd aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van LOVS zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf Midden groep 3 tot Eind Groep 8. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. Voor een voorbeeld hiervan, zie Staphorsius (1994). In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. 3 Aan leerlingen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8 kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de percentielen in de populatie van groep 6, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6.” 4 De vergelijking die in het voorgaande gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6 wordt voorgelegd. Immers, het kalibratieonderzoek heeft aangetoond dat alle items dezelfde vaardigheid meten. Een nieuwe toets meet dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken. Tot zover de nadere bepaling van het begrip ‘opgavenbank’. In de volgende hoofdstukken van dit deel van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en toegelicht voor de opgavenbank Technisch lezen opgavenvorm Leestechniek. De verantwoording van de inhoudelijke 17
constructie van deze opgavenbank staat in hoofdstuk 3. In hoofdstuk 4 wordt (onder andere) de psychometrische constructie van de opgavenbanken besproken (kalibratie). 2.4.2.2
Het gehanteerde meetmodel
In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst & Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste (praktische) obstakels van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering tekort als het gaat om de centrale vraag: hoe wordt duidelijk dat de equivalering zinvol is? Op die vraag heeft IRT een antwoord. In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid wordt θ (theta) gekozen. De vaardigheid θ is niet rechtstreeks observeerbaar. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd1. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans:
f i ( ) = P ( X i = 1 | )
(2.1)
Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door
f i ( )=
exp ( - i ) 1 + exp ( - i )
(2.2)
waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.1 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, volgt
f i ( i )=
exp ( i - i ) 1 1 = = 1 + exp ( i - i ) 1 + 1 2
(2.3)
Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. De parameter βi kan dus terecht omschreven worden als de moeilijkheids-parameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
1
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT, ook wel aanduidt met 'latente trek'-modellen.
18
Figuur 2.1
Twee itemresponscurven in het Raschmodel
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo’n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.1. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Hieruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een ‘laaggroep’, met de vijftig procent laagste scores, en een ‘hooggroep’, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet beschreven te kunnen worden met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ1. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen ‘omwisseling’ van ‘proporties juist’ in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door
f i ( )=
exp [ ai ( - i ) ] 1 + exp [ ai ( - i )]
,
(2.4)
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a-priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.2 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren.
1
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
19
Figuur 2.2
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuze-opgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hier hiermee rekening gehouden. Voor de schatting van de populatieverdeling wordt gebruik gemaakt van de ‘marginale grootste aannemelijkheidsmethode’ (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Omdat leerlingen bovendien gevolgd worden is het mogelijk gelijktijdig de verdelingen op de verschillende normeringsmomenten te schatten. Bij de analyse is gebruikgemaakt van multivariate latente analysetechnieken waarmee gemiddelden en covarianties voor alle variabelen worden geschat in een onvolledig design. Daarvoor hebben we speciale software gebruikt (Multi) in combinatie met het OPLM als meetmodel (Kamphuis, 1992, 1993, Kamphuis en Engelen, 1992). Deze gemiddelden en covarianties vormen ook het basismodel voor de predicties in het computerprogramma LOVS.
20
3
Beschrijving van de toets
3.1
Opbouw, structuur, afname van de toetsen en rapportage
Opbouw LOVS Technisch lezen voor de jaargroep 3 bevat twee toetsen: M3 en E3, primair bedoeld voor – achtereenvolgens – leerlingen halverwege en einde groep 3. Structuur De leesvaardigheid van leerlingen in één groep kan sterk uiteenlopen. Daarom zijn voor ieder afnamemoment twee in moeilijkheid verschillende toetsen samengesteld, die leerkrachten gedifferentieerd kunnen toewijzen aan hun leerlingen. De opgaven in de toetsen Leestechniek binnen LOVS Technisch Lezen zijn daartoe per afnamemoment verdeeld over drie toetsmodules. Deze drie modules verschillen in moeilijkheid en maken vertakt toetsen (multistage testing) mogelijk. (Zie voor de informatiewinst bij vertakt toetsen: Verhelst, 1989.) De modules in Technisch Lezen in bijvoorbeeld de toets M3 zijn: M3 Start, M3 Vervolg 1 en M3 Vervolg 2. M3 Start past bij de gemiddelde vaardigheid van leerlingen halverwege de jaargroep 3. M3 Vervolg 1 is gemakkelijker dan M3 Start en M3 Vervolg 2 is moeilijker dan M3 Start. Alle leerlingen in groep 3 maken M3 Start. Minder goede lezers maken daarna M3 Vervolg 1. De betere lezers maken na de startmodule M3 Vervolg 2. (Zie ook figuur 3.1). In tabel 5.3 in paragraaf 5.2 wordt per toets aangegeven bij welke score op de startmodule welke vervolgmodule gemaakt moet worden en waarom dat juist bij die scores is. Figuur 3.1
Adaptief toetsen Module Vervolg 1 (gemakkelijker) alleen de minder goede lezers
Module Start alle leerlingen Module Vervolg 2 (moeilijker) alleen de betere lezers De toetsmodules bevatten steeds 28 opgaven. Alle leerlingen in de groep maken dus 56 opgaven. Ondanks het feit dat bij adaptief toetsen niet alle leerlingen dezelfde toets maken, biedt het gehanteerde meetmodel de mogelijkheid om leerlingen met elkaar en met de leerlingen in de landelijke normgroep te vergelijken. De onderliggende meettechniek voorziet er namelijk in dat iedere ruwe score – op welk van beide combinaties van toetsmodules deze score ook behaald is – kan worden omgezet in een score op één en dezelfde vaardigheidsschaal. De gedifferentieerde toewijzing van opgaven aan leerlingen heeft een belangrijke achtergrond: de meting van de vaardigheid geeft een nauwkeuriger resultaat naarmate de moeilijkheid van de opgaven beter past bij het vaardigheidsniveau van een leerling. En uiteraard is het maken van een toets op maat prettiger voor de leerlingen. Afname De toetsen worden klassikaal en schriftelijk gemaakt. De leerlingen krijgen een klassikale instructie met oefenopgaven, waarna zij individueel aan de toets kunnen werken. Alle leerlingen in de groep maken eerst de toetsmodule Start. Afhankelijk van de score die zij op deze module behalen, krijgen ze vervolgens óf toetsmodule Vervolg 1 óf toetsmodule Vervolg 2 voorgelegd. In de toetsmappen is een handleiding opgenomen behorend bij de papieren toetsen. De papieren toetsen Technisch lezen zijn zowel handmatig na te kijken en te analyseren als met behulp van het Computerprogramma LOVS.
21
Rapportage De resultaten van leerlingen op de LOVS-toetsen Technisch lezen worden normgericht geïnterpreteerd aan de hand van de vaardigheidsverdeling in een referentiegroep. De referentiegroep is op basis van de scores van de leerlingen in deze groep op twee manieren in vijf niveaugroepen verdeeld. De eerste manier levert de niveaugroepen A tot en met E op en is gebaseerd op een indeling in kwartielen. De niveaugroepen A, B en C bestrijken elk een kwart van de populatie. Het vierde kwartiel wordt opgesplitst in twee subgroepen: D (15%) en E (10%). De tweede indeling, met de niveaugroepen I tot en met V, gaat uit van vijf groepen van ieder 20%. Deze laatste indeling is dus symmetrisch opgebouwd en heeft als voordeel – boven de indeling gebaseerd op kwartielen – dat er een gemiddelde1 groep onderscheiden wordt, namelijk niveaugroep III. Zie figuur 3.2 voor een beschrijving van de niveaugroepen. Figuur 3.2
Niveaugroepen in het LOVS
Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
De resultaten kunnen door de leraar verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding worden in hoofdstuk 4 en 5 een aantal mogelijkheden besproken om handmatig en met behulp van het computerprogramma overzichten te maken (zoals bijvoorbeeld leerlingrapporten, groepsrapporten, dwarsdoorsnedes en trendanalyses) om op groepsniveau en schoolniveau de kwaliteit van het gegeven onderwijs te analyseren.
3.2
Inhoudsverantwoording
In deze paragraaf geven we een overzicht van de gebruikte categorieenindelingen bij woord- en foutensoorten bij de toetsen, met de aantallen opgaven per woordcategorie en foutensoort. Ook beschrijven we de selectiecriteria die gebruikt zijn bij de keuze van de opgaven in de toetsen Leestechniek in LOVS Technisch lezen. Ten slotte zetten we uiteen waarom de toetsen Leestechniek afwijken van de reguliere toetsen die de technische leesvaardigheid meten. De toetsen Leestechniek zijn immers stilleestoetsen, terwijl er bij leestoetsen meestal sprake is van een situatie waarin leerlingen hardop lezen.
1
Het betreft hier geen gemiddelde in de statistische betekenis van het woord. In feite is het zo dat de gemiddelde ruwe score
(bij een scheve verdeling) niet eens in de middelste groep hoeft te liggen.
22
Inhoud van de toetsen Grondwoorden De grondwoorden behoren tot een bepaalde woordcategorie. De factoren die de verschillende woordcategorieën bepalen zijn: het aantal lettergrepen; de combinatie van aantal klinkers (k) en medeklinkers (m); het voorkomen van respectievelijk een open of gesloten lettergreep, beide in combinatie met een stomme e in de andere lettergre(e)p(en). Het indelen van woorden op deze manier stemt overeen met de manier waarop de lesstof van de aanvankelijk leesmethoden in groep 3 vorm wordt gegeven. De grondwoorden in Leestechniek M3 behoren allemaal tot één categorie. Het zijn eenlettergrepige woorden van het type km, mk en mkm. Hoewel er verschillen bestaan tussen de meest gebruikte aanvankelijk leesmethoden, kan algemeen gesteld worden dat alle methoden vóór de kerstvakantie alle klinkers, medeklinkers (en tweetekenklanken) behandeld hebben en dat de vorm mkm ook in alle methoden gebruikt wordt in de eerste maanden leesonderwijs. De grondwoorden in Leestechniek E3 kunnen in vijf categorieën (2 t/m 6) worden ondergebracht. Deze lopen op qua moeilijkheid en komen ook steeds later aan bod in de loop van (de tweede helft van) het schooljaar. Deze vijf categorieën zijn: eenlettergrepige woorden met aan het begin of aan het eind twee medeklinkers achter elkaar (mmk, mmkm en mkmm); eenlettergrepige woorden met aan het begin en aan het eind twee medeklinkers achter elkaar (mmkmm); eenlettergrepige woorden met aan het begin of aan het eind drie medeklinkers achter elkaar (mmmkm of mkmmm); twee- en drielettergrepige woorden met daarin een gesloten lettergreep en een stomme e in de andere lettergre(e)p(en); twee- en drielettergrepige woorden met daarin een open lettergreep en een stomme e in de andere lettegre(e)p(en). Hieronder wordt het aantal opgaven per woordcategorie in de verschillende modules van Leestechniek M3 en E3 gegeven. Bij de selectie van de opgaven voor de verschillende M3-modules is op basis van (een schatting van) de p-waarde besloten of een opgave is toebedeeld aan de Start-, Vervolg 1- of Vervolg 2-module. Omdat alle opgaven bij de M3-modules uit dezelfde woordcategorie komen, is dit alleen van toepassing op de E3-modules. Bij het toekennen van de verschillende opgaven aan de drie modules van het E3-moment, hebben beide factoren een rol gespeeld: woordcategorie en p-waarde. Gezien de oplopende moeilijkheid bij de woordcategorieën, overlappen beide factoren grotendeels: een opgave in woordcategorie 2 is in principe makkelijker dan een opgave in woordcategorie 4 en zal dus ook over het algemeen een hogere p-waarde hebben. Voor de vervolg 1-module zijn voornamelijk opgaven uit de woordcategorie 2 gekozen; de vervolg 2-module bevat voornamelijk opgaven die tot de twee moeilijkste woordcategorieën, namelijk 5 en 6, behoren.
23
Tabel 3.1
Aantal opgaven per woordcategorie in de modules leestechniek M3 en E3
Woordcategorie
1
2
3 4
5
6
Eenlettergrepige woorden met mk, km of mkm Eenlettergrepige woorden met mmk, mmkm of mkmm Eenlettergrepige woorden met mmkmm Eenlettergrepige woorden met mmmkm of mkmmm Twee- en drielettergrepige woorden met een gesloten lettergreep Twee- en drielettergrepige woorden met een open lettergreep TOTAAL
M3 Aantal items Start 28
Aantal items Vervolg 1 28
Aantal items Vervolg 2 28
E3 Aantal items Start -
Aantal items Vervolg 1 -
Aantal items Vervolg 2 -
-
-
-
6
21
2
-
-
-
4
2
2
-
-
-
3
-
-
-
-
-
5
1
10
-
-
-
10
4
14
28
28
28
28
28
28
Afleiders De afleiders of onjuiste antwoordalternatieven – in alle gevallen: bestaande woorden – zijn afgeleid van het grondwoord; de afwijkingen ten opzichte van het grondwoord staan voor door zwakke lezers min of meer frequent gemaakte technisch-leesfouten: – VER-fouten: twee van de vier alternatieven komen in principe tot stand door het verwisselen van een letter(combinatie); bijvoorbeeld: raam wordt naam door het verwisselen van ‘r’ en ‘n’; raam wordt ram door het verwisselen van ‘aa’ en ‘a’; In sommige opgaven beginnen zowel het grondwoord als de afleiders met een hoofdletter. Dit omdat het optreden van leesfouten ten gevolge van letterverwisseling niet beperkt hoeft te blijven tot de kleine letters; ook bij het ontsleutelen van woorden die beginnen met een hoofdletter kan dit type leesfout zich manifesteren; – WTD-fouten: twee van de vier alternatieven komen in principe tot stand door: het weglaten van een letter (raam wordt aam); of door: het toevoegen van een letter (raam wordt kraam); of door: het dooreengooien van letters (raam wordt maar). – COM-fouten: soms kan in een afleider sprake zijn van een combinatie van fouten, bijvoorbeeld keuken wordt kurken door verwisselen van ‘eu’ en ‘u’ en het toevoegen van de ‘r’. In tabel 3.2 wordt een overzicht gegeven van de verdeling van de verschillende foutensoorten in de zes modules.
24
Tabel 3.2
Aantal opgaven per foutensoort in de modules leestechniek M3 en E3
Verdeling foutensoorten 1 VER + 3 WTD 2 VER + 2 WTD 3 VER + 1 WTD 2 VER + 1 WTD + 1 COM 1 VER + 2 WTD + 1 COM 3 VER + 1 COM 3 WTD + 1 COM TOTAAL
M3 Aantal items Start 22 2 3
Aantal items Vervolg 1 2 22 3 1
Aantal items Vervolg 2 1 19 8
E3 Aantal items Start 2 9 2 5
Aantal items Vervolg 1
Aantal items Vervolg 2
13 11
15 2 6 5
1
8
2 2
28
1 1 28
28
28
28
28
Er is getracht zoveel mogelijk bij de constructie van de afleiders uit te gaan van een gelijkmatige verdeling tussen VER- en WTD-fouten en geen gebruik te maken van de categorie COM (i.e., de verdeling 2 VER + 2 WTD, zie hierboven in vet in de tabel opgenomen). Dit is echter niet altijd mogelijk omdat de afleiders bestaande woorden moeten zijn én er geen enkele associatie mogelijk mag zijn met het bijbehorende plaatje. Vooral bij de E3-modules levert dit een moeilijkheid op. Waarschijnlijk is het feit dat het daar gaat om langere woorden de verklaring voor deze moeilijkheid: bij langere woorden is het minder makkelijk (dan bij kortere woorden) om alléén maar een letter te verwisselen, toe te voegen of weg te laten en dan toch nog een bestaand woord te houden. Het komt daar relatief vaker voor dat er een combinatie van veranderingen ten opzicht van het grondwoord uitgevoerd moet worden. Stilleessituatie bij de toetsen In tabel 2.1 werd al aangegeven dat de meeste toetsen die technische leesvaardigheid meten leerlingen hardop laten lezen. Deze situatie is in het verleden zo ontstaan omdat men redeneerde dat men leerlingen hardop moest horen lezen om te weten óf ze snel en nauwkeurig lazen, en niet zozeer omdat het construct ‘technisch lezen’ per definitie hardop lezen inhoudt. Integendeel, leerlingen zullen in verreweg de meeste authentieke leessituaties in zichzelf i.e. stil lezen. Dat men bij de constructie van de toetsen Leestechniek gekozen heeft voor een dergelijke stilleessituatie had echter in eerste instantie een andere reden. Men heeft gezocht naar een operationalisatie waarbij niet alle leerlingen één voor één, individueel, getoetst werden. Dat is een tijdrovende manier van werken. De manier waarop de toets Leestechniek afgenomen wordt, maakt het mogelijk om in één keer een hele groep leerlingen tegelijkertijd te toetsen. Dat de toetssituatie daarbij ook de doorsnee authentieke leessituatie beter benadert, werd daarbij als een voordeel gezien, maar was geen primair doel. Er is voor zover bekend niet veel onderzoek gedaan naar de verschillen tussen hardop lezen en stillezen. Het onderzoek dat gedaan is, betreft meestal iets oudere kinderen (dan de leeftijdsgroep waarvoor de toetsen Leestechniek bestemd zijn). Er bestaat wel informatie over de samenhang tussen stillezen en hardop lezen, 1 maar helaas betreft het (per definitie) stillezen op tekstniveau . Zo laat onderzoek van Barker et al. (1992) zien dat er bij leerlingen van 9-10 jaar sprake is van een correlatie van .41 tussen een stillezen op tekstniveau en hardop lezen op woordniveau. Deze samenhang moet geïnterpreteerd worden tegen de achtergrond dat zowel modus (stil vs. hardop) als niveau (tekst vs. woord) verschillen. Voor gegevens over de samenhang tussen toetsen Leestechniek enerzijds en AVI-toetskaarten en Drie-Minuten-Toets (DMT) anderszijds, wordt verwezen naar tabel 6.4 hierna. Daar staan gegevens die in het onderhavige normeringsonderzoek verzameld zijn. Deze gegevens bieden wél de mogelijkheid om zicht te krijgen op de samenhang tussen stil en hardop lezen terwijl de variabele ‘niveau’ constant is (i.e. de correlatie tussen Leestechniek en DMT).
1
Het is per definitie onmogelijk om stillezen op woordniveau te operationaliseren, d.w.z. anders dan zoals bij de toetsen
Leestechniek gebeurt.
25
26
4
Het normeringsonderzoek
4.1
Opzet en verloop van het normeringsonderzoek
De nieuw samengestelde modules zijn in een normeringsonderzoek in het schooljaar 2007-2008 voorgelegd aan groepen leerlingen van een groot aantal scholen en leerlingen. De normering van M3 vond plaats in januari 2008, de normering van E3 in juni 2008. De getallen tussen haakjes verwijzen naar de volgorde van de taken bij afname. Zo kreeg groep 1 op het M3-moment als eerste taak de M3-Startmodule en maakte deze groep daarna als taak 2 de module M3-Vervolg 2. Groep 2 op het M3 moment maakten dezelfde taken, maar in omgekeerde volgorde. Omdat op het E3-moment ook Leestempo taken afgenomen werden, heeft niet iedere groep even veel taken Leestechniek gemaakt op het E3-moment. De groepen 1 tot en met 4 maakten twee taken Leestechniek, terwijl de groepen 5 en 6 slechts één taak Leestechniek maakten (en dan steeds als eerste), naast een taak Leestempo. Tabel 4.1
Design
Afnamemoment M3 N Taak Groep/boekje 1 182 Groep/boekje 2 183 Groep/boekje 3 189 Groep/boekje 4 238 Groep/boekje 5 193 Groep/boekje 6 181
M3start (1) (2) (1) (2)
M3V1
(1) (2) (2) (1)
M3V2 (2) (1) (2) (1)
E3 N
M3start
M3V2
344 121 199 137 179
E3start
E3V1
(1)
(2)
(1)
E3V2
(2) (1)
(2) (1) (1)
Normeringsonderzoek Het normeringsonderzoek levert aanvullende gegevens op over de kwaliteit en de moeilijkheid van de opgaven én over de landelijke verdeling van de technische leesvaardigheid van de leerlingen op de verschillende afnamemomenten. Tijdens dit onderzoek zijn de leerlingen zoveel mogelijk op beide tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te kunnen verzamelen en om op basis daarvan de ontwikkeling van de technische leesvaardigheid, gemeten met toetsen Leestechniek, in kaart te brengen. Tabel 4.2
M3 E3
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip M3 1166 838
E3 980
Tabel 4.2 geeft aan dat er op het M3-moment 1166 leerlingen deelnamen aan het normeringsonderzoek en dat er op het E3-moment 838 van deze 1166 leerlingen nogmaals hebben deelgenomen. In totaal waren er op het E3-moment 980 leerlingen betrokken bij het normeringsonderzoek. Dit betekent dat er 142 nieuwe leerlingen op het E3-moment zijn bijgekomen.
4.2
Representativiteit
De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het percentage achterstandsleerlingen, de geografische spreiding en de mate van verstedelijking. Voor alle toetsmomenten is normeringsonderzoek uitgevoerd. In tabel 4.2 hierboven staat per normeringsmoment het aantal leerlingen en ook het aantal leerlingen dat daarvan op een volgend normeringsmoment deelnam. De gevolgde procedure maakt het mogelijk uit deze dataset alle leerlingen te selecteren die aan het normeringsonderzoek hebben deelgenomen. De representativiteit van deze leerlingen wordt onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. Aangezien van 101 leerlingen niet bekend was op welke school zij zaten, zijn de resultaten van deze groep leerlingen verder niet verder 27
opgenomen in de analyses op schoolniveau (b-tabellen hierna). De leerlingen uit het onderzoek zaten op (minimaal) 39 (M3) respectievelijk 37 (E3) scholen. Van deze leerlingen en scholen wordt in deze paragraaf de representativiteit beschreven. Representativiteit naar schoolgrootte en percentage achterstandsleerlingen De steekproef voor de normeringen is getrokken uit een steekproefkader dat speciaal voor dit doel is gemaakt. Voor de toetsen Leestechniek binnen het LOVS dienden de CFI-gegevens van 2008 als basis voor het steekproefkader. Deze gegevens betreffen alle 7043 basisscholen met: 1 – de BRIN-code ; – het totaal aantal leerlingen overeenkomend met de BRIN-code, opgesplitst naar leeftijdsgroepen en binnen leeftijd naar formatiegewicht2 als beschreven in tabel 4.3. Tabel 4.3
Formatiegewicht
Gewicht 0
Uitleg leerlingen van wie één van de ouders of beide ouders een opleiding heeft gehad uit categorie 3: - drie of vier jaar mavo (c- of d-niveau); - drie of vier jaar vmbo gemengde leerweg of theoretische leerweg; - meer dan twee jaar havo of vwo (of de oudere opleidingen: (m)ulo, mms of hbs); - mbo, hbo of universiteit. leerlingen van wie één van de ouders een opleiding heeft gehad uit categorie 1 en de ander een opleiding uit categorie 1 óf 2. Categorie 1: - maximaal basisonderwijs (tot en met het dertiende levensjaar) of (v)so-zmlk Categorie 2: - maximaal lbo/vbo, praktijkonderwijs of vmbo basis- of kaderberoepsgerichte leerweg; - maximaal twee jaar onderwijs in een andere schoolopleiding in het voortgezet onderwijs aansluitend op het basisonderwijs. leerlingen van wie beide ouders of de ouder die belast is met de dagelijkse verzorging een opleiding uit categorie 2 heeft gehad: - maximaal lbo/vbo, praktijkonderwijs of vmbo basis- of kaderberoepsgerichte leerweg; - maximaal twee jaar onderwijs in een andere schoolopleiding in het voortgezet onderwijs aansluitend op het basisonderwijs.
1,2
0,3
In het steekproefkader van 7043 scholen zijn de leerlinggewichten vastgesteld, uitgaande van de indeling zoals in tabel 4.3 wordt weergegeven. Vervolgens heeft men op de volgende manier de scholen geclassificeerd: a.
1
Voor elke school is bepaald welk percentage leerlingen een formatiegewicht had van 1,2 of 0,3 (i.e. achterstandsleerling). De percentageberekening is gebaseerd op alle leerlingen van de school. Dit percentage wordt symbolisch voorgesteld met de letter P. Gebaseerd op P zijn vier groepen scholen gevormd.
BRIN staat voor Basisregistratie Instellingen. Daarin geeft de Dienst Uitvoering Onderwijs (DUO) – voorheen CFI – van het
Ministerie van OCW een overzicht van alle scholen en de hiermee samenhangende instellingen. De scholen en instellingen in dit bestand zijn voorzien van een uniek BRIN-nummer. 2
De formatiegewichten zijn een indicatie van het aantal achterstandsleerlingen op een school. Ze worden volgens het
scoringsvoorschrift van het Ministerie van OCenW aan leerlingen toegekend.
28
b.
Binnen elke P-groep zijn twee subgroepen gevormd: een kleine school telt minder dan 200 leerlingen; een grote school 200 of meer leerlingen.
Aldus zijn acht strata gevormd. De landelijke verdeling van de scholen en de leerlingen over deze acht strata is weergegeven in tabel 4.4. Voor Cito is het van praktisch belang de schoolgrootte mee te nemen om de vereiste steekproefomvang te kunnen realiseren. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen van de doelgroep in de steekproef zitten. Daarbij bestaat het risico dat de vereiste steekproefgrootte al snel gerealiseerd wordt door deelname van enkele grote scholen. Daardoor zouden kleine scholen mogelijk ondervertegenwoordigd zijn in de steekproef. Een steekproeftrekking met een vast aantal leerlingen per school stuit op praktische bezwaren van scholen en van Cito; de school zou dan aselect leerlingen moeten aanwijzen en voor Cito zouden de kosten voor de steekproef aanzienlijk hoger zijn omdat er op deze manier meer scholen zouden moeten worden geworven. Tabel 4.4
stratum 1 2 3 4 5 6 7 8 Totaal
Definitie van de strata (gebaseerd op CFI gegevens van 2008)
definitie P< .10 .10 ≤ P < .25 .25 ≤ P < .40 P ≥ .40
klein groot klein groot klein groot klein groot
aantal scholen 1787 2018 1015 1034 358 238 340 253 7043
percentage scholen 25,4 28,7 14,4 14,7 5,1 3,4 4,8 3,6
aantal leerlingen 206554 667454 125914 316729 44554 71363 45003 73338 1550909
percentage leerlingen 13,3 43,0 8,1 20,4 2,9 4,6 2,9 4,7
Toelichting op tabel 4.4: – De kolom ‘aantal scholen’ geeft het aantal scholen in elke categorie; – De kolom ‘percentage scholen’ geeft het percentage scholen van het betrokken stratum; – De kolom ‘aantal leerlingen’ geeft het aantal leerlingen dat op een school van het betrokken stratum zit; – De kolom ‘percentage leerlingen’ geeft het percentage leerlingen op scholen van het betrokken – stratum; De verdeling van de leerlingen uit het normeringsonderzoek staat in tabel 4.5a. Vergelijking van de verdeling van de steekproef met de landelijke verdeling laat zien dat er enerzijds sprake is van een lichte ondervertegenwoordiging van leerlingen uit de strata 6 en 8 (grote scholen met minimaal 25% achterstandsleerlingen) en bij E3 ook uit stratum 5 (kleine scholen met minimaal 25% achterstandsleerlingen) en anderzijds een lichte oververtegenwoordiging van leerlingen uit de strata 1 en 3 (kleine scholen met maximaal 25% achterstandsleerlingen) en stratum 4 (grote scholen met maximaal 25% achterstandsleerlingen). Het toetsen op significantie van deze afwijkingen is op leerlingniveau niet mogelijk omdat de leerlingen geclusterd zijn in schoolklassen. Daarom worden steeds de gegevens op zowel leerling- als schoolniveau gepresenteerd: toetsing op schoolniveau is wél mogelijk.
29
Tabel 4.5a
Landelijke en steekproefgegevens schoolgrootte en achterstandsleerlingen (op leerlingniveau), M3 en E3
Stratum
Schoolgrootte
1 2 3 4 5 6 7 8 onbekend Totaal
<200 >=200 <200 >=200 <200 >=200 <200 >=200
Proportie leerlingen met achterstand p<.10 p<.10 .10<=p<.25 .10<=p<.25 .25<=p<.40 .25<=p<.40 p>=.40 p>=.40
N M3
M3 %
N E3
E3%
Land. %
210 425 120 270 16 0 24 0 101 1166
19,7 39,9 11,3 25,4 1,5 0 2,3 0
146 403 162 248 0 0 21 0
14,9 41,1 16,5 25,3 0 0 2,1 0
13,3 43,0 8,1 20,4 2,9 4,6 2,9 4,7
980
De verdeling van de scholen uit het normeringsonderzoek naar strata staat hierna in tabel 4.5b. In deze tabel is te lezen dat scholen uit de strata 6 en 8 (en bij E3: ook 5) ondervertegenwoordigd en scholen uit stratum 3 oververtegenwoordigd zijn. Tabel 4.5b
Landelijke en steekproefgegevens schoolgrootte en achterstandsleerlingen (op schoolniveau), M3 en E3
Stratum
Schoolgrootte
1 2 3 4 5 6 7 8 Totaal
<200 >=200 <200 >=200 <200 >=200 <200 >=200
Proportie leerlingen met achterstand p<.10 p<.10 .10<=p<.25 .10<=p<.25 .25<=p<.40 .25<=p<.40 p>=.40 p>=.40
N M3
M3 %
N E3
E3%
Land. %
12 10 9 6 1 0 1 0 39
30,8 25,6 23,1 15,4 2,6 0 2,6 0
10 10 10 6 0 0 1 0 37
27 27 27 16,2 0 0 2,7 0
25,4 28,7 14,4 14,7 5,1 3,4 4,8 3,6
De afwijkingen in de steekproef van wat er op basis van de populatieverdeling verwacht zou mogen worden, zijn gering en niet significant (M3: Chi2 = 6,24, df = 7, p = 0,51; E3: Chi2 = 9,03, df = 7, p = 0,25). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn. Representativiteit naar geografische verdeling. De verdeling naar regio van alle leerlingen en scholen enerzijds en de leerlingen en scholen in de normeringssteekproef anderzijds staat in tabel 4.6 en 4.7a/b. Regio Noord bevat de provincies Groningen, Friesland en Drenthe, Oost de provincies Overijssel, Gelderland, Flevoland, West de provincies Utrecht, Noord- en Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg.
30
Tabel 4.6 Regio Noord Oost West Zuid Totaal
Landelijke verdeling aantal scholen naar regio
Aantal scholen 1116 1713 2900 1314 7043
Tabel 4.7a Regio Noord Oost West Zuid onbekend Totaal
% schln 15,8 24,3 41,2 18,7
Aantal leerlingen 160.920 353.502 718.777 317.710 1.550.909
% lln 10,4 22,8 46,4 20,5
Landelijke en steekproefverdeling naar regio (op leerlingniveau), M3 en E3 N M3 208 237 475 145 101 1166
M3% 19,5 22,3 44,6 13,6
N E3 173 294 387 126
E3 % 17,7 30,0 39,5 12,9
Land. % 10,4 22,8 46,4 20,5
980
In tabel 4.7a is te zien dat er bij M3 relatief weinig leerlingen uit Zuid en dat er relatief veel leerlingen uit Noord in de steekproef opgenomen waren. Ook is te zien dat er bij E3 relatief weinig leerlingen uit West en Zuid en dat er relatief veel leerlingen uit Noord en Oost in de steekproef opgenomen waren. De verdeling naar regio van de scholen uit het normeringsonderzoek staat hierna in tabel 4.7b. In deze tabel is te zien dat er bij M3 relatief weinig scholen uit West en dat er relatief veel scholen uit Noord in de steekproef opgenomen waren. Ook is te zien dat er bij E3 relatief weinig scholen uit West en Zuid en dat er relatief veel scholen uit Noord en Oost in de steekproef opgenomen waren. Tabel 4.7b Regio Noord Oost West Zuid Totaal
Landelijke en steekproefverdeling naar regio (op schoolniveau), M3 en E3
N M3 9 10 14 6 39
M3% 23,1 25,6 35,9 15,4
N E3 8 12 12 5 37
E3 % 21,6 32,4 32,4 13,5
Land. % 15,8 24,3 41,2 18,7
De afwijkingen in de steekproef van wat er op basis van de populatieverdeling verwacht zou mogen worden, zijn gering en niet significant (M3: Chi2 = 1,80, df = 3, p = 0,63; E3: Chi2 = 2,99, df = 3, p = 0,40). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn. Representativiteit naar verstedelijking De verdeling naar verstedelijking van alle leerlingen en scholen enerzijds en de leerlingen en scholen in de normeringssteekproef anderzijds staat in tabel 4.8 en 4.9a/b. Tabel 4.8
Landelijke verdeling van verstedelijkingsgraad
Verstedelijkingsgraad Zeer sterk Sterk Matig Weinig Niet Totaal
Aantal scholen 830 1545 1371 1878 1419 7043
% schln 11,8 21,9 19,5 26,7 20,1
Aantal leerlingen 235.382 427.848 325.621 358.172 203.886 1.550.909
% lln 15,2 27,6 21,0 23,1 13,1 100,0
In de steekproef (zie tabel 4.9a hierna) zijn op leerlingniveau de matig en weinig verstedelijkte gebieden wat oververtegenwoordigd en sterk en zeer sterk verstedelijkte gebieden wat ondervertegenwoordigd.
31
Tabel 4.9a Landelijke en steekproef gegevens Verstedelijking (op leerlingniveau), M3 en E3 Verstedelijkingsgraad Zeer sterk Sterk Matig Weinig Niet onbekend Totaal
N M3
M3 %
N E3
E3%
Land. %
125 135 327 319 159 101 1166
11,7 12,7 30,7 30,0 14,9
109 140 251 314 166
11,1 14,3 25,6 32,0 16,9
15,2 27,6 21,0 23,1 13,1
980
100,0
De verdeling naar mate van verstedelijking van de scholen uit het normeringsonderzoek staat hierna in tabel 4.9b. In deze tabel is te zien dat scholen uit (zeer) sterk verstedelijkte gebieden ondervertegenwoordigd en scholen uit matig tot weinig verstedelijkte gebieden oververtegenwoordigd zijn. Tabel 4.9b Landelijke en steekproef gegevens Verstedelijking (op schoolniveau), M3 en E3 Verstedelijkingsgraad Zeer sterk Sterk Matig Weinig Niet Totaal
N M3
M3 %
N E3
E3%
Land. %
3 4 10 14 8 39
7,7 10,3 25,6 35,9 20,5
2 5 8 13 9 37
5,4 13,5 21,6 35,1 24,3
11,8 21,9 19,5 26,7 20,1 100,0
Deze ondervertegenwoordiging van scholen uit (zeer) sterke verstedelijkte gebieden en de oververtegenwoordiging van scholen uit matig tot weinig verstedelijkte gebieden is echter niet significant (M3: Chi2 = 4,99, df = 4, p = 0,29; E3: Chi2 = 3,88, df = 4, p = 0,43). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn. Representativiteit naar sekse Voor de normering is het van belang dat zowel jongens als meisjes representatief vertegenwoordigd zijn. Aangezien er in Nederland geen aparte jongens- en meisjesscholen zijn nemen wij aan – gegeven de wijze van steekproeftrekking – dat er een goede vertegenwoordiging van jongens en meisjes is. Er is geen reden om aan te nemen dat dit niet het geval zou zijn. Representativiteit naar leeftijd Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief vertegenwoordigd zijn. Gegeven de wijze van steekproeftrekking nemen wij aan dat alle leeftijden behorende bij een jaargroep vertegenwoordigd zijn. Er is geen reden om aan te nemen dat dit niet het geval zou zijn.
4.3
Kalibratie en normering
4.3.1
Resultaten kalibratie- en normeringsonderzoek
Bij het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Ook voor de normering werd een onvolledig design gebruikt. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Dit bleek, op één opgave na, het geval te zijn. Hoewel dit item niet voldeed aan de passingscriteria die hierna beschreven worden, werd het niet uit de verzameling verwijderd (zie hierna).
32
Bij vier (van de 168) items zijn na het normeringsonderzoek de afleiders gewijzigd, zonder verdere dataverzameling. Uit de data-analyse van de normeringsgevens bleken namelijk bij deze vier items sommige afleiders ongelukkig gekozen te zijn. De aanpassingen vonden plaats bij twee items in de M3-V2-taak en bij twee items in de E3-V2-taak. De moeilijkheid van deze aangepaste items is geschat op de gemiddelde moeilijkheid van de overige items in de betreffende taak. In de kalibratie van de overige 164 items was er slechts één item dat niet voldoende schaalde; de IRF vertoonde halverwege een sprong naar beneden. De gevolgen daarvan voor de betrouwbaarheid van hele toets zijn gering. Het verwijderen van deze opgave uit de taak was niet wenselijk, want dan zou de taaklengte van deze taak verschillen van die van de overige taken. 4.3.2
Toetsing van het IRT-model
De passing van het model wordt geïllustreerd met figuur 4.1 (zie Staphorsius, 1994, blz. 239). Figuur 4.1 beeldt voor een opgave de gegevens af waarop de zogenaamde Si -toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal 8) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die op grond van de parameterschattingen voorspeld kunnen worden. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 4.1 bedraagt dit aantal meer dan 3000. Uit de figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%- betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante Si-toetsingsgrootheid (Verhelst, et al., 1994). In de kalibratieonderzoeken voor de opgavenbank Technisch lezen – Leestechniek is steeds getoetst of de opgaven pasten bij het model. In deze paragraaf staan de achtergronden van de toetsing van de opgaven. Figuur 4.1
Grafische voorstelling van een Si-toets
Bij de opgaven in onze opgavenbanken hoort een grafische voorstelling van de Si -toetsing die met figuur 4.1 overeenkomt. Dit is, zeker gezien de relatief grote aantallen observaties die in het geding zijn, een zeer sterke aanduiding dat het ontwikkelde meetinstrument en het gebruikte meetmodel adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. Hiermee is echter het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratie-analyse, als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten dekkend is voor en samenvalt met het construct ‘technisch lezen’ zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel Technisch lezen – Leestechniek: kan het unidimensionale concept onder de opgaven in de opgavenbank Technisch lezen – Leestechniek inderdaad worden opgevat als de 33
vaardigheid ‘Technisch lezen (op woordniveau)’? In paragraaf 2.4.2 zijn belangrijke implicaties voor een gekalibreerde opgavenverzameling gegeven. Het slagen van kalibratie betekent dat met een selectie van items uit de bank de vaardigheid gemeten kan worden bij een leerling. Hoe nauwkeurig deze meting is, staat in paragraaf 5.2. Met betrekking tot de itemselectie moet opgemerkt worden dat er in het geval van Leestechniek geen selectie van items heeft plaatsgevonden. Alle 168 items zijn geselecteerd; wel geldt dat vier items zijn aangepast na het normeringsonderzoek en in deze aangepaste vorm in het definitieve toetspakket zijn opgenomen. Er kan vervolgens een schatting gemaakt worden van de verdelingen van de vaardigheid in welomschreven populaties, omdat selecties van items voorgelegd zijn aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen in de doelgroep in de steekproef zitten. Het gemiddelde en de standaardafwijking worden geschat in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie, die van belang zijn voor de indeling van leerlingen in de niveaucategorieën, die zijn beschreven in paragraaf 3.1. In tabel 4.10 staat de indeling van leerlingen in de niveaucategorieën. Tabel 4.10
Overzicht van de vaardigheidsverdelingen per normeringsmoment M3 van
t/m
E3 van
t/m
A B C D E
183,51 158,41 136,51 115,21 nvt
nvt 183,50 158,40 136,50 115,20
204,61 181,81 157,81 137,31 nvt
nvt 204,60 181,80 157,80 137,30
P90 I II III IV V P10
220,21 190,41 169,31 150,51 128,51 nvt nvt
nvt nvt 190,40 169,30 150,50 128,50 115,20
227,91 214,51 189,51 171,31 151,51 nvt nvt
nvt nvt 214,50 189,50 171,30 151,50 137,30
34
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Technisch lezen opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde wordt aangeduid met τ(θ). Als bovendien bekend is hoe θ in de populatie verdeeld is, kunnen ook het gemiddelde en de variantie van de ware scores in de populatie bepaald worden. De variantie van de ware scores in de populatie wordt aangegeven met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor met een eenmalige toetsafname niet meer zonder fout de waarde van θ bepaald kan worden. De variantie van de geobserveerde toetsscore wordt aangegeven met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kan ook de gemiddelde variantie van de geobserveerde toetsscores berekend gaan worden.
Var(t) = E[Var(t | ( ))]
(5.1)
Deze variantie kan opgevat worden als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid volgt dan
MAcc =
Var( ) Var( ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Technisch lezen. In de eerste kolom staan voor elk afnamemoment de twee mogelijke combinaties van modules: een leerling maakt ofwel eerst module Start en daarna module Vervolg 1 (S+V1) ofwel eerst module Start en daarna module Vervolg 2 (S+V2). De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vierde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen (of toetsonderdelen) is. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de LOVS-toetsen Begrijpend lezen) geeft de COTAN (COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70 en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN Beoordelingssysteem voor de kwaliteit van tests, 2009, p. 33). Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen.’
35
Tabel 5.1 Toets M3 S+V1 M3 S+V2 E3 S+V1 E3 S+V2
5.2
Beschrijvende gegevens bij de toetsen Technisch lezen van het LOVS Maximumscore 56 56 56 56
Gemiddelde 51,0 48,1 46,8 41,6
Standaardmeetfout 5,4 6,5 7,9 9,7
Betrouwbaarheid 0,869 0,863 0,903 0,908
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid. De figuren 5.1 en 5.2 geven grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Hierbij is onderscheid gemaakt tussen de twee mogelijke samenstellingen van de toets op elk afnamemoment: ofwel Start plus Vervolg 1 (in de grafieken weergegeven als SV1) ofwel Start plus Vervolg 2 (in de grafieken SV2 genoemd). Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. De toetsen concentreren zich dus op het goed in kaart brengen van de vaardigheid van de minder goede leerlingen. Dat is ook het primaire doel dat met de toetsen beoogd wordt. Figuur 5.1
Meetnauwkeurigheid M3 Leestechniek M3 Toets M3-SV1 Toets M3-SV2 Populatie M3
0.010
0.008 kansdichtheid
standaardmeetfout
30
0.006
20
0.004 10 0.002
0
0.000 50
100
150
200
schaalscore
36
Figuur 5.2
Meetnauwkeurigheid E3 Leestechniek E3 Toets E3-SV1 Toets E3-SV2 Populatie E3
0.010
0.008 kansdichtheid
standaardmeetfout
30
20
0.006
0.004 10 0.002
0
0.000 100
150
200
250
schaalscore
Toewijzing van leerlingen aan de toetsversies De lokale meetnauwkeurigheid speelt een belangrijke rol bij het toewijzen van de juiste vervolgmodule. In de grafieken met de lokale meetnauwkeurigheid (figuur 5.1 en 5.2) is zichtbaar dat de meetnauwkeurigheid van een toets afneemt met toenemende vaardigheid en dat deze per toets (i.e. een combinatie van een start- en een vervolgmodule) verschilt. In de grafieken is af te lezen dat daarom vanaf een zekere vaardigheid de meetnauwkeurigheid van de combinatie Start plus Vervolg 2 groter is dan die van Start plus Vervolg 1. De score op de module Start die correspondeert met die zekere vaardigheid, is de grensscore voor de verwijzing. Op grond van de score op de module Start wordt een leerling nauwkeuriger gemeten met Start en V1 als een leerling een score heeft die lager is dan de grensscore en beter met Start en V2 als een leerling op Start een score heeft die hoger is. Voor M3 Start plus Vervolg 1 en M3 Start plus Vervolg 2 bijvoorbeeld ligt die vaardigheid bij 124,5. De corresponderende toetsscore op M3 Start is 22. Deze toetsscore wordt dan grensscore voor de verwijzing. De grensscores voor de andere toetsen zijn op overeenkomstige wijze bepaald. In tabel 5.2 staan de scores voor verwijzing. Tabel 5.2
M3 E3
Toewijzing vervolgmodules toetsen
Vervolg 1 0-22 0-17
Vervolg 2 23-28 18-28
Grensvaardigheid 124,5 147,5
Perc lln dat V1 maakt 19,7 16,2
Lokale meetnauwkeurigheid (tabellarisch) De betekenis van de meetnauwkeurigheid voor de beslissingen die met de toetsen genomen worden staan in de onderstaande classificatie-/misclassificatietabellen. Deze tabellen laten het effect van de lokale meetnauwkeurigheid zien. Zo laat tabel 5.3 bijvoorbeeld zien dat ruim 76% van de leerlingen halverwege jaargroep 3 met hun geschatte vaardigheidsscore in scoregroep A vallen ook met hun werkelijke vaardigheidsscore in deze groep vallen. Anders gezegd, de kans dat een A-leerling (terecht) als een A-leerling wordt bestempeld is ongeveer 76%. Verder laat de tabel zien dat ongeveer 21% van de leerlingen in niveaugroep A een vaardigheidsscore heeft die in werkelijkheid in scoregroep B valt.
37
Tabel 5.3
Ware niveau E D C B A
Tabel 5.4
Ware niveau E D C B A
Proporties classificaties en misclassificaties Leestechniek M3 Toegekende niveau E D C 69,8 7,5 0,3 27,8 51,9 13,4 2,4 36,5 50,8 4,1 32,0 0,1 3,5
B
A
1,1 18,6 51,2 29,1
2,0 21,2 76,7
Ware niveau V IV III II I
Toegekende niveau V IV III 74,1 10,4 0,6 23,6 50,8 15,8 2,3 31,2 40,6 0,1 7,1 33,5 0,5 9,5
II
I
2,4 17,9 41,3 38,3
0,2 3,8 20,2 75,8
II
I
1,0 18,4 60,0 20,6
0,8 20,8 78,4
Proporties classificaties en misclassificaties Leestechniek E3 Toegekende niveau E D C 80,9 9,9 0,1 18,6 60,5 10,6 0,4 29,2 66,5 0,5 22,2 0,6
B
A
0,1 19,3 60,1 20,4
0,7 17,8 81,5
Ware niveau V IV III II I
38
Toegekende niveau V IV III 83,2 13,8 0,3 16,3 60,4 18,5 0,6 24,3 54,5 1,6 26,0 0,7
6
Validiteit
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. In paragraaf 3.2 werd bij de inhoudsverantwoording reeds uiteengezet dat de opbouw van de verschillende toetsmodules, in termen van bevraagde woordcategorieën, gebaseerd is op een toenemende graad van moeilijkheid. Ook werd daar ingegaan op de vraag hoe de verschillende soorten afleiders tot stand komen en welke diagnostische informatie bij het maken van fouten (i.e. kiezen voor bepaalde soort afleiders) dan na de afname van de toets beschikbaar is. Hieronder worden twee aspecten van de inhoudsvaliditeit beschreven. Allereerst wordt de relatie met het technisch leesonderwijs in groep 3 uiteengezet. Vervolgens wordt ingegaan op de bekendheid van de grondwoorden. 6.1.1
Relatie met leesonderwijs
De opgaven in de toetsen Leestechniek in Technisch lezen in het LOVS sluiten nauw aan bij het doel en de inhoud van onderwijs in technisch lezen op de basisschool. Leerlingen leren in groep 3 lezen aan de hand van losse woorden en (vervolgens) korte teksten. Van de leerlingen die de toetsen maken, wordt gevraagd steeds stil vijf woorden te lezen en dan te beslissen welk woord bij het plaatje past. Een verder inhoudelijke analyse van de toetsen Leestechniek in LOVS Technisch lezen lezen staat in paragraaf 3.2 van deze verantwoording. Daar werd aangegeven de grondwoorden oplopen in moeilijkheidsgraad en dat de afleiders gebaseerd zijn op fouten die zwakke lezers maken. 6.1.2
Bekendheid van de grondwoorden
De grondwoorden in Leestechniek zijn woorden waarvan aangenomen kan worden dat ze tot de woordenschat van het merendeel van de leerlingen in groep 3 behoren. Deze aanname steunt op gegevens over de frequentie van voorkomen van woorden in jeugdlectuur en op gegevens over de verwervingsperiode van woorden, dat wil zeggen de leeftijd waarop woorden, over het algemeen, geleerd worden. Voor deze benadering gingen we uit van de positie van de grondwoorden in Leestechniek op de frequentielijst van woordvormen naar dalende orde in Staphorsius, Krom & De Geus (1988). Dit is een van de frequentielijsten die tot stand kwam in een onderzoek naar de frequentie van voorkomen van woord(vorm)en en letter(combinatie)s in een corpus van 480 fictie- en non-fictieteksten voor de jeugd. Het totale corpus bevat ruim 200000 woorden (types); het aantal tokens, dat wil zeggen het aantal verschillende woorden, in het corpus bedraagt 18270. In tabel 6.1 staan per toets de aantallen grondwoorden per woordfrequentiepositieklasse vermeld: hoeveel procent van de grondwoorden valt in de klasse van de eerste duizend meest frequente woorden, hoeveel procent in de klasse van de tweede duizend, enzovoort. Tabel 6.1
Aantal grondwoorden in Leestechniek per woordfrequentiepositieklasse (percentage en cumulatief percentage)
Woordfrequentiepositieklasse Tot 1000 1000-2000 2000-3000 3000-4000 4000-5000 5000-6000 >6000
M3 Start + V1
M3 Start + V2
E3 Start + V1
E3 Start + V2
23 21 14 9 11 2 20
34 18 11 3 12 2 20
20 18 13 14 7 7 21
23 18 13 7 13 5 21
23 44 58 67 78 80 100
34 52 63 66 78 80 100
39
20 38 51 65 72 79 100
23 41 54 61 74 79 100
Uit tabel 6.1 blijkt uit de cumulatieve percentages tussen haakjes dat 80% (M3), respectievelijk 79% (E3) van de grondwoorden in Leestechniek tot de 6000 meest frequente woorden in bovengenoemd corpus behoren. Dat corpus bestaat, zoals gezegd, uit teksten specifiek geschreven voor de jeugd. Van de 6000 frequentste woorden in dat corpus – dat in totaal dus meer dan 18000 tokens omvat – mogen we vermoedelijk wel aannemen dat ze bekend zijn bij de leerlingen in onze doelgroep. Deze aanname is verder in aanvullend onderzoek nagegaan door leerlingen te vragen naar de herkenbaarheid van het grondwoord in het plaatje. Dit onderzoek heeft plaatsgevonden op vijf basisscholen verspreid door Nederland (Amsterdam, Maastricht, Almere, Lelystad en Heerenveen). Deze geografische spreiding is zeker in het geval van woordenschat belangrijk omdat leerlingen van wie de thuistaal niet (standaard) Nederlands is, ook in de steekproef moeten zitten. Leerlingen werd eerst gevraagd zelf actief (een) woord(en) te noemen dat of die bij het plaatje paste(n). Indien een leerling daarbij niet het beoogde grondwoord actief noemde, werden de vijf woorden van het toetsitem (grondwoord en vier afleiders) aan hem voorgelezen en werd gevraagd het goede woord te kiezen. Dit wordt gezien als een passieve beheersing van het betreffende doelwoord. Die passieve beheersing is een minimumvereiste en toont aan dat een leerling bij het beantwoorden van het betreffende item niet gehinderd wordt door (te) gebrekkige woordenschat en/of een slechte tekening. Tabel 6.2
Percentage grondwoorden dat per module door leerlingen met het plaatje geassocieerd wordt
Grondwoord wordt passief of actief genoemd
M3 Start (n=28) 97
M3 V1 (n=28) 99
M3 V2 (n=28) 92
E3 Start (n=28) 98
E3 V1 (n=28) 98
E3 V2 (n=28) 96
Zoals in tabel 6.2 te lezen is, zijn er in de Start- en Vervolg 1 modules maar weinig woorden die leerlingen niet associëren met het daarbijbehorende plaatje. Bij beide Vervolgmodules 2 (M3 en E3) ligt het percentage iets hoger. Uit de tabellen 6.1 en 6.2 mag afgeleid worden dat de bevraagde woorden in semantisch opzicht bekend konden worden geacht bij de leerlingen. Met andere woorden, de woorden behoorden over het algemeen tot de woordenschat van de leerlingen en áls een leerling de woorden goed kon verklanken, kon hij ook het goede antwoord kiezen, niet gehinderd door zijn (gebrekkige) woordenschat. Of nog anders gezegd: Indien een leerling niet het goede antwoord kon kiezen, kon dit toegeschreven worden aan een lagere technische leesvaardigheid.
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan de verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Meten de toetsen Leestechniek één onderliggende latente vaardigheid die we ‘de technische leesvaardigheid’ – in dit geval: op woordniveau – mogen noemen? Een eerste indicatie in de richting van een bevestigend antwoord op deze vraag levert de toetsing van het hier gehanteerde meetmodel. Het positieve resultaat van deze toetsing duidt erop dat aan de in Leestechniek opgenomen opgaven een unidimensionaal begrip ten grondslag ligt. De mate waarin de opgaven van de toetsen Leestechniek vervolgens gerelateerd zijn aan ‘soortgenoot’opgaven is een tweede aanwijzing voor de begripsvaliditeit van de toetsen. Ten derde wordt de equivalentie met eerdere toetsen besproken. Ten slotte wordt ingegaan op de longitudinale vaardigheidstoename. Hieronder worden de vier aanwijzingen voor de begripsvaliditeit van de toetsen Leestechniek beschreven. 6.2.1
Passing van het meetmodel
De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. De vraag of het unidimensionale concept onder de opgaven in de opgavenbank Technisch lezen kan worden opgevat als één vaardigheid (‘technisch lezen’), kan met behulp van de gegevens in hoofdstuk 4 40
met ‘ja’ beantwoord worden. De geslaagde kalibratie (zie 4.3) maakte duidelijk dat het aannemelijk is dat er sprake is van unidimensionaliteit. Dat men kan stellen dat deze gekalibreerde opgavenbank de latente trek meet die we de vaardigheid technisch lezen noemen, wordt hierna in 6.2.2. uiteen gezet. Daar wordt ingegaan op de correlatie met ‘soortgenoot’-toetsen. 6.2.2
Correlatie met ‘soortgenoot’-toetsen
We beschikken over gegevens uit onderzoek waarin de samenhang werd nagegaan tussen de opgaven Leestechniek en de prestaties op de toetsen Leestempo (Jongen et al. 2009a), de AVI-toetskaarten en de DrieMinuten-Toets (Jongen & Krom, 2009). In tabel 6.3 worden de correlaties gerapporteerd tussen de scores op deze vier verschillende toetsen, die alle beogen de technische leesvaardigheid van leerlingen in kaart te brengen. De mate waarin de toetsen Leestechniek gerelateerd zijn aan soortgenootinstrumenten en niet-soortgenootinstrumenten is een tweede aanwijzing voor de begripsvaliditeit van de toetsen. In de tabel 6.3 worden ook correlaties gerapporteerd tussen scores op de toetsen Leestechniek en andere toetsen uit het Cito Leerlingen onderwijsvolgsysteem (LOVS): de toetsen die in januari/februari en mei/juni 2008 tegelijkertijd met de Leestechniek-toets zijn voorgelegd aan de leerlingen in onze referentiegroep. De hoogste correlaties in tabel 6.3 zijn die van van de DMT met de AVI-toets, de laagste correlaties zijn die tussen de woordenschattoets (WS) en alle afgenomen technisch-leesinstrumenten (LT, LTP, DMT en AVI). De correlaties van Leestechniek (LT) en Leestempo (LTP) met de DMT en de AVI-toets nemen een middenpositie in. Alle vier zijn het leessnelheidsinstrumenten, die echter op twee belangrijke punten van elkaar verschillen: 1) DMT en AVI laten leerlingen hardop lezen, terwijl LT en LTP stil laten lezen en 2) DMT en LT laten leerlingen woorden lezen, terwijl AVI en LTP teksten laten lezen (zie ook deze verantwoording tabel 2.2). De gevonden samenhang tussen de DMT en AVI enerzijds en LT en LTP anderzijds is dan ook volgens verwachting; niet van de orde van grootte van de samenhang tussen DMT en AVI onderling, maar toch redelijk hoog. De correlaties van Leestechniek met de soortgenoot- instrumenten DMT en AVI zijn in ieder geval flink hoger dan die met een niet-soortgenoot als de LVS-toets Woordenschat (WS). Tabel 6.4
Correlaties tussen de toetsen Leestechniek, DMT, de AVI-toets, Leestempo en Woordenschat (groep 3) LT medio LT eind
LT eind AVI medio AVI eind DMT medio DMT eind WS medio WS eind LTP eind
AVI medio
AVI eind
.532 .424 .436 .514
.449 .540 .563
.765 .887
.754
.497 .258 .328 .449
.627 .200 .288 .528
.803 .123 .127 .594
.860 .149 .155 .734
DMT medio
DMT eind WS medio
.846 .191 .173 .732
.118 .122 .700
.646 .170
WS eind
.239
Toelichting LT staat voor de toets Leestechniek AVI staat voor AVI-toetskaarten DMT staat voor Drie-Minuten-Toets WS staat voor de LVS-toets Woordenschat LTP staat voor de toets Leestempo (ook uit de toetsserie Technisch lezen). De toets Leestempo is in jaargroep 3 alleen op het moment einde jaargroep voorgelegd cursief staan correlaties tussen verschillende afnamemomenten van hetzelfde instrument
Als we nader kijken naar de correlaties tussen de twee verschillende opgavenvormen oftewel toetsen die in het toetspakket Technisch lezen groep 3 voorkomen (Leestechniek vs. Leestempo), is het wellicht in eerste instantie opmerkelijk dat er tussen die twee instrumenten geen hogere correlatie bestaat. Zoals hierboven (en in tabel 2.2) echter reeds werd aangegeven, verschillen beide toetsen wat betreft niveau waarop leerlingen lezen (zij het dus bij beide wel in een stilleessituatie): bij LT is dat op woordniveau, terwijl dat bij LTP op tekstniveau is. Bij de gegeven correlaties in tabel 6.3 en ook bij de gegevens in de hierna volgende tabel 6.4 moet wel het volgende opgemerkt worden. 41
Daarnaast is er nog een factor die in acht genomen dient te worden: In het normeringsonderzoek worden leerlingen (per groep) willekeurig toegewezen aan een bepaald boekje c.q. een bepaalde combinatie van taken. Bij leerlingen die op het E3-moment boekje 5 of 6 (zie tabel 4.1) maakten, kon een correlatie berekend worden tussen Leestechniek en Leestempo. Echter, deze leerlingen zijn niet per definitie de leerlingen die in de reële situatie een Leestempo-toets maken. Op het E3-moment is de Leestempo-toets in het toetspakket opgenomen voor leerlingen die aan de bovenkant scoorden op het M3-moment, en bij wie het risico bestaat dat er in het geval van een toets Leestechniek een plafondeffect zou kunnen optreden. Andersgezegd: er zijn leerlingen geweest die géén Leestempotoets hebben gemaakt, maar die dat in de echte situatie wél zouden moeten doen en vice versa. Dat tijdens het normeringsonderzoek niet gedifferentieerd getoetst kon worden binnen één groep leerlingen heeft een puur praktische achtergrond: het is voor een toetsleider vrijwel onmogelijk om (zeker bij groep 3 leerlingen) verschillende toetsen af te nemen. Tabel 6.4
Proporties leerlingen die eenzelfde of totaal andere niveautoekenning hadden in kruistabellen met Leestempo E3 P(zelfde niveau bij LTP)
P(1 niveau verschil)
P(meer dan 1 niveau verschil)
N
Leestechniek M3 A-E I-V
.35 .31
.38 .40
.27 .30
736 736
Leestechniek E3 A-E I-V
.38 .34
.40 .41
.22 .25
825 825
6.2.3
Equivalentie met eerdere toetsen
Met het oog op de validering van de Opgavenbank Leestechniek in LOVS Technisch lezen wordt een analyse gegeven van onderzoeksgegevens die in de schooljaren 2008-2009 en 2009-2010 verzameld zijn in het kader van zogeheten ‘dataretour’. Bij dataretour ontvangt Cito automatisch de resultaten van toetsafnames die in het kader van het LOVS door scholen gedaan worden. Voor groep 3 (de doelgroep van de toetsen Leestechniek) bestaan er naast Leestechniek ook LOVS-toetsen op het gebied van Begrijpend lezen, Woordenschat, Spelling en Rekenen en wiskunde. De verwachting is dat de resulataten op Leestechniek sterker samenhangen met die op Begrijpend lezen dan met die op Woordenschat en Spelling. Dit omdat leerlingen bij Begrijpend lezen al in groep 3 zelf de tekstjes en vragen moeten lezen, terwijl bij Woordenschat en Spelling in groep 3 de vraagstelling mondeling plaatsvindt. De talige manier waarop tegenwoordig het rekenonderwijs (en dus ook toetsen voor rekenen) gestalte krijgt, maakt het moeilijker om voorspellingen te doen m.b.t. de samenhang tussen de toetsen Leestechniek en Rekenen. In tabel 6.5 worden de correlatiecoëfficiënten tussen de toetsen Leestechniek (TlezLT) en de toetsen Begrijpend lezen (Blez), Woordenschat (Ws), Spelling (Spel) en Rekenen-Wiskunde (Rek) gerapporteerd voor het M3-moment. Uit de tabel blijkt dat de correlaties tussen Technisch lezen (Tlez) en Begrijpend lezen (Blez) het hoogst zijn. Dit is conform de verwachtingen. De samenhang tussen de toetsen Leestechniek en Woordenschat is het laagst. Tabel 6.5
Blez Ws Spel Rek
Correlaties tussen Technisch lezen (Leestechniek) en andere variabelen gemeten met LOVStoetsen (M3) TlezLT .608 .351 .532 .439
Blez
Ws
Spel
.489 .483 .485
.261 .430
.415
In tabel 6.6 staan dezelfde correlaties, maar dan voor afnamemoment E3. De samenhangen die daar gevonden worden, komen vrijwel overeen met die van het M3-moment.
42
Tabel 6.6
TlezLT .642 .307 .591 .448
Blez Ws Spel Rek 6.2.4
Correlaties tussen Technisch lezen (Leestechniek) en andere variabelen gemeten met LOVStoetsen (E3) Blez
Ws
Spel
.459 .511 .511
.284 .422
.435
Longitudinale vaardigheidstoename
Groei over de tijd Er wordt vanuit gegaan dat er sprake is dat leerlingen in de tijd (gemiddeld) groeien in vaardigheid. De gemiddelde groei van afnamemoment M3 naar E3 is iets minder dan 22 i.e. 2/3e standaarddeviatie en sluit aan bij die verwachting. Tabel 6.7
Gemiddelde vaardigheid (en sd) op de vaardigheidsschaal op M3 en E3
Normeringsmoment M3 E3
Aantal leerlingen 1166 980
Gemiddelde vaardigheid 162,9 184,0
Standaarddeviatie 37,1 36,5
Responsiviteit en voorspelbaarheid over tijd De toetsen in het LOVS moeten in staat zijn om veranderingen te kunnen meten. Door het kalibratieonderzoek liggen de opgaven op één onderliggende schaal Technisch lezen Leestechniek. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt, de gemiddelden per afnamemoment verschillen immers. Uit de (latente) correlatie van .73 blijkt dat de correlaties hoog genoeg zijn om te kunnen beweren dat bijna alle leerlingen een zekere groei doormaken, maar niet zo hoog om te kunnen stellen dat dit voor alle leerlingen het geval is. Met betrekking tot de voorspelbaarheid over tijd gedlt dat het redelijk goed mogelijk lijkt om op het eerste toetsmoment een voorspelling te doen over het resultaat van een paar maanden later i.e. tweede toetsmoment. Het bovenstaande is een onderbouwing dat de toetsen Leestechniek in staat zijn veranderingen (responsiviteit) te meten.
43
44
Deel 2
Wetenschappelijke verantwoording van de toetsen Leestempo
45
46
7
Uitgangspunten van de toetsconstructie
7.1
Meetpretentie
Binnen het leesonderwijs op de basisschool wordt een onderscheid gemaakt tussen technisch lezen en begrijpend lezen. Het technisch lezen is geen doel op zich, maar wordt gezien als een voorwaardelijke activiteit voor het leren begrijpen van teksten. Het ontsleutelen van geschreven woorden is een vaardigheid die traditioneel wordt gemeten met hardop-leestoetsen. De toetsen Leestempo in LOVS Technisch lezen groep 3 tot en met groep 5 daarentegen beogen de technische leesvaardigheid te meten door middel van zogenaamde stilleestoetsen. Opgaven in deze toetsen zijn echter evenzeer operationaliseringen van de technische leesvaardigheid als de traditionele harop-leestoetsen. (Zie verder paragraaf 7.4.1)
7.2
Doelgroep
De toetsen Leestempo in LOVS Technisch lezen groep 3 tot en met 5 zijn bestemd voor en genormeerd bij leerlingen in groep 3 tot en met 5 in het basisonderwijs. Voor de toetsen in groep 3 zijn de populatieparameters op ‘einde leerjaar’ bepaald, voor de groepen 4 en 5 zowel op ‘midden leerjaar’ als ‘einde leerjaar’. De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere leerlingen in Nederland.
7.3
Gebruiksdoel en functie
LOVS Technisch lezen heeft twee hoofddoelen en een nevendoel. De hoofddoelen zijn: niveaubepaling en progressiebepaling. Het nevendoel heeft betrekking op het selecteren van passend leesmateriaal. Niveaubepaling De toetsafnamen in het kader van LOVS Technisch lezen geven de leerkracht informatie over het leesvaardigheidsniveau van zijn leerlingen, individueel of als groep. Iedere behaalde leesvaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 8.1 voor de verdeling van de niveaugroepen en 9.2 voor de beschrijving van de referentiegroep). Progressiebepaling De toetsen in LOVS Technisch lezen geven de leerkracht informatie over de ontwikkeling van de leesvaardigheid van zijn leerlingen, individueel of als groep, in eind groep 3 tot en met groep 5. Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 7.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – de aantallen opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal. Deze unidimensionele vaardigheidsschaal die aan de toetsen Leestechniek binnen de toetsen LOVS Technisch lezen ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1994). Zoals in de inleiding reeds vermeld is, bestaat er voor de toetsen Leestechniek een aparte vaardigheidsschaal. Selectie van leesstof Het nevendoel van LOVS Technisch lezen is het afstemmen van de leesstof op de leesvaardigheid. Deze afstemming kan plaatsvinden omdat de scores die leerlingen op de toetsen in LOVS Technisch lezen behalen omgezet kunnen worden in een AVI-niveau. Zoals de vaardigheidsscores van leerlingen op de toetsen in LOVS Technisch lezen omgezet kunnen worden in een AVI-niveau, kan ook de leesmoeilijkheid die een tekst heeft uitgedrukt worden in een AVI-niveau. Met behulp van het AVI-niveau worden leesvaardigheid en leesbaarheid (i.e. vereiste leesvaardigheid) op één schaal gebracht. Dit maakt het – in het kader van een individueel leesadvies – mogelijk om voor een leerling leesteksten te selecteren met een moeilijkheid die afgestemd is op de leesvaardigheid waarover hij of zij kan beschikken.
47
Een toenemend aantal jeugdboeken wordt van een AVI-niveau voorzien en de uitgevers ervan plaatsen deze index, samen met eventueel het CLIB-niveau voor de begripsmatige moeilijkheid van de tekst, in een beeldmerk dat in hun boeken wordt afgedrukt.
7.4
Theoretische inkadering
7.4.1
Inhoudelijk
Voor een bespreking van de theoretische inkadering van de toetsen Leestempo wordt verwezen naar paragraaf 2.4.1 uit deel 1 in deze verantwoording (Leestechniek). Daarin wordt een overzicht gegeven van de verschillende modellen en daaraan gekoppeld theorieën die de laatste decennia gangbaar zijn (geweest) op het gebied van technisch lezen. Slechts op het einde van bovengenoemde paragraaf werd daar specifiek verwezen naar de toets Leestechniek, toen aangegeven werd dat de toets Leestechniek zich primair richt op accuraatheid en secundair op snelheid bij het lezen. Dat is bij de toetsen Leestempo omgekeerd: daar gaat het primair om leessnelheid, onder voorwaarde van een zekere mate van accuraatheid (minimaal 85% nauwkeurigheid). Hoe deze twee aspecten in de toetsen Leestempo geoperationaliseerd worden, wordt beschreven in paragraaf 8.2. 7.4.2
Psychometrisch
7.4.2.1
Opgavenbanken
Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Cito Leerling- en Onderwijsvolgsysteem, de Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de LOVS-toetsen Technisch lezen is gebruikgemaakt van de opgavenbank Technisch lezen, opgavenvorm Leestempo. Voor andere vakgebieden in het LOVS als Spelling, Woordenschat, Rekenen-Wiskunde en Studievaardigheden zijn eveneens opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet eenvoudigweg een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. In deze paragraaf wordt beschreven wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid technisch lezen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van leesvaardigheid uit, waarbij een groter getal wijst op een grotere leesvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden: de eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden van een leerling op de items worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank technisch lezen meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt de moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een 48
bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; er moet aangetoond worden dat al die veronderstellingen deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop in de volgende paragraaf dieper wordt ingegaan. Maar voor de items in een toets gebruikt kunnen worden, moet ook geprobeerd worden de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt heet kalibratiesteekproef. Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen gebeurt aan de hand van een zogeheten ‘onvolledig design’ moet met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de kalibratie is gebruikt, de geïnteresseerde lezer wordt verwezen naar Eggen (1993). Belangrijke implicaties gekalibreerde opgavenverzameling Als de kalibratie met succes uitgevoerd is, is het resultaat een zogenaamde gekalibreerde itembank. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kan met een willekeurige selectie items uit de bank de vaardigheid worden gemeten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat de meetresultaten (de schatting van de vaardigheid) onvoldoende nauwkeurig zullen zijn. Voor een nauwkeuriger meting (bij een gegeven aantal items in de toets) moeten de moeilijkheidsgraden van de items in overeenstemming gebracht worden met het vaardigheidsniveau van de leerlingen. Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank Leestempo. Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden. Al hetgeen dat geldt voor de ‘papieren’ items uit de itembank, geldt daarom eveneens voor ‘digitale’ items uit dezelfde itembank. 2 Om een schatting te kunnen maken van de verdeling van de vaardigheid in een welomschreven populatie, worden selecties van items voorgelegd aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van LOVS zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf Midden groep 3 tot Eind Groep 8. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. Voor een voorbeeld hiervan, zie Staphorsius (1994). In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie.
49
3
4
Aan leerlingen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8 kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de percentielen in de populatie van groep 6, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6.” De vergelijking die in het voorgaande gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6 wordt voorgelegd. Immers, het kalibratieonderzoek heeft aangetoond dat alle items dezelfde vaardigheid meten. Een nieuwe toets meet dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken.
Tot zover de nadere bepaling van het begrip ‘opgavenbank’. In de volgende hoofdstukken van dit deel van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en toegelicht voor de opgavenbank Technisch lezen opgavenvorm Leestempo. De verantwoording van de inhoudelijke constructie van deze opgavenbank staat in hoofdstuk 8. In hoofdstuk 9 wordt (onder andere) de psychometrische constructie van de opgavenbanken besproken (kalibratie). 7.4.2.2
Het gehanteerde meetmodel
7.4.2.2.1 Het meetmodel voor Leestempo: het Rasch-Poisson-model Een veel gebruikt model om variabiliteit in frequenties (aantallen) te beschrijven is het Poisson-model. In zijn meest elementaire vorm beschrijft dit model de kans op een score s als
P( s)
s s!
e (1)
Waarin λ (> 0) de parameter van de verdeling is en de uitdrukking s! (lees: s-faculteit of s-factorieel) het product aanduidt s x (s - 1) x (s - 2) x ... x 2 x 1. Als s = 0, wordt 0! gedefinieerd als gelijk aan 1. Rasch (1960) heeft dit model uitgebreid door aan te nemen dat de waarde van de parameter λ afhankelijk is van de persoon en van de taak. Toegepast op Leestempo leidt dit tot het volgende model:
vj j j v
(2)
waarin λvj de waarde van de Poisson-parameter voorstelt wanneer leerling v taak j maakt. Deze parameter is multiplicatief samengesteld, en bestaat uit drie componenten. De grootheid τj is geen parameter maar een bekende constante die de omvang van de taak uitdrukt. Bij Leestempo is dit de toegestane tijd (in E3: 6 minuten; in M4 en hoger: 8 minuten). De parameter σj drukt de moeilijkheid van de taak uit: hoe groter deze parameter hoe makkelijker de taak, en de grootheid θv is de technische leesvaardigheid van de leerling v. De drie componenten van de Poisson-parameter zijn continue variabelen die alleen positieve waarden of de waarde nul kunnen aannemen. De doelstelling van het gebruik van dit meetmodel is een inferentie te maken omtrent de vaardigheid van de leerling (θv) die gebaseerd is op de observatie die we van deze leerling hebben wanneer hij tekst j leest: de score svj. Als de drie componenten van λvj gegeven zijn ligt hun product vast, maar als het product gegeven is liggen de drie componenten niet uniek vast; we kunnen namelijk altijd een component delen door een positieve constante c en een van de twee andere vermenigvuldigen met c, en een dergelijke operatie laat het product onveranderd. Om zinvol over de waarde van de componenten te kunnen spreken moeten we twee normalisaties invoeren. Voor Leestempo hebben we dit als volgt gedaan: 1 We kiezen een eenheid van tijd. Voor Leestempo is deze eenheid de minuut. Omdat de toegestane leestijd voor alle taken m.u.v. de E3-taken acht minuten is, geldt in deze toepassing dus dat τj = 8 voor alle taken m.u.v. E3 (E3: τj = 6). 1 2 In het normeringsonderzoek van Leestempo zijn vijftien verschillende taken betrokken (zie hoofdstuk 8 hierna) en voor elke taak moet een σ-parameter worden geschat. Hierbij is de restrictie opgelegd dat het product van deze vijftien parameters gelijk moet zijn aan 1.
1
In de calibratie zijn ook de oude LVS-teksten meegenomen. 50
Een echte of denkbeeldige tekst waarvan de σ-parameter gelijk is aan 1, noemen we een standaardtekst. De interpretatie van de vaardigheid θv in dit model is zeer elegant. Als een variabele Poisson-verdeeld is (formule (1)), dan is het gemiddelde of de verwachte waarde van de verdeling gelijk aan de Poissonparameter λ. Als leerling v taak j leest, dan is zijn score Svj een toevalsvariabele, en door (1) en (2) te combineren krijgen we dus
E ( Svj ) vj j j v
(3)
Als we nu alle grootheden gaan benoemen, zien we het volgende: Svj is een aantal correct gelezen opgaven; zijn verwachte waarde is dus ook een aantal correct gelezen opgaven. τj is de toegestane leestijd uitgedrukt in minuten. σj vatten we op als een onbenoemd getal, een soort correctiefactor die controleert voor de verschillende moeilijkheid van teksten op basis waarvan een taak gemaakt wordt. De standaardtekst heeft per definitie een σ-waarde gelijk aan 1. Om het product van de rechterzijde in (3) in dezelfde eenheid uit te drukken als de linkerzijde, moeten we θv benoemen als het aantal correct gelezen opgaven per tijdseenheid (minuut) op een standaardtekst. Score op meerdere teksten Wat tot hiertoe beschreven is, is de modellering van de uitkomsten wanneer een leerling één enkele tekst leest. Maar er moet ook iets gezegd worden over de verdeling van de uitkomsten wanneer een leerling twee of meer teksten leest. Daarom moet er een extra veronderstelling aan het model worden toegevoegd en deze veronderstelling wordt meestal aangeduid als lokale stochastische of conditionele onafhankelijkheid. De veronderstelling bestaat eigenlijk uit twee delen: 1 De vaardigheid van de leerling θv blijft onveranderd bij het lezen van meerdere teksten op één en hetzelfde afnamemoment. 2 Bij elke tekst is de (Poisson-)verdeling van de score alleen afhankelijk van de eigenschappen van de tekst en de leestijd (de σ- en de τ-parameter) en van de vaardigheid (θv). En niet van de score die de leerling op een van de andere teksten heeft behaald. Als we deze veronderstelling aannemen, kunnen we gebruik maken van een andere eigenschap van de Poisson-verdeling: als een (eindig) aantal toevalsvariabelen S1, S2,…,Sk onafhankelijk Poisson-verdeeld is met parameters λ1, λ2,…,λk, dan is hun som S = S1+ S2+…+Sk Poisson-verdeeld met parameter λ = λ1+ λ2+…+λk. Hier is een voorbeeld: veronderstel dat leerling v drie teksten leest, waarna voor elke tekst zijn score wordt bepaald. De som van deze drie scores Sv = Sv1+Sv2+Sv3 is Poisson-verdeeld met parameter
1 1 v 2 2 v 3 3 v v ( 1 1 2 2 3 3 ) Dit voorbeeld veralgemeniseren we nu als volgt. Stel dat er in het normeringsonderzoek in totaal k teksten zijn gebruikt, en dat elke leerling een aantal van deze teksten heeft gelezen (volgens een vooraf vastgesteld design), dan definiëren we voor elke leerling de grootheid k
v d vj j j j 1
(4)
waarin dvj een designvariabele is, die de waarde 1 aanneemt als leerling v tekst j heeft gelezen, en 0 als dit niet het geval is. In het voorbeeld hierboven is dvj = 1 voor j = 1, 2, 3 en 0 voor alle andere teksten. Met deze notatie kunnen we het model specificeren wanneer een leerling meerdere teksten leest: de somscore is Poissonverdeeld met parameter
v v v
(5)
Hoewel formule (5) er heel eenvoudig uitziet, dient men te bedenken dat de parameter δv een behoorlijk complexe structuur heeft: hij is afhankelijk van het dataverzamelingsdesign (de specifieke teksten die de leerling heeft gelezen), van de toegestane leestijd op deze teksten (die het algemeen kan variëren over de taken) en van de onbekende moeilijkheidsparameters σ (zie formule (4)).
51
Schatting van de individuele vaardigheid θv De eerste stap in de analyse van de normeringsdata is het schatten van de taakparameters σi. De procedure waarmee dit gebeurt, staat gedetailleerd beschreven in Verhelst & Kamphuis (2009) en wordt hier verder niet uiteengezet. Belangrijk is dat deze moeilijkheidsparameters op een consistente manier kunnen worden geschat zonder dat men een aanname hoeft te maken over de verdeling van de technische leesvaardigheid in de populatie. Omdat de normeringssteekproef zeer groot is in vergelijking met het aantal te schatten parameters, is de schattingsfout van deze parameters vrij klein en kan ze voor praktische doeleinden worden verwaarloosd. Dit wil zeggen dat we de schattingen van deze parameters verder kunnen behandelen als de echte waarden en dus ook dat we voor elke leerling de parameter δv met behulp van formule (4) kunnen uitrekenen. De schatting van de vaardigheid van leerling v wordt gegeven door
v
sv
v
(6)
en de standaardfout (SE) door
SE ( v )
sv
v
(7)
In beide formules betekent sv de geobserveerde somscore die door leerling v is behaald. Merk op dat in dit model de standaardfout toeneemt met de behaalde score. 7.4.2.2.2 Het populatiemodel voor Leestempo: de gamma-verdeling Een groot voordeel van het gebruik van een latente-variabele-model zoals hierboven is beschreven, is dat men de prestaties van leerlingen zinvol kan vergelijken als de leerlingen verschillende teksten hebben gelezen of zelfs een verschillend aantal teksten. Voor het opstellen van normeringstabellen echter, dient men voorzichtig te werk te gaan: gebruikmakend van formule (6) hierboven kan men voor elke leerling een schatting maken van zijn vaardigheid en kan men vervolgens de verdeling van deze schattingen bestuderen om er normtabellen uit te distilleren. De verdeling is idealiter – en zie in dit verband hoofdstuk 9 van de verantwoording – gebaseerd op een (redelijk) grote en representatieve steekproef uit de populatie. Op zichzelf is hier niets tegen in te brengen, zolang men zich maar realiseert dat men de verdeling van de vaardigheidsschattingen bestudeert en niet de verdeling van de vaardigheid. Omdat alle schattingen behept zijn met een schattingsfout (de meetfout) zal de variantie van de verdeling van de schattingen onvermijdelijk groter zijn dan de variantie van de verdeling van de vaardigheden zelf. In deze sectie gaan we in op het schatten van de vaardigheidsverdeling, en daarin spelen de schattingen van de individuele vaardigheden geen enkele rol. Het basismodel dat wordt gebruikt is oorspronkelijk geïntroduceerd door Owen (1969) en verder uitgewerkt in Jansen (1986) en Jansen & Van Duijn (1992). Het model stelt dat de latente leesvaardigheid in de populatie een gamma-verdeling volgt. Een gamma-verdeling is een verdeling voor niet-negatieve continue variabelen. De kansdichtheidsfunctie (pdf) wordt gegeven door
g ( )
1 e ( )
(8)
waarin α en β (beide positief) de parameters zijn van de verdeling, en Γ(.) de gammafunctie is. (Indien het argument α een geheel getal is, geldt dat Γ(α) = (α-1)!; de gammafunctie kan worden opgevat als een uitbreiding van de faculteitfunctie tot gebroken getallen.) De gamma- en de Poisson-verdeling gaan goed samen. Om dit te laten zien, herhalen we formule (1), maar we schrijven deze nu wat nauwkeuriger op
P( s | )
( ) s e s!
(9)
52
waarin het linkerlid duidelijk aangeeft dat het om een conditionele kans gaat gegeven de waarde van de latente variabele θ en waarbij de parameter δ moet worden begrepen zoals aangegeven door formule (4). De marginale likelihood, d.i. de kans dat we score s observeren bij een random trekking uit de populatie, is dan gegeven door
P ( s ) P ( s | ) g ( ) d (10) 0
Als we het rechterlid van (8) en (9) substitueren in het rechterlid van (10) en uitwerken, dan krijgen we als resultaat
P( s)
( s ) s p (1 p) s !( )
(11)
Waarin
p
De verdeling met formule (11) als kansfunctie staat in de statistiek bekend als de negatief binomiale verdeling. Deze formule is gebruikt om in de tweede stap van de schattingsprocedure de parameters α en β te schatten, en waarin de schattingen van de δ-parameters uit de eerste stap als bekende constanten worden meegenomen. Bij de schattingen zijn vijf verschillende populaties beschouwd, overeenkomend met het tijdstip van toetsen: eind jaargroep 3, medio jaargroep 4, eind jaargroep 4, medio jaargroep 5 en eind jaargroep 5, en voor elke populatie is een α- en een β-parameter geschat.
53
54
8
Beschrijving van de toets
8.1
Opbouw, structuur, afname van de toetsen en rapportage
Opbouw LOVS Technisch lezen (opgavenvorm Leestempo) voor de jaargroep 3 tot en met 5 bevat vijftien toetsen: toetsen voor E3, M4, E4, M5 en E5, primair bedoeld voor – achtereenvolgens – leerlingen einde groep 3, halverwege en einde groep 4 en halverwege en einde groep 5. Structuur Voor ieder afnamemoment zijn er drie verschillende toetsen beschikbaar: de standaardtoets en twee Extratoetsen. In principe neemt een leerkracht op een bepaald afnamemoment de bij dat afnamemoment behorende standaardtoets af: op het E3-moment Leestempo E3, op M4 Leestempo M4 etc. De Extra-toetsen hebben twee functies. De eerste functie staat ten dienste van de leerlingen die in een toets Leestempo te veel fouten hebben gemaakt. Deze zogeheten NA-leerlingen moeten nogmaals een toets maken. De achtergrond hierbij is de volgende: een leerling kan in principe niet de hele tekst lezen in de daarvoor gegeven tijd. Mocht dat toch zo zijn, dan zal over het algemeen de leerling de aansporing tot snel lezen hebben willen opvolgen, ten koste van de nauwkeurigheid. Dit zal meestal tot uitdrukking komen in een verhoudingsgewijs te groot aantal leesfouten. Verhoudingsgewijs in die zin dat het aantal fouten dat een leerling in de toets maakt te groot is in vergelijking met het aantal opgaven dat hij in de gegeven leestijd heeft gemaakt. Een dergelijke verhouding wordt niet-acceptabel (NA) genoemd. In de instructie bij de toets wordt aangegeven: ‘Lees zo vlug als je kunt, maar niet zo vlug dat je fouten maakt.’ Eigenlijk zou de leerling zijn leessnelheid dus zo moeten kiezen dat hij de toets nog juist foutloos maakt. Echter, om van een leerling een volledig foutloze uitvoering van de taak te vragen is een wat al te zware eis. Momenten van geringe concentratie of vergissingen kunnen immers ook goede lezers parten spelen. Daarom is een zekere marge ingebouwd en wordt ervan uitgegaan dat leerlingen meer dan 80% (E3 en M4) of meer dan 85% (E4, M5 en E5) van de gemaakte opgaven correct maken. Indien een leerling minder dan het vereiste percentage opgaven correct maakt, is hij een zogeheten NA-leerling en is zijn toetsscore niet geldig. In enkele gevallen kan een zeer goede lezer de hele tekst uitlezen in de daarvoor gegeven tijd, zonder dat dit ten koste gaat van de nauwkeurigheid. Bij deze leerling is de verhouding tussen het aantal gelezen en het aantal fouten dan wél acceptabel (AC). Een tweede functie van de Extra-toetsen speelt in op de behoefte aan meerdere toetsen van een bepaald niveau. Als men op maat wilt toetsen en bij de toetskeuze wilt aansluiten bij het niveau van de leerling, is het prettig uit meerdere toetsen te kunnen kiezen. Indien bij een leerling reeds de standaardtoets is afgenomen, zijn er nog twee Extra-toetsen beschikbaar die qua niveau (vrijwel) overeenkomen met de de standaardtoets maar die een andere tekst bevatten. Afname De toetsen worden klassikaal en schriftelijk gemaakt. De leerlingen krijgen een klassikale instructie met drie oefenopgaven, waarna zij individueel aan de oefentoets kunnen werken gedurende drie (E3) of vier (M4 t/m E5) minuten. In de toetsmappen is een handleiding opgenomen behorend bij de toetsen. De toetsen Technisch lezen zijn zowel handmatig na te kijken en te analyseren als met behulp van het Computerprogramma LOVS. Rapportage De resultaten van leerlingen op de LOVS-toetsen Technisch lezen worden normgericht geïnterpreteerd aan de hand van de vaardigheidsverdeling in een referentiegroep. De referentiegroep is op basis van de scores van de leerlingen in deze groep op twee manieren in vijf niveaugroepen verdeeld. De eerste manier levert de niveaugroepen A tot en met E op en is gebaseerd op een indeling in kwartielen. De niveaugroepen A, B en C bestrijken elk een kwart van de populatie. Het vierde kwartiel wordt opgesplitst in twee subgroepen: D (15%) en E (10%). De tweede indeling, met de niveaugroepen I tot en met V, gaat uit van vijf groepen van ieder 20%. Deze laatste indeling is dus symmetrisch opgebouwd en heeft als voordeel – boven de indeling gebaseerd op kwartielen – dat er een gemiddelde1 groep onderscheiden wordt, namelijk niveaugroep III. Zie figuur 8.1 voor een beschrijving van de niveaugroepen. 1
Het betreft hier geen gemiddelde in de statistische betekenis van het woord. In feite is het zo dat de gemiddelde ruwe score
(bij een scheve verdeling) niet eens in de middelste groep hoeft te liggen.
55
Figuur 8.1
Niveaugroepen in het LOVS
Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
De resultaten kunnen door de leerkracht verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding worden in hoofdstuk 4 en 5 een aantal mogelijkheden besproken om handmatig en met behulp van het computerprogramma overzichten te maken (zoals bijvoorbeeld leerlingrapporten, groepsrapporten, dwarsdoorsnedes en trendanalyses) om op groepsniveau en schoolniveau de kwaliteit van het gegeven onderwijs te analyseren.
8.2
Inhoudsverantwoording
De toetsvorm van Leestempo kan in het kort omschreven worden als een tekst waarin leerlingen al lezende om gemiddeld het tiende woord, maar niet vaker dan eenmaal per zeven woorden, met een keuzeprobleem worden geconfronteerd. De leerlingen krijgen acht minuten tijd om deze tekst stil te lezen (eind groep 3: zes minuten). Algemeen gesproken zullen snelle lezers na de gegeven leestijd verder gevorderd zijn in de tekst dan langzame lezers. In principe zullen leerlingen de tekst in de gegeven tijd niet uitlezen. Oefentekst Een gewone schooldag Joris is op weg naar school. De school is niet ver. Tien minuten lopen, meer neem meen niet. Joris loopt het plein op. Het plein is nog leep leeg leed. Hij is de eerste. Dat komt goed uit. Want hij is bol pol dol op tafeltennis.
1 2
3
56
Om achteraf te kunnen vaststellen tot wáár in de tekst een leerling gevorderd is, moet een leerling bij ongeveer elk tiende woord een keuze maken tussen drie orthografisch minimaal verschillende alternatieven: het woord dat in de tekst hoort (het grondwoord i.e. goede antwoord) en twee daarvan afgeleide (foute) woorden, de zogeheten afleiders. De opgaven in de toetsen Leestempo in LOVS Technisch lezen sluiten nauw aan bij het doel en de inhoud van onderwijs in technisch lezen op de basisschool. Leerlingen worden immers opgeleid om stil teksten te lezen. Van de leerlingen die de toetsen maken, wordt gevraagd stil een tekst te lezen en tijdens dat lezen bij gemiddeld elk tiende woord een opgave te beantwoorden. De toetsen bestaan uit een gevarieerd aanbod van teksten. Ze verschillen in soort (fictie, non-fictie), lengte en in technische en begrijpend leesmoeilijkheid. Een overzicht van hoe deze variabelen zich verhouden bij de vijftien toetsen staat hieronder in tabel 8.1. In deze tabel staat allereerst aangegeven tot welke tekstsoort de tekst (en dus toets) behoort. Daarbij wordt uitgegaan van de tweedeling in verhalende teksten (fictie) en zakelijke teksten (non-fictie). In de loop van de basisschoolcarrière van een leerling zullen zakelijke teksten steeds belangrijker worden en neemt het aantal narratieve teksten (relatief gezien) af, maar ook in de onderbouw maken leerlingen regelmatig kennis met zakelijke teksten. Uit tabel 8.1 blijkt dat er op elk afnamemoment, behalve bij M5, in de toetssituatie gekozen kan worden voor een fictie- of een non-fictietekst. Gegevens over zowel het aantal woorden als het AVI-niveau en het CLIB-niveau (zie hierna) van een tekst worden op een geautomatiseerde manier met behulp van een computerprogramma (P-Clib) verkregen. Met betrekking tot de tekstlengte, kan gesteld worden dat de teksten in de loop van de jaargroepen steeds langer worden. Dat correspondeert met de ontwikkeling die leerlingen normaliter doormaken: zij lezen steeds (sneller en dus) langere teksten. De technische leesmoeilijkheid van een tekst wordt uitgedrukt in AVI-niveau. Het AVI-niveau wordt bepaald door een aantal factoren, waarbij de gemiddelde woordlengte (in aantal letters) en de frequentie van de woorden in een frequentielijst de twee meest bepalende factoren zijn. Het AVI-niveau van de teksten neemt ook toe in de loop van de jaren en dat is ook een eerste vereiste: de toetsen beogen immers de technische leesvaardigheid in beeld te brengen. Ook is onderzocht in hoeverre de teksten in Leestempo qua begripsmoeilijkheid passen bij het gemiddelde (begrijpend) leesvaardigheidsniveau van de leerlingen in de verschillende groepen van het basisonderwijs. De controle is uitgevoerd met behulp van de CLIB, de Cito LeesIndex voor het Basis- en speciaal onderwijs (Staphorsius, 1992; 1994). Het CLIB-niveau geeft aldus de moeilijkheid van de gebruikte teksten aan en wordt uitgedrukt in jaargroep. De CLIB-waarden in tabel 11.1 laten zien dat alle toetsen, met uitzondering van de E4-toets1, goed op niveau zijn. Een facet dat niet gemeten kan worden door het computerprogramma P-Clib is de liniaire opbouw van de tekst. De begripsmatige moeilijkheidsgraad van een tekst wordt echter ook door de mate van liniairiteit beïnvloed: is het een voor de hand liggende verhaallijn of hanteert de schrijver een onverwachts perspectief en/of komen er afwijkende verhaallijnen voor in het verhaal? In het kader van het zo min mogelijk een beroep doen op de begrijpend leesvaardigheid van een leerling (het betreft immers een toets technisch lezen), is het belangrijk dat de lezer niet met onverwachtse perspectieven of verhaallijnen geconfronteerd wordt. Bij de constructie van de teksten waarop de toetsen gebaseerd zijn, is dan ook nauwlettend in de gaten gehouden dat niet de originaliteit van de tekst, maar het (begripsmatige) leesgemak voorop staat. Samenvattend kan geconcludeerd worden dat de teksten steeds langer worden en dat de moeilijkheid in termen van technisch en begrijpend leesvaardigheidsniveau steeds toeneemt en daarmee in overeenstemming is met de beoogde doelgroep2.
1
De E4-toets (De agent) zou begripsmatig beter passen bij leerlingen aan het begin van groep 5. Dit komt niet overeen met de
ervaring tijdens het normeringsonderzoek; vergelijk in dit verband ook de normeringstabel van de toets E4 met die van de toetsen E4 Extra 1 en E4 Extra 2. Een verklaring kan wellicht gezocht worden in twee meermaals voorkomende, langere woorden die niet (hoog) in de frequentielijst staan maar die blijkbaar toch door leerlingen relatief gemakkelijk begrepen worden (politieschool en computer).
57
Tabel 8.1 Tekstsoort, tekstlengte, AVI-niveau en CLIB-niveau per toets Toets
Titel
Tekstsoort
Leestempo E3 Leestempo E3 Extra 1 Leestempo E3 Extra 2 Leestempo M4 Leestempo M4 Extra 1 Leestempo M4 Extra 2 Leestempo E4 Leestempo E4 Extra 1 Leestempo E4 Extra 2 Leestempo M5 Leestempo M5 Extra 1 Leestempo M5 Extra 2 Leestempo E5 Leestempo E5 Extra 1 Leestempo E5 Extra 2
Bas en Kim Dolfijn En de boom werd een bos Mam, mag ik een huisdier? De kikker en de pad De verdwenen jonkies De agent Lotte wordt een mooiprater Piepje leert miauwen De gouden fluit Help, een muis! Toch een vuurpijl De blindengeleidehond Giselle en Rudolf op de ridderschool De zwerfster
fictie non-fictie fictie fictie non-fictie fictie non-fictie fictie fictie fictie fictie fictie non-fictie fictie fictie
Aantal woorde n 788 709 701 1032 995 1041 1090 1076 1042 1210 1206 1196 1239 1254 1245
AVIniveau
CLIBniveau
E3 E3 E3 M4 M4 M4 E4 E4 E4 M5 M5 M5 E5 E5 E5
3 3 3 4 4 4 5 4 4 5 5 5 5 5 5
Afleiders Beide afleiders staan – vergelijk Leestechniek – zoveel mogelijk voor door zwakke lezers min of meer frequent gemaakte (technisch) leesfouten: – het verwisselen van letters, bijvoorbeeld 'r' en 'n': starter wordt dan gelezen als starten; – het weglaten van een letter, bijvoorbeeld: starten wordt staten; – het toevoegen van een letter, bijvoorbeeld: staten wordt straten – het dooreengooien van letters, bijvoorbeeld: straten wordt starten. Beide afleiders dienen bovendien te voldoen aan de volgende twee voorwaarden: het moeten bestaande woorden zijn en ze mogen op geen enkele manier in de tekst passen. Het opnemen van niet bestaande woorden is niet wenselijk, omdat de leestaak op die manier een lexicale decisietaak zou (kunnen) worden. Het opnemen van non-woorden in de opgaven van Leestempo zou leerlingen de mogelijkheid bieden om goede scores te behalen zonder daarvoor de tekst te hoeven lezen: uitsluitend door per opgave op zoek te gaan naar het enige antwoordalternatief dat een bestaand woord is. De woorden mogen semantisch op geen enkele manier in de tekst passen, omdat in dat geval bij het maken van de keuze voor het goede woord het begripsmatige aspect van de opdracht een te grote rol gaat spelen en de toets in zo’n geval niet langer alleen de technische, maar ook de begrijpend leesvaardigheid zou meten.
58
9
Het normeringsonderzoek
9.1
Opzet en verloop van het normeringsonderzoek
Met het oog op de ontwikkeling van de toetsen zijn van 2007 t/m 2009 voor de jaargroepen 3, 4 en 5 opgaven geconstrueerd voor de afnamemomenten eind groep 3 (E3), medio groep 4 (M4), eind groep 4 (E4), medio groep 5 (M5) en eind groep 5 (E5). Deze opgaven zijn in normeringsonderzoeken in 2008 en 2009 voorgelegd aan groepen leerlingen van een groot aantal scholen en leerlingen. Bij Leestempo is er geen sprake van een apart kalibratieonderzoek, voorafgaand aan het normeringsonderzoek. Dit is het geval omdat er in feite nauwelijks sprake is van itemselectie: per afnamemoment worden vier toetsen Leestempo beproefd in het normeringsonderzoek en drie daarvan worden in het toetspakket opgenomen. Bij de uiteindelijke selectie spelen de volgende factoren een rol: goede verdeling fictie vs. non-fictie, onderwerp, oppervlaktekenmerken van de tekst (m.n. tekstlengte) en moeilijkheidsgraad (teksten van hetzelfde AVI-niveau kunnen verschillen in moeilijkheidsgraad). De normering van M4 vond plaats in januari 2008, de normering van E3 en E4 in juni 2008, de normering van M5 in januari 2009 en E5 werd in juni 2009 genormeerd. Normeringsonderzoek Het normeringsonderzoek levert gegevens op over de kwaliteit en de moeilijkheid van de opgaven én over de landelijke verdeling van de vaardigheid van de leerlingen op de verschillende afnamemomenten. Tijdens dit onderzoek zijn de leerlingen op zo veel mogelijk tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te kunnen verzamelen en om op basis daarvan de ontwikkeling van de technische leesvaardigheid, gemeten met toetsen Leestempo, in kaart te brengen. In de tabellen 1 t/m 5 in bijlage 1 is het design opgenomen voor de afnamemomenten E3 t/m E5. Leerlingen maakten twee (M4) of drie (andere afnamemomenten) taken in het normeringsonderzoek. Op het E3-moment zijn er leerlingen geweest die twee taken Leestechniek en één taak Leestempo maakten, en er zijn leerlingen die drie taken Leestechniek maakten. Dat er op het M4-moment slechts twee taken per leerling werden afgenomen, had enkel en alleen een organisatorische reden: leerlingen konden geen drie taken maken, omdat de toetsleiders in veel gevallen slechts één dag(deel) op een school waren. Op de andere afname-momenten is dit veranderd; toetsleiders waren vaak op meerdere dag(del)en op een school en de leerlingen konden zodoende ook meer dan twee taken maken. In tabel 9.1 staat het aantal leerlingen per afname. Dit geeft een beter beeld van de aantallen waarop de normering is gebaseerd. Tabel 9.1
E3 M4 E4 M5 E5
E3 836 0 0 0 0
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip M4 0 1067 730 104 109
E4 0 730 889 102 104
M5 0 101* 102 1229 975
E5 0 92$ 93# 975 1171
*
M4, E4 en M5 E4, M5 en E5 $ M4, E4, M5 en E5 #
Tabel 9.1 geeft aan dat er op het E3-moment 836 leerlingen deelnamen aan het normeringsonderzoek, op het M4-moment 1067 leerlingen, op het E4-moment 889 leerlingen, op het M5-moment 1229 leerlingen en op het E5-moment 1171 leerlingen. Sommige leerlingen namen meer dan één keer deel aan het normeringsonderzoek, zoals uit de tabel is af te lezen. In principe deden scholen minimaal twee opeenvolgende malen mee: het M4- én E4-moment, of het M5- én E5-moment. Zo namen bijvoorbeeld 730 leerlingen van de 1067 leerlingen die bij M4 hadden meegedaan ook weer deel aan het E4-onderzoek. In deze groep deden 102 leerlingen zelfs ook mee aan het M5-onderzoek en 92 leerlingen aan het M4-, E4-, M5- én E5-onderzoek. Het E3-moment binnen het normeringsonderzoek van Leestempo nam een afwijkende positie in, omdat scholen die dat schooljaar in groep 3 deelnamen, op het M3-moment meededen voor Leestechniek en op 59
het E3-moment voor Leestechniek en eventueel Leestempo. Áls zij op E3 (o.a.) voor Leestempo ingedeeld waren, betekende het dat de betreffende leerlingen daar niet gevolgd zijn op (minimaal) twee afnamemomenten.
9.2
Representativiteit
De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het percentage achterstandsleerlingen, de geografische spreiding en de mate van verstedelijking. Voor alle toetsmomenten is normeringsonderzoek uitgevoerd. In tabel 9.2 hierboven staan per normeringsmoment het aantal leerlingen en ook het aantal leerlingen dat daarvan op een volgend normeringsmoment deelnam. De gevolgde procedure maakt het mogelijk uit deze dataset alle leerlingen te selecteren die aan het normeringsonderzoek hebben deelgenomen. De representativiteit van deze leerlingen wordt onderzocht op 1 basis van schoolkenmerken. De leerlingen uit het onderzoek zaten op 35 (E3), minimaal 40 (M4), 41 (E4), 58 (M5) en 54 (E5) scholen. Van deze leerlingen en scholen wordt in deze paragraaf de representativiteit beschreven. Aangezien niet van alle leerlingen op het M4-moment de vereiste achtergrondgegevens bekend waren (waaronder o.a. schoolnummer), worden deze leerlingen niet meegenomen in de significantie-toetsing op representativiteit. Representativiteit naar schoolgrootte en percentage achterstandsleerlingen De steekproef voor de normeringen is getrokken uit een steekproefkader dat speciaal voor dit doel is gemaakt. Voor de toetsen Leestechniek binnen het LOVS dienden de CFI-gegevens van 2008 als basis voor het steekproefkader. Deze gegevens betreffen alle 7043 basisscholen met: 2 – de BRIN-code ; – het totaal aantal leerlingen overeenkomend met de BRIN-code, opgesplitst naar leeftijdsgroepen en binnen leeftijd naar formatiegewicht3 als beschreven in tabel 9.2.
1
Zie uitleg over ontbrekende achtergrondgegevens hierna
2
BRIN staat voor Basisregistratie Instellingen. Daarin geeft de Dienst Uitvoering Onderwijs (DUO) – voorheen CFI – van het
Ministerie van OCW een overzicht van alle scholen en de hiermee samenhangende instellingen. De scholen en instellingen in dit bestand zijn voorzien van een uniek BRIN-nummer. 3
De formatiegewichten zijn een indicatie van het aantal achterstandsleerlingen op een school. Ze worden volgens het
scoringsvoorschrift van het Ministerie van OCenW aan leerlingen toegekend.
60
Tabel 9.2
Formatiegewicht
Gewicht 0
Uitleg leerlingen van wie één van de ouders of beide ouders een opleiding heeft gehad uit categorie 3: - drie of vier jaar mavo (c- of d-niveau); - drie of vier jaar vmbo gemengde leerweg of theoretische leerweg; - meer dan twee jaar havo of vwo (of de oudere opleidingen: (m)ulo, mms of hbs); - mbo, hbo of universiteit. leerlingen van wie één van de ouders een opleiding heeft gehad uit categorie 1 en de ander een opleiding uit categorie 1 óf 2. Categorie 1: - maximaal basisonderwijs (tot en met het dertiende levensjaar) of (v)so-zmlk Categorie 2: - maximaal lbo/vbo, praktijkonderwijs of vmbo basis- of kaderberoepsgerichte leerweg; - maximaal twee jaar onderwijs in een andere schoolopleiding in het voortgezet onderwijs aansluitend op het basisonderwijs. leerlingen van wie beide ouders of de ouder die belast is met de dagelijkse verzorging een opleiding uit categorie 2 heeft gehad: - maximaal lbo/vbo, praktijkonderwijs of vmbo basis- of kaderberoepsgerichte leerweg; - maximaal twee jaar onderwijs in een andere schoolopleiding in het voortgezet onderwijs aansluitend op het basisonderwijs.
1,2
0,3
In het steekproefkader van 7043 scholen zijn de leerlinggewichten vastgesteld, uitgaande van de indeling zoals deze in tabel 9.2 wordt weergegeven. Vervolgens heeft men op de volgende manier de scholen geclassificeerd: a. Voor elke school is bepaald welk percentage leerlingen een formatiegewicht had van 1,2 of 0,3 (i.e. achterstandsleerling). De percentageberekening is gebaseerd op alle leerlingen van de school. Dit percentage wordt symbolisch voorgesteld met de letter P. Gebaseerd op P zijn vier groepen scholen gevormd: scholen met minder dan 10% achterstandsleerlingen, scholen met tussen de 10 en 25% achterstandsleerlingen, scholen met tussen de 25 en 40% achterstandsleerlingen en scholen met meer dan 40% achterstandsleerlingen. b. Binnen elke P-groep zijn twee subgroepen gevormd: een kleine school telt minder dan 200 leerlingen; een grote school 200 of meer leerlingen. Aldus zijn acht strata gevormd. De landelijke verdeling van de scholen en de leerlingen over deze acht strata is weergegeven in tabel 9.3. Voor Cito is het van praktisch belang de schoolgrootte mee te nemen om de vereiste steekproefomvang te kunnen realiseren. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen van de doelgroep in de steekproef zitten. Daarbij bestaat het risico dat de vereiste steekproefgrootte al snel gerealiseerd wordt door deelname van enkele grote scholen. Daardoor zouden kleine scholen mogelijk ondervertegenwoordigd zijn in de steekproef. Een steekproeftrekking met een vast aantal leerlingen per school stuit op praktische bezwaren van scholen en van Cito; de school zou dan aselect leerlingen moeten aanwijzen en voor Cito zouden de kosten voor de steekproef aanzienlijk hoger zijn omdat er meer op deze manier meer scholen zouden moeten worden geworven.
61
Tabel 9.3
stratum 1 2 3 4 5 6 7 8 Totaal
Definitie van de strata (gebaseerd op CFI gegevens van 2008)
definitie P< .10 .10 ≤ P < .25 .25 ≤ P < .40 P ≥ .40
klein groot klein groot klein groot klein groot
aantal scholen 1787 2018 1015 1034 358 238 340 253 7043
percentage scholen 25,4 28,7 14,4 14,7 5,1 3,4 4,8 3,6
aantal leerlingen 206554 667454 125914 316729 44554 71363 45003 73338 1550909
percentage leerlingen 13,3 43,0 8,1 20,4 2,9 4,6 2,9 4,7
Toelichting op tabel 9.3: – De kolom ‘aantal scholen’ geeft het aantal scholen in elke categorie; – De kolom ‘percentage scholen’ geeft het percentage scholen van het betrokken stratum; – De kolom ‘aantal leerlingen’ geeft het aantal leerlingen dat op een school van het betrokken stratum zit; – De kolom ‘percentage leerlingen’ geeft het percentage leerlingen op scholen van het betrokken stratum; De verdeling van de leerlingen uit het normeringsonderzoek staat in tabel 9.4a. Vergelijking van de verdeling van de steekproef met de landelijke verdeling laat zien dat er sprake is van een ondervertegenwoordiging van leerlingen uit de strata 6 en 8 (grote scholen met minimaal 25% achterstandsleerlingen) op respectievelijk alle (stratum 6) en de eerste drie (stratum 8) afnamemomenten. Ook zijn de leerlingen uit stratum 5 ondervertegenwoordigd op het eerste afnamemoment. Daar tegenover staat een lichte oververtegenwoordiging van leerlingen uit de strata 1 en 3 (kleine scholen met maximaal 25% achterstandsleerlingen) en stratum 4 (grote scholen met maximaal 25% achterstandsleerlingen), steeds op andere afnamemomenten. Het toetsen op significantie van deze afwijkingen is op leerlingniveau niet mogelijk omdat de leerlingen geclusterd zijn in schoolklassen. Daarom worden steeds de gegevens op zowel leerling- als schoolniveau gepresenteerd: toetsing op schoolniveau is wél mogelijk. Tabel 9.4a
Landelijke en steekproefgegevens naar schoolgrootte en achterstandsleerlingen (op leerlingniveau), E3 t/m E5
Stratum
Schoolgrootte
1 2 3 4 5 6 7 8 onbekend Totaal
<200 >=200 <200 >=200 <200 >=200 <200 >=200 (N) (N)
Proportie leerlingen met achterstand p<.10 p<.10 .10<=p<.25 .10<=p<.25 .25<=p<.40 .25<=p<.40 p>=.40 p>=.40
E3%
M4 %
E4%
M5%
E5%
Land. %
13,5 42,2 17,2 25,0 0 0 2,0 0 836
19,6 43,2 11,6 21,7 2,5 0 1,5 0 103 1067
15,6 43,2 15,2 21,5 2,9 0 1,6 0 889
15,9 37,5 10,4 25,0 2,3 1,1 1,3 6,5 1229
16,7 43,6 9,5 20,0 3,1 1,3 1,0 5,0 1171
13,3 43,0 8,1 20,4 2,9 4,6 2,9 4,7
De verdeling van de scholen uit het normeringsonderzoek staat hierna in tabel 9.4b. Wanneer er op schoolniveau gekeken wordt, komt het beeld grofweg overeen met datgene wat uit tabel 9.4a naar voren kwam: er is er sprake van een ondervertegenwoordiging van leerlingen uit de strata 6 (alle afnamemomenten), 8 (eerste drie afnamemomenten) en 5 (op het eerste afnamemoment, en een oververtegenwoordiging van leerlingen uit de strata 1 (op het tweede afnamemoment) en 3 (op de eerste drie afnamemomenten).
62
Tabel 9.4b
Landelijke en steekproefgegevens naar schoolgrootte en achterstandsleerlingen (op schoolniveau), E3 t/m E5
Stratum
Schoolgrootte
1 2 3 4 5 6 7 8 onbekend Totaal
<200 >=200 <200 >=200 <200 >=200 <200 >=200 (N) (N)
Proportie leerlingen met achterstand p<.10 p<.10 .10<=p<.25 .10<=p<.25 .25<=p<.40 .25<=p<.40 p>=.40 p>=.40
N E3
E3%
N M4
M4 %
N E4
E4%
N M5
M5%
N E5
E5%
Land. %
9 10 10 5 0 0 1 0 35
25,7 28,6 28,6 14,3 0 0 2,9 0
12 10 9 6 2 0 1 0 ? 40+?
30,0 25,0 22,5 15,0 5,0 0 2,5 0
10 12 10 6 2 0 1 0 41
24,4 29,3 24,4 14,6 4,9 0 2,4 0
16 14 9 9 3 1 2 4 58
27,6 24,1 15,5 15,5 5,2 1,7 3,4 6,9
15 15 8 7 3 1 2 3 54
27,8 27,8 14,8 13,0 5,6 1,9 3,7 5,6
25,4 28,7 14,4 14,7 5,1 3,4 4,8 3,6
De afwijkingen in de steekproef van wat je op basis van de populatieverdeling zou mogen verwachten, zijn gering en niet significant (E3 Chi2 = 9,41, df = 7, p = .21; M4 Chi2 = 5,60, df = 7, p = .58; E4 Chi2 = 6,22, df = 7, p = .50; M5 Chi2 = 3,06, df = 7, p = .88 ; E5 Chi2 = 1,37, df = 7, p = .99). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn als gekeken wordt naar schoolgrootte en percentage achterstandsleerlingen. Representativiteit naar geografische verdeling. De verdeling van alle leerlingen en scholen in de normeringssteekproef naar regio staat in tabel 9.5 en 9.6a/b. Regio Noord bevat de provincies Groningen, Friesland en Drenthe, Oost de provincies Overijssel, Gelderland, Flevoland, West de provincies Utrecht, Noord- en Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg. Tabel 9.5
Landelijke verdeling aantal leerlingen en scholen naar regio
Regio Noord Oost West Zuid
Aantal scholen 1116 1713 2900 1314
Totaal
7043
% schln 15,8 24,3 41,2 18,7
Aantal leerlingen 160.920 353.502 718.777 317.710
% lln 10,4 22,8 46,4 20,5
1.550.909
In tabel 9.6a hierna is te zien dat er in de groepen 3 en 4 relatief weinig leerlingen uit Zuid en relatief veel leerlingen uit Noord in de steekproef opgenomen waren. Wanneer naar de groepen 5 gekeken wordt, is de regio Zuid juist licht oververtegenwoordigd, ten koste van een lichte ondervertegenwoordiging van West. Tabel 9.6a
Landelijke en steekproefverdeling naar regio (op leerlingniveau), E3 t/m E5
Regio Noord Oost West Zuid Onbekend (aantal) Totaal (aantal)
E3% 17,6 27,8 41,2 13,4 836
M4% 18,6 22,9 45,7 12,8 103 1067
E4% 19,5 29,1 37,8 13,6 889
M5% 7,7 25,1 40,9 26,3 1229
E5% 7,4 26,0 39,2 27,3 1171
Land. % 10,4 22,8 46,4 20,5
Dit beeld komt ook overeen met de gegevens op schoolniveau die in tabel 9.6b hierna staan.
63
Tabel 9.6b Regio Noord Oost West Zuid onbekend Totaal (N)
Landelijke en steekproefverdeling naar regio (op schoolniveau), E3 t/m E5 N E3 8 10 12 5 35
E3% 22,9 28,6 34,3 14,3
N M4 9 10 16 5 ? 40+?
M4% 22,5 25,0 40,0 12,5
N E4 9 13 14 5 41
E4% 22,0 31,7 34,1 12,2
N M5 9 15 19 15 58
M5% 15,5 25,9 32,8 25,9
N E5 8 14 18 14 54
E5% 14,8 26,0 33,3 26,0
Land. % 15,8 24,3 41,2 18,7
Deze ondervertegenwoordiging van scholen uit de regio Zuid (in groepen 3 en 4) en uit de regio West (in groepen 5) enerzijds en de oververtegenwoordiging van scholen uit de regio Noord (in de groepen 3 en 4) en uit de regio Zuid (in de groepen 5) is echter bescheiden en niet significant (E3 Chi2 = 2,14, df = 3, p = .55; M4 Chi2 = 1,98, df = 3, p = .58; E4 Chi2 = 3,33, df = 3, p = .35; M5 Chi2 = 2,66, df = 4, p = .45 ; E5 Chi2 = 2,41, df = 3, p = .49). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn als gekeken wordt naar geografische verdeling. Representativiteit naar verstedelijking De verdeling naar verstedelijking van alle leerlingen en scholen enerzijds en de leerlingen en scholen in de normeringssteekproef anderzijds staat in tabel 9.7 en 9.8a/b. Tabel 9.7
Landelijke verdeling van verstedelijkingsgraad
Verstedelijkingsgraad Zeer sterk Sterk Matig Weinig Niet Totaal
Aantal scholen 830 1545 1371 1878 1419 7043
% schln 11,8 21,9 19,5 26,7 20,1
Aantal leerlingen 235.382 427.848 325.621 358.172 203.886 1.550.909
% lln 15,2 27,6 21,0 23,1 13,1 100,0
In de steekproef (zie tabel 9.8a hierna) zijn de matig en weinig verstedelijkte gebieden oververtegenwoordigd en sterk en zeer sterk verstedelijkte gebieden ondervertegenwoordigd. Tabel 9.8a
Landelijke en steekproef gegevens Verstedelijking (op leerlingniveau), E3 t/m E5
Verstedelijkingsgraad Zeer sterk Sterk Matig Weinig Niet Onbekend (N) Totaal (N)
E3%
M4%
E4%
M5%
E5%
Land. %
11,8 12,7 25,7 32,4 17,3 836
10,9 10,7 33,4 29,6 15,5 103 1067
11,4 13,6 27,0 32,3 15,7 889
9,2 24,2 16,3 26,2 24,1 1229
5,6 24,1 19,8 26,6 23,9 1171
15,2 27,6 21,0 23,1 13,1
Op schoolniveau komt hetzelfde beeld naar voren, zoals hierna in tabel 9.8b te zien is.
64
Tabel 9.8b
Landelijke en steekproef gegevens Verstedelijking (op schoolniveau), E3 t/m E5
Regio
N E3
E3%
N M4
M4%
N E4
E4%
N M5
M5%
N E5
E5%
Land. %
Zeer sterk Sterk Matig Weinig Niet Onbekend Totaal (N)
2 4 8 12 9 35
5,7 11,4 22,9 34,3 25,7
3 4 11 13 9 ? 40+?
7,5 10,0 12,5 17,5 22,5
3 6 10 13 9
7,3 14,6 24,4 31,7 22,0
4 11 11 15 17
6,9 19,0 19,0 25,9 29,3
3 10 12 14 15
5,6 18,5 22,2 26,0 27,8
11,8 21,9 19,5 26,7 20,1
41
58
54
Deze ondervertegenwoordiging van scholen in de sterk en zeer sterk verstedelijkte gebieden en oververtegenwoordiging van scholen in de matig en weinig verstedelijkte gebieden is echter niet significant (E3 Chi2 = 4,36, df = 4, p = .36; M4 Chi2 = 5,15, df = 4, p = .27; E4 Chi2 = 2,64, df = 4, p = .68; M5 Chi2 = 3,88, df = 4, p = .42 ; E5 Chi2 = 3,87, df = 4, p = .43). Aangenomen wordt daarom dat de scholen in de normeringssteekproef representatief zijn als gekeken wordt naar mate van verstedelijking.
9.3
Kalibratie en normering
In figuur 9.11 staan gegevens uit het proefonderzoek van E3. Per leerling is het aantal goede responsen over alle teksten die de leerling gemaakt heeft, geteld. Leerlingen eind groep 3 maakten in het normerings-onderzoek maximaal twee toetsen met ieder 70 items. De frequentieverdeling vertoont een nogal wiebelige lijn. Dit komt door het lage aantal leerlingen dat precies een bepaald aantal goed scoorde (maximaal 32). Dit zorgt voor nogal wat toevalsfluctuatie. Deze wiebelige geobserveerde verdeling wordt goed benaderd met het model. De voorspelling van de frequentieverdeling is de roze vloeiende lijn. De geobserveerde aantallen wijken soms positief, soms negatief af. Het is moeilijk te beoordelen of de benadering goed is. Figuur 9.11
Verdeling van ruwe scores in proefonderzoek E3
E3-2008
35
frequentie
30 25 20 15 10 5 0 0
20
40
60
80
100
120
140
aantal goed
Daarom is het zinvoller om te kijken naar de cumulatieve frequentieverdelingen. In een cumulatieve frequentieverdeling wordt het relatieve aantal leerlingen, ofwel de proportie leerlingen, die een bepaald aantal goed of minder hebben gescoord, geplot. Het voordeel van een dergelijke cumulatieve plot is dat de toevallige positieve en negatieve afwijkingen van de voorspelling tegen elkaar wegvallen en systematisch foute voorspellingen beter in beeld komen. In figuur 9.12 is te zien dat de resultaten van het E3-onderzoek zeer goed voorspeld kunnen worden door het Poisson-Gamma-model. De onderbroken en continue lijnen vallen immers zo goed als samen.
65
Figuur 9.12
Cumulatieve verdeling van ruwe scores in proefonderzoek E3
exp(E3-08)
1,00
obs(E3-08)
0,75 0,50 0,25 0,00
0
20
40
60
80
100
aantal goed hele boekje
Bij M4 was er een mixture van twee Gamma-verdelingen nodig om de geobserveerde lijn goed te benaderen. Figuur 9.13
Cumulatieve verdeling van ruwe scores in proefonderzoek M4
mixture
exp(M4-08)
1,00
obs(M4-08)
0,75 0,50 0,25 0,00
10
30
50
70
90
110
130
150
170
aantal goed hele boekje
Bij E4 bleef het moeilijk om de geobserveerde frequenties goed te benaderen. Ook een mixture van twee Gamma-verdelingen gaf geen verbetering van de modelfit. We zien in onderstaande figuur dat er meer zwakke leerlingen (onder percentiel 25) waren dan voorspeld wordt, en vervolgens wat minder gemiddelde leerlingen (tussen percentiel 25 en 60) dan voorspeld.
66
Figuur 9.14
Cumulatieve verdeling van ruwe scores in proefonderzoek E4
1,00
exp(E4-08) obs(E4-08)
0,75 0,50 0,25
0,00 50
75
100
125
150
175
200
225
250
275
aantal goed hele boekje
De voorspelling van de M5-scores was prima. Figuur 9.15
Cumulatieve verdeling van ruwe scores in proefonderzoek M5
obs M5
1,0000
exp M5 0,7500 0,5000 0,2500 0,0000 50
100
150
200
250
300
350
aantal goed hele boekje
Bij E5 zien we hetzelfde beeld als bij E4, maar in mindere mate: er zijn relatief iets te veel (zeer) zwakke leerlingen in vergelijking met wat door het model voorspeld wordt.
67
Figuur 9.16
Cumulatieve verdeling van ruwe scores in proefonderzoek E5
1,0000
obs E5 exp E5
0,7500 0,5000 0,2500 0,0000 50
100
150
200
250
300
350
aantal goed hele boekje
Uit figuur 9.12 t/m 9.16 kan geconcludeerd worden dat het model de percentielen van de verdelingen vrij nauwkeurig voorspelt. Er kan dus gesteld worden dat er sprake is van een redelijke tot goede fit. In paragraaf 7.4.2 zijn belangrijke implicaties voor een gekalibreerde opgavenverzameling gegeven. Het slagen van kalibratie betekent dat met een selectie van items uit de bank de vaardigheid gemeten kan worden bij een leerling. Hoe nauwkeurig deze meting is, staat in paragraaf 9.2. Er kan vervolgens een schatting gemaakt worden van de verdelingen van de vaardigheid in welomschreven populaties, omdat selecties van items voorgelegd zijn aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen in de doelgroep in de steekproef zitten. Het gemiddelde en de standaardafwijking worden geschat in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie, die van belang zijn voor de indeling van leerlingen in de niveaucategorieën, die zijn beschreven in paragraaf 8.1. In tabel 9.11 staat de indeling van leerlingen in de niveaucategorieën. Tabel 9.11
Overzicht van de vaardigheidsverdelingen per normeringsmoment
A B C D E
E3 van 49,72 34,13 22,23 14,32 nvt
t/m nvt 49,71 34,12 22,22 14,31
M4 van 74,58 59,93 44,49 28,33 nvt
t/m nvt 74,57 59,92 44,48 28,32
E4 van 90,55 73,27 58,34 46,81 nvt
t/m nvt 90,54 73,26 58,33 46,80
M5 van 104,50 87,50 71,50 59,50 nvt
t/m nvt 104,49 87,49 71,49 59,49
E5 van 115,50 96,50 78,50 65,50 nvt
t/m nvt 115,49 96,49 78,49 65,49
P90 I II III IV V P10
67,20 54,20 39,53 29,25 19,80 nvt nvt
nvt nvt 54,19 39,52 29,24 19,79 14,31
88,38 78,30 65,41 54,37 40,17 nvt nvt
nvt nvt 78,29 65,40 54,36 40,16 28,32
108,23 95,21 79,47 67,39 54,99 nvt nvt
nvt nvt 95,20 79,46 67,38 54,98 46,80
122,50 109,50 93,50 81,50 68,50 nvt nvt
nvt nvt 109,49 93,49 81,49 68,49 59,49
135,50 121,50 103,50 89,50 74,50 nvt nvt
nvt nvt 121,49 103,49 89,49 74,49 65,49
68
10
Betrouwbaarheid en meetnauwkeurigheid
10.1
Betrouwbaarheid
In hoofdstuk 9 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Leestempo in LOVS Technisch lezen opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruik gemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde wordt aangeduid met τ(θ). Als bovendien bekend is hoe θ in de populatie verdeeld is, kunnen ook het gemiddelde en de variantie van de ware scores in de populatie bepaald worden. De variantie van de ware scores in de populatie worden aangegeven met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor met een eenmalige toetsafname niet meer zonder fout de waarde van θ bepaald kan worden. De variantie van de geobserveerde toetsscore wordt aangegeven met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kan ook de gemiddelde variantie van de geobserveerde toetsscores berekend gaan worden.
Var(t) = E[Var(t | ( ))]
(10.1)
Deze variantie kan opgevat worden als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid volgt dan
MAcc =
Var( ) Var( ) + Var(t)
(10.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 10.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Technisch lezen. In de eerste kolom staan voor elk afnamemoment de drie mogelijke toetsen: een leerling maakt ofwel de standaardtoets ofwel een Extra-toets. De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de toets. De vierde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vijfde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen (of toetsonderdelen) is. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de LOVS-toetsen Technisch lezen) geeft de COTAN (COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70 en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN Beoordelingssysteem voor de kwaliteit van tests, 2009, p. 33). Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen.
69
Tabel 10.1
Titel
Toets E3 E3 Extra 1 E3 Extra 1 M4 M4 Extra 1 M4 Extra 1 E4 E4 Extra 1 E4 Extra 1 M5 M5 Extra 1 M5 Extra 1 E5 E5 Extra 1 E5 Extra 1
10.2
Beschrijvende gegevens bij de toetsen Leestempo in LOVS Technisch lezen
Bas en Kim De dolfijn En de boom werd een bos Mam, mag ik een huisdier? De kikker en de pad De verdwenen jonkies De agent Lotte wordt een mooiprater Piepje leert miauwen De gouden fluit Help een muis! Toch een vuurpijl De blindengeleidehond Gisele en Rudolf op de ridderschool De zwerfster
Maximumscore 70 70 70 100 100 100 100 100 100 120 120 120 120
22,0 26,9
Standaardmeetfout 13,3 16,1
18,0
11,1
0,85
35,0
18,4
0,90
34,3
18,0
0,89
33,0
17,4
0,89
53,8
18,7
0,85
49,8
17,5
0,84
53,4
18,6
0,85
64,6 61,9
19,6 18,9
0,83 0,83
61,7
18,8
0,83
65,3
20,0
0,84
64,0
19,7
0,83
67,3
20,6
0,84
Gemiddelde
Betrouwbaarheid 0,88 0,90
120
120
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid van de toetsen en geven geen beeld van de lokale meetnauwkeurigheid. De figuren 10.1 tot en met 10.5 geven grafisch per afnamemoment voor de drie toetsen weer hoe het gesteld is met de lokale meetnauwkeurigheid. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. De toetsen concentreren zich dus op het goed in kaart brengen van de vaardigheid van de minder goede leerlingen. Dat is ook het primaire doel dat met de toetsen beoogd wordt.
70
Figuur 10.1
Lokale meetnauwkeurigheid E3
20
0.35
Leestempo E3
0
0.00
0.05
5
meetfout
10
0.20 0.15 0.10
kansdichtheid
0.25
15
0.30
verdeling SE_baskim SE_dolfijn SE_boom
0
50
100
150
vaardigheid
Figuur 10.2
Lokale meetnauwkeurigheid M4
20
0.35
Leestempo M4
5 0 0
50
100
150
vaardigheid
71
meetfout
10
0.20 0.15 0.10 0.05 0.00
kansdichtheid
0.25
15
0.30
verdeling SE_mam, mag ik SE_kikker SE_verdwenen
Figuur 10.3
Lokale meetnauwkeurigheid E4
20
0.35
Leestempo E4
0
0.00
0.05
5
meetfout
10
0.20 0.15 0.10
kansdichtheid
0.25
15
0.30
verdeling SE_agent SE_lotte SE_piepje
0
50
100
150
vaardigheid
Figuur 10.4
Lokale meetnauwkeurigheid M5
20
0.35
Leestempo M5
5 0 0
50
100
150
vaardigheid
72
meetfout
10
0.20 0.15 0.10 0.05 0.00
kansdichtheid
0.25
15
0.30
verdeling SE_goudenfluit SE_muis SE_vuurpijl
Figuur 10.5
Lokale meetnauwkeurigheid E5
20
0.35
Leestempo E5
0
0.00
0.05
5
meetfout
10
0.20 0.15 0.10
kansdichtheid
0.25
15
0.30
verdeling SE_blindegeleide SE_Gisele SE_zwerfster
0
50
100
150
vaardigheid
Lokale meetnauwkeurigheid (tabellarisch) De betekenis van de meetnauwkeurigheid voor de beslissingen die met de toetsen genomen worden staan in zogenaamde classificatie-/misclassificatietabellen. Deze tabellen laten het effect van de lokale meetnauwkeurigheid zien en staan in bijlage 2. Ter illustratie is een willekeurige classificatie-/misclassificatietabel hieronder opgenomen. Deze laat bijvoorbeeld zien dat 79,1 % van de leerlingen die einde jaargroep 4 de standaardtoets1 maken met hun geschatte vaardigheidsscore in scoregroep A vallen ook met hun werkelijke vaardigheidsscore in deze groep vallen. Anders gezegd, de kans dat een A-leerling (terecht) als een A-leerling wordt bestempeld is ongeveer 80%. Verder laat de tabel zien dat 17% van de leerlingen in niveaugroep A een vaardigheidsscore krijgt die in werkelijkheid in scoregroep B valt. Zoals uit onderstaande tabel is af te lezen, betreffen gevallen van misclassificaties vrijwel altijd een misclassificatie van één niveau te hoog of te laag. Tabel 10.2
Ware niveau E D C B A
1
Proporties classificaties en misclassificaties Leestempo E4 Toegekende niveau E D C 62,7 31,1 6,0 12,9 48,0 36,5 0,8 16,1 56,8 0,0 1,3 24,3 0,0 0,0 0,9
B 0,2 2,7 25,1 57,4 19,9
A 0,0 0,0 1,2 17,0 79,1
Ware niveau V IV III II I
Toegekende niveau V IV III 74,6 22,2 3,2 18,4 50,1 26,9 1,9 24,2 47,5 0,1 4,1 26,6 0,0 0,1 2,3
II 0,1 4,5 24,4 51,4 22,0
I 0,0 0,2 2,0 17,9 75,6
De term standaardtoets wordt hier gebruikt ter contrast van de twee Extra-toetsen die óók beschikbaar zijn voor E4.
73
74
11
Validiteit
11.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. In 8.1 werd reeds aangegeven dat de opgaven in de toetsen Leestempo in LOVS Technisch lezen nauw aansluiten bij het doel en de inhoud van onderwijs in technisch lezen op de basisschool. Leerlingen worden immers opgeleid om stil teksten te lezen. Voor een verder inhoudelijke analyse van de toetsen Leestempo wordt terugverwezen naar paragraaf 8.2 van deze verantwoording. In het kader van het onderzoek naar de inhoudsvaliditeit van de toetsen zijn we ook nagegaan in hoeverre de voor de toetsen geschreven teksten beschouwd mogen worden als representanten van de populatie van teksten die aangeduid kan worden met de term ‘jeugdlectuur’. We vergelijken daartoe in eerste instantie een drietal oppervlaktekenmerken van de teksten in de toetsen met die van de teksten in het zogeheten P335-corpus in Staphorsius (1994). Dit corpus kan beschouwd worden als een representatieve steekproef uit bedoelde populatie en Staphorsius (1994, pagina 242) geeft voor deze steekproef enige beschrijvende maten; onder andere: de gemiddelde woordlengte in letters, de gemiddelde zinslengte in woorden en het percentage frequente woorden, waarin ‘frequent’ gedefinieerd is als een frequentie van voorkomen van 20 of vaker in het corpus van Staphorsius, Krom & De Geus (1988). In tabel 11.1 staat een samenvatting. Tabel 11.1
Range en gemiddelde van drie oppervlaktekenmerken voor de teksten in het P335-corpus
Gemiddelde woordlengte in letters Gemiddelde zinslengte in woorden Percentage frequente woorden
Range 3,84 – 5,49 5,85 – 26,88 58,69 – 91,75
Gemiddelde 4,66 12,66 77,22
Over deze maten beschikken we ook voor de teksten in de toetsen Leestempo; zij staan hieronder in tabel 11.2. Tabel 11.2
Waarden van de drie oppervlaktekenmerken voor de teksten in Leestempo
Toets
Tekst
Gemiddelde woordlengte1
Gemiddelde zinslengte2
E3 E3 Extra 1 E3 Extra 2 M4 M4 Extra 1 M4 Extra 2 E4 E4 Extra 1 E4 Extra 2 M5 M5 Extra 1 M5 Extra 2 E5 E5 Extra 1 E5 Extra 2
Bas en Kim De dolfijn En de boom werd een bos Mam, mag ik een huisdier? De kikker en de pad De verdwenen jonkies De agent Lotte wordt een mooiprater Piepje leert miauwen De gouden fluit Help, een muis! Toch een vuurpijl De blindengeleidehond Giselle en Rudolf op de ridderschool De zwerfster
3,71 3,62 3,76 3,92 3,87 4,04 4,11 4,09 4,21 4,16 4,19 4,22 4,33 4,39 4,37
5,95 6,76 5,75 5,61 6,75 7,91 6,11 6,36 5,83 7,09 6,55 6,76 9,11 7,66 7,41
1
In aantal letters
2
In aantal woorden
75
Percentage frequente woorden 84,72 85,50 86,38 83,24 81,79 86,02 85,45 82,29 82,25 81,00 81,73 81,54 82,96 81,44 81,62
De gemiddelde woordlengte in letters van de drie teksten die zijn gebruikt voor de toetsen op het E3moment is iets lager dan de minimale waarde in het P335-corpus. Alle andere waarden blijven binnen de in dat corpus gevonden ranges. De gemiddelde zinslengte in aantal woorden zijn in drie teksten (op de afnamemomenten E3, M4 en E4 steeds eenmaal) lager dan de minimale waarde in het P335-corpus. Wat de oppervlaktekenmerken betreft zijn de teksten in de toetsen Leestempo redelijk vergelijkbaar met teksten in de populatie ‘jeugdlectuur’. In tabel 10.1 staan alleen gemiddelden die over de hele verzameling jeugdlectuur berekend zijn en beschikt men aldus niet over gegevens per leeftijds- c.q. jaargroep. Echter, uit tabel 11.2 is wel af te lezen dat over het algemeen de gemiddelden van de verzameling teksten toenemen (gemiddelde woordlengte en zinslengte) c.q. afnemen (percentage frequente woorden) naarmate de teksten geacht worden moeilijker te zijn. Dit stemt overeen met de veronderstelling dat de woordlengte toeneemt en het percentage frequente woorden afneemt bij een toename van de technische leesmoeilijkheid.
11.2
Begripsvaliditeit
Meten de toetsen Leestempo E3 tot en met E5 één onderliggende latente vaardigheid die we – in dit geval: op tekstniveau – de technische leesvaardigheid mogen noemen? In het bijzonder is het bij het format dat voor de toetsen Leestempo ontworpen is, belangrijk om de technische leesvaardigheid duidelijk te onderscheiden van de begrijpend leesvaardigheid. Een leerling moet immers ook, zij het op een heel basaal i.e. globaal niveau, de tekst begrijpen om tot een goede keuze van het antwoord te komen. Een eerste indicatie in de richting van een bevestigend antwoord op de vraag of er één latente vaardigheid gemeten wordt, levert de toetsing van het hier gehanteerde meetmodel. Een positief resultaat van deze toetsing duidt erop dat aan de in Leestempo opgenomen opgaven een unidimensionaal begrip ten grondslag ligt. De mate waarin de opgaven van de toetsen Leestempo vervolgens gerelateerd zijn aan ‘soortgenoot’-opgaven is een tweede aanwijzing voor de begripsvaliditeit van de toetsen. In het kader van het onderzoek naar de inhoudsvaliditeit van de toetsen (zie 11.1) is eerder al aangegeven dat de teksten in Leestempo qua conceptuele of begripsmoeilijkheid passen bij het gemiddelde (begrijpend) leesvaardigheidsniveau van de leerlingen in de verschillende groepen van het basisonderwijs. Deze controle is belangrijk, omdat men anders zou kunnen aanvoeren dat bij een toets Leestempo de technische leesvaardigheid teveel zou afhangen van de begrijpend leesvaardigheid van een leerling. 11.2.1
Passing van het meetmodel
In paragraaf 9.3 (en meer specifieker in de figuren 9.12 t/m 9.16) werd aangegeven dat er over het algemeen sprake is van een redelijke tot goede fit. Het model blijkt de verdelingen van de percentielen voldoende nauwkeurig te voorspellen. Deze geslaagde kalibratie maakt het aannemelijk dat er sprake is van unidimensionaliteit. Dat men kan stellen dat deze gekalibreerde opgavenbank de latente trek meet die we de vaardigheid technisch lezen (op tekstniveau) noemen, wordt hierna in 11.2.2. uiteen gezet. Daar wordt ingegaan op de correlatie met ‘soortgenoot’-toetsen. 11.2.2
Correlatie met ‘soortgenoot’-toetsen
We beschikken over gegevens uit onderzoek waarin de samenhang werd nagegaan tussen de toetsen Leestempo en de prestaties op de toetsen Leestechniek (Cito, 2009a), de AVI-toetskaarten en de Drie-MinutenToets (Cito, 2009d). In onderstaande tabellen 11.4 en 11.5 worden de correlaties gerapporteerd tussen de scores op deze vier verschillende toetsen, die alle beogen de technische leesvaardigheid van leerlingen in kaart te brengen. De mate waarin de toetsen Leestempo gerelateerd zijn aan soortgenootinstrumenten en niet-soortgenootinstrumenten is een tweede aanwijzing voor de begripsvaliditeit van de toetsen. In de tabellen 11.4 en 11.5 worden daarom ook correlaties gerapporteerd tussen scores op de toetsen Leestempo en andere toetsen uit het Cito-Leerling- en onderwijsvolgsysteem (LOVS): de toetsen die in januari/februari en mei/juni 2008 tegelijkertijd met de Leestempo-toets zijn voorgelegd aan de leerlingen in onze referentie-groep, te weten de toets Woordenschat (Van Berkel en Alberts, 2009a; Van Berkel en Alberts, 2009b). Bovengenoemde gegevens zijn alleen beschikbaar voor groep 3 en 4 (en dus niet groep 5), omdat tegelijkertijd met de normeringsonderzoeken in de groepen 3 en 4 voor Technisch lezen (Leestechniek en Leestempo) ook de AVI-toetskaarten en de DMT genormeerd werden (maar voor die toetsen gold: voor álle jaargroepen). Toen het jaar erna het normeringsonderzoek voor de toetsen Leestempo voor groep 5 76
plaatsvond, had het normeringsonderzoek voor de AVI-toetskaarten en de DMT reeds het jaar ervoor in groep 5 plaatsgevonden. Zodoende zijn er geen correlaties tussen Leestempo enerzijds en de AVItoetskaarten en DMT anderzijds beschikbaar voor groep 5. Met betrekking tot de toets Woordenschat is de situatie iets anders: de ontwikkeling van dit toetspakket (en dus de normeringsonderzoeken) vindt parallel aan Technisch lezen plaats. Dat maakte het mogelijk om daar wél over correlaties tussen Leestempo en Woordenschat te beschikken, óók in groep 5. Daar echter de correlaties tussen de Leestempo enerzijds en de AVI-toetskaarten en DMT anderzijds ontbraken, is de op zich wel beschikbare correlatie tussen Leestempo en Woordenschat niet interessant, omdat juist de onderlinge verhouding van de correlaties inzicht zou verschaffen. In tabel 11.4 staan de correlaties die in groep 3 aangetroffen werden. De informatie die in groep 3 met betrekking tot Leestempo ingewonnen kan worden, is relatief gering: er is daar alleen voor het E3-moment een toets Leestempo beschikbaar, en dan alleen voor de betere leerlingen. De hoogste correlaties in tabel 11.4 zijn die van van de AVI-toets met de DMT, de correlaties van Leestempo (LTP) met de AVI-toets en de DMT zijn slechts een klein beetje lager dan die tussen de AVItoets en DMT. De laagste correlaties zijn die tussen de woordenschattoets (WS) en alle afgenomen technisch-leesinstrumenten (LTP, LT, DMT en AVI). De correlaties van de toetsen Leestechniek met de andere afgenomen technisch-leesinstrumenten (LTP, AVI en DMT) nemen een middenpositie in. Alle vier zijn het leessnelheidsinstrumenten, die echter op twee belangrijke punten van elkaar verschillen: 1) DMT en AVI laten leerlingen hardop lezen, terwijl LT en LTP stil laten lezen en 2) DMT en LT laten leerlingen woorden lezen, terwijl AVI en LTP teksten laten lezen (zie ook deze verantwoording tabel 2.2). Vanuit het oogpunt van de toetsen Leestempo bezien, is te verwachten dat de correlatie tussen LTP en de AVI-toets hoger is dan tussen LTP en de DMT omdat LTP en de AVI-toets beide op tekstniveau toetsen (in tegenstelling tot de DMT, waar op woordniveau getoetst wordt). Inderdaad is er sprake van een hogere correlatie tussen LTP en de AVI-toets. Dat de correlatie tussen Leestempo en Leestechniek een middenpositie inneemt, is ook te verklaren: de toets Leestechniek is primair een toets die nauwkeurigheid meet en snelheid speelt daar slechts een secundaire rol (zie ook het andere model dat van toepassing is bij Leestechniek), dit in tegenstelling tot de andere drie technisch-leesinstrumenten, die allemaal snelheidstoetsen zijn. Daarnaast is er nog een factor die in acht genomen dient te worden: In het normeringsonderzoek worden leerlingen (per groep) willekeurig toegewezen aan een bepaald boekje c.q. een bepaalde combinatie van taken. Bij leerlingen die op het E3-moment boekje 5 of 6 (zie tabel 4.1 in deel 1 van deze Verantwoording) maakten, kon een correlatie berekend worden tussen Leestechniek en Leestempo. Echter, deze leerlingen zijn niet per definitie de leerlingen die in de reële situatie een toets Leestempo maken. Op het E3-moment is de Leestempo-toets in het toetspakket opgenomen voor leerlingen die aan de bovenkant scoorden op het M3-moment, en bij wie het risico bestaat dat er in het geval van een toets Leestechniek een plafondeffect zou kunnen optreden. Andersgezegd: er zijn leerlingen geweest die géén Leestempotoets hebben gemaakt, maar die dat in de echte situatie wél zouden moeten doen en vice versa. Dat tijdens het normeringsonderzoek niet gedifferentieerd getoetst kon worden binnen één groep leerlingen heeft een puur praktische achtergrond: het is voor een toetsleider vrijwel onmogelijk om (zeker bij groep 3 leerlingen) verschillende toetsen af te nemen. Tabel 11.4
AVI medio 3 AVI eind 3 DMT medio 3 DMT eind 3 WS medio 3 WS eind 3 LT medio 3 LT eind 3
Correlaties tussen toetsen Leestempo en andere LVS-taaltoetsen (groep 3) LTP E3 .594 .734 .732 .700 .170 .239 .449 .528
AVI M3
AVI E3
DMT M3
DMT E3
WS M3
WS E3
LT M3
.765 .887 .803 .123 .127 .424 .449
.754 .860 .149 .155 .436 .540
.846 .191 .173 .514 .563
.118 .122 .497 .627
.646 .258 .200
.328 .288
.532
Toelichting WS staat voor de LVS-toets Woordenschat LT staat voor de LVS-toets Leestechniek (uit de toetsserie Technisch lezen) LTP staat voor de LVS-toets Leestempo (uit de toetsserie Technisch lezen). De toets Leestempo is in jaargroep 3 alleen op het moment einde jaargroep voorgelegd cursief staan correlaties tussen verschillende afnamemomenten van hetzelfde instrument
77
In tabel 11.5 staan de onderlinge correlaties tussen de drie afgenomen technisch-leesinstrumenten in groep 4, en die van de drie afgenomen technisch-leesinstrumenten met een taaltoets die ook op die momenten is afgenomen bij (een deel van) de leerlingen, namelijk de toets Woordenschat (van Berkel en Alberts, 2009a). In groep 4 zijn de hoogste correlaties die tussen de technisch-leesinstrumenten onderling. De toetsen Leestempo nemen nu niet langer een aparte positie in, zoals in groep 3 te zien was. De laagste correlaties zijn die tussen de woordenschattoets (WS) en alle afgenomen technisch-leesinstrumenten (LTP, DMT en AVI). Als we weer de toetsen Leestempo als uitgangspunt nemen, dan verwachten we dat de correlatie tussen LTP en de AVI-toets hoger is dan tussen LTP en de DMT. Dat is niet het geval in groep 4. Een verklaring hiervoor ontbreekt. Tabel 11.5
LTP eind 4 AVI medio 4 AVI eind 4 DMT medio 4 DMT eind 4 WS medio 4 WS eind 4
Correlaties tussen toetsen Leestempo en andere LVS-taaltoetsen (groep 4) LTP M4 .891 .838 .818 .856 .807 .308 .387
LTP E4
AVI M4
AVI E4
DMT M4
DMT E4
WS M4
.785 .810 .797 .781 .245 .309
.915 .871 .825 .266 .304
.859 .845 .246 .317
.932 .284 .326
.276 .361
.565
Toelichting LTP staat voor de LVS-toets Leestempo AVI staat voor de AVI-toets (kaarten) DMT staat voor de Drie-Minuten-Toets WS staat voor de LVS-toets Woordenschat cursief staan correlaties tussen verschillende afnamemomenten van hetzelfde instrument
Samenvattend kan gesteld worden dat de correlaties van Leestempo met de soortgenoot- instrumenten DMT en AVI in ieder geval flink hoger zijn dan die met een niet-soortgenoot als de LVS-toets Woordenschat (WS). Dat was in het kader van het onderzoeken van de begripsvaliditeit ook de belangrijkste vraag die in deze paragraaf gesteld werd. 11.2.3
Correlatie met ‘niet-soortgenoot’-toetsen
Met het oog op de validering van de Opgavenbank Leestempo in LOVS Technisch lezen wordt een analyse gegeven van onderzoeksgegevens die in de schooljaren 2008-2009 en 2009-2010 verzameld zijn in het kader van zogeheten ‘dataretour’. Bij dataretour ontvangt Cito automatisch de resultaten van toetsafnames die in het kader van het LOVS door scholen gedaan worden. Voor eind groep 3 t/m eind groep 5 (de doelgroep van de te beoordelen toetsen Leestempo) bestaan er naast Leestempo ook LOVS-toetsen op het gebied van Begrijpend lezen, Woordenschat, Spelling en Rekenen en wiskunde. De verwachting is dat de resulataten op Leestempo op het E3-moment sterker samenhangen met die op Begrijpend lezen dan met die op Woordenschat en Spelling. Dit omdat leerlingen bij Begrijpend lezen al in groep 3 zelf de tekstjes en vragen moeten lezen, terwijl bij Woordenschat en Spelling in groep 3 de vraagstelling mondeling plaatsvindt. De talige manier waarop tegenwoordig het rekenonderwijs (en dus ook toetsen voor rekenen) gestalte krijgt, maakt het moeilijker om voorspellingen te doen m.b.t. de samenhang tussen de toetsen Leestempo en Rekenen. In tabel 11.6 worden de correlatiecoëfficiënten tussen de toetsen Leestempo (TlezLTP) en de toetsen Begrijpend lezen (Blez), Woordenschat (Ws), Spelling (Spel) en Rekenen-Wiskunde (Rek) gerapporteerd voor het M3-moment. Uit de tabel blijkt dat de correlaties tussen Technisch lezen (TlezLTP) en Begrijpend lezen (Blez) het hoogst zijn. Dit is conform de verwachtingen. De samenhang tussen de toetsen Leestempo en Woordenschat is het laagst.
78
Tabel 11.6
Blez Ws Spel Rek
Correlaties tussen Technisch lezen (Leestempo) en andere variabelen gemeten met LOVStoetsen (E3) TlezLTP .544 .213 .455 .350
Blez
Ws
Spel
.464 .512 .512
.284 .424
.435
In tabel 11.7 t/m 11.10 staan dezelfde correlaties, maar dan voor afnamemoment M4 t/m E5. De situatie m.b.t. de toetsen Woordenschat en Spelling verschilt vanaf groep 4 niet meer van de situatie bij de toetsen Begrijpend lezen: bij alle toetsen lezen de leerlingen de opgaven zelf. Dit betekent dat er niet langer de verwachting bestaat dat de resultaten op de toetsen Leestempo sterker zullen samenhangen met die op Begrijpend lezen dan met de resultaten op de overige toetsen. De samenhangen die bij M4 t/m E5 gevonden worden, verschillen ook met die van het E3-moment. Er is wel een vrij consistent beeld: de toetsen Leestempo vertonen op alle vier de momenten de hoogste samenhang met de toetsen Spelling. De laagste samenhang is steeds met de toetsen Rekenen, waarbij Woordenschat in de loop van de jaargroepen steeds dichter in de buurt komt van deze samenhang tussen Leestempo en Rekenen. De samenhang tussen de resultaten op de toetsen Leestempo en Begrijpend lezen neemt op elk moment een duidelijke middenpositie in. Op het E5-afnamemoment zijn er geen (betrouwbare) gegevens voor de toetsen Begrijpend lezen omdat het aantal leerlingen waarvan wij de toetsresultaten op die toets hebben terug ontvangen zeer laag is. Dat de hoogste samenhang van de toetsen Leestempo die is met de toetsen Spelling komt overeen met de gedachte dat (technisch) lezen en spellen twee kanten van dezelfde medaille zijn. Tegelijkertijd is de samenhang zodanig, dat gesteld kan worden dat de toetsen Leestempo duidelijk een eigen vaardigheid meten. Dat de samenhangen tussen Leestempo enerzijds en Begrijpend lezen en Woordenschat lager zijn, onderschrijft een van de uitgangspunten bij de constructie van de toetsen, namelijk dat het conceptuele niveau van de teksten (waarop de toetsen gebaseerd zijn) zo laag mogelijk gehouden worden. Dit om de invloed van de vaardigheid begrijpend lezen (en daarmee ook automatisch woordenschat) op het toetsresultaat te beperken. Tabel 11.7
Blez Ws Spel Rek Tabel 11.8
Blez Ws Spel Rek Tabel 11.9
Blez Ws Spel Rek
Correlaties tussen Technisch lezen (Leestempo) en andere variabelen gemeten met LOVStoetsen (M4) TlezLTP .468 .347 .574 .293
Blez
Ws
Spel
.664 .539 .445
.445 .478
.404
Correlaties tussen Technisch lezen (Leestempo) en andere variabelen gemeten met LOVStoetsen (E4) TlezLTP .465 .386 .612 .341
Blez
Ws
Spel
.692 .520 .517
.442 .505
.457
Correlaties tussen Technisch lezen (Leestempo) en andere variabelen gemeten met LOVStoetsen (M5) TlezLTP .405 .334 .587 .306
Blez
Ws
Spel
.665 .459 .525
.390 .539
.417
79
Tabel 11.10 Correlaties tussen Technisch lezen (Leestempo) en andere variabelen gemeten met LOVStoetsen (E5)
Blez Ws Spel Rek
TlezLTP x .317 .566 .310
Blez
Ws
Spel
.714 .578 .608
.481 .592
.467
Samenvattend kan gesteld worden dat bovenstaande gegevens een duidelijke aanwijzing zijn dat de toetsen Leestempo een eigen vaardigheid meet die ‘technisch lezen (op tekstniveau)’ genoemd kan worden.
80
12
Samenvatting
12.1
Samenvatting toetsen Leestechniek
In de hoofdstukken 2 t/m 6 in deel 1 zijn alle aspecten besproken die het mogelijk maken om de kwaliteit van de toetsen Leestechniek te beoordelen volgens het COTAN-beoordelingssysteem (Evers et al., 2009). In onderstaande samenvatting wordt deze bespreking kort weergegeven. Deel 1 van deze verantwoording opent met hoofdstuk 2. Daarin wordt een gedetailleerde beschrijving gegeven van de uitgangpunten bij de constructie van de toetsen Leestechniek. Na elkaar komen aan de orde: de meetpretentie, de doelgroep en de gebruiksdoelen en -toepassingen. Hoofdstuk 2 besluit met de theoretische kaders – inhoudelijk en psychometrisch – die aan de toets ten grondslag liggen. Het inhoudelijk kader heeft de toets gemeen met de toetsen Leestempo (deze Verantwoording, deel 2) en met andere uitgaven van Cito op het gebied van technisch lezen (AVI en DMT). Hoofdstuk 3 beschrijft de inhoud van de toets, gaat in op de afname en de rapportage en wordt afgesloten met de inhoudsverantwoording van de toetsen Leestechniek. In hoofdstuk 4 wordt verslag gedaan van de opzet en het verloop van het normeringonderzoek voor de toetsen Leestechniek. Ten eerste wordt ingegaan op de steekproeftrekking en het onderzoek naar de representativiteit van de steekproef. Vervolgens worden de gebruikte psychometrische modellen besproken en gevalideerd. Tot slot van het hoofdstuk worden de resultaten van het normeringsonderzoek voor wat betreft de toetsen Leestechniek gegeven: het overzicht van de vaardigheidsverdelingen per meetmoment. In hoofdstuk 5 wordt gerapporteerd over de betrouwbaarheid en de meetnauwkeurigheid van de toetsen Leestechniek. De betrouwbaarheidsindices van de toetsen Leestempo hebben hoge waarden, tussen de 0.86 en 0.91. De betrouwbaarheid van de toetsen Leestechniek is dus goed te noemen. De lokale meetnauwkeurigheid wordt zowel grafisch als tabellarisch weergegeven. De meetfout neemt toe bij het toenemen van de vaardigheid. Het afnemen van een toets Leestechniek M3 op meetmoment medio jaargroep 3 bijvoorbeeld plaatst ongeveer 70% van de E-leerlingen in het juiste vaardigheidsniveau en bij D-leerlingen is dit rond de 50%. Bij het afnemen van een toets Leestechniek E3 op meetmoment eind jaargroep 3 wordt ongeveer 80 % van de E-leerlingen in het juiste vaardigheidsniveau geplaatst, en rond de 60% van de D-leerlingen. Indien er sprake is van misclassificaties, betreffen die over het algemeen slechts één niveau verschil. Hoofdstuk 6 gaat in op de validiteit van de toets Leestechniek. Voor de inhoudsvaliditeit wordt terugverwezen naar de inhoudsverantwoording in hoofdstuk 3. Daar wordt de keuze van de gehanteerde indeling in woordcategorieën en van de afleiders verantwoord. In hoofdstuk 6 zelf wordt ingegaan op de bekendheid van de grondwoorden. Met het oog op de begripsvaliditeit geeft hoofdstuk 6 drie indicaties: – de toetsen Leestechniek voldoen aan de criteria voor model fit. Er kan dus aangenomen worden dat de met de toets gemeten verschillen tussen leerlingen te verklaren zijn vanuit een en hetzelfde vaardigheidscomplex. Dat dit complex vervolgens technisch lezen genoemd mag worden, vloeit voort uit de inhoudelijke waarborgen, beschreven in hoofdstuk 3 en 6. – Uit de correlaties tussen de scores op de toets Leestechniek en die op andere meetinstrumenten binnen het Cito-Leerling- en onderwijsvolgsysteem (LOVS) blijkt dat de scores op de de toets Leestechniek sterk samenhangen met andere toetsen voor het meten van de technische leesvaardigheid (de DMT, de toetsen Leestechniek en de toetsen Leestempo) en nauwelijks of beduidend minder sterk met scores op andere LVS-onderdelen (de toetsen Woordenschat, de toets Begrijpend lezen, de toetsen Spelling en de toetsen Rekenen). De genoemde technisch-leesinstrumenten, waaronder de toetsen Leestechniek, meten elk op eigen wijze hetzelfde construct en duidelijk iets anders de andere LVS-toetsen. We mogen dit opvatten als een aanwijzing voor de begripsvaliditeit van de toetsen Leestechniek. – De verwachting is dat de technische leesvaardigheid van leerlingen over de tijd toeneemt. Deze verwachting wordt door de data bevestigd: de gemiddelde vaardigheidscores voor de onderscheiden populaties worden tussen medio jaargroep 3 en eind jaargroep 3 groter. Hierbij dient wel opgemerkt te worden dat de toets Leestechniek slechts één jaargroep bestrijkt en er zodoende sprake is van slechts twee afnamemomenten.
12.2
Samenvatting toetsen Leestempo
In de voorgaande hoofdstukken (7 t/m 11) zijn alle aspecten besproken die het mogelijk maken om de kwaliteit van de toetsen Leestempo te beoordelen volgens het COTAN-beoordelingssysteem (Evers et al., 2009). In onderstaande samenvatting wordt deze bespreking kort weergegeven. 81
Deel 2 van deze verantwoording opent met hoofdstuk 7. Daarin wordt een gedetailleerde beschrijving gegeven van de uitgangpunten bij de constructie van de toetsen Leestempo. Na elkaar komen aan de orde: de meetpretentie, de doelgroep en de gebruiksdoelen en -toepassingen. Hoofdstuk 7 besluit met de theoretische kaders – inhoudelijk en psychometrisch – die aan de toets ten grondslag liggen. In het geval van het theoretisch kader betreft dit een verwijzing naar deel 1. Het theoretisch kader hebben de toetsen Leestempo immers gemeen met de toetsen Leestechniek. Het psychometrisch kader verschilt wel en wordt in 2.4.2 uiteengezet. Hoofdstuk 8 beschrijft de inhoud van de toets, gaat in op de afname en de rapportage en wordt afgesloten met de inhoudsverantwoording van de toetsen Leestempo. In hoofdstuk 9 wordt verslag gedaan van de opzet en het verloop van het normeringonderzoek voor de toetsen Leestempo. Er wordt ingegaan op de steekproeftrekking en op het onderzoek naar de representativiteit van de steekproef. Vervolgens worden de gebruikte psychometrische modellen besproken en gevalideerd. Tot slot van het hoofdstuk worden de resultaten van het normeringsonderzoek voor wat betreft de toetsen Leestempo gegeven: het overzicht van de vaardigheidsverdelingen per meetmoment. In hoofdstuk 10 wordt gerapporteerd over de betrouwbaarheid en de meetnauwkeurigheid van de toetsen Leestempo. De betrouwbaarheidsindices van de toetsen Leestempo hebben hoge waarden, tussen de 0.83 en 0.90. De betrouwbaarheid van de toetsen Leestempo is dus goed te noemen. De lokale meetnauwkeurigheid wordt grafisch weergegeven op het niveau van de afzonderlijke kaarten. Net als bij de toetsen Leestechniek neemt de meetfout toe bij het toenemen van de vaardigheid. Hoofdstuk 11 gaat in op de validiteit van de toetsen Leestempo. Voor de inhoudsvaliditeit wordt gedeeltelijk terugverwezen naar de inhoudsverantwoording in hoofdstuk 8. Daar wordt de keuze van het soort leesmateriaal (teksten) en van het vereiste leesgedrag (stil lezen) verantwoord. Ook worden in dat hoofdstuk de kwantitatiefen kwalitatief-linguïstische kenmerken vermeld van de teksten waarop de toetsen gebaseerd zijn. In hoofdstuk 11 wordt dan vervolgens m.b.t. de inhoudsvaliditeit ook nog ingegaan op oppervlakte-kenmerken van de teksten. Met het oog op de begripsvaliditeit geeft hoofdstuk 11 drie indicaties: – de toetsen Leestempo voldoen aan de criteria voor model fit. Er kan dus aangenomen worden dat de met de toets gemeten verschillen tussen leerlingen te verklaren zijn vanuit een en hetzelfde vaardigheidscomplex. Dat dit complex vervolgens technisch lezen genoemd mag worden, vloeit voort uit de inhoudelijke waarborgen, beschreven in hoofdstuk 8. – Uit de correlaties tussen de scores op de toetsen Leestempo en die op andere meetinstrumenten binnen het Cito-Leerling- en onderwijsvolgsysteem (LOVS) blijkt dat de scores op de toetsen Leestempo sterk samenhangen met andere toetsen voor het meten van de technische leesvaardigheid (de DMT, de toetsen Leestechniek en de toetsen Leestempo) en nauwelijks of beduidend minder sterk met scores op andere LVS-onderdelen (de toetsen Woordenschat, de toets Begrijpend lezen, de toetsen Spelling en de toetsen Rekenen). De genoemde technisch-leesinstrumenten, waaronder de toetsen Leestempo, meten elk op eigen wijze hetzelfde construct en duidelijk iets anders de andere LVS-toetsen. We mogen dit opvatten als een aanwijzing voor de begripsvaliditeit van de toetsen Leestempo. – De verwachting is dat de technische leesvaardigheid van leerlingen over de tijd toeneemt. Deze verwachting wordt door de data bevestigd: de gemiddelde vaardigheidscores voor de onderscheiden (halfjaarlijkse) populaties worden tussen jaargroep eind 3 en eind 5 stapsgewijs groter: het aantal woorden in een tekst dat in een bepaalde tijdseenheid gelezen kan worden neemt toe.
82
13
Literatuur
Asakawa, S-I. (2008). Mixtures of experts: as an attempt to integrate the dual route cascaded and the triangle models for reading English words. In M. Ishikawa et al. (Eds.), ICONIP 2007, Part II, LNCS 3985 (pp. 739-758). Berlin, Heidelberg: Springer-Verlag. Barker, K., Torgesen, J.L. & Wagner, R.K. (1992). The role of orthographic processing skills on five different reading tasks. Reading Research Quarterly, 27, 333-335. Berkel, S. van en Alberts, N. (2009a). Woordenschat groep 3. Arnhem: Cito B.V. Berkel, S. van en Alberts, N. (2009b). Woordenschat groep 4. Arnhem: Cito B.V. Besner, D., and Roberts, M.A. (2003). Reading nonwords aloud: results requiring change in the dual route cascaded model. Psychonomic Bulletin & Review, 10, 398-303. Blomert, L. (2003). Stand van zaken: Dyslexie. Amstelveen: CVZ. Bosman, A.M.T. (2000). Lezen en spellen volgens het fonologisch coherentiemodel. In H. Kuster en H. Wieberink (red.), 'Ongestoord voort'. Over omgaan met dyslexie in het onderwijs (pp. 33-37). Ede: Stichting Schoolbegeleidingsdienst De Zuid-Vallei. Bosman, A.M.T., and Van Orden, G.C. (1997). Why spelling is more difficult than reading. In C.A. Perfetti, L. Rieben, and M. Fayol (Eds.), Learning to spell: research, theory and practice across languages (pp. 173-193). Hillsdale, NJ: Lawrence Erlbaum Associates. Bosman, A.M.T., and Van Orden, G.C. (2003). Het fonologisch coherentiemodel voor lezen en spellen. Pedagogische Studiën, 80, 391-306. Bjaalid, I-K., Hoien, T., and Ingvar Lundberg (2002). Dual-route and connectionist models: a step towards a combined model. Scandinavian Journal of Psychology, 38, 73-82. DOI: 10.111/1367-9350.00011. Broeck, W. van den en Ruijssenaars, A.J.J.M (1995). Technisch lezen in theorie en praktijk. Het geheel is meer dan de som van de delen. Pedologisch Jaarboek 1995, 67-85. Coltheart, M. (1978). Lexical access in simple reading tasks. In G. Underwood (Ed.), Strategies of information processing (pp. 151-216). New York: Academic Press. Coltheart, M. (2006). Dual route and connectionist models of reading: an overview. London Review of Education, 3, 5-17. Coltheart, M., and Rastle, K. (1994). Serial processing in reading aloud: evidence for dual-route models of reading. Journal of Experimental Psychology: Human Perception and Performance, 20, 1197-1211. Coltheart, M., Curtis, B., Atkins, P., and Haller, M. (1993). Models of reading aloud: dual-route and paralleldistributed processing approaches. Psychological Review, 100, 589-608. Coltheart, M., Rastle, K., Perry, C., Ziegler, J., and Langdon, R. (2001). DRC: a dual route cascaded model of visual word recognition and reading aloud. Psychological Review, 108, 203-256. Droop, M., and Verhoeven, L. (2003). Language proficiency and reading ability in first- and secondlanguage learners. Reading Research Quarterly, 38, 78-103. Eggen, T.J.H.M. (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Engelen, R.J.H. & Eggen, T.J.H.M. (1993). Equivaleren. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: CITO. 83
Evers, A., Lucassen, W., Meijer, R. en Sijtsma, K. (2009). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam: NIP/COTAN. Glas C.A.W. & Verhelst, N.D. (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: CITO. Harm, M.W., and Seidenberg, M.S. (1999). Phonology, reading acquisition, and dyslexia: insights from connectionist models. Psychological Review, 106, 391-528. Harm, M.W., and Seidenberg, M.S. (2004). Computing the meanings of words in reading: cooperative division of labor between visual and phonological processes. Psychological Review, 111, 662-720. Houghton, G., and Zorzi, M. (2003). Normal and impaired spelling in a connectionist dual-route architecture. Cognitive Neuropsychology, 20, 115-162. DOI: 10.1080/02633290232000871. Jansen, M. (1997). Rasch’s model for reading speed with manifest explanatory variables. Psychometrika, 62, 393-309. Jansen, M. en Duijn, M. van (1992). Extensions of Rasch’s multiplicative Poisson model. Psychometrika, 57, 305-313. Jongen, I en Krom, R. (2009). DMT en AVI. Arnhem: Cito B.V. Jongen, I., Krom, R. en Roumans, P. (2009a). Technisch lezen groep 3. Arnhem: Cito B.V. Jongen, I., Krom, R. en Roumans, P. (2009b). Technisch lezen groep 4. Arnhem: Cito B.V. Jongen, I., Krom, R. en Roumans, P. (2010). Technisch lezen groep 5. Arnhem: Cito B.V. Juphard, A., Carbonnel, S., and Valdois, S. (2003). Length effect in reading and lexical decision: evidence from skillled readers and a developmental dyslexic participant. Brain and Cognition, 55, 332-330. Kamphuis, F. (1993). Multi. Arnhem: Cito. Krom, R. en Jongen, I. (2009). Inhoudsverantwoording AVI groep 3 tot en met 8. In I. Jongen en R. Krom, DMT en AVI (pp. 7-17). Arnhem: Cito Levy, J., Pernet, C., Treserras, S., Boulanouar, K., Aubry, F., Démonet, J-F., and Celsis, P. (2009). Testing for the dual-route cascade reading model in the brain: an fMRI effective connectivity account of an efficient reading style. Plos ONE 3(8): e667 DOI: 10.1371/journal.pone0006675. McLeod, P., Plaut, D.C., and Shallice, T. (2001). Connectionist modelling of word recognition. Synthese, 129, 173-183. Owen, R.J. (1969). A Bayesian analysis of Rasch’s multiplicative Poisson model for misreadings. Research Bulletin ETS. Princeton: ETS. Paap, K.R., and Noel, R.W. (1991). Dual-route models of print to sound: still a good horse race. Psychological Research, 53, 13-23. Plaut, D.C., McClelland, J.L., Seidenberg, M.S., and Patterson, K. (1996). Understanding normal and impaired word reading: computational principles in quasi-regular domeins. Psychological Review, 103, 56-115. Plunkett, K. (2001). Connectionism today. Synthese, 129, 185-193. Pugh, K.P., Rexer, K., and Katz, L. (1994). Evidence of flexible coding in visual word recognition. Journal of Experimental Psychology: Human Perception and Performance, 20, 807-825.
84
Rapcsak, S.Z., Henry, M.L., Teague, S.L., Carnahan, S.D., and Beeson, P.M. (2007). Do dual-route models accurately predict reading and spelling performance in individuals with acquired alexia and agraphia? Neuropsychologia, 35, 2519-2523. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Chicago: The University of Chicago Press. Rastle, K., and Coltheart, M. (1999). Serial and strategic effects in reading aloud. Journal of Experimental Psychology: Human Perception and Performance, 25, 382-503.
Schijf, G.M. (2009) Lees- en spellingvaardigheden van brugklassers. (Proefschriftreeks nr.13) Amsterdam: SCO-Kohnstamm Instituut van de Faculteit der Maatschappij- en Gedragswetenschappen, Universiteit van Amsterdam. Seidenberg. M.S., and McClelland, J.L. (1989). A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523-568. Seidenberg, M.S. (2007). Connectionist models of reading. In M.G. Gaskell (Ed.), The Oxford handbook of psycholinguistics (pp. 235-250). Oxford: Oxford University Press. Staphorsius, G. (1992). Clib-toetsen, Clib-tekstenschaal. Arnhem: CITO. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid, De ontwikkeling van een domeingericht meet instrument. Arnhem: Cito. Staphorsius, G., Krom, R.S.H. en De Geus, K. (1988). Frequenties van woordvormen en letterposities in jeugdlectuur. Arnhem: Cito. Stone, G.O., Vanhoy, M., and Van Orden, G.C. (1997). Perception is a two-way street: feedforward and feedback phonology in visual word recognition. Journal of Memory and Language, 36, 337-359. Struiksma, A.J.C. (2003). Lezen gaat voor. Academisch proefschrift, Universiteit van Amsterdam. Taft, M. (2006). Orthographically influenced abstract phonological representation: evidence from non-rhotic speakers. Journal of Psycholinguistic Research, 35, DOI: 10.1007/s10936-005-9003-5. Van Orden, G.C., and Goldinger, S.D. (1994). Interdependence of form and function in cognitive systems explains perception of printed words. Journal of Experimental Psychology: Human Perception and Performance, 20, 1269-1291. Van Orden, G.C., Johnston, J.C., and Hale, B.L. (1988). Word identification in reading preceeds from spelling to sound to meaning. Journal of Experimental Psychology: Learning, Memory and Cognition, 13, 371-386. Van Orden, G.C., Pennington, B.F., and Stone, G.O. (1990). Word identification in reading and the promise of subsymbolic psycholinguistics. Psychological Review, 97, 388-522. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: CITO. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1994). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D., & Glas, C.A.W. (1995) The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. 85
Verhelst, N.D., and Kamphuis, F.H. (2009). A Poisson-Gamma model for speed tests. Measurement and Research Department Reports 2009-2. Arnhem: Cito. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verhoeven, L. (1990). Acquisition of reading in Dutch as a second language. Reading Research Quarterly, 25, 90-113. Verhoeven, L. (2000). Components in early second language reading and spelling. Scientific Studies of Reading, 3, 313-330. Verhoeven, L. en Aarnoutse, C. (2000). Tussendoelen beginnende geletterdheid. Nijmegen: Expertisecentrum Nederlands. Wentink, H. (1997). From graphemes to syllabes. Academisch proefschrift, Universiteit van Nijmegen. Ziegler, J.C., Perry, C., and Coltheart, M. (2000). The DRC model of visual word recognition and reading aloud: An extension to German. European Journal of Cognitive Psychology, 12, 313-330.
86
Bijlagen
87
88
Bijlage 1
boekje E3.1 E3.2 E3.3 E3.3 E3.5 E3.6
M3start
M3-V2
E3-A
x
E3-B 1
E3-C 1
E3-start x x
1
x
E3-V1 x x
75 75 75 75 150 150
x
1
x
1
Maximum score Leestempo per boekje
E3-V2
x
1 x 1 1
LT
LT
LT
Dolfijn
Boom
BasKim
LT
LT
Tabel 1 Design voor groep E3
LT = taak Leestechniek
E3-A
M4-oud
M4-A 1
1 1 1 1
M4-B 1 1
Maximum score per boekje
Verdwenen jonkies
Mam mag ik
Wie is raar
BasKim boekje M4.1 M4.2 M4.3 M4.4 M4.5 M4.6
Kikker en Pad
Tabel 2 Design voor groep M4
M4-C 200 200 200 200 200 200
1 1
1 1
1
boekje E4.1 E4.2 E4.3 E4.4 E4.5 E4.6
M4-A
M4-B
M4-C
E4-oud 1
E4-A 1 1
1 1 1
1 1
1
89
E4-B 1 1 1
E4-C 1 1 1
Maximum score per boekje
Agent
Piepje
Lotte
Wedstrijd
Fijnste en naarste kamer
Verdwenen jonkies
Mam mag ik
Kikker en Pad
Tabel 3 Design voor groep E3
E4-D
1 1 1
300 300 300 300 300 300
boekje E5.1 E5.2 E5.3 E5.4 M5-A 1 M5-B M5-C M5-D
1
1
E5-A 1
1 1 1
90
1 1
E5-B 1 1 E5-C 1 1 1 1
Maximum score per boekje
1 1 1
Blindengeleid ehond
M5-C
Spekkies
1
M5-B 1 1
Sportbroek op gympies
1 M5-A 1
Gisele en Rudolf
E4-B
Toch een vuurpijl
E4-A 1
Spelen in de regen
boekje M5.1 M5.2 M5.3 M5.4
Help, een muis!
De gouden fluit
Maximum score per boekje
Toch een vuurpijl
Spelen in de regen
Help, een muis!
De gouden fluit
Lotte
Wedstrijd
Tabel 4 Design voor groep M5
M5-D 340 340 360 320
Tabel 5 Design voor groep E5
E5-D 360 360 360 360
Bijlage 2
Classificatie-/misclassificatiematrices voor de toetsen Leestempo
e3 LTP 60.7 12.2 1.0 0.0 0.0
baskim E t/m A 33.3 5.9 0.0 50.6 35.3 2.0 16.7 59.4 22.0 0.8 23.4 61.0 0.0 0.5 18.4
0.0 0.0 0.9 14.8 81.1
e3 LTP 72.8 17.5 1.8 0.0 0.0
baskim V t/m I 24.1 3.0 0.0 53.4 25.9 3.3 25.8 49.8 21.7 2.5 26.9 54.3 0.0 1.0 18.3
0.0 0.0 0.9 16.4 80.6
e3 LTP 61.4 12.6 0.4 0.0 0.0
dolfijn 33.4 5.2 53.8 32.4 14.4 61.4 0.3 19.8 0.0 0.3
E t/m A 0.0 0.0 1.3 0.0 23.3 0.5 63.7 16.1 15.5 84.3
e3 LTP 78.1 17.6 0.9 0.0 0.0
dolfijn 20.7 1.2 55.9 24.5 23.0 53.7 1.8 24.4 0.0 0.8
V t/m I 0.0 0.0 1.9 0.0 21.7 0.7 58.5 15.3 16.9 82.3
e3 LTP 60.7 14.0 1.1 0.0 0.0
boom 31.8 46.6 15.7 0.9 0.0
E t/m A 7.3 0.1 36.1 3.2 54.6 27.1 22.5 58.3 1.1 18.7
0.0 0.1 1.5 18.3 80.2
e3 LTP 70.1 19.1 2.4 0.0 0.0
boom 25.5 50.1 25.7 4.0 0.0
V t/m I 4.1 0.2 26.4 4.3 46.5 23.7 27.7 51.3 2.1 20.0
0.0 0.0 1.6 16.9 77.9
m4 LTP 81.0 8.9 0.0 0.0 0.0 m4 LTP 79.1 10.7 0.6 0.0 0.0
mam,mag 18.7 0.4 57.5 31.5 11.6 60.7 0.4 23.4 0.0 1.1 mam,mag 19.2 1.7 55.9 28.7 23.2 47.6 3.9 27.5 0.0 3.3
E t/m A 0.0 0.0 2.1 0.0 25.7 1.9 56.4 19.9 21.6 77.3 V t/m I 0.0 0.0 4.7 0.1 25.7 2.8 50.0 18.6 24.0 72.7 91
m4 LTP 76.9 8.8 0.0 0.0 0.0
kikkerp 22.2 0.8 57.5 31.1 12.2 60.1 0.6 26.0 0.0 2.1
E t/m A 0.0 0.0 2.5 0.1 25.9 1.8 55.7 17.7 22.9 75.0
m4 LTP 80.6 10.0 0.4 0.0 0.0
kikkerp 18.0 1.4 54.1 29.9 22.8 47.4 4.2 26.6 0.0 3.6
V t/m I 0.1 0.0 5.7 0.3 26.1 3.3 50.9 18.4 23.2 73.2
m4 LTP 78.4 8.9 0.0 0.0 0.0
verdwen 20.8 0.8 56.9 31.4 11.6 59.3 0.5 22.9 0.0 1.6
E t/m A 0.0 0.0 2.8 0.1 26.9 2.2 55.4 21.3 20.9 77.6
m4 LTP 78.9 11.7 0.7 0.0 0.0
verdwen 18.9 2.1 54.8 28.0 24.3 45.4 4.0 28.6 0.1 3.9
V t/m I 0.1 0.0 5.2 0.3 26.8 2.8 48.1 19.3 23.1 72.8
e4 LTP 62.7 12.9 0.8 0.0 0.0
agent 31.1 48.0 16.1 1.3 0.0
6.0 36.5 56.8 24.3 0.9
E t/m A 0.2 2.7 25.1 57.4 19.9
0.0 0.0 1.2 17.0 79.1
e4 LTP 74.6 18.4 1.9 0.1 0.0
agent 22.2 50.1 24.2 4.1 0.1
3.2 26.9 47.5 26.6 2.3
V t/m I 0.1 4.5 24.4 51.4 22.0
0.0 0.2 2.0 17.9 75.6
e4 LTP 65.0 13.1 0.8 0.0 0.0
lotte 28.4 46.5 16.2 1.1 0.0
6.4 36.5 53.5 24.4 1.1
E t/m A 0.2 3.9 27.6 56.4 21.4
0.0 0.0 1.9 18.1 77.4
e4 LTP 70.5 16.8 2.2 0.1 0.0
lotte 24.7 47.2 24.3 4.0 0.1
4.5 29.6 45.3 27.4 2.9
V t/m I 0.3 6.2 25.8 50.6 22.2
0.0 0.2 2.4 17.9 74.8
92
e4 LTP 65.4 13.1 0.9 0.0 0.0
piepje E t/m A 29.0 5.5 0.2 46.5 36.4 3.9 15.9 55.6 26.4 1.6 24.7 57.0 0.0 1.6 21.2
0.0 0.1 1.1 16.7 77.1
e4 LTP 73.5 18.1 1.9 0.2 0.0
piepje V t/m I 22.9 3.4 0.2 49.4 27.5 5.0 24.9 48.2 23.0 4.6 27.2 51.3 0.0 2.1 20.5
0.0 0.1 2.0 16.8 77.4
m5 LTP 61.0 14.4 1.1 0.0 0.0
goudflui 32.1 6.7 42.9 39.4 16.0 55.4 1.4 24.8 0.0 1.8
E t/m A 0.1 0.0 3.2 0.0 25.6 1.9 53.5 20.3 21.4 76.8
m5 LTP 72.3 17.9 2.9 0.2 0.0
goudflui 23.9 3.6 49.4 27.0 26.0 42.9 5.0 27.4 0.2 3.1
V t/m I 0.3 0.0 5.6 0.1 25.6 2.5 48.6 18.9 24.0 72.7
m5 LTP 59.7 13.9 1.6 0.0 0.0 m5 LTP 72.5 18.7 3.1 0.2 0.0
muis 31.7 43.4 16.9 1.7 0.0 muis 23.1 47.6 25.7 6.6 0.3
m5 LTP 64.0 13.8 1.4 0.0 0.0 m5 LTP 70.8 17.5 2.6 0.2 0.0
vuurpijl 29.0 6.8 44.8 38.3 15.7 55.5 1.4 25.6 0.0 1.7 vuurpijl 24.9 4.2 47.6 28.7 26.2 43.0 5.0 26.2 0.1 2.7
E t/m A 8.4 0.2 38.4 4.3 54.7 24.8 26.9 52.3 2.2 22.4 V t/m I 4.1 0.3 26.9 6.5 42.6 25.5 27.2 48.1 3.7 24.5
0.0 0.1 2.1 19.0 75.4 0.0 0.3 3.1 17.9 71.5
E t/m A 0.1 0.0 3.0 0.1 25.5 1.9 54.5 18.5 20.6 77.6 V t/m I 0.1 0.0 5.8 0.3 26.1 2.2 50.0 18.7 21.9 75.3
93
e5 LTP 61.5 14.7 1.1 0.0 0.0
blindeho 31.1 7.0 45.1 36.7 18.5 53.5 1.4 23.6 0.0 1.2
E t/m A 0.3 0.0 3.5 0.0 25.3 1.6 57.5 17.5 20.9 77.9
e5 LTP 71.2 17.4 2.0 0.2 0.0
blindeho 25.3 3.4 48.7 28.8 23.7 47.4 4.7 28.6 0.1 3.4
V t/m I 0.1 0.0 4.9 0.2 24.3 2.6 48.7 17.7 21.6 74.8
e5 LTP 62.3 13.7 1.3 0.0 0.0
GiseleRu 31.5 6.1 44.8 36.8 16.1 54.1 1.4 22.7 0.0 1.4
E t/m A 0.1 0.0 4.7 0.0 26.8 1.7 57.5 18.4 20.6 78.0
e5 LTP 72.4 17.6 2.0 0.1 0.0
GiseleRu 23.7 3.7 49.3 27.6 24.0 47.2 4.6 28.8 0.2 3.2
V t/m I 0.2 0.0 5.3 0.2 24.0 2.8 47.8 18.6 21.7 74.9
e5 LTP 62.4 14.8 1.1 0.0 0.0
zwerfste 31.0 6.5 46.8 34.8 16.4 54.6 1.0 23.5 0.0 1.5
E t/m A 0.1 0.0 3.6 0.0 26.3 1.6 57.6 17.8 21.0 77.6
e5 LTP 73.2 17.1 2.2 0.0 0.0
zwerfste 23.6 3.0 49.7 27.9 24.2 46.8 4.3 29.3 0.1 2.7
V t/m I 0.2 0.0 5.1 0.2 24.2 2.6 48.0 18.4 20.3 76.9
94
95
96