Wetenschappelijke verantwoording
Spelling voor groep 3 tot en met 6 Anja de Wijs Frans Kamphuis Frans Kleintjes Marieke Tomesen
Cito, november 2010
1
© Cito B.V. Arnhem (2010) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotokopie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
2 2.1 2.2 2.3 2.4 2.4.1 2.4.2
Uitgangspunten van de toetsconstructie Meetpretentie 7 Doelgroep 7 Gebruiksdoel en functie 7 Theoretische inkadering 9 Inhoudelijk 9 Psychometrisch 11
3 3.1 3.2
Beschrijving van de toets 19 Opbouw en structuur van de toets Inhoudsverantwoording 21
4 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3
Het normeringsonderzoek 29 Opzet en verloop van het normeringsonderzoek 29 Representativiteit 31 Kalibratie en normering 35 Resultaten kalibratie- en normeringsonderzoek 35 Toetsing van het IRT-model 35 Normering 36
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 37 Nauwkeurigheid 38
6 6.1 6.2 6.2.1 6.2.2 6.2.3
Validiteit 49 Inhoudsvaliditeit 49 Begripsvaliditeit 49 Passing van het meetmodel 49 Equivalentie met eerdere toetsen 49 Longitudinale vaardigheidstoename 50
7
Samenvatting
8
Literatuur
Bijlage 1
5
7
19
37
53
55
57
Overzicht resultaten methodeonderzoek spellingcategorieën
3
59
4
1
Inleiding
Deze wetenschappelijke verantwoording heeft betrekking op de toetsen Spelling voor groep 3 tot en met 6, die deel uitmaken van het Leerling- en onderwijsvolgsysteem (LOVS) Spelling voor groep 3 tot en met 8. Te zijner tijd zal de verantwoording aangevuld worden met de gegevens van de toetsen voor groep 7 en 8. Deze verantwoording biedt tezamen met de inhoud van de toetspakketten LOVS Spelling groep 3 tot en met 6 (De Wijs, Krom, Van Berkel 2006, 2007, 2008, 2009) alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de betreffende meetinstrumenten. Het genoemde materiaal maakt een beoordeling van de toetsen LOVS Spelling mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie; – De kwaliteit van het toetsmateriaal; – De kwaliteit van de handleiding; – Normen; – Betrouwbaarheid; – Validiteit. Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het LOVS niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toetsen LOVS Spelling voor de jaargroepen 3, 4, 5 en 6. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van de toetspakketten.
5
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
Bij het spellen wordt de gesproken taal omgezet in geschreven taal. Om woorden correct te schrijven, moeten leerlingen spellingstrategieën kunnen gebruiken en/of spellingregels kunnen toepassen. De toetsen in de toetspakketten LOVS Spelling zijn bedoeld om vast te stellen hoe goed een leerling kan spellen en hoe de spellingvaardigheid van de leerling zich in de loop van de jaren ontwikkelt. Het vaststellen van de spellingvaardigheid gebeurt op twee manieren: door de leerling woorden te laten opschrijven en door de leerling te vragen het fout gespelde woord te herkennen in een groepje van vier woorden. De spellingregels zelf worden niet expliciet bevraagd. De leerling laat indirect zien dat hij of zij de spellingregels beheerst door de gevraagde woorden correct te schrijven en door de fout gespelde woorden te herkennen (zie verder paragraaf 2.4.1).
2.2
Doelgroep
De toetsen in LOVS Spelling groep 3 tot en met 6 zijn bestemd voor en genormeerd bij leerlingen in groep 3 tot en met 6 in het Nederlandse basisonderwijs. Voor alle toetsen in LOVS Spelling zijn de populatieparameters zowel op 'midden leerjaar' als op 'einde leerjaar' bepaald. De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere leerlingen in Nederland.
2.3
Gebruiksdoel en functie
De toetsen Spelling uit het LOVS hebben twee doelen: niveaubepaling en progressiebepaling. Tevens wordt in de toetsen Spelling de mogelijkheid geboden de door de leerling gemaakte fouten te analyseren met het oog op het aanbieden van gerichte remediëring. Deze 'signalering' staat geheel los van de niveauen progressiebepaling en is in de kalibratie- en normeringsonderzoeken niet wetenschappelijk getoetst. Niveaubepaling De toetsafnamen in het kader van LOVS Spelling geven de leerkracht informatie over het niveau van de spellingvaardigheid van de leerlingen, individueel of als groep. Iedere behaalde vaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 4.2). In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leerkracht de scores van een leerling kan vergelijken met die van een grote groep leerlingen. De leerkracht kan een keuze maken uit: – de indeling in de niveaus A tot en met E; – de indeling in de niveaus I tot en met V.
7
Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
Bij de indeling in I tot en met V worden op de registratieoverzichten de laagste groep en de hoogste groep nog onderverdeeld in twee groepen die ieder 10% leerlingen bevatten. Deze groepen worden van elkaar gescheiden door een stippellijn. In de eerste versie van de LVS-toetsen werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leerkrachten C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. Daarom is bij de tweede versie van de toetsen voor het LOVS een indeling toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als voordeel dat er een gemiddelde groep is. Deze indeling sluit aan bij de niveau-indeling van andere Cito-toetsinstrumenten zoals de Entreetoetsen. Progressiebepaling De toetsen in LOVS Spelling geven de leerkracht informatie over de ontwikkeling van de spellingvaardigheid van de leerlingen, individueel of als groep, gedurende (bijna) de gehele basisschoolperiode. Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – het aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal. Deze unidimensionele vaardigheidsschaal die aan de toetsen LOVS Spelling ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995).
8
'Signalering' via categorieënanalyse Als veel leerlingen fouten maken bij dezelfde spellingcategorie, kan dat een signaal zijn dat het aangeboden onderwijs in die categorie ontoereikend is geweest. Dat hoeft niet direct alarmerend te zijn; misschien komt de betreffende spellingcategorie in de gebruikte lesmethode pas op een later tijdstip aan de orde. Als de categorie daarentegen al wel is behandeld, kan de tegenvallende prestatie van de leerlingen voor de leerkracht een reden zijn om nogmaals expliciet en voor de hele groep op de bij die categorie behorende spellingregels terug te komen. Door het invullen van een analyseformulier of het invoeren van de antwoorden van de leerling in het Computerprogramma LOVS kan de leerkracht nagaan met welke spellingcategorieën een of meerdere leerlingen problemen hadden in de toets Spelling. Individuele leerlingen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen wellicht baat hebben bij extra instructie en gerichte oefeningen. Omdat het aantal opgaven per categorie in een toets Spelling beperkt is (er zijn veel categorieën en de toets mag niet te lang worden), kan niet worden uitgesloten dat de leerling bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer zekerheid te verkrijgen over de beheersing van de categorie door deze leerling, kan de leerkracht gebruikmaken van een controledictee uit het Hulpboek Spelling. Elk controledictee bevat tien opgaven uit één bepaalde categorie. Als de leerling in zo'n dictee vier of meer fouten maakt, lijkt zijn of haar beheersing van die categorie inderdaad te wensen over te laten. De leerkracht kan deze leerling vervolgens aanvullende instructie en/of oefenmateriaal aanbieden. Zoals al aan het begin van deze paragraaf werd gezegd, is er geen kwalitatief of kwantitatief onderzoek gedaan naar het adequaat functioneren van de categorieënanalyse en de 'doorverwijzing' via de controledictees. De signalering via categorieënanalyse heeft dan ook geen enkele wetenschappelijke status of pretentie. Haar enige functie is het doen van een handreiking naar leerkrachten die gericht extra ondersteuning willen bieden aan leerlingen die moeite hebben met het correct spellen van bepaalde woorden.
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
Wat is spelling? Spelling is een ondersteunende taalactiviteit die instrumenteel is voor schrijven. Ze is een aspect van codeervaardigheid, waarbij het gaat om de correcte schrijfwijze van woorden. Ondersteunende taalactiviteiten hebben tot doel de zogeheten functionele taalactiviteiten – activiteiten waarbij de taal als communicatiemiddel fungeert, zoals het schrijven van een briefje – beter te kunnen uitvoeren. Voor een beschrijving van het begrip spelling hanteren we de definitie van De Schrijver & Neijt (2002). Zij omschrijven spelling als '…een systeem van regels met behulp waarvan we een bepaalde gesproken taal schriftelijk weergeven.' (2002: 17) De laatste 'versie' van de spelling van het Nederlands is in 2005 vastgelegd in de Woordenlijst Nederlandse Taal, oftewel 'het Groene Boekje'. Het gebruik van deze spelling is verplicht binnen het onderwijs. Het probleem met de Nederlandse spelling is dat er geen een-op-een relatie is tussen klank en letterteken. Het Nederlands kent circa 40 klanken, maar het alfabet heeft maar 26 letters. Dit betekent dat dezelfde letters voor verschillende klanken gebruikt moeten worden: deling, bel, rafel. Maar andersom wordt een klank ook door verschillende tekens weergegeven: pijl, peil. De spelling van de Nederlandse taal is gebaseerd op vier basisprincipes: het fonologisch, het morfologisch, het etymologisch en het syllabisch principe (zie onder meer Huizenga, 1997; Van Bon, 1993). Het fonologisch principe houdt in dat je woorden spelt door '…hun spraakklanken systematisch met letters weer te geven, op zo'n manier dat de spelling de uitspraak weerspiegelt.' (Van Bon, 1993: 20) Hierbij worden kleine uitspraaknuances die ontstaan door persoonsgebonden verschillen of door klanken in de omgeving van het woord (bijvoorbeeld de /z/ in 'ik zet' versus 'zet ik') genegeerd. Het fonologisch principe is het basisprincipe, maar er zijn allerlei uitzonderingen op deze hoofdregel. Die uitzonderingen zijn veelal niet willekeurig, maar hebben weer te maken met andere regels of principes. Het morfologisch principe doorkruist het fonologisch principe en gaat uit van de morfologische structuur van een woord. Een morfeem is een betekenisdragend woorddeel. Het kan zowel om gehele woorden gaan als om voor- of achtervoegsels, zoals 'on-' en '-heid'. Bij het morfologisch principe is sprake van twee regels: de regel van de gelijkvormigheid en de regel van de overeenkomst. De regel van de gelijkvormigheid houdt in dat we een woord of een voor- of achtervoegsel steeds op dezelfde manier schrijven. Bijvoorbeeld: we
9
schrijven 'hond' omdat we in het meervoud 'honden' een /d/ horen. De regel van de overeenkomst houdt in dat de opbouw van een woord duidelijk wordt in de spelling. Bijvoorbeeld: een woord als 'breedte' wordt zo gespeld, en niet als 'brete', omdat in 'breedte' de morfologische structuur van het woord zichtbaar is. Het morfologisch principe geldt zolang het niet met de uitspraak in conflict is. Bijvoorbeeld: je spelt 'bloempje' omdat je het zo hoort, en niet 'bloemtje'. Het etymologisch principe houdt in dat als er meerdere mogelijkheden zijn om een woord te schrijven, de schrijfwijze wordt gekozen zoals deze zich in het verleden heeft gevormd. Er is hier geen sprake van een regel, maar van kennis die we ons per woord eigen moeten maken. Voorbeelden hiervan zijn de lettercombinaties ou/au en ei/ij. Vroeger, en in sommige dialecten nog steeds, gaven deze verschillende lettercombinaties verschillende klanken weer, maar nu zullen we in de meeste gevallen de spelling van dergelijke woorden gewoon uit het hoofd moeten leren. Het syllabisch principe heeft betrekking op de spelling van syllaben, klankstukken, in een woord. Een syllabe is een klank die bij een gesegmenteerde uitspraak van woorden als één groep wordt uitgesproken, bijvoorbeeld /zi/ /tun/ in het woord 'zitten'. Hier wordt ook meteen het verschil met lettergrepen duidelijk: 'zitten' bestaat uit de lettergrepen 'zit' en 'ten'. Lettergrepen geven een visuele verdeling van een woord. Het syllabisch principe kent twee regels, die voor verenkeling en die voor verdubbeling. De regel voor verenkeling schrijft voor dat als een syllabe eindigt op een lange klank we maar één letter schrijven, bijvoorbeeld in 'boten'. De verdubbelingsregel houdt in dat als een syllabe eindigt op een korte klank, de medeklinker die daarop volgt verdubbeld wordt, bijvoorbeeld in 'botten'. Ook op deze regels zijn echter weer uitzonderingen. Spellingstrategieën Van Bon (1993) hanteert als raamwerk voor de bespreking van de ontwikkeling van spelling de opdeling van spellingcompetentie van Marsh, Friedman, Welch & Desberg (1980). Volgens deze opdeling hanteren kinderen in eerste instantie een fonologisch principe met een sequentiële strategie. Eerst deelt het kind het gesproken woord op in spraakeenheden en vervolgens vertaalt het deze in letters. Later leert het kind hiërarchische regels bij het fonologisch principe, namelijk dat er bepaalde voorwaarden verbonden zijn aan het gebruik van bepaalde letters voor klanken. Het kind leert bijvoorbeeld dat je 'toren' schrijft en niet 'toorun'. Weer een volgende stap is het schrijven naar analogie, dat wil zeggen dat onbekende woorden worden geschreven naar het voorbeeld van bekende. Huizenga (1997) splitst de manieren die spellers gebruiken om tot de juiste schrijfwijze te komen (spellingstrategieën) uit in een directe strategie en indirecte strategieën. De directe strategie wil zeggen dat het spellen geautomatiseerd is; je schrijft een woord op zonder erbij na te denken. Indirecte strategieën vinden plaats als je bij het spellen een bepaalde denkhandeling toepast. Huizenga onderscheidt vijf indirecte spellingstrategieën: de fonologische strategie, de woordbeeldstrategie, de regelstrategie, de analogiestrategie en de hulpstrategie. De fonologische strategie houdt in dat iemand bij het spellen uitgaat van de klanken of klankgroepen waaruit een woord bestaat. Er zijn twee verschillende fonologische strategieën: de elementaire spellinghandeling, waarbij een woord wordt ontleed in fonemen, en de klankclusterstrategie, waarbij een woord wordt ontleed in klankgroepen. De elementaire spellinghandeling is normaal gesproken de eerste die een kind leert (voor het Nederlands). Ze is bruikbaar zolang een leerling alleen klankzuivere woorden moet schrijven (in het basisonderwijs wordt vaak gesproken van 'luisterwoorden'). De klankclusterstrategie is bruikbaar voor het schrijven van klankgroepen die altijd door dezelfde lettercombinatie worden weergegeven, bijvoorbeeld -ooi of -uw. In het basisonderwijs wordt dit wel aangeduid met de term 'luisterwoorden met speciale klankgroepen'. Deze strategie is voor leerlingen wat lastiger dan de elementaire spellinghandeling. De woordbeeldstrategie houdt in dat iemand een woord correct schrijft door een beroep te doen op zijn of haar woordgeheugen. Deze strategie is vooral bruikbaar bij leenwoorden of woorden waarvan de schrijfwijze moet worden ingeprent, bijvoorbeeld woorden met -ou- of -au-. In het basisonderwijs duidt men dergelijke woorden wel aan met de termen 'weetwoorden' of 'afspraakwoorden'. De regelstrategie wordt gebruikt als iemand bij het schrijven van een woord een spellingregel toepast. Voorbeelden daarvan zijn de verenkelingsregel en de verdubbelingsregel, maar ook regels als 'Hoor je op het einde /-ies/, dan schrijf je -isch.' Op de meeste spellingregels zijn weer uitzonderingen en dat maakt deze strategie lastig. In het basisonderwijs gebruikt men wel de term 'regelwoorden'. Bij de analogiestrategie schrijft iemand een woord door het te vergelijken met een ander woord. Die vergelijking kan gebaseerd zijn op overeenkomst in klank (bijvoorbeeld 'komen' en 'dromen'), maar ook op overeenkomst in betekenis (bijvoorbeeld 'vertrouwelijk' en 'trouwen'). De strategie leidt niet altijd tot het
10
juiste resultaat, omdat de gemaakte vergelijking niet altijd opgaat (bijvoorbeeld 'hond', 'wond', 'lont'). In het basisonderwijs worden de termen 'voorbeeldwoorden' of 'net-als woorden' gehanteerd. De hulpstrategie houdt in dat iemand ezelsbruggetjes of hulpregels gebruikt om te onthouden hoe een woord gespeld moet worden. Deze kunnen zelfbedacht zijn, maar ook aangeleerd zijn in het onderwijs. Woorden kunnen vaak met verschillende strategieën goed geschreven worden. Een volwassen speller zal voor veelvoorkomende, gemakkelijke woorden zoals 'school' waarschijnlijke de directe strategie gebruiken, maar hij kan ook de woordbeeldstrategie gebruiken. Spelling in het basisonderwijs Vanaf het moment dat een kind op school leert lezen en schrijven, wordt er aandacht besteed aan spelling. Voor het correct spellen van woorden zijn vele strategieën mogelijk. Een kind dat leert spellen, moet deze spellingstrategieën aanleren en op elkaar afstemmen. Binnen het onderwijs wordt steeds meer rekening gehouden met het feit dat leerlingen gebruik kunnen maken van verschillende strategieën om een woord correct te spellen. In de recente spellingmethoden komen dan ook de hierboven genoemde strategieën, zij het soms onder een andere naam, steeds weer terug. Om te bepalen welke leerstof aan bod moet komen in het spellingonderwijs worden meestal de volgende criteria gebruikt: 1 de frequentie van woorden 2 de indeling in spellingcategorieën 3 de moeilijkheid van woorden. Ad 1 In spellingmethoden wordt tegenwoordig vooral de spelling behandeld van de 3000 tot 4000 meest frequente woorden in Nederlandse teksten. Dit is een efficiënte werkwijze, want als leerlingen deze woorden correct kunnen spellen, zullen zij al veel teksten vrijwel foutloos schrijven. Leerlingen leren om in geval van minder bekende woorden het woordenboek te raadplegen. Ad 2 Voor de ordening van de leerstof wordt verder uitgegaan van een indeling in spellingcategorieën, groepen woorden met dezelfde spellingmoeilijkheid. Deze categorieën zijn een hulpmiddel voor leerkrachten en methodemakers om de leerstof te ordenen. De volgorde waarin de verschillende categorieën aan bod komen in de verschillende spellingmethoden en leerjaren is over het algemeen vergelijkbaar. Zo beginnen alle methoden met de klankzuivere woorden en wordt er in groep 6 een begin gemaakt met de werkwoordspelling. Ad 3 Ten slotte is ook de moeilijkheid van woorden een criterium. De meest frequente woorden zijn vaak niet het moeilijkst om te spellen. In het spellingonderwijs komen daarom (in de hogere leerjaren) ook woorden aan bod die minder frequent voorkomen, maar die vaak fout gespeld worden. Aan deze woorden wordt aandacht besteed omdat het bij het schrijven niet handig is deze woorden steeds op te moeten zoeken. Het gaat dan om woorden als: museum, enigszins, directie, chauffeur. Wat wordt er in de toetsen LOVS Spelling getoetst? Omdat het Nederlandse spellingsysteem gebaseerd is op verschillende principes, hebben kinderen een hele weg te gaan om goed te leren spellen. Bij het (leren) spellen kunnen verschillende strategieën worden ingezet. Wat wij met onze toetsen beogen te meten is of leerlingen weten hoe een woord correct gespeld dient te worden. Op welke wijze of volgens welke strategie ze tot die juiste spelling komen, is voor ons doel niet interessant. Er leiden verschillende wegen naar Rome … Bepaalde woorden zijn eenvoudiger correct te spellen dan andere woorden. Dit wordt ook in het onderwijs onderkend: alle spellingmethoden kennen een opbouw van gemakkelijker te spellen woorden naar moeilijker te spellen woorden. De criteria voor het ordenen van de leerstof staan hierboven genoemd. Ook bij het toetsen van de vaardigheid spelling gaan we uit van een indeling van makkelijk (eenlettergrepig, klankzuiver) naar moeilijk (meerlettergrepig, niet klankzuiver). Op basis van literatuurstudie en een uitgebreide methodeanalyse is een overzicht van spellingcategorieën tot stand gekomen, met een indeling van de categorieën over de leerjaren en afnamemomenten van de verschillende spellingtoetsen. Zie paragraaf 3.2 voor een beschrijving van de totstandkoming van dit categorieënoverzicht. 2.4.2
Psychometrisch
Opgavenbanken Primair onderwijs Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Leerling- en Onderwijsvolgsysteem, de
11
Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de toetsen Spelling hebben we gebruikgemaakt van de opgavenbank Spelling. Ook voor andere vakgebieden in het LOVS als begrijpend lezen, woordenschat, rekenen en studievaardigheden zijn opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet 'zomaar' een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid spellen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van spellingvaardigheid uit, waarbij een groter getal wijst op een grotere vaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm, de tweede geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden die een leerling op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid spellen, hetgeen ruwweg betekent dat men verwacht dat alle opgaven in de bank spellen meten. De vaardigheid zelf wordt als niet observeerbaar beschouwd en daarom gewoonlijk omschreven als een latente vaardigheid. 'Moeilijkheid' in de Item Response Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Response Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk. Men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid nodig om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een soort drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat er uit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen aangevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen deugdelijk zijn. Dit 'aantonen' gebeurt met statistische gereedschappen waarop we in de volgende paragraaf dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken moeten we ook proberen de waarden
12
van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden, die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de kalibratie is gebruikt (een 'onvolledig design'); we verwijzen de geïnteresseerde lezer naar Eggen (1993). Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren houden we een zogenaamde gekalibreerde itembank over. In dat kalibratieproces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de leerlingen. Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank Spelling. Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden. Al hetgeen dat geldt voor de 'papieren' items uit de itembank Spelling geldt ook voor 'digitale' items uit dezelfde itembank. 2 We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van LOVS zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf eind groep 3 (E3) tot eind groep 8 (E8). Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. Zie voor een voorbeeld hiervan Staphorsius (1994). In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. 3 Aan leerlingen die niet behoren tot de betreffende referentiepopulatie kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8 kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn of haar vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de percentielen in de populatie van groep 6, met bijvoorbeeld de uitspraak: "De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6." 4 De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6 wordt voorgelegd. Immers het kalibratieonderzoek heeft ons overtuigd dat alle items dezelfde vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken. Tot zover onze nadere bepaling van het begrip 'opgavenbank'. In de volgende hoofdstukken van dit deel van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en toegelicht voor de opgavenbank Spelling. Voor de verantwoording van de constructie van deze opgavenbank verwijzen we naar hoofdstuk 3. In hoofdstuk 6 wordt de validering van de opgavenbanken besproken.
13
Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste (praktische) obstakels van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering tekort als het gaat om de centrale vraag: hoe weten we dat de equivalering zinvol is? Op die vraag heeft IRT een antwoord. In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen we θ (theta). We wijzen erop dat θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd1. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans:
f i ( ) = P ( X i = 1 | )
(2.1)
Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door
f i ( )=
exp ( - i ) 1 + exp ( - i )
(2.2)
waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.1 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, krijgen we
f i ( i )=
exp ( i - i ) 1 1 = = 1 + exp ( i - i ) 1 + 1 2
(2.3)
Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter βi dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
1
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT ook wel aanduidt met 'latente trek'modellen.
14
Figuur 2.1
Twee itemresponscurven in het Raschmodel
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo'n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.1. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een 'laaggroep' met de vijftig procent laagste scores en een 'hooggroep' met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de 'conditionele grootste aannemelijkheidsmethode' (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ2. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen 'omwisseling' van 'proporties juist' in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door
f i ( )=
2
exp [ ai ( - i ) ] 1 + exp [ ai ( - i )]
,
(2.4)
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
15
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.2 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren.
Figuur 2.2
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuzeopgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hiermee rekening gehouden. Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de 'marginale grootste aannemelijkheidsmethode' (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Omdat leerlingen gevolgd worden, is het mogelijk gelijktijdig de verdelingen op de verschillende normeringsmomenten te schatten. Bij de analyse is gebruikgemaakt van multivariate latente analysetechnieken waarmee gemiddelden en
16
covarianties voor alle variabelen worden geschat in een onvolledig design. Daarvoor hebben we speciale software gebruikt (Multi) in combinatie met het OPLM als meetmodel (Kamphuis, 1992, 1993, Kamphuis en Engelen, 1992). Deze gemiddelden en covarianties vormen ook het basismodel voor de predicties in het computerprogramma LOVS.
17
18
3 Beschrijving van de toets
3.1
Opbouw en structuur van de toets
LOVS Spelling voor de jaargroepen 3, 4, 5 en 6 bevat acht toetsen: M3, E3, M4, E4, M5, E5, M6 en E6, primair bedoeld voor – achtereenvolgens – leerlingen halverwege (medio) groep 3, einde groep 3, halverwege en einde groep 4, halverwege en einde groep 5 en halverwege en einde groep 6. Van alle toetsen vanaf E3 (dus niet voor M3) is ook een digitale variant beschikbaar. De digitale variant bevat precies dezelfde opgaven als de papieren variant, maar nu tikken de leerlingen het gevraagde dicteewoord in via het toetsenbord in plaats van het op te schrijven. Bij de meerkeuzeopgaven klikken zij de zin met het fout gespelde woord aan (in plaats van de letter A, B, C, D vóór de zin te omcirkelen of te noteren). De papieren en de digitale toetsen Spelling bevatten niet alleen dezelfde opgaven, ook de modulaire opbouw van beide toetsvarianten is identiek. Omdat de spellingvaardigheid van leerlingen in één groep sterk kan uiteenlopen, zijn voor ieder afnamemoment twee in moeilijkheid verschillende toetsen samengesteld, die leerkrachten gedifferentieerd kunnen toewijzen aan hun leerlingen. De opgaven in LOVS Spelling zijn daartoe per afnamemoment verdeeld over drie toetsmodules. Deze drie modules verschillen in moeilijkheid en maken vertakt toetsen (multistage testing) mogelijk. (Zie voor de informatiewinst bij vertakt toetsen: Verhelst, 1989.) De modules in Spelling M3 zijn: M3 Start, M3 Vervolg 1 en M3 Vervolg 2. M3 Start past bij de gemiddelde vaardigheid van leerlingen halverwege jaargroep 3. M3 Vervolg 1 is gemakkelijker dan M3 Start en M3 Vervolg 2 is moeilijker dan M3 Start. Alle leerlingen in groep 3 maken eerst M3 Start. Minder goede spellers maken daarna M3 Vervolg 1; de betere spellers maken M3 Vervolg 2. (Zie ook figuur 3.1.) Eenzelfde modulering van deeltoetsen wordt ook gehanteerd in de daaropvolgende toetsen LOVS Spelling: E3, M4, E4 etcetera. De startmodule wordt door alle leerlingen in de groep gemaakt; na de startmodule wordt de groep gesplitst en maakt elke leerling de vervolgmodule die het best aansluit bij zijn of haar spellingvaardigheid. In de handleiding bij elk toetspakket wordt voor beide afnamemomenten (medio en eind) aangegeven bij welke score op de startmodule welke vervolgmodule het best passend is. In paragraaf 5.2 van deze verantwoording wordt uitgelegd hoe deze 'cut-off score' wordt bepaald. Figuur 3.1
Vertakt toetsen in LOVS Spelling module Vervolg 1 de minder goede spellers
module Start alle leerlingen in de groep module Vervolg 2 de betere spellers
De toetsmodules voor groep 3, 4 en 5 bevatten steeds 25 opgaven. Alle leerlingen in de groep maken dus 50 opgaven. Vanaf groep 6 bevat elke module 30 opgaven. In totaal maken de leerlingen dan dus 60 opgaven. Ondanks het feit dat bij adaptief toetsen niet alle leerlingen dezelfde toets maken, biedt het gehanteerde meetmodel de mogelijkheid om leerlingen met elkaar en met de leerlingen in de landelijke normgroep te vergelijken. De onderliggende meettechniek voorziet er namelijk in dat iedere ruwe score – op welk van beide combinaties van toetsmodules deze score ook behaald is – kan worden omgezet in een score op één en dezelfde vaardigheidsschaal. De gedifferentieerde toewijzing van opgaven aan leerlingen heeft een belangrijke achtergrond: de meting van de vaardigheid geeft een nauwkeuriger resultaat naarmate de moeilijkheid van de 19
opgaven beter past bij het vaardigheidsniveau van een leerling. En uiteraard is het maken van een toets op maat prettiger voor de leerlingen. De papieren toetsen Spelling worden in principe klassikaal gemaakt. De startmodule is voor alle leerlingen in de groep hetzelfde; een korte mondelinge instructie van de leerkracht volstaat om het principe van het dictee uit te leggen. De vervolgmodules daarentegen zijn niet voor alle leerlingen gelijk. In groep 4 en groep 5 ontstaat daardoor een complicatie bij de afname. De modules Vervolg 2 bevatten in deze groepen meerkeuzeopgaven, terwijl de modules Vervolg 1 dicteeopgaven bevatten. De leerkracht zal zijn of haar groep leerlingen bij de afname van de vervolgmodule dan ook moeten splitsen, waarbij de instructie voor het ene deel van de groep (de leerlingen die Vervolg 1 maken) afwijkt van de instructie voor het andere deel van de groep (de leerlingen die Vervolg 2 maken). In groep 3 en vanaf groep 6 is een dergelijke splitsing niet (meer) nodig. Dan bevatten de beide vervolgmodules dezelfde soort opgaven (dictee in groep 3, meerkeuze in groep 6 en hoger) waardoor volstaan kan worden met één klassikale uitleg. In groep 3 en 4 schrijven de leerlingen hun antwoorden in het opgavenboekje. Vanaf groep 5 noteren de leerlingen hun antwoorden op losse antwoordbladen. De digitale toetsen Spelling worden individueel gemaakt. Afhankelijk van het aantal beschikbare computers kunnen meerdere leerlingen gelijktijdig aan dezelfde toets werken. Bij de digitale versies van de toetsen wordt in de dicteemodules bij elke opgave automatisch het bijbehorende geluidsfragment afgespeeld. De leerling kan desgewenst (door het klikken op een oortje op het beeldscherm) het geluidsfragment nogmaals beluisteren. De opgaven in de meerkeuzemodules worden in principe niet voorgelezen. Voor dyslectische leerlingen en leerlingen met ernstige leesproblemen bestaat echter vanaf groep 6 die mogelijkheid wel. Zij moeten daartoe bij elke meerkeuzeopgave op het oortje klikken dat staat weergegeven in het scherm. In groep 4 en groep 5 is er in de meerkeuzemodules geen oortje zichtbaar. Immers in deze groepen kan de leerkracht er bewust voor kiezen om moeilijk lezende leerlingen na de startmodule module Vervolg 1 (dictee) te laten maken, ook als de score op module Start hoog genoeg is voor module Vervolg 2 (meerkeuze). Vanaf groep 6 bevatten beide vervolgmodules meerkeuzeopgaven, waardoor alle leerlingen met meerkeuzeopgaven worden geconfronteerd. Om dyslectische leerlingen toch enigszins tegemoet te komen, kunnen zij er dan voor kiezen om de opgaven te laten voorlezen. Van bijna alle toetsen Spelling is een papieren versie en een digitale versie beschikbaar. Spelling M3 vormt de enige uitzondering: die toets bestaat alleen op papier. De reden voor het ontbreken van een digitale versie is dat de leerlingen halverwege groep 3, dus op het beoogde afnamemoment, alleen nog maar de kleine letters geleerd hebben. Op het toetsenbord van een computer staan echter alle letters in kapitalen. Dat levert voor de leerlingen problemen op. De 'I' (hoofdletter i) op het toetsenbord wordt door hen steevast aangezien voor een l (kleine letter /el/). Ook toetsenbordletters als A, E, G en B leiden tot verwarring, omdat de vorm van deze hoofdletters sterk afwijkt van de kleine letters die in de taalmethoden worden aangeboden. De meeste leerlingen kennen aan het eind van groep 3 van elke letter zowel de hoofdletter als de kleine letter. Ook dan kunnen echter nog vergissingen gemaakt worden op het toetsenbord, bijvoorbeeld met de i/l-verwisseling, of de verwisseling van 0 (nul) en o. In de handleiding bij de digitale toetsen (die opgenomen is in elk toetspakket Spelling) adviseren wij de leerkracht om vóór de afname van een digitale toets te controleren of de leerling alle letters kan vinden op het toetsenbord. Als de leerkracht merkt of verwacht dat de betreffende leerling daar moeite mee heeft, kan bij deze leerling beter de papieren versie van de toets worden afgenomen. De toetsen Spelling zijn zowel handmatig na te kijken en te analyseren als via de computer met behulp van het Computerprogramma Leerlingvolgsysteem. Voor het handmatig nakijken van iedere toets kan gebruikgemaakt worden van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Indien gewenst kan de leerkracht in het Computerprogramma LOVS de goede antwoorden aanklikken. Bij de digitale versies van de toetsen worden de antwoorden van de leerlingen door de computer gescoord en hoeft de leerkracht de toetsen dus niet zelf na te kijken. Na de toetsafname en de correctie van de leerlingantwoorden kunnen de toetsresultaten verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding bij de toetspakketten Spelling (hoofdstuk 4: Interpretatie en gebruik op leerlingniveau en hoofdstuk 5: Interpretatie en gebruik op schoolniveau) en de handleiding bij het computerprogramma (module schoolzelfevaluatie) worden de
20
mogelijkheden besproken om verschillende soorten overzichten te maken, zoals leerlingrapporten, groepsrapporten, dwarsdoorsneden en trendanalyses. Met behulp van deze overzichten kan de kwaliteit van het gegeven onderwijs ook op groepsniveau en schoolniveau geanalyseerd worden.
3.2
Inhoudsverantwoording
In deze paragraaf geven wij eerst een beschrijving van de opgaventypen in de toetsen Spelling voor groep 3 tot en met 6. Vervolgens beschrijven wij de gedetailleerde uitkomsten van het methodeonderzoek dat ten grondslag lag aan de keuze voor de spellingcategorieën in de toetsen en geven we een overzicht van LOVS-spellingcategorieën met de aantallen opgaven per spellingcategorie. Ten slotte beschrijven we de selectiecriteria die gebruikt zijn bij de keuze van de opgaven in de toetsen Spelling. De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in de toetspakketten Spelling. In de Inhoudsverantwoording in het toetspakket staat per jaargroep en afnamemoment een overzicht van alle getoetste woorden en informatie over de moeilijkheid van elk woord (in de vorm van grafieken). Ook vindt u daar een toelichting bij het totaaloverzicht van LOVS-spellingcategorieën voor groep 3 tot en met 8, gevolgd door een beschrijving van het methodeonderzoek op basis waarvan het overzicht van LOVS-spellingcategorieën is ontwikkeld. Dat categorieënoverzicht is in elk toetspakket als bijlage achter in de Inhoudsverantwoording opgenomen.
Opgaventypen in LOVS Spelling De toetsen Spelling voor groep 3 tot en met 6 bevatten drie soorten opgaven: – woorddictee (module M3 Start, M3 Vervolg 1, M3 Vervolg 2); – zinsdictee (module E3 Start, E3 Vervolg 1, E3 Vervolg 2, M4 Start, M4 Vervolg 1, E4 Start, E4 Vervolg 1, M5 Start, M5 Vervolg 1, E5 Start, E5 Vervolg 1, M6 Start, E6 Start); – meerkeuzeopgaven (module M4 Vervolg 2, E4 Vervolg 2, M5 Vervolg 2, E5 Vervolg 2, M6 Vervolg 1, M6 Vervolg 2, E6 Vervolg 1, E6 Vervolg 2). De eerste toets Spelling, op afnamemoment M3 (medio groep 3), bevat alleen woorddicteeopgaven. Bij een woorddictee leest de leerkracht losse woorden voor. De leerlingen schrijven die woorden in een opgavenboekje. In het opgavenboekje staat bij elk opgavenummer een illustratie die past bij het voorgelezen woord. De illustraties zijn bedoeld om mogelijke twijfel bij de leerlingen weg te nemen over welk woord de leerkracht nu precies zei. Omdat de woorden niet in een context worden aangeboden, zou een onduidelijke uitspraak van de leerkracht er bijvoorbeeld toe kunnen leiden dat de leerling 'rok' schrijft in plaats van 'rook'. De toets Spelling E3 (einde groep 3) bestaat geheel uit zinsdicteeopgaven. Alle volgende toetsen Spelling bevatten minstens één module zinsdictee (module Start); bij de toetsen in groep 4 en 5 bestaat ook module Vervolg 1 uit zinsdicteeopgaven. Bij een zinsdictee leest de leerkracht een zin voor en herhaalt vervolgens uit deze zin één woord. Dat woord moeten de leerlingen opschrijven. Door de toetswoorden in zinsverband aan te bieden is twijfel over welk woord bedoeld wordt vrijwel uitgesloten en kunnen illustraties achterwege blijven. Vanaf de toets Spelling M4 (medio groep 4) worden ook modules met meerkeuzeopgaven aangeboden. Een meerkeuzeopgave bestaat uit vier losse zinnen, die elk één dikgedrukt woord bevatten. Eén van de vier dikgedrukte woorden is fout gespeld. De leerlingen moeten aangeven in welke zin het fout gespelde woord staat. Bij de beslissing om naast dicteeopgaven ook meerkeuzeopgaven op te nemen in de toetsen Spelling speelden de volgende overwegingen een rol: Het belang van zelf foutloos woorden kunnen schrijven ('actief' spellen) kan nauwelijks overschat worden, maar spelling kent ook een 'passieve' kant: het kunnen signaleren van fout gespelde woorden in een tekst. Ook het 'passief' spellen komt in de dagelijkse onderwijspraktijk aan bod, als leerlingen in opdracht van de leerkracht hun eigen werk of dat van medeleerlingen nakijken met de bedoeling eventuele fout geschreven woorden te verbeteren. De passieve kant van spelling kan op verschillende manieren getoetst worden, bijvoorbeeld met meerkeuzeopgaven. Gestreefd wordt naar een betere aansluiting van de toetsen Spelling op de spellingtaken in de Entreetoets en de Eindtoets. In de Entreetoetsen (groep 5, 6 en 7) en de Eindtoets (groep 8) wordt het onderdeel Spelling geheel met meerkeuzeopgaven getoetst. In de SVS-toetsen (Schaal Vorderingen in Spellingvaardigheid, de voorloper van de toetsen uit het LOVS) daarentegen stonden alleen dicteeopgaven. Door de grote aantallen deelnemers aan de Eindtoets en de Entreetoetsen en de zeer
21
beperkte verwerkingstijd van de toetsresultaten is het niet mogelijk om in deze toetsen dicteeopgaven op te nemen (die moeten immers handmatig nagekeken worden). De gewenste afstemming kan alleen via de andere weg bereikt worden: door meerkeuzeopgaven op te nemen in de toetsen Spelling. We wilden de dicteevorm in de toetsen Spelling echter niet geheel achterwege laten. Het begrip 'spellen' wordt toch vooral geassocieerd met zelf schrijven, met dictees dus, en minder met meerkeuzeopgaven. Omdat de toetsen Spelling door de leerkracht worden gecorrigeerd en gescoord, en niet in grote hoeveelheden centraal verwerkt hoeven te worden, is het mogelijk in deze toetsen ook open vragen op te nemen. Uiteindelijk hebben we gekozen voor een combinatie van dicteeopgaven en meerkeuzeopgaven. Voor de meeste leerlingen in groep 3 zijn meerkeuzeopgaven te moeilijk. Ook kunnen ze leiden tot onzekerheid, zeker als er fout gespelde woorden in staan. Immers deze leerlingen hebben nog niet de kans gehad een vast woordbeeld te ontwikkelen. De toetsen Spelling voor groep 3 bestaan dan ook geheel uit dicteeopgaven. In de toetsen voor de groepen 4 en 5 hebben wij ervoor gekozen de meerkeuzeopgaven alleen aan de betere spellers voor te leggen (module Vervolg 2). Leerlingen die minder goed kunnen spellen, krijgen twee keer een zinsdictee (module Start en module Vervolg 1). Deze leerlingen zouden anders misschien in verwarring worden gebracht door het zien van fout gespelde woorden. Het gaat hier immers om zwakke en daarnaast relatief onervaren spellers voor wie een taak met meerkeuzeopgaven mogelijkerwijs al snel onoverzichtelijk of te belastend wordt. Pas in de toetsen vanaf groep 6 krijgen alle leerlingen zowel een zinsdictee (module Start) als een taak met meerkeuzeopgaven (module Vervolg 1 of Vervolg 2). Na ruim drie jaar onderwijs in lezen en spelling is de kans op wat wel wordt genoemd 'inslijpen van het foute woordbeeld' nog slechts zeer gering. Door de lage afnamefrequentie van de toetsen (de leerlingen krijgen twee keer per jaar één taak met meerkeuzeopgaven voorgelegd) en de vorm van de toetsen (de leerling krijgt in de meerkeuzemodule zoveel verschillende woorden en zinnen te zien dat hij/zij deze onmogelijk allemaal kan onthouden) is het gevaar van foute inprenting minimaal.
Overigens liggen de verschillende opgaventypen die in de toetsen Spelling gebruikt worden (woorddictee, zinsdictee, meerkeuzeopgave) alle drie op één en dezelfde schaal. Dat betekent dat alle opgaven iets zeggen over dezelfde spellingvaardigheid. De vaardigheidsscores van leerlingen die een toets Spelling gemaakt hebben, kunnen dus altijd onderling vergeleken worden, ook al hebben de leerlingen niet allemaal dezelfde soort opgaven gemaakt. Spellingcategorieën in Nederlandse taalmethoden De opgaven in de toetsen Spelling maken deel uit van een omvangrijke opgavenbank die gevuld is met woorden die enerzijds ondergebracht zijn in verschillende opgavenvormen (woorddictee, zinsdictee, meerkeuzeopgave) en anderzijds in verschillende spellingcategorieën. Deze spellingcategorieën (48 in totaal) zijn gebaseerd op de spellingkwesties die we eind 2005 en begin 2006 aantroffen in zeven veel gebruikte onderwijsmethoden: methode Taalactief Taaljournaal Taalleesland Taaltijd Taalverhaal Veilig leren lezen Zin in taal
uitgever Uitgeverij Malmberg, 's-Hertogenbosch Uitgeverij Malmberg, 's-Hertogenbosch Bekadidact, Baarn Wolters-Noordhoff, Groningen ThiemeMeulenhoff, Utrecht/Zutphen Uitgeverij Zwijsen B.V., Tilburg Uitgeverij Zwijsen B.V., Tilburg
jaar van uitgave 2003 2003 1995-1999 1995-1999 2002-2003 2003 1996-2001
Uit een onderzoek van Cito in 2005 naar leesvaardigheid in het basisonderwijs (in het kader van het onderzoeksproject Periodieke Peiling van het Onderwijsniveau) blijkt dat deze taalmethoden in het onderwijs het meest gebruikt worden.3
3
De rapportage van dit onderzoek is in 2007 verschenen in de vorm van twee balansen, Balans van het leesonderwijs aan het einde van de basisschool en Balans van het leesonderwijs halverwege de basisschool.
22
U vindt de gedetailleerde resultaten van het methodeonderzoek in Bijlage 1. Om de daar afgebeelde tabel te kunnen interpreteren, volgt hier een korte beschrijving van het onderzoek en de gehanteerde werkwijze. Als uitgangspunt voor het methodeonderzoek dienden de in totaal 40 spellingcategorieën die in de handleiding en de hulpboeken bij de toetsen Schaal Vorderingen in Spellingvaardigheid (SVS, de voorloper van de toetsen LOVS Spelling) staan. Van elke daar genoemde categorie werd bekeken of de betreffende spellingkwestie expliciet aan de orde kwam in de spellingleergang en zo ja, op welk moment. Om het moment van behandeling te bepalen, hebben we in eerste instantie gezocht naar aanwijzingen in de handleiding bij de leergang. Als daar bijvoorbeeld stond dat de lessen 1 tot en met 5 bedoeld waren voor het eerste semester en de lessen 6 tot en met 9 voor het tweede semester, dan hebben we spellingkwesties die in de eerste vijf lessen aan de orde kwamen de aanduiding 'm' meegegeven en spellingkwesties die in de laatste vier lessen aan de orde kwamen de aanduiding 'e'. De 'm' staat dan voor: is behandeld en zou getoetst kunnen worden op het mediomoment; de 'e' staat voor: is behandeld en zou getoetst kunnen worden op het eindmoment. Door de 'm' en 'e' te koppelen aan het leerjaar, konden we per categorie per leergang aangeven wanneer de betreffende spellingkwestie aan de orde werd gesteld, bijvoorbeeld '4m' betekende dat de spellingkwestie in groep 4 aan de orde kwam, in de eerste helft van het schooljaar. Als in de handleiding bij de leergang geen duidelijke planning werd gegeven voor het verdelen van de lessen over het schooljaar, dan hebben we het totale aantal lessen voor een bepaald jaar in twee gelijke delen gesplitst en de spellingkwesties in het eerste deel de aanduiding 'm' en in het tweede deel de aanduiding 'e' gegeven. Bij een oneven aantal lessen kreeg de middelste les de aanduiding 'e'. Categorieën die in een leergang op verschillende tijdstippen aan bod komen, werden voorzien van alle relevante aanduidingen (bijvoorbeeld '4m,5me' betekent dat een categorie voor het eerst behandeld wordt in groep 4, in de eerste helft van het schooljaar, en dat de categorie opnieuw behandeld wordt in groep 5, zowel in de eerste als in de tweede helft van het schooljaar). Een grijs gearceerd vakje in de tabel geeft aan dat betreffende spellingcategorie in de methode niet expliciet aan de orde kwam. Omgekeerd kwam het ook voor dat taalmethoden categorieën aanboden die niet in het SVS-overzicht stonden. Een voorbeeld daarvan is de categorie die in Bijlage 1 wordt aangeduid met 'xx' (tussen categorie 7 en categorie 8): éénof tweelettergrepige woorden met f-, v-, s- of z-. Nadat alle SVS-spellingcategorieën voorzien waren van een aanduiding van het leerjaar en het moment van behandelen (zie Bijlage 1), hebben we gekeken of er categorieën bijgesteld moesten worden qua omschrijving en/of moment van toetsafname. De categorieënindeling van de oude SVS-toetsen bleek niet meer goed aan te sluiten bij de moderne taalmethoden. Voor de nieuwe toetsen Spelling is daarom een nieuw categorieënoverzicht gemaakt, het 'Overzicht spellingcategorieën in de LOVS-toetsen Spelling', dat u aantreft in elk toetspakket Spelling. Dit nieuwe categorieënoverzicht verschilt in twee opzichten van het oude SVS-overzicht: 1 Het nieuwe overzicht bevat in totaal 48 spellingcategorieën in plaats van de 40 categorieën van de SVS, omdat in de methoden meer dan 40 verschillende categorieën aan bod bleken te komen. In de lagere leerjaren was het meest opvallende gemis de 'xx'-categorie: één- of tweelettergrepige woorden met f-, v-, s- of z-, die zojuist al genoemd werd. In de hogere leerjaren ontbrak bijvoorbeeld een categorie 'woorden waarin je /k/ hoort en c schrijft', terwijl er wel een SVS-categorie was voor 'woorden waarin je /s/ hoort en c schrijft' (categorie 25). In totaal zijn er acht spellingcategorieën toegevoegd. Deze categorieën zijn 'tussengeschoven' in het overzicht op een plaats die recht doet aan het moment waarop de categorie getoetst wordt. Een consequentie van het invoegen van nieuwe categorieën is dat de categorienummers van daaropvolgende categorieën veranderen (volgnummers schuiven op). 2 Een tweede wijziging betreft niet de categorieën zelf, maar het moment waarop deze in het onderwijs (en dus ook in de toetsen) aan bod komen. Het afnamemoment in de SVS-toetsen sloot niet altijd meer aan bij het aanbiedingsmoment in de methoden. Bijvoorbeeld categorie 22 (verandering van -f in -v- en -s in -z- bij vervoeging en meervoudsvorming) kwam in de SVS-toetsen voor vanaf afnamemoment M4, maar uit het onderzoek bleek dat vier methoden deze spellingkwestie pas voor het eerst in de loop van groep 5 behandelen. In de nieuwe toetsen Spelling is dan ook besloten deze categorie pas vanaf afnamemoment E5 te toetsen. Bij andere categorieën was een tegengestelde beweging waar te nemen. Bijvoorbeeld categorie 16+ (meerlettergrepige woorden met au, auw, ou of ouw) kwam in de SVS-toetsen voor vanaf afnamemoment M6, maar vijf methoden behandelen deze kwestie al in groep 5. Omdat we graag zo goed mogelijk willen aansluiten bij wat in het onderwijs gebruikelijk is, wordt categorie 16+ in de nieuwe toetsen Spelling al vanaf afnamemoment E5 getoetst. Ook het verschuiven van het afnamemoment van spellingcategorieën heeft consequenties voor de
23
nummering in het categorieënoverzicht. Immers de categorieën in het overzicht zijn in principe gerangschikt naar het moment van toetsing. Het uitgangspunt bij de keuze voor het wel of niet opnemen van een spellingcategorie in de nieuwe toetsen Spelling was dat de betreffende categorie op het beoogde moment van afname in ten minste vier van de zeven (eigenlijk zes) taalmethoden expliciet aan de orde moest zijn geweest. (Omdat de methode Veilig Leren Lezen alleen in groep 3 gehanteerd wordt, is deze methode vanaf groep 4 niet meer in onze afwegingen betrokken.) De consequentie van dit uitgangspunt is dat er soms categorieën in de toetsen zijn opgenomen die op het moment van toetsafname nog niet in alle methoden aan bod gekomen zijn. Toch hebben wij er bewust voor gekozen niet te wachten met het opnemen van een categorie tot deze in alle (zes van de zes) onderzochte methoden behandeld is. Een ongewenst gevolg van wachten zou zijn dat er in de toetsen voor groep 4 en groep 5 bijna geen nieuwe categorieën aan bod zouden komen (in die twee leerjaren zijn de verschillen tussen de methoden het grootst), terwijl in groep 6 ineens een grote hoeveelheid nieuwe spellingproblemen een plaats zou moeten krijgen in de toetsen (in groep 6 zijn de verschillen tussen de taalmethoden goeddeels bijgetrokken). Daarnaast zou het voor een deel van de leerlingen dan erg lang duren voor een bij hen vroeg behandelde categorie getoetst werd. Voor de aansluiting van de toetsen Spelling bij het gegeven onderwijs zou het natuurlijk ideaal zijn als alle taalmethoden eenzelfde aanbiedingsvolgorde van spellingcategorieën zouden hanteren. Dat is echter niet het geval. Spellingcategorieën in de toetsen LOVS Spelling Per toets (per afnamemoment) komt slechts een deel van de in totaal 48 LOVS-spellingcategorieën aan de orde. In de onderstaande tabel ziet u welke categorieën deel uitmaken van welke toets Spelling en hoeveel opgaven het betreft. Omdat deze verantwoording voorlopig alleen de toetsen Spelling voor groep 3 tot en met groep 6 betreft, bevat de tabel slechts 31 categorieën: de categorieën die tot en met groep 6 aan de orde komen. In de groepen 7 en 8 komen er nog 17 categorieën bij. In de volgende versie van de verantwoording zal de tabel alle 48 spellingcategorieën bevatten. Omwille van de hanteerbaarheid van de tabel is per afnamemoment telkens het totaal aantal opgaven per categorie gegeven. Dat komt niet overeen met het aantal opgaven dat daadwerkelijk door een individuele leerling wordt gemaakt. Immers elke leerling maakt eerst module Start en daarna ofwel module Vervolg 1 ofwel module Vervolg 2; nooit allebei de vervolgmodules. Leerlingen maken dus ongeveer tweederde deel van de hieronder genoemde aantallen opgaven. In de Inhoudsverantwoording in elk toetspakket Spelling staan de precieze aantallen opgaven vermeld per afnamemoment per categorie per combinatie van startmodule en vervolgmodule. Onderstaande tabel biedt een samenvatting van de overzichten in de verschillende Inhoudsverantwoordingen. Er wordt op twee manieren samengevat: enerzijds worden de aantallen opgaven in de modules Start, Vervolg 1 en Vervolg 2 bij elkaar opgeteld tot de totalen in de kolommen onder elk afnamemoment; anderzijds worden de spellingcategorieën alleen weergegeven met hun nummer, niet aangevuld met eventuele 'plussen'. In het uitgebreide overzicht van spellingcategorieën dat u als bijlage in elk toetspakket Spelling aantreft, worden categorieën die in meerdere (clusters van) leerjaren aan de orde komen, in de latere leerjaren voorzien van een + (of zelfs een ++) om de toenemende moeilijkheid en woordlengte aan te geven. Het spellingprobleem waar het om gaat verandert daarmee echter niet wezenlijk (bijvoorbeeld categorie 11: woorden met ei of ij). In de tabel hieronder zijn de plussen weggelaten.
24
Figuur 3.2 Cat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Spellingcategorieën in de toetsen LOVS Spelling groep 3 tot en met groep 6.
Omschrijving mkm-woorden mmkm- en mkmm-woorden mmkmm-woorden tussenklank die niet geschreven wordt meer dan twee medeklinkers na elkaar woorden met sch of schr woorden met ng of nk woorden met (-)f-, (-)v-, (-)s- of (-)zverkleinwoorden met -je, -(e)tje, -pje woorden met ge-, be-, ver-, -el, -er, -en woorden met ei of ij woorden met aai, ooi of oei samengestelde woorden woorden met eer, oor of eur woorden met -a, -o of -u woorden met au(w) of ou(w) woorden met ch of cht woorden met -d(-) woorden met eeuw, ieuw of uw woorden met open lettergreep woorden met gesloten lettergreep verandering van -f(-) in -v- en -s(-) in -zwoorden met -em, -elen, -enen, -eren woorden met -lijk of -ig /ie/ wordt geschreven als i /s/ wordt geschreven als c /k/ wordt geschreven als c /zju/ wordt geschreven als ge woorden met 's woorden met -tie woorden met -teit of -heid
M3 26 49
E3 7 9 14 12 10 10 13
M4 4 3 7 4 5 5 5 4 6 6 6 7 7
6
E4
M5
E5
M6
6 6 6
4 5 4
6 5
5
9
5
3 6
5 5 4 5 5 4
6 6 6 7 6 5 6 6
6 5 5 6 5
7
E6
6
9
7
6
6
5 6 6 5 5 5 7 4 5
6 7 6
10
6 5 7 6 6 7 6 6
8 9
7 6 8 7 6 7 7
De totale aantallen opgaven per toets Spelling zijn gemakkelijk uit bovenstaande tabel af te leiden door de aantallen opgaven per kolom bij elkaar op te tellen. De toetsen in groep 3, 4 en 5 bevatten 75 opgaven verdeeld over drie modules (elke leerling maakt 50 opgaven); de toetsen vanaf groep 6 bevatten 90 opgaven verdeeld over drie modules (elke leerling maakt 60 opgaven). De reden dat vanaf groep 6 de modules langer worden, is gelegen in het toenemend aantal spellingcategorieën dat aan bod moet komen. Leerlingen in de bovenbouw van het basisonderwijs lezen en schrijven over het algemeen sneller dan leerlingen in de lagere groepen, zodat in de praktijk de afnametijd per module niet of nauwelijks toeneemt door de vijf extra opgaven vanaf groep 6. Selectie van opgaven voor de toetsen LOVS Spelling Alle opgaven die in de toetsen Spelling zijn opgenomen werden speciaal voor deze toetsen geconstrueerd door twee verschillende constructiegroepen. De eerste groep was werkzaam in 2004 en 2005 en heeft opgaven gemaakt voor de groepen 3, 4 en 5. De tweede groep was werkzaam in 2006 en 2007 en heeft opgaven gemaakt voor de groepen 6, 7 en 8. De opgaven zijn eerst in een proefafname voorgelegd aan leerlingen in de jaargroepen waarvoor ze bedoeld waren (waarbij elke opgave door minimaal 200 leerlingen gemaakt is). Het doel van dergelijke proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door goede spellers dan door minder goede spellers fout gemaakt worden) geïdentificeerd en verwijderd worden. Daarnaast hebben wij de proefafname aangegrepen als een mogelijkheid om aan de deelnemende leerkrachten te vragen of zij
25
inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven of toetswoorden. Sommige leerkrachten gaven aan dat zij sommige opgaven nogal moeilijk vonden. Uit de proefafnameresultaten kwamen de betreffende opgaven echter niet als (te) moeilijk naar voren. Alle opgaven met een acceptabele moeilijkheid (in klassieke termen een p-waarde tussen .40 en .90) die door de betere spellers significant vaker goed werden gemaakt dan door de minder goede spellers (rir vanaf .20) kwamen in principe in aanmerking voor opname in de definitieve toetsen Spelling. Voor sommige spellingcategorieën bleken er na afloop van de proefafname te weinig psychometrisch acceptabele opgaven over te blijven. Voor die categorieën werden na de proefafname nog nieuwe opgaven geconstrueerd door Cito-medewerkers (Anja de Wijs, Ronald Krom). De opgaven die uit de proefafname waren overgebleven plus de in voorkomende gevallen extra geconstrueerde opgaven werden vervolgens ingedeeld voor opname in de normeringsonderzoeken. In tegenstelling tot de proefafnames, waar opgaven random over toetsboekjes werden verdeeld, zijn in de normeringsonderzoeken met zorg modules samengesteld volgens het model van een Startmodule van een gemiddelde moeilijkheid, een module Vervolg 1 die gemakkelijker was dan de Startmodule en een module Vervolg 2 die moeilijker was dan de Startmodule. Elke module bevatte opgaven uit alle te toetsen spellingcategorieën, in een evenwichtige verdeling (bijvoorbeeld niet alle opgaven over ei/ij direct na elkaar). De modules in het normeringsonderzoek leken dus al zoveel mogelijk op de definitief samen te stellen modules. Wel bevatte elke module vijf opgaven méér dan de definitieve modules, met het oog op eventuele uitval van items wegens slecht functioneren. De kans daarop was overigens niet zo groot, omdat slecht functionerende items al verwijderd waren na de proefafname. De nieuw geconstrueerde items waren echter niet gepretest, zodat de kans op uitval daar wel reëel was. Van alle opgaven in het normeringsonderzoek is om te beginnen opnieuw de p-waarde en de rir bepaald. Vervolgens zijn uit elke module vijf opgaven verwijderd om te komen tot het gewenste aantal opgaven in de definitieve toets. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek een te hoge of te lage p-waarde of een te lage rir. Soms ook vielen opgaven af die psychometrisch gezien goed functioneerden, maar die tot een spellingcategorie behoorden die al voldoende vertegenwoordigd was in de module. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te moeilijk of te makkelijk waren, maar waarvoor in de betreffende spellingcategorie geen beter functionerende alternatieven voorhanden waren. Bij elke individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden. Bij het samenstellen van de definitieve toetsen was immers niet alleen de psychometrische kwaliteit van de opgaven van belang. De toetsen moesten daarnaast inhoudelijk zo dicht mogelijk aansluiten bij de leerstof die op de scholen werd aangeboden. Dat wilden wij bereiken aan de hand van de volgende criteria: 1 Als in de spellingmethoden in een bepaald leerjaar bepaalde spellingcategorieën werden behandeld, dan wilden wij die categorieën op het eerstvolgende afnamemoment in de toets terug laten komen. 2 Het aantal categorieën dat op enig afnamemoment in een toets Spelling aan de orde kwam, mocht niet zodanig hoog zijn dat de leerling minder dan drie opgaven per categorie kreeg voorgelegd. 3 De verdeling van opgaven over categorieën moest binnen de twee mogelijke combinaties van modules (Start + Vervolg 1 of Start + Vervolg 2) zo gelijkmatig mogelijk zijn. In de praktijk bleek het niet altijd mogelijk ons aan deze criteria te houden. Een belangrijke oorzaak daarvan is al eerder in dit hoofdstuk aan de orde geweest: de onderzochte spellingmethoden hanteren elk hun eigen volgorde van aanbieden van spellingcategorieën. Over het geheel genomen lopen de spellingmethoden redelijk gelijk op, maar op detailniveau (het niveau van losse categorieën) zijn er opmerkelijke verschillen. In Bijlage 1 zijn deze verschillen in een oogopslag zichtbaar. Soms wordt een bepaalde categorie in de ene methode een vol jaar eerder aangeboden dan in de andere methode (zie bijvoorbeeld categorie 18 in de tabel in Bijlage 1). Het hierboven eerstgenoemde criterium voor de toetssamenstelling is bij dergelijke grote verschillen tussen de methoden niet haalbaar. Immers het ideale afnamemoment voor opgaven in een bepaalde categorie (kort volgend op de aanbieding van de categorie in de les) ligt voor de ene school een jaar eerder dan voor een andere school, afhankelijk van welke taalmethode gebruikt wordt. Wij hebben ervoor gekozen een categorie pas in de toetsen op te nemen als ten minste vier van de zes onderzochte methoden de categorie expliciet behandeld hadden. Het tweede criterium (leerlingen krijgen in hun toets minimaal drie opgaven per categorie voorgelegd) is alleen haalbaar als in een toets van 50 opgaven maximaal 16 categorieën aan bod komen en in een toets van 60 opgaven maximaal 20 categorieën. Deze maxima zijn nergens overschreden. Om dat te bereiken
26
hebben we soms op een bepaald afnamemoment een of twee categorieën moeten schrappen die – gezien het aanbod in de methoden – op dat afnamemoment wel degelijk in de toets hadden mogen voorkomen. Deze werkwijze is zichtbaar in de 'gaatjes' in figuur 3.2 ('Spellingcategorieën in de toetsen LOVS Spelling groep 3 tot en met groep 6') eerder in deze paragraaf. De reden voor het ontbreken van categorie 11 in de toets Spelling E5 is niet dat deze categorie op het betreffende afnamemoment in het onderwijs niet zou worden aangeboden, maar dat we moesten kiezen tussen verschillende relevante categorieën om ervoor te zorgen dat elke leerling minstens drie opgaven per categorie zou kunnen maken. Aan dit criterium is in groep 3 en groep 6 voor alle categorieën voldaan. In groep 4 en groep 5 lukte dat helaas niet altijd. Een leerling die de toets Spelling M4 maakt, komt bij twee categorieën niet aan het gewenste minimum van drie opgaven. En leerlingen die de toets E4, M5 of E5 maken, komen bij één categorie een opgave tekort. Na het normeringsonderzoek bleken er voor deze categorieën net te weinig psychometrisch acceptabele opgaven over te blijven. Het derde criterium, een zo gelijkmatig mogelijke verdeling van het aantal opgaven per categorie, is overal waar mogelijk gehanteerd. Echter op grond van de resultaten uit het normeringsonderzoek moesten er opgaven vervallen om de definitieve modules samen te stellen, en de opgaven die het psychometrisch gezien niet goed deden, kwamen soms uit spellingcategorieën die toch al niet zo ruim bedeeld waren. Er is telkens opnieuw een afweging gemaakt: ofwel de opgave handhaven ondanks de tegenvallende p-waarde en/of rir, ofwel de opgave laten vallen met het gevolg dat de betreffende spellingcategorie minder opgaven bevat dan wenselijk is (en een andere spellingcategorie dus meer opgaven dan nodig is). Figuur 3.2 maakt dit dilemma aanschouwelijk: op afnamemoment E6 bijvoorbeeld bevatten de drie modules samen tien opgaven van categorie 16 en slechts zes opgaven van de categorieën 13, 26 en 29. Graag hadden we enkele opgaven van categorie 16 willen 'omruilen' voor goed functionerende opgaven van de andere categorieën. Die waren echter niet voorhanden. De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer praktische aard (afnameduur, aantal opgaven per module, aantal categorieën per toets).
27
28
4
Het normeringsonderzoek
4.1
Opzet en verloop van het normeringsonderzoek
Met het oog op de ontwikkeling van de toetsen Spelling zijn van 2004 tot en met 2007 voor de jaargroepen 3, 4, 5 en 6 opgaven geconstrueerd voor de afnamemomenten medio groep 3 (M3), eind groep 3 (E3), medio groep 4 (M4), eind groep 4 (E4), medio groep 5 (M5), eind groep 5 (E5), medio groep 6 (M6) en eind groep 6 (E6). Deze opgaven zijn in de jaren 2005 tot en met 2008 in een kalibratieonderzoek voorgelegd aan groepen leerlingen van een groot aantal scholen, om gegevens te verzamelen over de kwaliteit en de moeilijkheid van de opgaven. Op het kalibratieonderzoek volgde een normeringsonderzoek, waarbij de toetsen werden voorgelegd aan leerlingen uit de doelgroep op de normeringsmomenten M (midden leerjaar) of E (einde leerjaar). De normering van M3, M4 en M5 vond plaats in januari 2006 en de normering van E3, E4 en E5 in juni 2006. In januari 2008 werd M6 genormeerd, in juni 2008 E6. Tijdens de normeringsonderzoeken zijn dezelfde leerlingen op tenminste twee tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te verzamelen en om op basis daarvan de ontwikkeling van de spellingvaardigheid in kaart te brengen. Kalibratieonderzoek We merkten al eerder op dat in het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Opgaven werden verdeeld over clusters, en aan elke leerling werden een of meer clusters van items voorgelegd. Clusters die gezamenlijk aan een groep leerlingen worden voorgelegd, worden 'boekjes' (booklets) genoemd; de verschillende boekjes overlappen elkaar. Deze overlap zorgt voor ervoor dat het design verbonden is, een noodzakelijke voorwaarde om CML-schattingen van de itemparameters te kunnen bepalen. Een voorbeeld van zo’n design staat in de verantwoording van de Toetsen Begrijpend lezen (afgekort: TBL; Staphorsius, Krom, Kleintjes en Verhelst, 2001). In het kalibratieonderzoek van begin oktober 2005 zijn 1383 items Spelling voorgelegd aan 3448 leerlingen van groep 4, groep 5 en groep 6, verdeeld over 24 verschillende boekjes met elk ongeveer 80 items, in een onvolledig maar ‘verbonden’ design. Het ging daarbij om items die bedoeld waren voor de afnamemomenten E3 tot en met E5. In 2007 is er een proeftoetsonderzoek uitgevoerd voor de afnamemomenten M6 en E6 met overlap met het kalibratieonderzoek van 2005. Het betrof een onderzoek met 639 leerlingen in groep 6 waarbij 160 items, verdeeld over 5 boekjes in een onvolledig maar ‘verbonden’ design, werden voorgelegd met als doel geschikte items te selecteren voor het normeringsonderzoek in 2008. Kalibratieonderzoek digitale items Om voor de digitale items en dus ook de digitale toetsen de 'papieren' normering te kunnen gebruiken is in een apart kalibratieonderzoek onderzocht of de digitale items ook op de schaal Spelling passen. Een voorbeeld van het gebruikte design voor de kalibratie van de digitale toets M5 staat in tabel 4.1. Voor alle andere toetsen is eenzelfde onderzoeksopzet gebruikt. Merk op dat de data die verzameld worden in het papier-digitaalonderzoek toegevoegd worden aan de dataset die dient voor de schaling van de items in de itembank. Het aantal itemantwoorden per item voor de papieren items is dan ook veel hoger dan in het design van tabel 4.1, omdat voor deze items zowel in het kalibratieonderzoek als later in het normeringsonderzoek gegevens verzameld zijn.
29
Tabel 4.1 Booklet 1 2 3 4 Tabel 4.2
Afnamedesign kalibratieonderzoek papier-digitaal M5 Start M5 Start M5 Vervolg 1 M5 Vervolg 2 M5 Vervolg 1 M5 Vervolg 2 Papier Digitaal Papier Papier Digitaal Digitaal X X X X X X X X
Aantal leerlingen 300 300 150 150
Aantal leerlingen in het kalibratieonderzoek papier-digitaal
Afnamemoment Aantal leerlingen
M3 1318
E3 540
M4 1334
E4 601
M5 467
E5 1228
M6 1048
E6 1228
Normeringsonderzoek Het normeringsonderzoek levert aanvullende gegevens op over de kwaliteit en de moeilijkheid van de opgaven én over de landelijke verdeling van de vaardigheid van de leerlingen op de verschillende afnamemomenten. Tijdens dit onderzoek zijn de leerlingen op zoveel mogelijk tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te kunnen verzamelen en om op basis daarvan de ontwikkeling van de spellingvaardigheid in kaart te brengen. Vanwege de korte ontwikkeltijd was het niet mogelijk dezelfde leerlingen te volgen tijdens hun gehele schoolcarrière. De normeringsgroepen komen uit twee steekproeven. Eén voor de normering van M3, E3, M4, E4, M5 en E5 en één voor M6 en E6. In het bovenste gedeelte van tabel 4.3 staat hoe de leerlingen verdeeld waren op de verschillende tijdstippen en hoeveel leerlingen ook op een later normeringstijdstip deelnamen. In het tweede gedeelte staat het aantal leerlingen per afname. Dit geeft een beter beeld van de aantallen waarop de normering is gebaseerd. Tabel 4.3
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip
M3 E3 M4 E4 M5 E5 M6 E6 Kalibratie oktober 2005 Normering januari 2006 Normering juni 2006 Normering januari 2008 Normering juni 2008
M3 929 570 0 0 0 0
E3
M4
E4
M5
2129 517 292 0 0
782 288 0 0
1552 443 374
771 456
1325 929
971 782
E5
1816 394
M6
E6
632 453
531
1152 771
804
581
664 632 531
De gegevens uit de normeringsonderzoeken zijn samen met die van het kalibratieonderzoek gebruikt om de vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen. Daarvoor is gebruikgemaakt van het softwareprogramma Multi (Kamphuis, 1992; Mislevy, 1984; Rubin, 1987; Mislevy, 1991). Multi veronderstelt dat deze latente vaardigheidsverdeling multivariaat normaal verdeeld is. Gegeven de itemparameters uit OPLM en gegeven de data (de scores behaald door de leerlingen op de gemaakte toetsen), worden in Multi de gemiddelden en covariaties van deze multivariate latente verdeling geschat. Merk op dat het hierboven beschreven design onvolledig is, leerlingen maken op maximaal drie tijdstippen een toets. Met behulp van de geschatte gemiddelden en covarianties kan Multi voor elke leerling op alle
30
tijdstippen 'plausible values' (indien geobserveerd) of 'imputations' (indien niet geobserveerd) genereren. Het resultaat van deze procedure is dat we nu beschikken over een volledige dataset met voor iedere leerling een vaardigheidsscore op alle momenten. We beschikken zo over de verdeling van de vaardigheidscores van 3842 leerlingen op ieder toetsmoment. De representativiteit van deze leerlingen wordt in paragraaf 4.2 onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. Merk tevens op dat als op deze dataset gemiddelden en covarianties berekend worden, de uitkomst zal resulteren in de geschatte gemiddelden en covarianties uit Multi. De gevolgde procedure maakt het mogelijk uit deze dataset alle leerlingen te identificeren die aan het normeringsonderzoek hebben deelgenomen. Deze leerlingen vormen de basis voor de later te presenteren normeringsgegevens: de gemiddelden en standaardafwijking voor de afzonderlijke tijdstippen (zie tabel 4.11). De representativiteit van deze leerlingen wordt in paragraaf 4.2 onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. De normeringsgroepen hebben een vaardigheidsverdeling die normaal verdeeld is en – op steekproeffluctuaties na – gelijk is aan de vaardigheidsverdeling die door Multi is berekend voor de 3842 leerlingen. In de normering is daarom gebruikgemaakt van de schatting uit Multi voor de vaardigheidsverdelingen per toetsmoment. Voor de volledigheid is het aantal leerlingen per normeringsmoment in tabel 4.11 gegeven omdat dat het aantal is waarop de schatting van de verdelingen uiteindelijk gebaseerd is. Merk ten slotte nog op dat uit de veronderstelling van een normale verdeling van de vaardigheid geenszins volgt dat de verdeling van de scores normaal is. De vorm van de scoreverdeling hangt af van de itemparameters. Een toets met gemakkelijke items heeft een andere scoreverdeling dan een toets met moeilijke items. Design normeringsonderzoek Een voorbeeld van het gebruikte design voor de normering van de toets M6 staat in tabel 4.4. Voor alle andere toetsen is eenzelfde onderzoeksopzet gebruikt. Het opnemen van een anker met het vorige normeringsmoment is noodzakelijk om de items op dezelfde schaal te kunnen brengen (zie ook hierboven). In het design staat ook het beoogde aantal leerlingen. Op sommige normeringsmomenten werd dit aantal gehaald, op andere momenten was de respons wat lager. Ook dan was het totaal aantal leerlingen ruim voldoende om een verantwoorde normering op te baseren. Merk op dat het design voor M3 afwijkt, omdat er geen ankering mogelijk is met een eerder tijdstip. Tabel 4.4
Voorbeelddesign normeringsonderzoek M6
Toetsonderdeel M5-V2 anker M6-start nieuw M6-V1 nieuw M6-V2 nieuw
Boekje 1 Boekje 2 Boekje 3 Boekje 4 x x x x x x x x
Aantal leerlingen 200 200 200 200
Nieuwe en oude schaal Spelling Alle 'nieuwe' items spelling bleken op dezelfde schaal te liggen, samen met de 'oude' items uit de eerdere uitgaven van het LVS (Schaal Vorderingen in Spellingvaardigheid 1, 2 en 3). Vervolgens is op basis van de gegevens uit het normeringsonderzoek een nieuwe schaal Spelling geconstrueerd en zijn er toetsen samengesteld, eerst voor de groepen 3, 4 en 5. Vervolgens is de schaal Spelling stapsgewijs uitgebreid naar de hogere groepen.
4.2
Representativiteit
De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het percentage achterstandsleerlingen, de geografische spreiding en de mate van verstedelijking. Voor alle toetsmomenten voerden we normeringsonderzoek uit. In tabel 4.3 hierboven staat per normeringsmoment het aantal leerlingen en ook het aantal leerlingen dat daarvan op een volgend normeringsmoment deelnam. De gevolgde procedure (Multi; zie paragraaf 4.1) maakt het mogelijk uit deze dataset alle leerlingen te selecteren die aan het normeringsonderzoek hebben deelgenomen.
31
De representativiteit van deze leerlingen wordt onderzocht op basis van schoolkenmerken en geldt zodoende voor alle normgroepen. De leerlingen uit het onderzoek zaten op 59 scholen. Van deze scholen wordt in deze paragraaf de representativiteit beschreven. Aangezien niet van alle scholen de vereiste achtergrondgegevens bekend waren, worden resultaten voor 55 scholen gerapporteerd. Representativiteit naar achterstandsleerlingen (sociaaleconomische status) De steekproef voor de normeringen is getrokken uit een steekproefkader dat speciaal voor dit doel is gemaakt. Voor het LOVS namen we de CFI-gegevens van 2006 als basis voor het steekproefkader. Deze gegevens betreffen alle 7100 basisscholen met: – de BRIN code; – het met de BRIN-code overeenstemmende CAS(Cito Adres Systeem)-nummer; – het totaal aantal leerlingen overeenkomend met de BRIN-code, opgesplitst naar leeftijdsgroepen en binnen leeftijd naar formatiegewicht als beschreven in tabel 4.5. De formatiegewichten zijn een indicatie van het aantal achterstandsleerlingen op een school. Ze worden volgens het scoringsvoorschrift van het Ministerie van OCW aan leerlingen toegekend (zie tabel 4.5). Tabel 4.5 Gewicht 1.25 1.40 1.70 1.90 1.00
Gewichtenregeling Omschrijving de leerling is een arbeiderskind in termen van opleidings- en/of beroepsniveau van de ouders de leerling is een schipperskind in internaat of pleeggezin de leerling is een kind van ouders die behoren tot de reizende of rondtrekkende bevolking de leerling heeft tenminste één ouder van niet-Nederlandse herkomst (de toekenning wordt beperkt door het opleidings- en beroepsniveau; hier niet nader gespecificeerd) aan de leerling kan geen van bovenstaande gewichten worden toegekend
In het steekproefkader van 7100 scholen zijn vier categorieën gedefinieerd zoals weergegeven in tabel 4.6. In deze tabel staat ook het aantal scholen naar gemiddeld leerlinggewicht. Hoewel de vertegenwoordiging binnen de steekproef van scholen niet geheel overeenkomt met die in de populatie, is de afwijking niet significant (Chi-kwadraat = 4,183; df = 3; p = 0.242). We vinden dus geen evidentie dat de steekproef niet representatief is met betrekking tot achterstandsleerlingen. Tabel 4.6
Aantal scholen naar gemiddeld schoolgewicht
Gemiddeld schoolgewicht 1.00-1.10 1.11-1.25 1.26-1.40 1.40-1.90
Totaal Aantal 4722 1316 410 669 7117
% 66 18 6 9
Steekproef Aantal % 31 56 16 29 3 5 5 9 55
Representativiteit naar schoolgrootte en percentage achterstandsleerlingen Het hiervoor beschreven bestand van ruim 7100 scholen is als steekproefkader genomen. In dit bestand zijn acht categorieën gedefinieerd op de volgende manier: Voor elke school is bepaald welk percentage leerlingen een formatiegewicht had van 1.25 of 1.90, waarbij leerlingen met een gewicht anders dan 1, 1.25 of 1.90 buiten beschouwing zijn gelaten. De percentageberekening is gebaseerd op alle leerlingen van de school. We zullen dit percentage symbolisch voorstellen met de letter P. Gebaseerd op P zijn vier groepen scholen gevormd. Binnen elke P-groep zijn twee subgroepen gevormd: een kleine school telt minder dan 200 leerlingen; een grote school 200 of meer leerlingen. Voor Cito is het van praktisch belang de schoolgrootte mee te nemen om de vereiste steekproefomvang te kunnen realiseren. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen van de doelgroep in de steekproef zitten. Daarbij bestaat het risico dat
32
de vereiste steekproefgrootte al snel gerealiseerd wordt door deelname van enkele grote scholen. Daardoor zouden kleine scholen mogelijk ondervertegenwoordigd zijn in de steekproef. Een steekproeftrekking met een vast aantal leerlingen per school stuit op praktische bezwaren van scholen en van Cito; de school zou dan aselect leerlingen moeten aanwijzen en voor Cito zouden de kosten voor de steekproef aanzienlijk hoger zijn, omdat er op deze manier meer scholen moeten worden geworven. De verdeling van de scholen over de aldus gevormde acht categorieën is weergegeven in tabel 4.7. Tabel 4.7
Definitie van de strata (gebaseerd op CFI-gegevens van 2006)
Stratum Definitie 1 P>50% 2 3 25% < P ≤ 50% 4 5 10% < P ≤ 25% 6 7 P ≤ 10% 8 Totaal
groot klein groot klein groot klein groot klein
#lln 87294 48340 133111 71471 351875 146867 544766 165788 1549512
% 5.63 3.12 8.59 4.61 22.71 9.48 35.16 10.70 100.00
#scholen 301 354 446 579 1127 1215 1675 1403 7100
#lln/groep 36.25 17.07 37.31 15.43 39.03 15.11 40.65 14.77
Toelichting op tabel 4.7: – de kolom '#lln' geeft het aantal leerlingen dat op een school van het betrokken stratum zit; – de kolom '%' is het percentage leerlingen op scholen van het betrokken stratum; – de kolom '#scholen' is het aantal scholen in elk stratum; – de kolom '#lln/groep' is een schatting van het aantal leerlingen per jaargroep per school, gedefinieerd als #lln gedeeld door (8*#scholen), waarbij verondersteld wordt dat elke jaargroep (ongeveer) evenveel leerlingen telt. De verdeling van de scholen in het normeringsonderzoek staat in tabel 4.8. Een vergelijking van de verdeling van de steekproef met de landelijke verdeling laat zien dat we een lichte oververtegenwoordiging hebben van scholen in stratum 3 en 4. Het verwachte aantal scholen in de verschillende strata op basis van de landelijke verdeling is te laag om toetsing met betrekking tot significantie zinvol te kunnen interpreteren. De tabel laat zien dat in de steekproef een vertegenwoordiging van grote en kleine scholen aanwezig is en dat ook scholen met verschillende proporties achterstandsleerlingen in de steekproef vertegenwoordigd zijn. De oververtegenwoordiging komt overeen met de eerder vastgestelde oververtegenwoordiging in tabel 4.6 Tabel 4.8
Stratum 1 2 3 4 5 6 7 8
Scholen uit de steekproef naar stratum Aantal scholen Totaal % 301 4 354 5 446 6 579 8 1127 16 1215 17 1675 24 1403 20 7100 100
Steekproef 4 2 8 9 6 8 10 8 55
% 7 4 15 16 11 15 18 15 100
33
Representativiteit naar geografische verdeling De verdeling van alle scholen en van de scholen in de normeringssteekproef naar regio staat in tabel 4.9. Regio Noord bestaat uit de provincies Groningen, Friesland en Drenthe, Oost uit de provincies Overijssel, Gelderland en Flevoland, West uit de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg. Hoewel er een lichte oververtegenwoordiging is van scholen uit de regio Oost is dit niet significant (Chi-kwadraat = 1,74; df = 3, p = 0.63). We nemen daarom aan dat de scholen in de normeringssteekproef representatief zijn. Tabel 4.9 Regio Noord Oost West Zuid
Verdeling scholen naar regio Landelijk 1132 1716 2926 1347 7121
% 16 24 41 19 100
Steekproef 12 11 21 11 55
% 22 20 38 20 100
Representativiteit naar verstedelijking De verdeling van alle scholen en van de scholen in de normeringssteekproef naar verstedelijking staat in tabel 4.10. In de steekproef zijn de matig en niet-verstedelijkte gebieden wat oververtegenwoordigd en weinig verstedelijkte gebieden wat ondervertegenwoordigd. De frequentie van het verwachte aantal scholen is te laag om toetsing met betrekking tot significantie zinvol te kunnen interpreteren. De tabel laat zien dat in de steekproef een vertegenwoordiging van verstedelijking aanwezig is. Tabel 4.10
Aantal scholen naar verstedelijking
Mate van verstedelijking 1 zeer sterk 2 sterk 3 matig 4 weinig 5 niet Totaal
Landelijk 834 1555 1388 1903 1439 7119
% 12 22 19 27 20 100
Steekproef 5 8 15 9 18 55
% 9 15 27 16 33 100
Representativiteit naar sekse Voor de normering is het van belang dat alle leerlingen in een jaargroep vertegenwoordigd zijn. Omdat er in Nederland geen aparte jongens- en meisjesscholen zijn, nemen wij aan – gegeven de wijze van steekproeftrekking – dat er een representatieve vertegenwoordiging van jongens en meisjes is. Representativiteit naar leeftijd Voor de normering is het van belang dat alle leerlingen in een jaargroep vertegenwoordigd zijn. Gegeven de wijze van steekproeftrekking nemen wij aan dat alle leeftijden behorende bij een jaargroep vertegenwoordigd zijn. Vergelijkbaarheid van nieuwe en oude normeringen Het gegeven dat de ‘nieuwe’ normering vergelijkbaar is met de bestaande ‘oude’ normering van de SVStoetsen beschouwen we als onderbouwing van de representativiteit van de nieuwe normeringsgroepen. Op deze plaats wijzen we daarom vooruit naar tabel 6.2, waarin voor alle genoemde populaties ‘oude’ gemiddelden staan en naar tabel 4.11 met de gemiddelden uit de ‘nieuwe’ normering.
34
4.3
Kalibratie en normering
4.3.1
Resultaten kalibratie- en normeringsonderzoek
In de inleiding merkten we al op dat in het kalibratieonderzoek dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Ook voor de normering gebruikten we een onvolledig design. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Dit bleek het geval te zijn. Items die niet voldeden aan de passingscriteria die we hierna beschrijven, werden uit de verzameling verwijderd. In het kalibratieonderzoek was voorzien in een koppeling met de opgaven in de itembank Spelling, en dus ook met de reeds bestaande spellingvaardigheidsschaal (zie verantwoording toetsen Schaal Vorderingen in Spellingvaardigheid: Moelands en Kamphuis, 2001). De nieuwe opgaven en dus ook de nieuwe toetsen Spelling liggen op de al bestaande schaal. Daar komen we in het hoofdstuk over validiteit op terug. 4.3.2
Toetsing van het IRT-model
In de kalibratieonderzoeken voor de opgavenbanken Spelling is steeds getoetst of de opgaven pasten bij het model. In deze paragraaf geven we de achtergronden van de toetsing van de opgaven. Figuur 4.1
Grafische voorstelling van een Si -toets
De passing van het model illustreren we met figuur 4.1 (zie Staphorsius, 1994, p. 239). Daarin beelden we voor een opgave de gegevens af waarop de zogenaamde Si -toetsen gebaseerd zijn. Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal acht) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die we op grond van de parameterschattingen kunnen voorspellen. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 4.1 bedraagt dit aantal meer dan 3000. Uit de figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%-betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante Si -toetsingsgrootheid (Verhelst, 1994). Bij de opgaven in onze opgavenbanken hoort een grafische voorstelling van de Si -toetsing die in grote lijnen met figuur 4.1 overeenkomt. Dit is, zeker gezien de relatief grote aantallen observaties die in het
35
geding zijn, een zeer sterke aanduiding dat het meetinstrument en het meetmodel dat we hebben ontwikkeld, respectievelijk gebruikt, adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. Hiermee is het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten dekkend is voor en samenvalt met het construct 'spellen' zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel 'spellen': kan het unidimensionale concept onder de items in de opgavenbank Spelling inderdaad worden opgevat als de vaardigheid 'spellen'? Zie paragraaf 2.4.2, over de validering van opgavenbanken, voor een antwoord op deze vraag. 4.3.3
Normering
In paragraaf 2.4.2 zijn belangrijke implicaties voor een gekalibreerde opgavenverzameling gegeven. Het slagen van kalibratie betekent dat met een selectie van items uit de bank de vaardigheid gemeten kan worden bij een leerling. Hoe nauwkeurig deze meting is, staat in paragraaf 5.2. Er kan nu een schatting gemaakt worden van de verdelingen van de vaardigheid in welomschreven populaties, omdat selecties van items voorgelegd zijn aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. De toegepaste steekproeftrekking is een aselecte trekking van scholen, waarbij per school alle leerlingen in de doelgroep in de steekproef zitten. Het gemiddelde en de standaardafwijking worden geschat zoals beschreven in paragraaf 4.1. Met deze schattingen worden dan ook schattingen gemaakt van de percentielen in de populatie, die van belang zijn voor de indeling van leerlingen in de niveaucategorieën die zijn beschreven in paragraaf 2.3. Tabel 4.11
Overzicht van de vaardigheidsverdelingen per normeringsmoment
Normeringsmoment M3 E3 M4 E4 M5 E5 M6 E6
Aantal leerlingen 929 804 782 581 771 664 632 531
Gemiddelde vaardigheid 106,83 111,92 118,74 120,67 126,18 130,47 135,42 138,17
36
Standaardafwijking 7,03 6,78 5,53 5,85 6,01 6,73 6,96 6,98
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Spelling opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we aan met τ(θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we met een eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. De variantie van de geobserveerde toetsscore duiden we aan met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores gaan berekenen.
Var(t) = E[Var(t | ( ))]
(5.1)
Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan
MAcc =
Var( ) Var( ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Spelling. In de eerste kolom staan voor elk afnamemoment de twee mogelijke combinaties van modules: een leerling maakt ofwel eerst module Start en daarna module Vervolg 1 (S+V1) ofwel eerst module Start en daarna module Vervolg 2 (S+V2). De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vierde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen (of toetsonderdelen) is. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de toetsen Spelling) geeft de COTAN (COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een
37
betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70 en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN Beoordelingssysteem voor de kwaliteit van tests, 2009, p. 33). Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen. Tabel 5.1 Toets M3 S+V1 M3 S+V2 E3 S+V1 E3 S+V2 M4 S+V1 M4 S+V2 E4 S+V1 E4 S+V2 M5 S+V1 M5 S+V2 E5 S+V1 E5 S+V2 M6 S+V1 M6 S+V2 E6 S+V1 E6 S+V2
Beschrijvende gegevens bij de papieren versie van de toetsen LOVS Spelling Maximumscore 50 50 50 50 50 50 50 50 50 50 50 50 60 60 60 60
Gemiddelde 42,90 38,13 39,51 35,89 39,11 33,44 37,25 30,87 36,39 31,15 39,14 33,48 50,19 46,73 49,71 45,87
Standaardmeetfout 2,12 2,55 2,51 2,73 2,49 2,87 2,67 3,03 2,66 2,99 2,55 2,91 2,53 2,82 2,51 2,86
Betrouwbaarheid 0,93 0,94 0,93 0,93 0,90 0,91 0,90 0,90 0,92 0,92 0,92 0,91 0,92 0,92 0,93 0,93
In tabel 5.2 vindt u de gegevens voor de digitale versies van de toetsen Spelling. Tabel 5.2 Toets E3 S+V1 E3 S+V2 M4 S+V1 M4 S+V2 E4 S+V1 E4 S+V2 M5 S+V1 M5 S+V2 E5 S+V1 E5 S+V2 M6 S+V1 M6 S+V2 E6 S+V1 E6 S+V2
5.2
Beschrijvende gegevens bij de digitale versie van de toetsen LOVS Spelling Maximumscore 50 50 50 50 50 50 50 50 50 50 60 60 60 60
Gemiddelde 36,25 33,42 37,38 30,44 33,74 27,98 32,22 28,43 34,64 30,57 47,54 45,29 48,82 43,89
Standaardmeetfout 2,69 2,74 2,75 2,91 2,82 2,98 2,83 3,01 2,72 2,93 2,66 2,87 2,45 2,89
Betrouwbaarheid 0,93 0,93 0,87 0,93 0,91 0,93 0,93 0,92 0,94 0,93 0,94 0,94 0,93 0,94
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid van de toetsen en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen Spelling. De betrouwbaarheidstabellen 5.3 en 5.4 doen dat wel. Zo laat tabel 5.3 bijvoorbeeld zien dat 83,3 procent van de leerlingen die bij de M3-toets in scoregroep E vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep
38
vallen. Anders gezegd: de kans dat een E-leerling terecht als een E-leerling wordt bestempeld is ongeveer 83 procent. Verder laat de tabel zien dat 16,7 procent van de leerlingen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. Bij het berekenen van deze betrouwbaarheidstabellen is rekening gehouden met vertakt toetsen (multistage testing). Dit houdt in dat leerlingen die lager scoren dan de grensscore op de module Start module Vervolg 1 maken en leerlingen die hoger scoren module Vervolg 2 maken. In de betrouwbaarheidstabellen is de populatie dus geëvalueerd met betrekking tot die toets die ze volgens dit voorschrift moeten maken. Zie tabel 5.5 voor alle grensscores op de modules Start. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleidingen van de toetspakketten (Cito, 2006; Cito, 2007; Cito, 2008). In de schaalscoretabellen van bijlage 2 van de handleidingen is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 67-procents-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting. Tabel 5.3
Betrouwbaarheidstabellen bij de papieren versie van de toetsen LOVS Spelling
Toets M3
Toets M3 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 83.3 16.7 0.0 0.0 0.0
D 7.4 71.1 21.5 0.1 0.0
C 0.0 9.2 69.6 20.9 0.3
B 0.0 0.0 13.0 62.1 24.9
Scoregroepen V tot en met I
A 0.0 0.0 0.2 13.6 86.2
Toets E3
Scoregroep waarin ware score valt V IV III II I
III 0.1 15.9 58.6 24.4 1.0
II 0.0 0.6 20.9 58.5 19.9
I 0.0 0.0 1.6 23.0 75.4
E 85.8 14.1 0.0 0.0 0.0
D 8.6 69.4 22.0 0.1 0.0
C 0.0 8.1 69.4 22.1 0.4
B 0.0 0.0 12.8 64.6 22.6
Scoregroepen V tot en met I
A 0.0 0.0 0.3 16.3 83.4
Toets M4
Scoregroep waarin ware score valt V IV III II I
V 86.4 13.5 0.1 0.0 0.0
IV 11.0 68.6 20.0 0.5 0.0
III 0.1 15.9 58.7 24.5 0.9
II 0.0 0.4 17.1 59.6 23.0
I 0.0 0.0 0.9 20.0 79.0
Toets M4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
IV 11.7 67.2 20.4 0.6 0.0
Toets E3 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 88.2 11.7 0.1 0.0 0.0
E 79.2 20.3 0.5 0.0 0.0
D 10.0 62.0 27.7 0.3 0.0
C 0.1 10.2 67.6 21.7 0.4
B 0.0 0.1 17.4 65.3 17.2
Scoregroepen V tot en met I
A 0.0 0.0 0.6 20.1 79.3
39
Scoregroep waarin ware score valt V IV III II I
V 81.9 17.7 0.5 0.0 0.0
IV 11.7 62.8 24.1 1.4 0.0
III 0.2 17.7 55.8 25.4 1.0
II 0.0 0.9 18.9 57.0 23.2
I 0.0 0.0 0.7 17.6 81.7
Toets E4
Toets E4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 76.9 22.1 1.0 0.0 0.0
D 10.3 57.0 32.3 0.4 0.0
C 0.2 10.2 66.7 22.4 0.5
B 0.0 0.1 15.9 63.8 20.3
Scoregroepen V tot en met I
A 0.0 0.0 0.3 16.2 83.4
Toets M5
Scoregroep waarin ware score valt V IV III II I
E 83.3 16.5 0.2 0.0 0.0
D 11.3 65.8 22.9 0.1 0.0
C 0.0 10.4 71.5 17.9 0.1
B 0.0 0.0 16.2 67.4 16.3
A 0.0 0.0 0.2 16.1 83.7
Scoregroep waarin ware score valt V IV III II I
I 0.0 0.0 0.9 21.2 77.9
V 84.9 15.0 0.2 0.0 0.0
IV 10.8 64.8 23.5 0.9 0.0
III 0.1 15.7 59.9 23.8 0.5
II 0.0 0.5 19.6 63.8 16.1
I 0.0 0.0 0.8 21.3 78.0
E 83.0 16.8 0.2 0.0 0.0
D 10.2 64.2 25.4 0.1 0.0
C 0.1 10.1 70.0 19.5 0.3
B 0.0 0.0 16.2 64.3 19.5
Scoregroepen V tot en met I
A 0.0 0.0 0.3 16.9 82.7
Toets M6
Scoregroep waarin ware score valt V IV III II I
V 82.8 16.9 0.2 0.0 0.0
IV 9.6 63.7 25.5 1.3 0.0
III 0.1 16.2 58.9 24.0 0.7
II 0.0 0.8 21.1 58.9 19.2
I 0.0 0.0 1.0 20.5 78.5
Toets M6 Scoregroepen E tot en met A
E 82.9 17.0 0.2 0.0 0.0
D 9.7 66.1 24.0 0.1 0.0
C 0.1 11.3 68.0 20.1 0.5
B 0.0 0.1 17.1 60.4 22.4
Scoregroepen V tot en met I
A 0.0 0.0 0.5 16.9 82.6
Toets E6
Scoregroep waarin ware score valt V IV III II I
V 84.5 15.3 0.3 0.0 0.0
IV 12.0 64.8 22.1 1.1 0.0
III 0.2 18.8 55.2 24.4 1.4
II 0.0 1.0 20.2 53.8 24.9
I 0.0 0.0 1.3 19.1 79.6
Toets E6 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
II 0.0 1.0 19.6 61.3 18.1
Toets E5 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
III 0.5 19.8 53.9 25.1 0.8
Scoregroepen V tot en met I
Toets E5 Scoregroep waarin ware score valt E D C B A
IV 14.0 61.5 23.1 1.4 0.0
Toets M5 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 83.1 16.4 0.5 0.0 0.0
E 83.0 16.9 0.1 0.0 0.0
D 9.3 66.5 24.1 0.1 0.0
C 0.0 10.3 70.7 18.6 0.3
B 0.0 0.1 19.3 63.1 17.5
Scoregroepen V tot en met I
A 0.0 0.0 0.6 20.0 79.4
40
Scoregroep waarin ware score valt V IV III II I
V 84.5 15.3 0.2 0.0 0.0
IV 11.3 66.2 21.6 0.9 0.0
III 0.2 19.8 57.0 22.2 0.8
II 0.0 1.2 23.8 57.5 17.5
I 0.0 0.0 1.7 23.8 74.5
Tabel 5.4
Betrouwbaarheidstabellen bij de digitale versie van de toetsen LOVS Spelling
Toets E3
Toets E3 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 82.7 17.2 0.1 0.0 0.0
D 9.5 68.5 22.0 0.0 0.0
C 0.0 10.7 72.4 16.8 0.1
B 0.0 0.0 14.9 69.6 15.5
Scoregroepen V tot en met I
A 0.0 0.0 0.1 14.3 85.7
Toets M4
Scoregroep waarin ware score valt V IV III II I
E 76.2 22.9 0.9 0.0 0.0
D 11.6 66.4 21.9 0.1 0.0
C 0.0 10.3 75.3 14.4 0.0
B 0.0 0.0 13.3 72.0 14.6
A 0.0 0.0 0.0 13.0 87.0
Scoregroep waarin ware score valt V IV III II I
II 0.0 0.3 17.4 65.6 16.7
I 0.0 0.0 0.3 17.2 82.5
V 85.0 14.8 0.2 0.0 0.0
IV 12.1 70.4 17.3 0.2 0.0
III 0.0 15.5 65.8 18.6 0.1
II 0.0 0.2 16.2 67.4 16.1
I 0.0 0.0 0.2 15.4 84.4
Toets E4 Scoregroepen E tot en met A
E 79.9 19.5 0.7 0.0 0.0
D 12.9 60.8 26.2 0.1 0.0
C 0.1 11.1 73.6 15.2 0.0
B 0.0 0.0 15.5 70.9 13.5
Scoregroepen V tot en met I
A 0.0 0.0 0.1 13.9 86.0
Toets M5
Scoregroep waarin ware score valt V IV III II I
V 83.7 16.0 0.3 0.0 0.0
IV 13.5 66.0 20.1 0.4 0.0
III 0.1 17.4 62.9 19.5 0.1
II 0.0 0.3 17.1 68.6 14.0
I 0.0 0.0 0.1 16.5 83.3
Toets M5 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
III 0.1 16.2 62.9 20.6 0.2
Scoregroepen V tot en met I
Toets E4 Scoregroep waarin ware score valt E D C B A
IV 12.2 67.1 20.3 0.4 0.0
Toets M4 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 86.2 13.6 0.1 0.0 0.0
E 80.5 19.2 0.3 0.0 0.0
D 10.9 66.1 23.0 0.0 0.0
C 0.1 10.7 73.2 16.1 0.1
B 0.0 0.0 15.5 70.1 14.4
Scoregroepen V tot en met I
A 0.0 0.0 0.1 14.0 85.9
41
Scoregroep waarin ware score valt V IV III II I
V 85.3 14.5 0.1 0.0 0.0
IV 12.3 67.7 19.7 0.4 0.0
III 0.1 17.6 63.0 19.2 0.2
II 0.0 0.4 18.9 65.6 15.2
I 0.0 0.0 0.3 16.6 83.2
Toets E5
Toets E5 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
E 84.1 15.8 0.1 0.0 0.0
D 9.9 69.4 20.6 0.0 0.0
C 0.0 8.9 75.8 15.2 0.0
B 0.0 0.0 14.2 70.9 14.9
Scoregroepen V tot en met I
A 0.0 0.0 0.1 14.3 85.6
Toets M6
Scoregroep waarin ware score valt V IV III II I
III 0.0 15.5 65.1 19.2 0.2
II 0.0 0.2 17.2 66.3 16.3
I 0.0 0.0 0.3 16.7 83.1
E 85.9 14.1 0.0 0.0 0.0
D 8.0 71.0 21.0 0.0 0.0
C 0.0 9.3 73.0 17.6 0.2
B 0.0 0.0 14.9 65.8 19.3
Scoregroepen V tot en met I
A 0.0 0.0 0.2 15.3 84.5
Toets E6
Scoregroep waarin ware score valt V IV III II I
V 87.5 12.5 0.1 0.0 0.0
IV 10.2 68.7 20.5 0.5 0.0
III 0.0 15.4 60.6 23.3 0.7
II 0.0 0.4 18.2 59.5 21.9
I 0.0 0.0 0.7 18.0 81.3
Toets E6 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
IV 10.0 71.2 18.6 0.2 0.0
Toets M6 Scoregroepen E tot en met A
Scoregroep waarin ware score valt E D C B A
V 87.0 12.9 0.0 0.0 0.0
E 84.2 15.7 0.1 0.0 0.0
D 8.2 70.0 21.8 0.0 0.0
C 0.0 9.0 73.2 17.7 0.2
B 0.0 0.0 14.7 66.8 18.6
Scoregroepen V tot en met I
A 0.0 0.0 0.2 15.2 84.6
Scoregroep waarin ware score valt V IV III II I
V 86.7 13.3 0.1 0.0 0.0
IV 10.3 68.4 20.8 0.5 0.0
III 0.1 15.1 60.9 23.4 0.5
II 0.0 0.4 17.5 61.9 20.2
I 0.0 0.0 0.5 18.2 81.3
De figuren 5.1 tot en met 5.8 op de pagina’s 43 tot en met 47 geven nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Hierbij is onderscheid gemaakt tussen de twee mogelijke samenstellingen van de toets op elk afnamemoment: ofwel Start plus Vervolg 1 (in de grafieken weergegeven als SV1) ofwel Start plus Vervolg 2 (in de grafieken SV2 genoemd). Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. Ook wordt duidelijk dat de meetnauwkeurigheid voor de toetsen SV1 en SV2 verschillend is gegeven de schaalscore. In nagenoeg alle gevallen meet de SV1-toets nauwkeuriger in de lagere vaardigheidsregionen en de SV2-toets nauwkeuriger in de hogere vaardigheidsregionen. De schaalscore behorend bij het snijpunt van deze curven, daar waar de meetfout voor SV1 en SV2 even groot is, wordt aangeduid als de cut-off score bij het vertakt toetsen. Leerlingen die onder deze score presteren krijgen na de startmodule Vervolg 1, de anderen krijgen Vervolg 2. De cut-off scores zijn afgebeeld op de toetsscores op de modules Start voor de verschillende normeringsmomenten. Vervolgens zijn ze onder de term 'grensscores' vermeld in de afzonderlijke handleidingen in de toetspakketten. In tabel 5.5 staat een overzicht van deze grensscores. De grensscore is telkens het eerstgenoemde getal in de kolommen 'Vervolg 2'.
42
Tabel 5.5
M3 E3 M4 E4 M5 E5 M6 E6
Toewijzing vervolgmodules papieren en digitale toetsen LOVS Spelling
Papier Vervolg 1 Vervolg 2 0-16 17-25 0-14 15-25 0-13 14-25 0-14 15-25 0-15 16-25 0-16 17-25 0-20 21-30 0-16 17-30
Digitaal Vervolg 1 Vervolg 2 0-13 14-25 0-11 12-25 0-14 15-25 0-13 14-25 0-14 15-25 0-17 18-30 0-16 17-30
Figuur 5.1 Grootte van de meetfouten voor de papieren toetsen M3 en E3 en de kansdichtheidfuncties voor de M3- en E3-populatie S p e llin g M 3 - E 3 T o e ts M 3 -S V 1 T o e ts M 3 -S V 2 T o e ts E 3 -S V 1 T o e ts E 3 -S V 2 P o p u la t ie M 3 P o p u la t ie E 3
1 2 .5
p a p ie r p a p ie r p a p ie r p a p ie r
0 .0 6
0 .0 5
0 .0 4 7 .5 0 .0 3 5 .0
0 .0 2
2 .5
0 .0 1
0 .0
0 .0 0 90
100
110 s c h a a ls c o r e
43
120
130
kansdichtheid
standaardmeetfout
1 0 .0
Figuur 5.2 Grootte van de meetfouten voor de papieren toetsen M4 en E4 en de kansdichtheidfuncties voor de M4- en E4-populatie S p e llin g M 4 - E 4 T o e ts M 4 -S V 1 T o e ts M 4 -S V 2 T o e ts E 4 -S V 1 T o e ts E 4 -S V 2 P o p u la t ie M 4 P o p u la t ie E 4
1 2 .5
p a p ie r p a p ie r p a p ie r p a p ie r
0 .0 6
0 .0 4
7 .5
kansdichtheid
standaardmeetfout
1 0 .0
5 .0 0 .0 2 2 .5
0 .0
0 .0 0 100
110
120
130
s c h a a ls c o r e
Figuur 5.3 Grootte van de meetfouten voor de papieren toetsen M5 en E5 en de kansdichtheidfuncties voor de M5- en E5-populatie S p e llin g M 5 - E 5 T o e ts M 5 - S V 1 T o e ts M 5 - S V 2 T o e ts E 5 - S V 1 T o e ts E 5 - S V 2 P o p u la tie M 5 P o p u la tie E 5
0 .0 6
8 0 .0 4 6
4 0 .0 2 2
0
0 .0 0 110
120
130 s c h a a ls c o r e
44
140
kansdichtheid
standaardmeetfout
10
p a p ie r p a p ie r p a p ie r p a p ie r
Figuur 5.4 Grootte van de meetfouten voor de papieren toetsen M6 en E6 en de kansdichtheidfuncties voor de M6- en E6-populatie S p e llin g M 6 - E 6
standaardmeetfout
8
p a p ie r p a p ie r p a p ie r p a p ie r
0 .0 6
0 .0 5
0 .0 4
6
0 .0 3 4
kansdichtheid
T o e ts M 6 -S V 1 T o e ts M 6 -S V 2 T o e ts E 6 -S V 1 T o e ts E 6 -S V 2 P o p u la t ie M 6 P o p u la t ie E 6
0 .0 2 2 0 .0 1
0
0 .0 0 120
130
140
150
s c h a a ls c o r e
Figuur 5.5 Grootte van de meetfouten voor de digitale toets E3 en de kansdichtheidfuncties voor de M3- en E3-populatie S p e llin g M 3 - E 3 T o e t s E 3 - S V 1 d ig i T o e t s E 3 - S V 2 d ig i P o p u la t ie M 3 P o p u la t ie E 3
0 .0 6
1 2 .5 0 .0 5
0 .0 4 7 .5 0 .0 3 5 .0
0 .0 2
2 .5
0 .0 1
0 .0
0 .0 0 90
100
110 s c h a a ls c o r e
45
120
130
kansdichtheid
standaardmeetfout
1 0 .0
Figuur 5.6 Grootte van de meetfouten voor de digitale toetsen M4 en E4 en de kansdichtheidfuncties voor de M4- en E4-populatie S p e llin g M 4 - E 4 T o e ts M 4 -S V 1 T o e ts M 4 -S V 2 T o e ts E 4 -S V 1 T o e ts E 4 -S V 2 P o p u la t ie M 4 P o p u la t ie E 4
1 2 .5
d ig i d ig i d ig i d ig i
0 .0 6
0 .0 4
7 .5
kansdichtheid
standaardmeetfout
1 0 .0
5 .0 0 .0 2 2 .5
0 .0
0 .0 0 100
110
120
130
s c h a a ls c o r e
Figuur 5.7 Grootte van de meetfouten voor de digitale toetsen M5 en E5 en de kansdichtheidfuncties voor de M5- en E5-populatie S p e llin g M 5 - E 5 T o e ts M 5 - S V 1 T o e ts M 5 - S V 2 T o e ts E 5 - S V 1 T o e ts E 5 - S V 2 P o p u la tie M 5 P o p u la tie E 5
0 .0 6
8 0 .0 4 6
4 0 .0 2 2
0
0 .0 0 110
120
130 s c h a a ls c o r e
46
140
kansdichtheid
standaardmeetfout
10
d ig i d ig i d ig i d ig i
Figuur 5.8 Grootte van de meetfouten voor de digitale toetsen M6 en E6 en de kansdichtheidfuncties voor de M6- en E6-populatie S p e llin g M 6 - E 6 d ig i d ig i d ig i d ig i
0 .0 6
0 .0 5
0 .0 4
6
0 .0 3 4 0 .0 2 2 0 .0 1
0
0 .0 0 120
130
140 s c h a a ls c o r e
47
150
kansdichtheid
standaardmeetfout
8
T o e ts M 6 - S V 1 T o e ts M 6 - S V 2 T o e ts E 6 - S V 1 T o e ts E 6 - S V 2 P o p u la tie M 6 P o p u la tie E 6
48
6
Validiteit
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De inhoudsvaliditeit van de toetsen Spelling wordt gegarandeerd door de wijze waarop de opgaven ontwikkeld zijn. In paragraaf 3.2 ('Inhoudsverantwoording') is al aangegeven dat aan de ontwikkeling van de opgaven een uitgebreide methodenanalyse is voorafgegaan. Deze methodenanalyse maakte duidelijk in welke groepen de verschillende spellingscategorieën aan de orde komen. De toetsen Spelling zijn zodanig samengesteld dat alle voor de verschillende afnamemomenten relevante spellingscategorieën erin vertegenwoordigd zijn.
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toetsen Spelling beschreven. 6.2.1
Passing van het meetmodel
Een eerste belangrijke aanwijzing voor de begripsvaliditeit van de toetsen is dat de opgaven die uiteindelijk in de toetsen zijn opgenomen en die betrekking hadden op de boven beschreven spellingcategorieën, voldeden aan de aannamen van het OPLM-model. Dat is een goede waarborg voor de constructvaliditeit van de toets, omdat er evidentie is voor de aanname dat een en dezelfde vaardigheid ten grondslag ligt aan de responsen op de opgaven in de toets. De opgaven Spelling vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Items die niet voldeden aan de passingscriteria die we beschreven in 4.3.2, werden uit de verzameling verwijderd. Het betrof items waarop waarschijnlijk wordt gegokt, items die niet juist geformuleerd zijn, items die een slecht onderscheidend vermogen bleken te hebben, of items die bij nader inzien toch niet alleen spellingvaardigheid bleken te meten. De vraag of Spelling – als het unidimensionale concept onder de opgaven in de opgavenbank Spelling – kan worden opgevat als de vaardigheid 'spellen', kunnen we met ja beantwoorden. De geslaagde kalibratie maakt duidelijk dat het aannemelijk is dat er sprake is van unidimensionaliteit en dat deze gekalibreerde opgavenbank de latente trek meet die we de vaardigheid spellen noemen. 6.2.2
Equivalentie met eerdere toetsen
Met het oog op de validering van de opgavenbank Spelling zijn ten behoeve van de verantwoording van de toetsen Schaal Vorderingen in Spellingvaardigheid (SVS 1, 2 en 3) al eerder studies uitgevoerd en gerapporteerd (Moelands & Kamphuis, 2001). Hier wordt in aanvulling daarop een analyse gegeven van onderzoeksgegevens die in het jaar 2006 verzameld zijn in het kader van een kwaliteitscontrole van de Entreetoets groep 6. In de Entreetoets groep 6 (zie ook de handleiding bij deze toets, Cito 2006) bestaat het onderdeel Spelling (Spel) – evenals voor de toetsen LOVS Spelling – uit opgaven uit de opgavenbank Spelling. De andere onderdelen van de Entreetoets zijn: 'Begrijpend lezen' (Blez), 'Schrijfvaardigheid' (Schr), Rekenen 'Getallen en bewerkingen' (ReGB), Rekenen 'Meten Tijd en Geld' (ReMT), Studievaardigheden 'Hanteren van Naslagwerken' (StvN), Studievaardigheden 'Kaartlezen' (StvK) en Studievaardigheden 'Lezen van Schema’s Tabellen en Grafieken' (StvG). In tabel 6.1 rapporteren we de correlatiecoëfficiënten tussen deze onderdelen van de Entreetoets. Voor Taal, bestaande uit Blez, Schr, PV
49
(Herkennen Persoonsvorm), Spel en Wsch (Woordenschat), voor Rekenen en voor Studievaardigheden zijn ook de totaalscores opgenomen: respectievelijk TaalT, ReT en StvT.
Tabel 6.1
Spel Blez Schr PV Wsch TaalT ReGB ReMT ReT StvN StvK StvG StvT
Correlaties tussen Spelling en andere variabelen gemeten met de Entreetoets groep 6 (2006) Spel 1.00 0.57 0.59 0.40 0.50 0.78 0.51 0.49 0.53 0.54 0.45 0.48 0.55
Blez
Schr
PV
Wsch
TaalT
ReGB
ReMT
ReT
StvN
StvK
StvG
StvT
1.00 0.84 0.52 0.75 0.90 0.60 0.64 0.66 0.74 0.67 0.71 0.79
1.00 0.54 0.76 0.92 0.64 0.66 0.69 0.77 0.67 0.73 0.81
1.00 0.46 0.55 0.46 0.46 0.48 0.48 0.45 0.47 0.52
1.00 0.86 0.54 0.63 0.62 0.71 0.62 0.66 0.74
1.00 0.66 0.70 0.72 0.80 0.69 0.74 0.83
1.00 0.84 0.96 0.63 0.64 0.71 0.74
1.00 0.95 0.68 0.68 0.74 0.78
1.00 0.69 0.70 0.77 0.80
1.00 0.67 0.73 0.89
1.00 0.71 0.88
1.00 0.91
1.00
Uit de tabel blijkt dat de correlatie tussen Spelling en Schrijfvaardigheid het grootst is (let op: 'Spel' is in TaalT begrepen, vandaar de hoge coëfficiënt; tussen 'TaalT minus Spel' en 'Spel' is de correlatie 0.60). De correlaties zijn over de hele linie overigens middelmatig hoog. Dat is volgens verwachting: de spellingvaardigheid heeft een eigen structuur, die tot op grote hoogte bepaald wordt door kennis en toepassing van regels en conventies. Verreweg de meeste criteriumtaken zijn meer semantisch van aard. Uit Staphorsius (in voorbereiding) blijkt dat de items in een kernwoordendictee na een analyse met OPLM op dezelfde schaal liggen als de opgaven in de taak Spelling van de Eindtoets Basisonderwijs. Ook dat beschouwen we als een aanwijzing voor de validiteit van de toetsen Spelling: de opgaven in een taak met meerkeuzeopgaven doen een beroep op kennis en vaardigheden waarop ook bij het maken van een dictee een beroep gedaan wordt. Uit de geslaagde kalibratie van de opgaventypen in de toetsen LOVS Spelling was dat ook al gebleken. 6.2.3
Longitudinale vaardigheidstoename
Vergelijkbaarheid van de oude en nieuwe normering Het normeringsonderzoek dat referentiegegevens opleverde voor de toetsen Schaal Vorderingen in Spellingvaardigheid 1, 2 en 3 (Cito, 1992, 1994, 1996) is verantwoord in Moelands & Kamphuis (2001). In de genoemde publicatie zijn de steekproeven gecontroleerd op representativiteit. In tabel 6.2 staan voor alle daar vermelde populaties de schatting van het gemiddelde, de standaarddeviatie en het aantal leerlingen in de normeringssteekproef.
Tabel 6.2 Aantal leerlingen, gemiddelde vaardigheid en standaardafwijking per normgroep bij de toetsen SVS 1 (groep 3 en 4) en SVS 2 (groep 5 en 6) Normeringsmoment M3 E3 M4 E4 M5 E5 M6 E6
Aantal leerlingen 1663 1599 1618 1555 964 964 970 976
Gemiddelde vaardigheid 104,87 111,18 117,45 120,75 126,76 130,32 135,47 138,30
50
Standaardafwijking 10,12 7,26 6,97 6,73 6,72 6,96 7,41 7,42
Als we rekening houden met wat we hierboven gezegd hebben over de representativiteit en het aantal leerlingen waarop de normering is gebaseerd, kunnen we vaststellen dat de 'oude' gemiddeldes ongeveer gelijk zijn aan de gemiddeldes die we bepaalden in de recente normeringssteekproeven (zie tabel 4.11 in paragraaf 4.3). Wel merken we op dat de standaarddeviaties ten opzichte van de oude normering enigszins gekrompen zijn. De items van de nieuwe toetsen zijn gekalibreerd op de oude, bestaande schaal Spelling, en de toetsen op de verschillende meetmomenten leiden tot vergelijkbare normeringen. Deze gelijkheid van de normeringsgegevens is een onderbouwing van de validiteit van de nieuwe toetsen. Tevens blijkt de gemiddelde vaardigheid van de leerlingen van afname tot afname toe te nemen. Dat impliceert dat de methodeanalyse die ten grondslag lag aan de samenstelling van de toetsen een correct beeld heeft gegeven van de wijze waarop het spellingonderwijs in de regel vormgegeven is. Responsiviteit De toetsen in het LOVS moeten in staat zijn om veranderingen te meten. Door het kalibratieonderzoek liggen de opgaven Spelling op één onderliggende schaal. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt. De gemiddelden per afnamemoment verschillen immers. Uit de onderstaande (latente) correlatietabel blijkt dat de correlaties hoog genoeg zijn om te kunnen beweren dat bijna alle leerlingen een zekere groei doormaken, maar niet zo hoog dat we kunnen beweren dat dit voor alle leerlingen het geval is. Het bovenstaande onderbouwt dat de toetsen Spelling in staat zijn veranderingen (responsiviteit) te meten. Tabel 6.3
Latente correlaties tussen leerlingen op de verschillende normeringsmomenten
Normeringsmoment M3 E3 M4 E4 M5 E5 M6 E6
M3
E3
M4
E4
M5
E5
M6
.73 .67 .61 .55 .55 .55 .49
.75 .66 .65 .67 .63 .62
.88 .83 .82 .81 .79
.90 .86 .83 .81
.91 .91 .91
.92 .92
.96
51
52
7
Samenvatting
In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken. Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen uitvoerig zijn beschreven, werd in hoofdstuk 4 over het normeringsonderzoek gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de papieren afnames en de gecombineerde papierdigitale afnames zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles achteraf (wat betreft spreiding over regio's) wijzen uit dat de steekproeven representatief genoemd kunnen worden voor de populatie van scholen in Nederland. De vergelijkbaarheid van de ‘nieuwe’ normering met de bestaande ‘oude’ normering van de SVS-toetsen is ook aangevoerd als onderbouwing van de representativiteit van de nieuwe normeringsgroepen. Het normeringsonderzoek leverde de resultaten op zoals vermeld in tabel 4.11: Overzicht van de vaardigheidsverdelingen per normeringsmoment. In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten (MAcc’s) zijn hoog, zowel voor de papieren als de digitale versie van de toetsen Spelling: ze variëren van 0,87 tot 0,94. In de figuren 5.1 tot en met 5.8 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. Over validiteit werd in hoofdstuk 6 gerapporteerd. De toetsen Spelling van het LOVS sluiten nauw aan bij het doel en de inhoud van het onderwijs in spellingvaardigheid in de basisschool (zie de paragrafen 2.4.1 en 3.2). In de toetsen komen alle spellingcategorieën aan bod die behandeld worden in de verschillende taalmethoden voor het basisonderwijs. Een belangrijke indicatie voor de validiteit van de opgaven Spelling van het LOVS komt uit het kalibratieonderzoek (hoofdstuk 4). Uit dat onderzoek bleek dat de verzameling opgaven waaruit de toetsen Spelling zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. In paragraaf 6.2.3 is aangegeven dat de correlaties tussen de latente vaardigheden op twee opeenvolgende toetsen hoog zijn. Dat betekent dat de scores van een leerling op een bepaalde toets goed voorspeld kunnen worden met behulp van de score op de voorafgaande toets en dat de verwachting is dat de vaardigheidsscore ook toeneemt van meetmoment tot meetmoment. Een andere aanwijzing voor begripsvaliditeit is af te leiden uit de correlaties tussen het onderdeel Spelling in de Entreetoets groep 6 (waarvan de opgaven ook deel uitmaken van de LOVS-opgavenbank Spelling) en de andere onderdelen van de Entreetoets (Cito, 2000).
53
54
8
Literatuur
Bon, W.H.J. van (1993). Spellingproblemen: Theorie en praktijk. Rotterdam: Lemniscaat. Cito (2000). Entreetoets groep 6. Arnhem: Cito. COTAN Beoordelingssysteem voor de kwaliteit van tests (2009), Amsterdam, NIP/Cotan.
Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Glas, C.A.W. & N.D. Verhelst (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., H. Swaminathan & H.J. Rogers. (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Huizenga, H. (1997). Spelling & didactiek (2e herziene druk). Groningen: Wolters-Noordhoff. Kamphuis, F. (1992). Multi. Arnhem: Cito. Kamphuis, F. (1993). Estimation and prediction of individual ability in longitudinal studies. In: J.H.L. Oud & R.A.W. van den Blokland-Vogelesang (Eds.), Advances in long and multivariate analysis in the behavioral sciences. Nijmegen: ITS. Kamphuis, F.H., & R.J.H. Engelen (1992). Estimation and testing of structured latent ability covariance matrices in IRT models. Arnhem, The Netherlands: Cito.
Lord, F.M. & M.R. Novick (1968). Statistical theories of mental test scores. Reading, MA: AddisonWesley. Marsh, G., M. Friedman, V. Welch & P. Desberg (1980). The development of strategies in spelling. In: U. Frith (red.). Cognitive processes in spelling. Londen: Academic Press. Mislevy, R.J. (1984). Estimating latent distributions, Psychometrika, 49(3), 359-381. Mislevy, R.J. (1991). Randomization-based inferences about latent variables from complex samples. Psychometrika, 56(2), 177-196.
Moelands, F. & F. Kamphuis (2001). Verantwoording van de toetsen uit de pakketten Schaal Vorderingen in Spellingvaardigheid (SVS) 1, 2 en 3. Arnhem: Citogroep. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Rubin, D. (1987). Multiple imputation for non-response in surveys. New York: Wiley.
Schryver, J. de & A. Neijt (2002). Handboek Spelling (4e herziene druk). Mechelen: Wolters Plantyn. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente.
Staphorsius, G., R.S.H. Krom, F.G.M. Kleintjes & N.D. Verhelst (2000, 2004). Verantwoording van de Toetsen Begrijpend Lezen (TBL). Arnhem: Citogroep.
55
Verhelst, N.D. (1989). Informatiewinst bij vertakt toetsen. In: W.J. van der Linden & L.J.Th. van der Kamp (red.). Meetmethoden en data-analyse (pp. 89-96). Lisse: Swets en Zeitlinger.
Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D., & C.A.W. Glas. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., C.A.W. Glas & H.H.F.M. Verstralen (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D. & F.G.M. Kleintjes (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., H.H.F.M. Verstralen & T.H.J.M. Eggen (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. Arnhem, The Netherlands: Cito.
Wijs, A. de, R. Krom & S. van Berkel (2006). LOVS Spelling groep 3. Arnhem: Cito. Wijs, A. de, R. Krom & S. van Berkel (2006). LOVS Spelling groep 4. Arnhem: Cito. Wijs, A. de, R. Krom & S. van Berkel (2007). LOVS Spelling groep 5. Arnhem: Cito. Wijs, A. de & R. Krom (2008). LOVS Spelling groep 6. Arnhem: Cito.
56
Bijlage
57
58
Bijlage 1: Overzicht resultaten methodeonderzoek spellingcategorieën Taalmethoden: VLL = Veilig leren lezen, TJ = Taaljournaal, TA = Taal actief, TLL = Taalleesland, TV = Taalverhaal, TT = Taaltijd, ZT = Zin in Taal Cat in SVS
Omschrijving in SVS
Voorbeelden
1 2 3 4 5 6 7 xx 8 9 10 11 12 13 14 15 16 17 18 19 20 21 5+ 6+ 7+ 10+ 12+ 13+ 15+ 16+ 17+
mkm-woorden mmkm-woorden en mkmm-woorden éénlettergrepige woorden met een tussenklank die niet geschreven wordt mmkmm-woorden éénlettergrepige woorden met sch- of schrverkleinwoorden met uitgang -je of -tje éénlettergrepige woorden met -ng of -nk één- of tweelettergrepige woorden met f-, v-, s- of zéénlettergrepige woorden met meer dan twee medeklinkers na elkaar tweelettergrepige woorden met be-, ge-, ver- of met -el, -er, -en éénlettergrepige woorden met ei of ij één- of tweelettergrepige woorden met -aai, -ooi of -oei samengestelde woorden met twee of meer opeenvolgende medeklinkers éénlettergrepige woorden met klankcombinatie -eer, -oor of -eur één- of tweelettergrepige woorden met -a, -o of -u éénlettergrepige woorden met -au-, -auw, -ou- of -ouw éénlettergrepige woorden met -ch of -cht éénlettergrepige woorden met -d éénlettergrepige woorden met -eeuw, -ieuw of -uw tweelettergrepige woorden met open eerste lettergreep tweelettergrepige woorden met gesloten eerste lettergreep verandering van -f in -v- en -s in -z- bij meervoudsvorming één- of meerlettergrepige woorden met -sch- of -schrverkleinwoorden met uitgang -je, -tje, -pje of -etje één- of meerlettergrepige woorden met ng of nk één- of meerlettergrepige woorden met ei of ij samengestelde woorden met twee of meer opeenvolgende medeklinkers één- of meerlettergrepige woorden met eer, oor of eur één- of meerlettergrepige woorden met au, auw, ou of ouw één- of meerlettergrepige woorden met ch of cht één- of meerlettergrepige woorden met -d
mat, boom drop, fiets park, melk klomp schaal, schrift huisje, stoeltje ring, flink feest, vis, snoep, ziek strik begin, vlieger trein, rijst kooi, saai, foei balpen, kurkdroog peer, koor, beurt vla, nu, auto, hoera gauw, kou, vrouw pech, gracht hond, strand sneeuw, kieuw, ruw straten bruggen brieven, poezen schaatsen, schrift vriendje, rolletje lengte, anker paleis, vijver fietstocht, valstrik geweer, voordeur kabouter, klauwen regenachtig, opdracht breed, hoofdstuk
59
Taalmethoden VLL TJ 3m 3e 3e 3e 3e 3e 3e
3e 3e
4m 4m 4m 4m 4m 5m 4m 4me,6m 4me 4e,5m 4me 4e,5me 4e,5m 4e 5m 4e 4e 5m 4e 5me,6m 5me,6m 5e 4e 5e 5me,6m 5m,6m 5m 5me 5m,6e 5e,6m 5me
TA 4m 4m 4m 4m 4e 4m 4m,5m 4m 4me,5m,6m 4me,5m 4m 5e 4m,5m 4e,5e 4me,5m 4m 4e 4m 4e,5e,6e 4e,5e,6e 5e 5m 5e,6m 5m,6m 5m,6m 5e 5m 5m,6m 5m,6m 5e,6m
TLL 4m 4m 4me 4m 4me 4me,5m 4m 4m,5m,6m 4me 4e,5m,6m 4me 4e 4me 4e 5e 4e,5m 4e,5m 4e,5me 5m,6me 5m,6m 5me,6me 4m,5me 5me,6me 5me,6me 5me,6m
TV
TT
ZT
3m 3m,4m 3e,4m 3e,4m 3e,4m 4e 3e,4m 6m 3e,4m 4e,5m,6m 3e,4m 4m 4e,5m 3e,4m 4m 4m 4m 4e 4m 4e,5me,6m 4e,5me,6m 4e,5me 4m 4e,5me,6m 4e,5e 5e,6m 5e,6me 4e,5m,6m 5e,6m 5e 5m,6m
3e 3e,4m 4m 4m 4m 4e 4m
4m 4m,5m 4m 5m 4m 4e 4me,5m
4m 4e,5m,6m 4m 4m,5e 4e,5m 3e,4m,5e 4e 4m 4m 4m,5m 4m,5e 4e,5m,6m 5m,6m 4e
4m 4me,5m 4m,5m 4e,5m 4m 4m 4me,5m 4me 4e,5m 4e,5m 4e,5m 4e,5m 4e,5m 5e
4e,5e
5me,6m 5e,6m 5e,6m 5m 6m 5e 5m 5me,6m
5e,6me 5e 5e 6me 5e,6me 5m
Cat in SVS
Omschrijving in SVS
Voorbeelden
18+ 19+ 20+ 21+ 22 23 24 25 26 27 28 29 30 10++ 15++ 16++ 23+ 24+ 25+ 26+ 27a+ 27b+ 28+ 31 32 33 34 35 36 37 38 39 40
één- of meerlettergrepige woorden met eeuw, ieuw of uw meerlettergrepige woorden met open lettergreep meerlettergrepige woorden met gesloten lettergreep verandering van -f in -v- en -s in -z- bij meervoudsvorming meerlettergrepige woorden met -em, -elen, -enen of -eren meerlettergrepige woorden met -lijk of -ig één- of meerlettergrepige woorden waarin /ie/ geschreven wordt als i één- of meerlettergrepige woorden waarin /s/ geschreven wordt als c meerlettergrepige woorden waarin /zju/ geschreven wordt als ge één- of meerlettergrepige woorden beginnend met 's of eindigend op 's meerlettergrepige woorden met -tie één- of meerlettergrepige woorden met -b meerlettergrepige woorden met -lijk of -heid woorden met ei of ij woorden met au, auw, ou of ouw woorden met ch of cht meerlettergrepige woorden met -lijk(-) woorden waarin /ie/ geschreven wordt als i woorden waarin /s/ geschreven wordt als c woorden waarin /zju/ geschreven wordt als ge woorden beginnend met 's woorden eindigend op 's woorden met -tie woorden met een trema hoofdletters woorden waarin /sj/ geschreven wordt als ch woorden waarin /t/ geschreven wordt als th woorden met -isch(e) woorden met -iaal, -ieel, -ueel of -eaal woorden waarin /ks/ geschreven wordt als x verkleinwoorden met -aatje, -ootje, -uutje en met de uitgang -nkje meerlettergrepige woorden met open en/of gesloten lettergreep restwoorden
schreeuw, zwaluw soldaten, banaan trommel, oppasser motieven, tehuizen kamelen, kinderen heerlijk, stevig titel, olifant cel, precies garage diploma's, 's middags reparatie krab, voetbalclub gedeeltelijk, eenheid opleiding, tijdelijk regenwoud, applaus goochelaar plaatselijke, dagelijks dirigent narcis etalage 's winters agenda's traditie drieëntwintig, ideeën Beethoven, Rijn chocola, champagne apotheek, thema historisch, technisch speciaal, ritueel examen parapluutje, kettinkje bemanning, terras hobby, vondst
60
Taalmethoden VLL TJ 5me 6e 6e 5e,6m 6m 5e,6m 6m 6m 6e 6me 6e 5e 6e,8e 7m,8m 7m,8m
TA
TLL
5e,6e 5e,6e 6e 5e 5me,6m 5e,6m 6m
5e,6m 5me,6me 5e,6me 6me 6m 4e,5me,6me 6me 6me
6e 6m 7m 6m,7m,8m 7m,8m
7m 7me,8m 7me,8e 8m
7m,8m 7m 7m,8m 7m,8m 7e
7e,8e 7m,8m 6m,7e,8m 7e,8m 7m,8e 7m,8e 8e 8m 7e 7m,8m
7e 7m,8e 7e,8e 6e,7e,8e 8m 7m,8m 7e,8e 7e,8e 8m 6m 7e,8e
6e 7e,8e 7e 7me,8me 7m,8m 7me,8m 7me,8me 7me,8me 7m,8e 8e 8me 7me,8m 7me,8e 7me,8me 7m,8me 7e,8me 7me,8e 7e,8me 8me 7me,8m
TV 5e,6e 5e,6e 6m 5e,6m 5e,6m 5e,6m 6e 6e 6m 6e 6m,7m 6m,7m,8m 7m,8m 7m 7m,8m 7m 7m,8m 7m,8m 7m,8m 7m,8m 7m,8m 7m,8m 7m,8m 5m,6m,7m 6e,8m 6e,7m,8m 6e,7m,8m 6e 7m,8m 5e
TT
ZT
5e 5e,6e 5e,6e 5m 6e,7me 5me,6m 5me,6me 6me 6e 5me,6me 6me 7m 6me 7me,8me 7me,8me 7m,8m
5e,6m 5e,6m 5e,6m 5e 5e,6m 5e,6me 5m,6e 6e 6e 5e,6e 6e 7e,8m 6e,7m,8e 7m,8m 8m 7m,8me 7m 8me 8m 7m,8m 8e 7m,8me 8e 7m,8me 8me 6m,7e 6m,7m,8m 7m,8e 7m 7m,8me 6e,7m,8me
7e 7m,8e 8e 7m,8e 7e 7e,8me 5m,6m 6e,7m,8me 7m,8m 7m,8e 6me,8e 7m,8m 5e,6m,7m 7e,8e