Cito | Volgsysteem primair onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toetsen Taal voor kleuters voor groep 1 en 2 uit het Cito Volgsysteem primair onderwijs Nienke Lansink en Bas Hemker
Wetenschappelijke Verantwoording van de toetsen Taal voor kleuters voor groep 1 en 2 uit het Cito Volgsysteem primair onderwijs
Nienke Lansink Bas Hemker
Cito, Arnhem, juni 2010 (bijgesteld 2012)
1
© Cito B.V. Arnhem (2012) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
5
2 2.1 2.2 2.3 2.4 2.4.1 2.4.1.1 2.4.1.2 2.4.1.3 2.4.1.4 2.4.2 2.4.2.1 2.4.2.2
Uitgangspunten van de toetsconstructie 7 Meetpretentie 7 Doelgroep 8 Gebruiksdoel en functie 9 Theoretische inkadering 12 Inhoudelijk 12 Taalontwikkeling 13 Kerndoelen, tussendoelen en leerlijnen 15 Het taalonderwijs/taalaanbod in de groepen 1 en 2 Inhoud toetsen LOVS Taal voor kleuters 17 Psychometrisch 18 Opgavenbanken primair onderwijs 18 Het gehanteerde meetmodel 20
3 3.1 3.2 3.2.1 3.2.2 3.2.3
Beschrijving van de toets 27 Opbouw, structuur, afname van de toetsen en rapportage 27 Inhoudsverantwoording 29 Het ontwikkelproces van de toetsen LOVS Taal voor kleuters 30 De inhoud van de toetsen LOVS Taal voor kleuters 31 Selectie van opgaven voor de toetsen LOVS Taal voor kleuters 34
4 4.1 4.2 4.3
Het normeringsonderzoek 37 Het ontwikkelen van een itembank 38 Representativiteit: het schatten van de vaardigheidsverdeling van de normpopulaties Het normeren van de uiteindelijke toetsen 47
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 51 Nauwkeurigheid 52
6 6.1 6.2 6.2.1 6.2.2 6.2.3
Validiteit 57 Inhoudsvaliditeit 57 Begripsvaliditeit 57 Passing van het meetmodel 57 Equivalentie met eerdere toetsen en interne structuur Longitudinale vaardigheidstoename 61
7
Samenvatting
8
Literatuur
51
65
67
Bijlage 1: Profielanalyse met IRT, Norman Verhelst
71
3
17
58
41
4
1
Inleiding
Het toetspakket Taal voor kleuters van het Cito Volgsysteem primair onderwijs (voorheen LOVS) bestaat uit: – Handleiding (bij de papieren toetsen) – Toetsmateriaal van de papieren toetsen (opgavenboekjes groep 1 en 2; voorleesbladen groep 1 en 2) – Registratieformulieren – Inhoudsverantwoording – Handleiding digitaal (bij de digitale toetsen) Deze wetenschappelijke verantwoording heeft alleen betrekking op de papieren toetsen Taal voor kleuters voor groep 1 en 2. Bij het toetspakket kan het Computerprogramma LOVS gebruikt worden om toetsresultaten te verwerken en op basis hiervan verschillende rapporten en overzichten te maken. Daarnaast kan het Observatie-, hulp- en cursorisch programma Taalplezier ingezet worden om gericht hulp te geven aan een kind om de taalontwikkeling te stimuleren (zie Van Kuyk, 1999). Tezamen met de inhoud van het toetspakket LOVS Taal voor kleuters (Lansink, 2009) levert deze wetenschappelijke verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de betreffende meetinstrumenten. Het genoemde materiaal maakt een beoordeling van de toetsen LOVS Taal voor kleuters mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie – De kwaliteit van het toetsmateriaal – De kwaliteit van de handleiding – Normen – Betrouwbaarheid – Validiteit Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het LOVS niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toetsen Taal voor kleuters voor de jaargroepen 1 en 2. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van de toetspakketten. Het toetspakket LOVS Taal voor kleuters (Lansink, 2009) bevat zowel papieren als digitale toetsen. Met beide soorten toetsen (de papieren en de digitale) kan de vaardigheid van een leerling worden geschat. Welke van de twee gebruikt wordt, maakt voor de schatting van de vaardigheid niet uit. Onderhavige wetenschappelijke verantwoording betreft alleen de papieren toetsen. De eerste versie hiervan (Lansink & Hemker, 2010) is in 2010 aan de COTAN voorgelegd. Het verschil tussen deze eerste versie en onderhavige tweede versie van de wetenschappelijke verantwoording van de papieren toetsen is dat de tweede versie is aangevuld met informatie over het steekproefplan en de procedure die in het onderzoek op de scholen is gehanteerd (zie kopje ‘steekproefplan’ in paragraaf 4.2). Tevens is een toelichting op de wegingsprocedure die we hebben toegepast, opgenomen (zie kopje ‘toegepaste wegingsprocedure’ in paragraaf 4.2). Ook zijn gegevens over de scores van de subgroepen van de variabelen ‘regio’ en ‘verstedelijking’ – waarop gewogen is – vermeld (zie tabel 4.14). Daarnaast zijn op enkele plaatsen tekstuele wijzigingen aangebracht die de leesbaarheid verhogen en de inhoud en samenhang tussen onderdelen van de verantwoording verder verduidelijken.
5
De digitale toetsen (inclusief handleiding) zijn sinds begin 2011 voor de scholen beschikbaar. In 2011 is de wetenschappelijke verantwoording van deze digitale toetsen (Lansink, Hemker & Verschoor, 2011) opgesteld en samen met het toetspakket LOVS Taal voor kleuters (inclusief digitale toetsen) aan de COTAN voorgelegd en door de COTAN beoordeeld1.
1
1 Uitgangspunten bij de testconstructie: Goed. 2. Kwaliteit van het testmateriaal: Goed. 3. Kwaliteit van de handleiding: Goed. 4. Normen: Goed. 5. Betrouwbaarheid: Goed. 6. Begripsvaliditeit: Voldoende. 7. Criteriumvaliditeit: n.v.t..
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
De toetsen Taal voor kleuters zijn onderdeel van het Cito Volgsysteem primair onderwijs (voorheen LOVS) en brengen de algemene taalvaardigheid van jonge kinderen in beeld. De taalontwikkeling en het leren lezen zijn twee hoofddoelstellingen van het basisonderwijs. De ontwikkeling van taal en de ontwikkeling tot geletterdheid verlopen parallel. Hoe beter de taal ontwikkeld is, hoe gemakkelijker het leren lezen kan verlopen. En hoe beter de ontwikkeling tot geletterdheid is verlopen, hoe gemakkelijker het kind de techniek van het leren lezen zal beheersen. Aan beide aspecten moet in het onderwijs veel aandacht besteed worden. Daarom is het belangrijk de taalontwikkeling en de beginnende geletterdheid van ieder individueel kind te volgen. In het onderwijs is taal niet alleen een vak op zich, maar speelt taal ook een cruciale rol bij het verwerven van kennis en vaardigheden in alle andere vakken die gegeven worden. Kennisoverdracht vindt immers plaats via taal. Een goede taalontwikkeling is dus een randvoorwaarde voor de ontwikkeling op andere gebieden. Ontwikkelt de taal zich niet goed, dan stagneert de ontwikkeling op andere gebieden mogelijk ook. Het taalonderwijs in de groepen 1 en 2 van het basisonderwijs richt zich op het verwerven van belangrijke vaardigheden op de terreinen van de taalontwikkeling en de ontwikkeling tot geletterdheid. Deze vaardigheden hebben betrekking op (Van Kuyk, 1999): – ontwikkeling van de woordenschat, receptief en productief; – leren luisteren; – leren spreken; – beginnende geletterdheid; – oriëntatie op geschreven taal; – taalbewustzijn en auditieve vaardigheden als analyse en synthese. (Zie verder paragraaf 2.4.1.) In de toetsen LOVS Taal voor kleuters komen deze vaardigheden aan de orde met uitzondering van: – ontwikkeling van de woordenschat, productief; – leren spreken. Deze vaardigheden zijn productief van aard. Met de toetsvorm die we voor de toetsen LOVS Taal voor kleuters hebben gekozen, kunnen productieve vaardigheden niet geëvalueerd worden. Leerkrachten kunnen dit soort vaardigheden wel evalueren door middel van authentieke observaties. De toetsresultaten kunnen dan aangevuld worden met deze observatiegegevens om een compleet beeld van de leerling te krijgen. In de toetsen Taal voor kleuters maken we binnen het hoofdconstruct ‘algemene taalvaardigheid’ onderscheid tussen conceptueel bewustzijn en taalbewustzijn. Onder conceptueel bewustzijn verstaan we het herkennen van begrippen en het begrijpen van korte gesproken teksten. Taalbewustzijn is de vaardigheid om af te zien van de betekenis van een woord en in plaats daarvan te letten op de vorm of klank ervan. In de toetsen voor groep 1 zijn alleen opgaven opgenomen die over conceptueel bewustzijn gaan. In de toets voor groep 2 zijn daarnaast ook opgaven opgenomen over taalbewustzijn. Concreet betekent dat dat in de toetsen Taal voor kleuters de volgende aspecten van conceptueel bewustzijn zijn opgenomen: – Passieve woordenschat (en als onderdeel hiervan in groep 1 ook Definitievaardigheid) – Kritisch luisteren Beide vallen onder de mondelinge taalvaardigheid ‘luisteren’ (zie ook paragraaf 2.4.1.1).
7
Daarnaast zijn er in de toets Taal voor kleuters voor groep 2 de volgende aspecten van taalbewustzijn opgenomen: – Klank en rijm – Eerste en laatste woord horen – Auditieve synthese – Schriftoriëntatie Deze aspecten vallen alle vier onder de ontwikkeling tot geletterdheid (schriftelijke taalvaardigheid, zie ook paragraaf 2.4.1.1). Wat we onder de zes hierboven genoemde categorieën precies verstaan, wordt nader toegelicht in paragraaf 3.2.2. Daarvoor gaan we in paragraaf 2.4.1 eerst nog nader in op de theoretische achtergrond van de taalontwikkeling. Relatie met andere instrumenten Naast Taal voor kleuters is voor de groepen 2 en 3 een Screeningsinstrument Beginnende geletterdheid beschikbaar. Dit instrument is in het kader van het Masterplan Dyslexie ontwikkeld door het Expertisecentrum Nederlands en Cito. We raden leerkrachten aan om in groep 2 zowel de toets Taal voor Kleuters als het Screeningsinstrument Beginnende geletterdheid af te nemen. De twee toetsen meten namelijk verschillende aspecten van de taalvaardigheid van kleuters. Taal voor kleuters brengt de algemene taalvaardigheid van jonge kinderen in beeld. Het Screeningsinstrument Beginnende geletterdheid wordt afgenomen om leesproblemen vroeg te kunnen signaleren en richt zich daarom op het meten van de twee belangrijkste voorspellers van (technisch) lezen: fonologisch bewustzijn en letterkennis (Vloedgraven, 2008). Door afname van beide toetsen krijgt de leerkracht een compleet beeld van de leerling (zie ook paragraaf 2.4.1). Voor 3-jarige peuters is ook een instrument beschikbaar om de algemene taalvaardigheid te meten. De items uit dit instrument, Taal voor peuters, liggen op dezelfde schaal als de items uit Taal voor kleuters. Er is dus sprake van één vaardigheidsschaal die loopt van peuters (3-jarigen) tot en met groep 2.
2.2
Doelgroep
De toetsen in LOVS Taal voor kleuters zijn bestemd voor en genormeerd bij leerlingen in groep 1 en 2 in het Nederlandse basisonderwijs. Voor beide groepen is er een toets beschikbaar. De populatieparameters van de toetsen zijn zowel op ‘midden leerjaar’ als op ‘einde leerjaar’ bepaald. De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere leerlingen in Nederland. Leerkrachten kunnen per afnamemoment kiezen uit een papieren en een digitale variant. Over de digitale variant kunt u meer lezen in de wetenschappelijke verantwoording van de digitale toetsen Taal voor kleuters (Lansink, Hemker & Verschoor, 2011). In het onderhavige document gaan we in op de papieren toetsen. Beperkingen De toetsen Taal voor kleuters kunnen in principe afgenomen worden bij alle leerlingen in groep 1 en 2. Hierbij gelden de volgende uitzonderingen. Het is verstandig nog een afnamemoment te wachten wanneer de leerlingen: nog geen drie maanden op de basisschool zitten of ten tijde van de eerste afname nog twee jaar in de kleutergroep blijven. Daarnaast heeft het geen zin om de toetsen voor te leggen aan leerlingen die nog maar pas in Nederland verblijven. Een leerling dient minstens voor een langere periode onderwijs in Nederland gevolgd te hebben, alvorens u hem of haar een taaltoets laat maken.
8
Andere doelgroepen De toetsen LOVS Taal voor kleuters zijn niet alleen bedoeld voor het reguliere basisonderwijs, maar ook voor leerlingen op speciale scholen voor basisonderwijs (bijvoorbeeld IOBK) en voor speciale leerlingen in het reguliere onderwijs. Voor deze leerlingen zijn geen aparte normen opgesteld. Ze worden vergeleken met een normgroep van reguliere leerlingen. De aanwijzingen in de handleiding bij de toetsen gelden dus wat de principes betreft ook voor gebruik bij speciale leerlingen. Er zijn echter enkele onderdelen waarvoor extra aanwijzingen gelden: de keuze van de af te nemen toets en het gebruik van de alternatieve leerlingrapporten. Voor meer informatie daarover verwijzen we naar de handleiding bij de toetsen LOVS Taal voor kleuters.
2.3
Gebruiksdoel en functie
LOVS Taal voor kleuters heeft twee doelen: niveaubepaling en progressiebepaling. Daarnaast biedt het computerprogramma LOVS naast de standaardrapportages ook een meer geavanceerdere rapportage: categorieënanalyse. Deze rapportagevorm signaleert opvallende patronen. Hierbij gaat het om het achterhalen van tekorten en het geven van aanwijzingen voor verder diagnostisch onderzoek om te kunnen bepalen of er daadwerkelijk sprake is van een achterstand en wat die achterstand dan precies is (zie ook bijlage 1). Deze ‘signalering’ staat geheel los van de niveau- en progressiebepaling en is in de kalibratie- en normeringsonderzoeken niet wetenschappelijk getoetst. Naast de onderwerpen ‘niveaubepaling’, ‘progressiebepaling’ en ‘signalering via categorieënanalyse’, gaan we aan het eind van deze paragraaf nog in op de onderwerpen ‘vervolgtraject’ en ‘leerlingenzorg’. Niveaubepaling De toetsafnamen in het kader van LOVS Taal voor kleuters geven de leerkracht informatie over het niveau van de taalvaardigheid van de leerlingen, individueel of als groep. Iedere behaalde vaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 4.2 voor de beschrijving van de referentiegroep). In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leerkracht de scores van een leerling kan vergelijken met die van een grote groep leerlingen. De leerkracht kan een keuze maken uit: – de indeling in de niveaus A tot en met E; – de indeling in de niveaus I tot en met V. Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Bij de indeling in A tot en met E wordt op de overzichten de hoogste groep (niveau A) nog onderverdeeld in twee groepen: een groep die ‘hoog’ scoort (15% van de leerlingen) en een groep die het ‘allerhoogst’ scoort (10% van de leerlingen). Deze groepen worden van elkaar gescheiden door een stippellijn.
9
Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
Bij de indeling in I tot en met V worden op de overzichten de laagste groep en de hoogste groep nog onderverdeeld in twee groepen die ieder 10% leerlingen bevatten. Deze groepen worden van elkaar gescheiden door een stippellijn. In de eerste generatie van de LVS-toetsen werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leerkrachten C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. Daarom is bij de tweede generatie van het LOVS een indeling toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als voordeel dat er een gemiddelde2 groep is. Deze indeling sluit aan bij de niveau-indeling van andere Cito-toetsinstrumenten zoals de Entreetoetsen. Progressiebepaling De toetsen in LOVS Taal voor kleuters geven de leerkracht informatie over de ontwikkeling van de taalvaardigheid van de leerlingen, individueel of als groep, gedurende de groepen 1 en 2. Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – het aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal (het ‘algemeen niveau van taalvaardigheid’). Deze unidimensionele vaardigheidsschaal die aan de toetsen LOVS Taal voor kleuters ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995). 'Signalering' via categorieënanalyse Met behulp van de toetsen kunnen we het algemene niveau van taalvaardigheid van leerlingen vaststellen. Daarnaast is het mogelijk om met behulp van het Computerprogramma LOVS een categorieënanalyse uit te voeren. Daarmee kan nagegaan worden of leerlingen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. Bij de rapportage van het verschil (tussen waargenomen score en verwachte score) wordt aangegeven of dat een klein verschil is dat aan toeval kan worden toegeschreven of dat het een betekenisvol verschil is. In dat laatste geval kan de leerkracht gericht kijken hoe hij zijn aanbod nog beter kan laten aansluiten op de vaardigheid van de leerling. Individuele leerlingen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen wellicht baat hebben bij extra instructie en gerichte oefeningen (zie ook paragraaf 3.1). De hier beschreven categorieënanalyse is in feite een statische procedure waarmee we kijken of we een bepaald patroon kunnen vinden in de resultaten van de leerling. Het gaat daarbij om de vraag hoe waarschijnlijk dat patroon is. Gegeven de totaalscore van de leerling halen we onwaarschijnlijk patronen
2
Gemiddeld moet hier niet opgevat worden in statische zin. De werkelijke gemiddelde ruwe score kan in werkelijkheid behaald worden door leerlingen die niet in groep III zitten.
10
eruit. Een onwaarschijnlijk patroon zou bij de toets voor groep 2 bijvoorbeeld kunnen zijn dat de leerling op 5 van de 6 categorieën een hoge score haalt en op 1 categorie een lage score (of andersom). De ‘waarde’ van deze statische procedure hebben we, zoals eerder al gezegd, niet onderzocht. Met andere woorden er heeft geen validering plaatsgevonden met de praktijk (leerkrachten die gebruik maken van de categorieënanalyse). Vervolgtraject Naar aanleiding van de resultaten van de categorieënanalyse kan de leerkracht besluiten om verder diagnostisch onderzoek te doen. Omdat het aantal opgaven per categorie in (met name het onderdeel Taalbewustzijn) van de toetsen Taal voor kleuters (met name de toets voor groep 2) beperkt is, kan niet worden uitgesloten dat de leerling bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer zekerheid te verkrijgen over de beheersing van de categorie door deze leerling, kan de leerkracht gebruikmaken van de observatielijsten en/of toetsen uit het Observatieprogramma Taalplezier of de Taaltoets Alle Kinderen (TAK). Als de leerling op deze observatielijsten en/of toetsen ook zwak scoort, lijkt zijn of haar beheersing van de nader onderzochte categorie(ën) inderdaad te wensen over te laten. De leerkracht kan deze leerling vervolgens aanvullende instructie en/of oefenmateriaal aanbieden, bijvoorbeeld aan de hand van het Hulp- en/of Cursorisch programma Taalplezier. Naast het programma Taalplezier kan de leerkracht ook het Screeningsinstrument Beginnende geletterdheid inzetten. Dit instrument bevat toetsen voor het meten van fonologisch bewustzijn en letterkennis in de groepen 2 en 3. Dit zijn de vaardigheden die het best in staat zijn latere leesvaardigheden te voorspellen (Vloedgraven, 2008). Op basis van de toetsresultaten uit het Screeningsinstrument wordt duidelijk welke leerlingen al vroegtijdig extra aandacht nodig hebben. Zie paragraaf 3.1 voor meer informatie over dit instrument. Leerlingenzorg De toetsen Taal voor kleuters maken deel uit van een systeem van leerlingenzorg. Dat systeem bestaat uit onderwijs- en leerlingmaterialen die ingezet kunnen worden bij het cyclische proces van onderwijs op maat: signaleren, analyseren, handelen en terugkoppeling door middel van evaluatie. In paragraaf 4.3 van de handleiding bij de toetsen (Lansink, 2009) is een korte beschrijving opgenomen van de verschillende fasen. Ook vindt men daar beknopte informatie over de uitgaven van Taalplezier: Observatieprogramma, Hulpprogramma en Cursorisch programma. Het Observatieprogramma is bedoeld om de vaardigheid van de leerlingen nader te diagnosticeren. Het Hulpprogramma sluit aan op het Observatieprogramma en op de toetsonderdelen van de toets Taal voor kleuters. Het Hulpprogramma maakt het mogelijk hiaten in de vaardigheden die in de toetsen aan de orde komen bij de betreffende leerlingen weg te werken. Naast het Hulpprogramma kan ook het Cursorisch programma daarvoor gebruikt worden. Voor gedetailleerde informatie wordt verwezen naar deze uitgaven (Van Kuyk, 1999). Omdat in deze verantwoording alleen de toetsen Taal voor kleuters verantwoord worden, volstaan we hier met een overzicht van de materialen voor leerlingzorg.
11
Figuur 2.1
Cito-materialen ten behoeve van de leerlingzorg 1 – – –
Signaleren Toetsen Taal voor kleuters voor groep 1 en 2 Leerlingrapporten en groepsrapport Inhoudsverantwoording
2 –
Analyseren Categorieënanalyse m.b.v. het Computerprogramma LOVS Resultaten op diagnostische observatielijsten en/of toetsen (Observatieprogramma Taalplezier) Resultaten op LOVS toetsen van andere leergebieden voor groep 1 en 2 (M1, E1, M2 en E2)
– –
3 –
Handelen Hulp- en Cursorisch programma Taalplezier voor groep 1 en 2
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
De basis voor de inhoud van de toetsen Taal voor kleuters van het Leerling- en onderwijsvolgsysteem (LOVS) wordt gevormd door: – theorieën over de taalontwikkeling (luisteren en spreken) en de ontwikkeling tot geletterdheid (lezen en schrijven) bij kleuters; – de kerndoelen van het Ministerie van OC&W; – de tussendoelen en leerlijnen van het Expertisecentrum Nederlands (EN) en de Stichting leerplanontwikkeling (SLO); – het taalonderwijs/taalaanbod in de groepen 1 en 2 van het basisonderwijs. Daarnaast is de selectie van de te toetsen ‘begrippen’ (in het onderdeel passieve woordenschat) mede gebaseerd op woordenlijsten als de Streeflijst woordenschat voor zesjarigen van Schaerlaekens, Kohnstamm en Lejaegere (1999). In deze paragraaf gaan we eerst in op de taalontwikkeling van jonge kinderen (zie paragraaf 2.4.1.1). Daarbij maken we onderscheid tussen de ontwikkeling van de mondelinge taalvaardigheid en de ontwikkeling tot geletterdheid (schriftelijke taalvaardigheid). Het is een taak van het onderwijs om de taalontwikkeling van kinderen te stimuleren. Daarom gaan we vervolgens in paragraaf 2.4.1.2 nader in op de (kern- en) tussendoelen. De kerndoelen geven immers op hoofdlijnen weer wat de inhoud van het onderwijs in bijvoorbeeld de Nederlandse taal moet zijn en dus wat scholen na zouden moeten streven. De tussendoelen en leerlijnen, opgesteld door het EN, beschrijven hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) deze doelen bereikt kunnen worden (Greven & Letschert, 2006). We geven aan welke tussendoelen met de toetsen Taal voor kleuters kunnen worden geëvalueerd. Daarbij besteden we ook aandacht aan de relatie tussen de toetsen Taal voor kleuters en het Screeningsinstrument Beginnende geletterdheid. In paragraaf 2.4.1.3 stippen we kort aan hoe het taalonderwijs in de groepen 1 en 2 van de basisschool eruit ziet. Tot slot geven we in paragraaf 2.4.1.4 op
12
conceptueel niveau aan wat de inhoud van de toetsen taal voor kleuters is. In paragraaf 3.2.2 wordt uitgewerkt hoe dit er op operationeel niveau uitziet. 2.4.1.1 Taalontwikkeling De basis voor de taalontwikkeling van een kind wordt gelegd in de opvoeding die kinderen thuis van hun ouders of verzorgers krijgen. Voordat kinderen naar school gaan, verwerven ze de basisprincipes van de taal die in hun directe omgeving wordt gesproken. Op de basisschool ontwikkelt de taalvaardigheid van kinderen zich in de loop van de jaren steeds verder (Verhoeven, Biemond & Litjens, 2007). Het leren van de moedertaal vindt voor een groot deel plaats via spontane ontwikkelingsprocessen, maar daarnaast is het voor een goede taalverwerving van groot belang deze ontwikkelingsprocessen expliciet te stimuleren. De verwerving van taal begint vanaf de geboorte bij het leren begrijpen van gesproken taal (luisteren). Op een gegeven moment komt daar het zelf produceren van taal bij (spreken). Later, als het kind naar school gaat, ontwikkelen deze mondelinge taalvaardigheden zich steeds verder en komen ook de schriftelijke taalvaardigheden erbij. Het onderwijs in lezen en schrijven start in principe in groep 3, hoewel in de groepen 1 en 2 tegenwoordig ook steeds meer aandacht wordt besteed aan voorbereidende activiteiten op dat terrein. Steeds meer kinderen kunnen op kleuterleeftijd al lezen (en soms misschien zelfs al wel een beetje schrijven). Verhoeven en Aarnoutse (1999) definiëren taalontwikkeling als volgt: ‘Taalontwikkeling is de groei of toename in communicatieve competentie op het gebied van luisteren, spreken, lezen en schrijven en de reflectie op deze vaardigheden in de zin van taalbewustzijn of taalbeschouwing.’ En taalvaardigheid kan gedefinieerd worden als het vermogen tot luisteren, spreken, lezen en schrijven (Sijtstra, Aarnoutse en Verhoeven, 1999). Uit bovenstaande definities blijkt dat taalvaardigheid opgesplitst kan worden in een aantal deelvaardigheden. Figuur 2.2 laat dit zien. De ontwikkelingen op deze verschillende deelvaardigheden staan niet los van elkaar. Ontwikkelingen op bijvoorbeeld de deelvaardigheid ‘spreken’ brengen ook ontwikkelingen op de andere drie deelvaardigheden teweeg (Verhoeven en Aarnoutse, 1999). Tevens vormt de mondelinge taalvaardigheid de basis voor de ontwikkeling van de schriftelijke taalvaardigheid.
Figuur 2.2
Taalvaardigheden Receptieve taalvaardigheid
Productieve taalvaardigheid
Mondeling taalvaardigheid
Luisteren
Spreken
Schriftelijke taalvaardigheid
Lezen
Schrijven
Bij luisteren en spreken ligt het accent op betekenisuitwisseling. Om te kunnen begrijpen wat de ander zegt (luisteren), moet het kind betekenis kunnen toekennen aan wat die ander zegt. Met andere woorden, het kind moet beschikken over een goede woordenschat (een woord geeft een betekenis weer). Goed kunnen luisteren dient ook nog een ander doel. Door te luisteren naar anderen leert het kind zijn taal beter kennen. Zo kan het onder meer zijn woordenschat verder uitbreiden. Daarnaast heeft het kind een goede woordenschat nodig om zelf aan een ander duidelijk te kunnen maken wat het bedoelt (spreken). Ook bij lezen en schrijven gaat het uiteindelijk om betekenisuitwisseling. In het begin let het kind daar echter nog niet op. Het is dan vooral bezig met het maken van allerlei krabbels en tekens en nog niet bezig met het schrijven van letters en woorden. Het kind wil graag laten zien dat het kan schrijven. Voor volwassenen hebben de krabbels ook geen betekenis. Om uiteindelijk een boodschap over te kunnen brengen door iets op te schrijven, moet het kind (om te beginnen) leren dat er een relatie is tussen een
13
letter en een klank. Dit is uiteraard ook van belang bij het begrijpen van een geschreven tekst (lezen). Het kind moet niet meer alleen letten op de betekenis van woorden en zinnen, maar ook op de vorm van de woorden en de klanken. Hoe de ontwikkeling van de mondelinge en schriftelijke taalvaardigheid in grote lijnen verloopt, beschrijven we in het nu volgende. Ontwikkeling van de mondelinge taalvaardigheid De taalkunde onderscheidt vier aspecten aan de mondelinge taalvaardigheid, namelijk: 1 de fonologie; 2 de semantiek; 3 de syntaxis 4 de morfologie. Een kind ontwikkelt zich bij het leren van de moedertaal op elk van deze vier aspecten. Bij de fonologische ontwikkeling gaat het om de klanken die het kind leert te maken. De semantische ontwikkeling betreft het leren van de betekenis van woorden. Door de syntactische ontwikkeling leert het kind de regels van de zinsbouw. Daaraan gekoppeld is de morfologische ontwikkeling, waarbij het kind zich de voor de omgevingstaal typische verbuigingen en vervoegingen van woorden eigen maakt (Kohnstamm, 2002). Belangrijk om zich daarbij te realiseren is dat ieder kind uniek is. Kinderen verschillen in het tempo waarin ze zich ontwikkelen en ook in de kwaliteit van de ontwikkeling op de verschillende aspecten. Het verwerven van de moedertaal verloopt in een min of meer vaste volgorde, waarbij vaak de volgende fase-indeling wordt gehanteerd (zie bijvoorbeeld Gillis en Schaerlaekens, 2000). 1 De voortalige fase (0 – 12 maanden), de periode voor het verschijnen van de eerste woorden, waarin de fonologische ontwikkeling centraal staat. 2 De vroegtalige fase (1 – 2,5 jaar) waarin tussen de 12 en 18 maanden met de eerste begrijpbare woorden de woordenschatontwikkeling start. Daarnaast wordt tussen 1,5 en 2,5 jaar, met korte zinnen een begin gemaakt met de verwerving van de grammatica van de moedertaal (zinsbouw / syntaxis). 3 De differentiatie fase (2,5 – 5 jaar), waarin het kind langere zinnen gaat produceren en zijn kennis over de grammatica verder ontwikkelt (woordvorming / morfologie). 4 De voltooiingsfase (5 jaar en ouder) is de fase waarin het kind het systeem van zijn moedertaal goed genoeg beheerst om zich goed uit te kunnen drukken, over te brengen wat hij bedoelt en te begrijpen wat anderen tegen hem zeggen. Vanaf nu gaat het kind het geleerde uit de vorige fasen verder ontwikkelen en laat het langzaamaan volwassen taalgebruik horen. Hoewel de ontwikkeling van de ene fase als randvoorwaardelijk gezien kan worden voor de start van de ontwikkeling in de volgende fase, is het niet zo dat bijvoorbeeld de fonologische ontwikkeling stopt of afgerond is op het moment dat de woordenschatontwikkeling start. De fonologische ontwikkeling loopt door en ontwikkelt zich deels parallel aan de woordenschatontwikkeling. Dit bekent bijvoorbeeld dat een kind dat in de differentiatiefase is aangeland, zich nog sterk verder zal ontwikkelen op alle aspecten van de mondelinge taalvaardigheid. Dit geldt voor de meeste vierjarige kinderen, op het moment dat ze hun intrede doen in het basisonderwijs. Ontwikkeling tot geletterdheid (schriftelijke taalvaardigheid) In de ontwikkeling tot geletterdheid kunnen drie fasen worden onderscheiden (Verhoeven en Aarnoutse, 1999): 1 De fase van de ontluikende geletterdheid. Deze fase betreft de voorschoolse periode als het kind in de leeftijd van nul tot vier jaar is. Het verwerft in deze periode de basisprincipes van de taal: luisteren, spreken en communiceren. Deze mondelinge taalvaardigheden vormen de basis voor de latere ontwikkeling van de schriftelijke taalvaardigheden. In de fase van de ontluikende geletterdheid komt het kind ook in meerdere of mindere mate in aanraking met geschreven taal. Bijvoorbeeld als het een prentenboek bekijkt, voorgelezen wordt, letters of woorden in boeken, tijdschriften en kranten ziet staan of op borden en logo’s. Sommige kinderen worden hierdoor geïnspireerd om zelf ook schriftelijk te
14
2
3
communiceren met anderen. Zij doen dat op hun geheel eigen manier, bijvoorbeeld met tekeningen of eigen bedachte logo’s. De fase van de beginnende geletterdheid. Deze fase betreft de periode van groep 1 tot en met 3. Het kind gaat zich verder oriënteren op de geschreven taal. Daarbij leert het bijvoorbeeld de verschillende functies die taal heeft te herkennen. Tevens ontwikkelt het inzicht in het verband tussen gesproken en geschreven taal. Het kind gaat het principe van het alfabetisch schrift ontdekken en maakt zich vervolgens de elementaire leeshandeling eigen. Het leert niet alleen betekenis te verlenen aan een verzameling tekens (lezen), maar ook om zijn eigen gedachten op papier te zetten en zo zelf betekenis weer te geven in tekens (schrijven). Het kind kan nu naast mondeling ook schriftelijk communiceren met anderen. De fase van de gevorderde geletterdheid. Dit is de fase vanaf groep 4. Het kind leert steeds sneller woorden te herkennen, het leesproces wordt geautomatiseerd. Door deze ontwikkeling kan het kind zijn aandacht steeds meer gaan richten op de betekenis van een tekst. Het gaat ontdekken dat een tekst een samenhangend geheel is en hoe een tekst is opgebouwd. Daarbij kan het steeds beter onderscheid maken tussen verschillende soorten teksten. Ook leert het kind hoe je informatie uit teksten kunt halen. Het leert leesstrategieën toe te passen om eventuele problemen bij het begrijpen van teksten op te lossen. Zo ontstaat grip en controle op het eigen leesgedrag. Naast goed begrijpend lezen, leert het kind goed schriftelijk te communiceren met anderen door informatie en eigen ervaringen op te schrijven.
We hebben tot nu toe vooral gesproken over taalontwikkeling en ontwikkelingsprocessen. Deze ontwikkelingsprocessen resulteren in een aantal mijlpalen die als tussen- en einddoelen, respectievelijk leerlijnen te ordenen zijn. Deze weerspiegelen tegelijkertijd een toenemende algemene taalvaardigheid (die door de toetsen Taal voor kleuters meetbaar wordt gemaakt). Bij de ontwikkeling van de opgaven voor de toetsen Taal voor kleuters hebben we ons dan ook gebaseerd op de tussendoelen en leerlijnen die door het Expertisecentrum Nederlands (EN) zijn opgesteld. Daarnaast kunnen leerkrachten óók veel hebben aan de beschrijving van deze tussendoelen en leerlijnen om de ontwikkeling van de mondelinge en schriftelijke taalvaardigheid van kleuters zo goed mogelijk te stimuleren. 2.4.1.2 Kerndoelen, tussendoelen en leerlijnen De kerndoelen (2006) voor het onderwijs in de Nederlandse taal zijn uitgesplitst in kerndoelen voor mondeling taalonderwijs, schriftelijk taalonderwijs en taalbeschouwing. De kerndoelen geven, zoals gezegd, op hoofdlijnen weer wat de inhoud van het onderwijs in bijvoorbeeld de Nederlandse taal moet zijn en dus wat scholen na zouden moeten streven. Ze beschrijven echter niet hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) deze doelen bereikt kunnen worden (Greven & Letschert, 2006). Handreikingen hiervoor zijn opgenomen in de beschrijvingen van de tussendoelen en leerlijnen van het Expertisecentrum Nederlands (EN) én de Stichting Leerplanontwikkeling (SLO). De tussendoelen en leerlijnen geven aan welke kennis, strategieën en houdingen kinderen zich eigen moeten maken. In de omschrijving van de tussendoelen wordt rekening gehouden met de verschillen die tussen kinderen bestaan. Kinderen kunnen namelijk verschillen in de mate waarin ze een tussendoel beheersen (het niveau) én in het tijdsbestek dat zij nodig hebben om een tussendoel te bereiken (het tempo). De tussendoelen zijn dan ook niet afhankelijk van het formele jaarklassensysteem. Het EN plaatst de tussendoelen wel in bijvoorbeeld de onderbouw of een specifieke jaargroep. Dit moet worden opgevat als een aanwijzing van de periode waarin de doelen het best kunnen worden nagestreefd (Verhoeven, et.al., 2007). Om te kunnen bepalen of, en in hoeverre, een kind de tussendoelen heeft bereikt, is het van belang om het onderwijsleerproces regelmatig te evalueren. Dagelijkse observaties en de resultaten op gestandaardiseerde toetsen zoals de toets Taal voor kleuters, laten zien wat een kind zich tot nu toe eigen heeft gemaakt en geven samen een goed beeld van de ontwikkeling van het kind. Dit geeft de leerkracht handreikingen voor het vervolg, met andere woorden een antwoord op de vraag: Hoe kan ik mijn onderwijs zo goed mogelijk laten aansluiten op het ontwikkelingsniveau van het kind? Wat kan ik het kind nu, in deze fase, het best aanbieden?
15
Dekking van de kern- en tussendoelen Voor wat betreft de ontwikkeling van de mondelinge taalvaardigheid en de ontwikkeling tot geletterdheid (schriftelijke taalvaardigheid) van kleuters dekken de toetsen Taal voor kleuters de kern- en tussendoelen. Daarbij moet opgemerkt worden dat niet alle tussendoelen met een toets als Taal voor kleuters getoetst kunnen worden. De toetsvorm die we voor de toetsen Taal voor kleuters hebben gekozen, brengt met zich mee dat alleen receptieve vaardigheden met deze toetsen geëvalueerd kunnen worden. Productieve vaardigheden (zoals productieve woordenschat en spreken) kunnen bijvoorbeeld wel door middel van observaties geëvalueerd worden. Daarnaast betreft een deel van de tussendoelen vaardigheden waarvan we in principe verwachten dat leerlingen die pas in groep 3 gaan beheersen. Tussendoelen die deze vaardigheden beschrijven, zijn niet van toepassing voor groep 1 en/of 2 en worden niet door de toetsen Taal voor kleuters gedekt. Ook worden sommige doelen meer impliciet dan expliciet getoetst. Hiermee bedoelen we dat de leerling het betreffende tussendoel moet beheersen om bepaalde opgaven uit de toetsen te kunnen maken, maar dat de betreffende tussendoelen niet in één-op-één relatie heel expliciet worden getoetst door de opgaven in de toets. De woordenschatontwikkeling en de ontwikkeling van de mondelinge taalvaardigheid (luisteren en spreken) vallen onder de tussendoelen mondelinge communicatie. De ontwikkeling van de schriftelijke taalvaardigheid (lezen en schrijven) valt onder de tussendoelen beginnende geletterdheid. We noemen hier alleen de tussendoelen die met de toetsen Taal voor kleuters geëvalueerd kunnen worden. Voor een totaaloverzicht van de tussendoelen verwijzen we naar bijlage 1 van de Inhoudsverantwoording uit het toetspakket Taal voor kleuters. Tussendoelen mondelinge communicatie De mondelinge taalvaardigheid en de woordenschatontwikkeling van kleuters kan met de toets Taal voor kleuters worden gemeten. Met de toets wordt een deel van de tussendoelen mondelinge communicatie expliciet dan wel impliciet getoetst3. Het betreft de tussendoelen genoemd onder de kopjes: – 4 Woordenschat, – 5 Begrijpend luisteren, – 6 Vertellen en presenteren – 8 Reflectie op taal Een paar voorbeelden ter verduidelijking: tussendoel 4.1 ‘Kinderen beschikken over een basiswoordenschat.’ wordt bijvoorbeeld expliciet getoetst binnen het onderdeel Passieve woordenschat en tussendoel 5.5 ‘Ze kunnen voorspellingen doen en deze al luisterend bijstellen.’ impliciet binnen het onderdeel Kritisch luisteren. Tussendoelen beginnende geletterdheid De ontwikkeling van de beginnende geletterdheid van kleuters kan ook met de toets Taal voor kleuters worden gemeten. Met de toets wordt een deel van de tussendoelen beginnende geletterdheid expliciet dan wel impliciet getoetst. Het betreft de tussendoelen genoemd onder de kopjes: – 1 Boekoriëntatie, – 2 Verhaalbegrip, – 3 Functies van geschreven taal, – 4 Relatie tussen gesproken en geschreven taal – 5 Taalbewustzijn Voor de groepen 1 en 2 zijn de tussendoelen onder de kopjes 1 tot en met 5 van toepassing. Uiteraard zijn er kleuters die al een beetje of soms zelfs al heel goed kunnen lezen, maar in principe verwachten we dat leerlingen pas in groep 3 de tussendoelen genoemd onder de kopjes 6 tot en met 10 gaan beheersen.
3
De tussendoelen onder de kopjes 5. Begrijpend luisteren en 8. Reflectie op taal vertonen overlap met de tussendoelen beginnende geletterdheid.
16
Relatie tussen Taal voor kleuters en Screeningsinstrument Beginnende geletterdheid Eerder hebben we al verwezen naar het Screeningsinstrument Beginnende geletterdheid dat het Expertisecentrum Nederlands en Cito in het kader van het Masterplan Dyslexie hebben ontwikkeld. Zoals gezegd, is het advies aan leerkrachten in groep 2 zowel de toets Taal voor Kleuters als het Screeningsinstrument Beginnende geletterdheid af te nemen, omdat de twee toetsen verschillende aspecten van de taalvaardigheid meten (zie ook paragraaf 2.1). Het Screeningsinstrument Beginnende geletterdheid bevat toetsen voor het meten van fonologisch bewustzijn en letterkennis in de groepen 2 en 3. Dit zijn de vaardigheden die het best in staat zijn latere leesvaardigheden te voorspellen (Vloedgraven, 2008). Op basis van de toetsresultaten uit dit Screeningsinstrument wordt duidelijk welke leerlingen al vroegtijdig extra aandacht nodig hebben. In het Screeningsinstrument Beginnende geletterdheid wordt een deel van de tussendoelen beginnende geletterdheid getoetst. Het betreft de tussendoelen genoemd onder de kopjes: – 5 Taalbewustzijn, – 6 Alfabetisch principe en – 8 Technisch lezen en schrijven, een start. De toetsen Taal voor kleuters en het Screeningsinstrument Beginnende geletterdheid vertonen inhoudelijk overlap op een aantal onderdelen, namelijk klank, rijm en synthese. Binnen welke categorieën deze onderdelen in de twee toetsen terugkomen, staat beschreven in de volgende tabel.
Tabel 2.1
Overlap tussen Taal voor kleuters en Screeningsinstrument Beginnende geletterdheid Categorie in Taal voor kleuters
Screeningsinstrument Beginnende geletterdheid
Klank
Klank & rijm
Identificatie beginfoneem
Rijm
Klank & rijm
Rijm
Synthese
Auditieve synthese
Synthese
Deze overlap komt voort uit het feit dat de betreffende onderdelen van belang zijn bij het bereiken van de doelstellingen van beide toetsen. Fonologisch bewustzijn (taalbewustzijn) maakt immers onderdeel uit van de algemene taalvaardigheid (gemeten met Taal voor kleuters) en is tevens een van de belangrijke voorspellers van leesproblemen (gemeten met het Screeningsinstrument Beginnende geletterdheid). Door beide toetsen in groep 2 af te nemen krijgt de leerkracht een compleet beeld van de leerling: hoe staat het met de algemene taalvaardigheid van de leerling én loopt de leerling risico op leesproblemen? 2.4.1.3 Het taalonderwijs/taalaanbod in de groepen 1 en 2 In het onderwijs aan de groepen 1 en 2 van de basisschool wordt veel aandacht besteed aan taal. Veelgebruikte VVE-programma’s (zoals bijvoorbeeld Piramide en KO-totaal) en (taal)methoden voor de groepen 1 en 2 (zoals Schatkist en Kleuterplein) hebben de tussendoelen Mondelinge communicatie en de tussendoelen Beginnende geletterdheid in hun aanbod verwerkt. Deze VVE-programma’s en (taal)methoden verwijzen in hun publicaties en/of op hun website naar de tussendoelen en geven daarbij aan dat hun programma/methode de tussendoelen dekt. Scholen en leerkrachten krijgen de garantie dat alle tussendoelen aan bod komen als men met het betreffende programma of de betreffende methode werkt. 2.4.1.4 Inhoud toetsen LOVS Taal voor kleuters In de toetsen Taal voor kleuters zijn aspecten van de taalontwikkeling (conceptueel bewustzijn) en de beginnende geletterdheid (taalbewustzijn ofwel metalinguïstisch bewustzijn) opgenomen. – Conceptueel bewustzijn – Passieve woordenschat – Kritisch luisteren
17
–
Taalbewustzijn (ofwel metalinguïstisch bewustzijn / fonologisch bewustzijn) – Klank en rijm – Eerste en laatste woord horen – Auditieve synthese – Schriftoriëntatie Voor groep 1 ligt het accent op conceptuele taken; bij groep 2 gaat het naast de conceptuele opdrachten ook om opdrachten over taalbewustzijn. In deze paragraaf hebben we de inhoud van Taal voor kleuters op conceptueel niveau beschreven. In paragraaf 3.2.2 wordt de inhoud van de toetsen op operationeel niveau verder uitgewerkt.
2.4.2
Psychometrisch
2.4.2.1 Opgavenbanken primair onderwijs Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Leerling- en onderwijsvolgsysteem (LOVStoetsen, de Entreetoetsen, Eindtoets basisonderwijs). Voor de constructie van de LOVS-toetsen Taal voor kleuters hebben we gebruikgemaakt van de opgavenbank Taal voor kleuters. Ook voor andere vakgebieden in het LOVS als bijvoorbeeld Rekenen voor kleuters zijn opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet ‘zomaar’ een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid taal kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van taalvaardigheid uit, waarbij een groter getal wijst op een grotere taalvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden die een leerling op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank taalvaardigheid meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 2 groter zal zijn dan in groep 1, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen.
18
Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop we in het vervolg dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken, moeten we ook proberen de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat voor de kalibratie van de taalopgaven is gebruikt. Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1 In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de leerlingen. 2 We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van het LOVS Taal voor kleuters zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf medio groep 1 tot eind groep 2. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en
19
3
4
standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. In het kalibratie- en normeringsonderzoek van de toetsen Taal voor kleuters hebben we ook de toets Taal voor peuters meegenomen. Dit houdt in dat we een set met items die voor 3-jarige peuters bedoeld zijn, niet alleen hebben afgenomen bij 3-jarige peuters, maar deels ook bij leerlingen uit groep 1. Tevens hebben we een deel van de items die bedoeld zijn voor groep 1 ook bij 3-jarige peuters afgenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal konden plaatsen als de kleuteritems. De itembank bevat dus zowel peuter- als kleuteritems. Aan leerlingen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 2 kan een toets maken die normaliter aan groep 1 wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 2 ook – in de vorm van percentielen – vergeleken worden met het vaardigheidsniveau in de referentiepopulatie van groep 1, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 1.” De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 1 wordt voorgelegd, bijvoorbeeld de toets Taal voor peuters. Immers, het kalibratie-onderzoek heeft ons overtuigd dat alle items dezelfde vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken.
2.4.2.2 Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek niet gebruikt kunnen worden, aangezien het normeringsonderzoek van de taaltoetsen een onvolledig design betrof: niet alle leerlingen hadden alle opgaven gemaakt. Het gebruik van het IRT-model heeft enkele belangrijke voordelen. Op de eerste plaats kunnen de populatieschattingen onafhankelijk van de schattingen van de itemparameters plaatsvinden. Dat heeft voordelen bij het wegen van de verschillende groepen om te zorgen dat de steekproef geheel overeenkomstig de populatieverdeling is (zie ook par. 4.1). Als in de IRT een schaal gevonden is, dat wil zeggen dat er een set opgaven gevonden is waarbij een model past, dan kan de populatie op deze schaal afgebeeld worden. Met de gecombineerde informatie over de populatieverdelingen en de itemparameters kunnen de item- en toetskarakteristieken voor de populatie precies bepaald worden. Een ander voordeel van IRT is dat hiermee een schaal door verder onderzoek kan worden aangevuld met meer opgaven. Als we toetsen samenstellen door zowel opgaven op te nemen die al op de schaal passen als nieuwe opgaven, dan kunnen de nieuwe opgaven – als het model past – ook op de schaal opgenomen worden. Zolang de nieuwe opgaven dezelfde vaardigheid meten, kunnen deze nieuwe opgaven op dezelfde schaal geplaatst worden. Op deze manier kan een itembank uitgebreid worden. Dat dit ook toegepast kan worden, en hoe dat werkt, als de opgaven een andere vorm hebben wordt beschreven in de wetenschappelijke verantwoording voor de digitale toets (Lansink, Hemker & Verschoor, 2011). Voor een overzicht van meer voordelen van IRT boven klassieke testtheorie wordt verwezen naar Hambleton, Swaminathan en Rogers (1991). In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i
20
voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen we θ (theta). We wijzen erop dat θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt 4 genoemd . De itemresponsfunctie fi (θ) is gedefinieerd als een conditionele kans: (2.1) Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi (θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi (θ) gegeven is door (2.2) waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.3 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, krijgen we (2.3) Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter βi dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
Figuur 2.3
4
Twee itemresponscurven in het Raschmodel
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT, ook wel aanduidt met 'latente trek'-modellen.
21
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo’n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.3. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een ‘laaggroep’, met de vijftig procent laagste scores, en een ‘hooggroep’, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in het geval van de taaltoetsen niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid (sufficient statistic) bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de 5 itemparameters en onafhankelijk van de waarde van θ . De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen ‘omwisseling’ van ‘proporties juist’ in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door (2.4)
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a-priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.4 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren.
5
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
22
Figuur 2.4
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuze-opgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de test kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hier rekening mee gehouden. Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de schattingen zoals die verkregen worden met het programma SAUL (Structural Analysis (of a) Univariate Latent trait; Verhelst en Verstralen, 2002). De schattingen van deze methode lijken erg op de schattingen die verkregen worden met de ‘marginale grootste aannemelijkheidsmethode’ (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Het voordeel van SAUL is dat deze methode gemakkelijker werkt als er groepen onderscheiden worden die op meer dan één achtergrondvariabele van elkaar verschillen. Een ander voordeel is dat het niet noodzakelijk is om een normaalverdeling te veronderstellen. In ons onderzoek zal blijken (zie hoofdstuk 4) dat het nodig is een weging aan te brengen voor zowel ‘regio’ als ‘verstedelijking’ (twee achtergrondvariabelen met respectievelijk vier en twee niveaus). Om dit te realiseren worden voor de geobserveerde combinaties van ‘regio’ en ‘verstedelijking’ de populatieverdelingen geschat met het computerprogramma SAUL. Met behulp van gewichten kunnen we hiermee het gemiddelde van de gehele populatie bepalen, door gebruik te maken van een mixture model waarbij de populatieproporties voor de acht combinaties van ‘regio’ en ‘verstedelijking’ als gewichten dienen.
23
De toepassing van deze methode maakt het ook mogelijk de scores te normaliseren. Meer over het toepassen van het meetmodel kan worden gevonden in hoofdstuk 4 waarin de normering beschreven wordt. Toetsing van het IRT-model Als een meetmodel gehanteerd wordt, moet ook onderzocht worden of het meetmodel past bij de data. De passing van het model illustreren we met figuur 2.5 (zie Staphorsius, 1994, blz. 239). Daarin beelden we voor een opgave de gegevens af waarop de zogenaamde Si-toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal 8) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die op grond van de parameterschattingen voorspeld kunnen worden. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 2.5 bedraagt dit aantal meer dan 3000. Uit het figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%- betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante Sitoetsingsgrootheid (Verhelst, et al., 1994).
Figuur 2.5
Grafische voorstelling van een Si -toets
Bij de opgaven in onze opgavenbank hoort een grafische voorstelling van de Si-toetsing die in grote lijnen met figuur 2.5 overeenkomt. Dit is, zeker gezien de relatief grote aantallen observaties die in het geding zijn, een zeer sterke aanduiding dat het ontwikkelde meetinstrument en het gebruikte meetmodel, adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. Hiermee is echter het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse, als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten,
24
dekkend is voor en samenvalt met het construct ‘algemene taalvaardigheid’ zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel ‘taalvaardigheid’: kan het unidimensionale concept onder de opgaven in de opgavenbank Taal voor kleuters inderdaad worden opgevat als ‘algemene taalvaardigheid’? Dit wordt verder behandeld in hoofdstuk 6 waarin de validiteit van de toets aan bod komt.
25
26
3
Beschrijving van de toets
3.1
Opbouw, afname van de toetsen en rapportage
Opbouw Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van het betreffende onderdeel in het onderwijs) en psychometrische criteria (met name moeilijkheidsgraad en discriminatieparameter) zijn opgaven geselecteerd voor de toets. De toetsen bestaan volledig uit meerkeuzevragen. LOVS Taal voor kleuters voor de jaargroepen 1 en 2 bestaat uit twee toetsen: een toets voor groep 1 en een toets voor groep 2. Deze zijn primair bedoeld voor – achtereenvolgens – leerlingen medio en einde groep 1 en leerlingen medio en einde groep 2. De toetsen zijn elk dus voor twee meetmomenten genormeerd. Afname De toetsen worden in principe klassikaal en schriftelijk afgenomen. Alle toetsen worden onder begeleiding van de leerkracht gemaakt. Elke toets begint met een instructie met oefenopgaven om de te volgen werkwijze uit te leggen. Vervolgens wordt de feitelijke toets afgenomen. De leerkracht leest de instructie en de vragen voor. De leerlingen noteren hun antwoord door in het opgavenboekje een streep te zetten onder het plaatje dat volgens hen het correcte antwoord op de vraag weergeeft. Voordat leerkrachten de feitelijke toets gaan afnemen, kunnen ze indien gewenst samen met de leerlingen de opgaven uit het oefenboekje maken. In het oefenboekje zijn dezelfde soort opdrachten opgenomen als in de toetsen. We raden leerkrachten aan om, zeker bij groep 1, het oefenboekje te gebruiken. Aan de hand van de opdrachten in het oefenboekje kan de leerkracht uitleggen wat de leerlingen moeten doen, zodat ze voordat ze de echte toets gaan maken al vertrouwd raken met de werkwijze. In tabel 3.1 staat een overzicht van de ontwikkelde toetsen. In de toetsmap is een handleiding opgenomen behorend bij de papieren toetsen. Vanaf januari 2011 komt daar een aparte handleiding over de digitale toetsen bij. Deze is door scholen via internet te downloaden.
Tabel 3.1
Overzicht toetsen, afnamemomenten, delen, aantal opgaven en afnametijd
Toets
Afnamemoment
Delen
Medio groep 1
2e helft januari – 1e helft februari
Groep 1 deel 1 Groep 1 deel 2
Opgaven pp 24 24
Afnametijd 20 – 30 minuten 20 – 30 minuten
Eind groep 1
2e helft mei – 1e helft juni
Groep 1 deel 1 Groep 1 deel 2
24 24
20 – 30 minuten 20 – 30 minuten
Medio groep 2
2e helft januari – 1e helft februari
Groep 2 deel 1 Groep 2 deel 2
30 30
20 – 30 minuten 20 – 30 minuten
Eind groep 2
2e helft mei – 1e helft juni
Groep 2 deel 1 Groep 2 deel 2
30 30
20 – 30 minuten 20 – 30 minuten
* De digitale toetsen komen begin 2011 voor de scholen beschikbaar.
Toetsen op maat De taalvaardigheid van leerlingen in een groep loopt vaak sterk uiteen. Als gevolg daarvan zal eenzelfde taaltoets voor een deel van de leerlingen goed op niveau zijn, maar voor sommige andere leerlingen erg moeilijk of erg gemakkelijk. Met name voor een aantal leerlingen van niveau D en voor de leerlingen van niveau E (of de leerlingen van niveau V) zijn de toetsen van het eigenlijke afnamemoment (bijvoorbeeld de M2-toets voor leerlingen medio groep 2) aan de moeilijke kant. Voor een aantal leerlingen van niveau A (of
27
niveau I) zijn de toetsen echter aan de gemakkelijke kant. De bij de taaltoetsen van het Leerling- en onderwijsvolgsysteem gehanteerde meettechniek maakt het mogelijk de toetsen op het niveau van de leerlingen af te stemmen. Omdat de toetsscores op verschillende taaltoetsen telkens naar eenzelfde schaal worden omgezet is het mogelijk leerlingen die verschillende toetsen maken toch met elkaar te vergelijken. Leerlingen kunnen daardoor bijvoorbeeld een toets maken die hoort bij een vorig afnamemoment (een M2leerling maakt een toets E1) of een volgend afnamemoment (een E1-leerling maakt de toets M2). Bij de toetsen Taal voor kleuters is dit ‘toetsen op maat’ in mindere mate van toepassing dan bij de overige LOVStoetsen voor groep 3 t/m 8. Immers, voor zowel groep 1 als groep 2 hebben we maar één toets. De toets voor groep 1 wordt zowel voor het afnamemoment M1 als het afnamemoment E1 gebruikt. Hetzelfde geldt voor de toets van groep 2. Deze wordt zowel voor M2 als E2 gebruikt. Bij het ‘toetsen op maat’ kan de leerkracht overigens ook gebruiken maken van de toets Taal voor peuters. Deze toets kan bijvoorbeeld ingezet voor leerlingen voor wie de groep 1 toets nog wat te hoog gegrepen is. Correctie van de toetsen De toetsen Taal voor kleuters zijn zowel handmatig na te kijken en te analyseren als via de computer, met behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van de toets kan gebruikgemaakt worden van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Indien gewenst kan de leerkracht in het Computerprogramma LOVS de goede antwoorden aanklikken. Op basis van de totaalscore van de leerling op de toets wordt een inschatting gemaakt van de algemene taalvaardigheid van de leerlingen. Verwerking resultaten en verdere analyses en interpretatie Na de toetsafname en correctie van de leerlingantwoorden kunnen de toetsresultaten door de leerkracht verwerkt worden op speciaal ontwikkelde rapportageformulieren, onder andere leerlingrapporten, groepsrapporten en groepsoverzichten. De resultaten kunnen zowel handmatig als met behulp van de computer verwerkt worden. In de handleiding bij het toetspakket Taal voor kleuters (Lansink, 2009: hoofdstuk 4: Interpretatie en gebruik op leerlingniveau en groepsniveau en hoofdstuk 5: Interpretatie en gebruik op schoolniveau) en de handleiding bij het Computerprogramma LOVS (module schoolzelfevaluatie) worden de mogelijkheden besproken om handmatig en met behulp van het computerprogramma verschillende soorten overzichten te maken, zoals bijvoorbeeld leerlingrapporten, groepsrapporten, dwarsdoorsnedes en trendanalyses. Met behulp van deze overzichten kan de kwaliteit van het gegeven onderwijs ook op groepsniveau en schoolniveau geanalyseerd worden. Categorieënanalyse Voor verdere analyses op leerlingniveau biedt het computerprogramma LOVS naast de standaardrapportages ook een meer geavanceerdere rapportage: categorieënanalyse. De categorieënanalyse is bedoeld om na te gaan of de leerling, gegeven zijn algemeen niveau, evenwichtig presteert op de verschillende onderdelen of categorieën van de toets. Bij elke toets (groep 1 en groep 2) kunnen de opgaven onderverdeeld worden in een relatief klein aantal didactisch zinvolle categorieën. Uit de vaardigheidsscore die de leerling behaalt en het toegekende niveau (A t/m E of I t/m V) weten we of we met een sterke of zwakke leerling van doen hebben. Met een categorieënanalyse kan nagegaan worden of leerlingen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. De categorieën die bij de toetsen Taal voor kleuters worden gehanteerd staan in tabel 3.2. De rechterkolom geeft aan bij welke toetsen de categorieën worden gebruikt.
28
Tabel 3.2
Categorieën voor Taal voor kleuters
Verkorte naam
Omschrijving
Van toepassing voor
PW
Passieve woordenschat
Groep 1 en 2
KL
Kritisch luisteren
Groep 1 en 2
K&R
Klank en rijm
Groep 2
ELW
Eerste en laatste woord horen
Groep 2
AS
Auditieve synthese
Groep 2
SO
Schriftoriëntatie
Groep 2
Niet alle categorieën zijn op elk niveau van toepassing. Voor groep 1 bijvoorbeeld worden alleen de categorieën PW en KL gehanteerd. Bovendien is niet elke categorie met evenveel items vertegenwoordigd, want dat zou geen recht doen aan de relatieve belangrijkheid van de categorieën in het onderwijs. In tabel 3.3 wordt weergegeven hoe de verdeling van de opgaven over de verschillende categorieën in de toetsen is.
Tabel 3.3
Toetsen Taal voor kleuters (papier): aantal opgaven per toets per categorie
Categorie
Groep 1 Papieren toets
Groep 2 Papieren toets
Passieve woordenschat
32
15
Kritisch luisteren
16
15
Klank en rijm
8
Eerste en laatste woord horen
6
Auditieve synthese
8
Schriftoriëntatie
8 48
Totaal
60
Voor de categorieënanalyse is een aparte verantwoording geschreven (zie bijlage 1). Deze verantwoording is opgesteld voor het domein Rekenen-Wiskunde. De principes van de categorieënanalyse die voor Rekenen-Wiskunde gelden, zijn ook van toepassing op Taal voor kleuters. In de handleiding bij het Computerprogramma LOVS is voor de leerkrachten een uitvoerige beschrijving opgenomen van de categorieënanalyse en de interpretatie van de uitkomsten. Ook deze is, hoewel toegespitst op RekenenWiskunde, van toepassing op Taal voor kleuters. Zoals al eerder (paragraaf 2.3) werd gezegd, is er geen kwalitatief of kwantitatief onderzoek gedaan naar het adequaat functioneren van de categorieënanalyse. De signalering via deze analyse heeft dan ook geen enkele wetenschappelijke status of pretentie. Haar enige functie is het doen van een handreiking naar leerkrachten die gericht extra ondersteuning willen bieden aan leerlingen waarbij de taalontwikkeling achterblijft.
3.2
Inhoudsverantwoording
In deze paragraaf geven we eerst een beschrijving van toetsontwikkelingsproces van de toetsen LOVS Taal voor kleuters voor de groepen 1 en 2. Vervolgens beschrijven we welke inhoudscategorieën en opgaventypen zijn opgenomen in de toetsen. Daarna geven we aan welke selectiecriteria we hebben gebruikt bij het samenstellen van de toetsen Taal voor kleuters.
29
De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in het toetspakket Taal voor kleuters. Daar vindt u voor elke toets specifieke voorbeelden van de verschillende soorten opgaven die in de toetsen voorkomen.
3.2.1
Het ontwikkelproces van de toetsen LOVS Taal voor kleuters
In het ontwikkelproces van toetsen zijn normaliter achtereenvolgens de volgende fasen te onderscheiden: Domeinbeschrijving Itemconstructie Proefafname/Kalibratieonderzoek Normeringsonderzoek Samenstelling van de toets, rapportageoverzichten, handleiding en inhoudsverantwoording Bij het ontwikkelen van de toetsen LOVS Taal voor kleuters zijn we daar enigszins van afgeweken. Bij het ontwikkelproces van deze toetsen kunnen achtereenvolgens de volgende fasen onderscheiden worden: Domeinbeschrijving Itemconstructie Gecombineerd onderzoek: Proefafname – Kalibratieonderzoek – Normeringsonderzoek deel 1 Normeringsonderzoek deel 2 Samenstelling van de toets, rapportageoverzichten, handleiding en inhoudsverantwoording Deze werkwijze – waarbij de proefafname, het kalibratieonderzoek én deel 1 van het normeringsonderzoek gecombineerd worden – konden we volgen, omdat we uit eerdere onderzoeken naar digitale varianten van de geconstrueerde opgaven al veel informatie over deze digitale versie van de opgaven hadden verkregen. Dit vormde een goede inspiratiebron voor de itemconstructie en –selectie voor een gecombineerd onderzoek naar de papieren varianten van de opgaven en waarin in één keer de proefafname, het kalibratieonderzoek en het normeringsonderzoek (deel 1) plaatsvond. De tussendoelen Mondelinge communicatie en Beginnende geletterdheid vormen de basis voor de itemconstructie. Deze twee lijsten met tussendoelen hebben we als ‘domeinbeschrijving’ gehanteerd. Immers, ze beschrijven hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) de door de kerndoelen beschreven gewenste inhoud van het onderwijs bereikt kan worden (Greven & Letschert, 2006). Daarom kunnen ze prima als domeinbeschrijving gebruikt worden (voor meer informatie zie paragraaf 2.4.1). Allereerst is bepaald welke tussendoelen met een toets als Taal voor kleuters geëvalueerd kunnen worden. Vervolgens zijn op basis van de geselecteerde tussendoelen (zie paragraaf 2.4.1) opgaven geconstrueerd die een operationalisering vormen van die doelen. Dat is gebeurd door toetsdeskundigen van Cito. De geconstrueerde opgaven zijn voorgelegd aan en besproken met collega toetsdeskundigen (van Cito). Vervolgens zijn de opgaven op basis van een afnamedesign in het gecombineerde onderzoek (januari-februari 2009) afgenomen bij leerlingen van een flink aantal basisscholen waarbij leerkrachten de gelegenheid hadden om inhoudelijk te reageren op de opgaven (zie hoofdstuk 4). Ten slotte zijn de opgaven, op basis van de gegevens uit het gecombineerde onderzoek, indien nodig bijgesteld of verwijderd. In het tweede deel van het normeringsonderzoek (mei-juni 2009) is de overgebleven set met opgaven opnieuw op basis van een afnamedesign voorgelegd aan een steekproef van leerlingen en scholen (zie hoofdstuk 4). Bij de afnames van het gecombineerde onderzoek en deel 2 van het normeringsonderzoek zijn de meeste leerlingen gedurende twee afnamemomenten gevolgd. De leerlingen zijn gevolgd om de ontwikkeling van de taalvaardigheid in kaart te brengen en referentiegegevens van een landelijke normgroep te verzamelen. Na de afnames zijn de antwoorden van de leerlingen op de toetsen geanalyseerd met behulp van het programmapakket One Parameter Logistic Model (OPLM; Verhelst, 1993; Verhelst en Glas, 1995). Voor een algemene technische beschrijving van dit model zie paragraaf 2.4.2. Voor een beschrijving van de opzet en uitvoering van het normeringsonderzoek en een verantwoording van de representativiteit van de steekproef verwijzen we naar hoofdstuk 4 van deze verantwoording.
30
Bij de analyses is de kwaliteit van de afzonderlijke items en de totale verzameling voor een afnamemoment in kaart gebracht. Itemparameters zijn geschat en normeringstabellen zijn samengesteld. Bij de analyses van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende onderdelen een beroep doen op hetzelfde complex aan vaardigheden. Dat bleek het geval te zijn. Daarom is voor peuters, groep 1 en 2 een schaal geconstrueerd, die we de algemene taalvaardigheidsschaal genoemd hebben. Op basis van inhoudelijke en psychometrische criteria zijn vervolgens toetsen samengesteld. Met behulp van de totaalscore op iedere toets (dat is het totaal aantal goed gemaakte opgaven in alle onderdelen van de toets) is de algemene taalvaardigheid van een leerling op een bepaald afnamemoment te bepalen. Indien leerlingen elk half jaar een van de LOVS-toetsen Taal voor kleuters maken, dan maakt deze schaal het mogelijk de algemene taalvaardigheid van de leerlingen te volgen vanaf groep 1 tot en met groep 2. Zoals eerder vermeld (zie paragraaf 2.4.2.1) hebben we in het kalibratie- en normeringsonderzoek van de toetsen Taal voor kleuters ook de toets Taal voor peuters meegenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal konden plaatsen als de kleuteritems. Dit maakt het mogelijk op de ontwikkeling in taalvaardigheid van jonge kinderen te volgen vanaf 3-jarige leeftijd (peuters) tot en met groep 2. Naast toetsen zijn rapportage-overzichten gemaakt en een handleiding en inhoudsverantwoording geschreven.
3.2.2
De inhoud van de toetsen LOVS Taal voor kleuters
De verschillende leerstofonderdelen die in de toetsen Taal voor kleuters in groep 1 en 2 aan de orde komen, hebben we in parafgraaf 2.4.1 op conceptueel niveau beschreven. In deze paragraaf lichten we die leerstofonderdelen op operationeel niveau kort toe en we vatten ze samen in een tabel. Voor een uitvoerige beschrijving van de inhoud van de toetsen voor groep 1 en groep 2 verwijzen we naar de Inhoudsverantwoording in het toetspakket LOVS Taal voor kleuters (Lansink, 2009). Daar is een uitgebreide inhoudsbeschrijving opgenomen die geïllustreerd wordt met voorbeeldopgaven uit de toetsen. In paragraaf 2.4.1 hebben we aangegeven dat de verschillende onderdelen van het domein taal voor kleuters een samenhangend geheel vormen en dat we de volgende twee subdomeinen onderscheiden: 1 Conceptueel bewustzijn 2 Taalbewustzijn (ofwel metalinguïstisch bewustzijn / fonologisch bewustzijn) We bespreken hierna de onderwerpen/opgaventypen die in deze subdomeinen aan de orde komen. Vervolgens wordt weergegeven welke opgaventypen in de toets voor groep 1 en de toets voor groep 2 zijn opgenomen. Daarbij leggen we ook een link met de tussendoelen. Conceptueel bewustzijn Onder conceptueel bewustzijn vallen Passieve woordenschat en Kritisch luisteren: het herkennen van begrippen en het begrijpen van korte gesproken teksten. De categorie Passieve woordenschat bevat twee opgaventypen (passieve woordenschat en definitievaardigheid) en de categorie Kritisch luisteren drie (beschrijvende zin, kort verhaal, kort verhaal met vraag). Deze opgaventypen werken we in het nu volgende verder uit. Voor het opgaventype Passieve woordenschat geldt dat de leerlingen een ‘begrip’ aan een persoon, voorwerp, handeling of situatie moeten koppelen. Om de opgave correct te kunnen beantwoorden moet de leerling de betekenis van het begrip kennen. Bij het opgaventype Definitievaardigheid moeten de leerlingen een omschrijving aan een persoon of voorwerp koppelen. Definitievaardigheid is de vaardigheid om een begrip met woorden te beschrijven. Dat kan een eenvoudige beschrijving zijn, waarbij één of meer kenmerken worden benoemd (bijvoorbeeld kleur, vorm of materiaal). Het kan ook een moeilijker beschrijving zijn, waarbij de essentiële kenmerken worden weergegeven (wat is de functie van het voorwerp). Dit opgaventype komt alleen in groep 1 voor.
31
Het opgaventype Kritisch luisteren – beschrijvende zin laat de leerlingen een beschrijvende zin aan een situatie koppelen. Om een opgave te kunnen beantwoorden, moeten de kinderen de ‘begrippen’ in de zin begrijpen (er wordt een beroep gedaan op hun woordenschat). Dat alleen is echter niet voldoende om de opgave correct te kunnen beantwoorden. Daarvoor moeten de kinderen de ‘begrippen’ in relatie tot elkaar kunnen begrijpen. Bij de zin ‘De plant staat op de tafel.’ is het bijvoorbeeld niet voldoende dat de kinderen weten wat een ‘plant’ en wat een ‘tafel’ is. Ze moeten uit de zinsconstructie af kunnen leiden wat in die zin de relatie is tussen de plant en de tafel, namelijk dat de plant op de tafel staat. Dit opgaventype komt alleen in groep 1 voor. Bij het opgaventype Kritisch luisteren – kort verhaal moeten de leerlingen een kort verhaal aan een situatie koppelen. Voor het opgaventype Kritisch luisteren – kort verhaal met vraag geldt dat de leerlingen een vraag over een kort verhaal moeten beantwoorden door het antwoord op de vraag aan een situatie te koppelen. Taalbewustzijn Taalbewustzijn (ofwel metalinguïstisch bewustzijn / fonologisch bewustzijn) is de vaardigheid om af te zien van de betekenis van een woord en in plaats daarvan te letten op de vorm of klank ervan. Taalbewustzijn komt bijvoorbeeld naar voren in de gerichtheid van leerlingen op geschreven taal en klanken. Onder taalbewustzijn vallen Klank en rijm, Eerste en laatste woord herkennen, Auditieve synthese en Schriftoriëntatie. Het opgaventype Klank en rijm – Herkennen beginklank woord vraagt van de leerlingen dat ze de beginklank van een woord kunnen herkennen. De leerlingen moeten uit een reeks door de leerkracht uitgesproken woorden het woord met de gevraagde (fonetisch uitgesproken) beginklank halen. Bij het opgaventype Klank en rijm – Herkennen eindrijm wordt van de leerlingen verwacht dat zij eindrijm kunnen herkennen. De leerlingen moeten uit een reeks door de leerkracht uitgesproken woorden het correcte rijmwoord halen. Bij het opgaventype Eerste en laatste woord horen onthouden de leerlingen welk woord uit een reeks trefwoorden als eerste óf als laatste werd uitgesproken door de leerkracht. Bij opgaven van het type Auditieve synthese moeten de leerlingen losse klanken (fonemen) in gedachten samenvoegen tot een gesproken woord (ook wel aangeduid met de termen fonemische synthese of ‘plakken’). Bij het opgaventype Schriftoriëntatie moeten de leerlingen zich richten op visuele aspecten van de taal en blijk geven van algemene kennis over boeken. Concreet betekent dit dat leerlingen bijvoorbeeld een letter of een woord moeten kunnen aanwijzen in een serie afbeeldingen. Of dat ze bijvoorbeeld de eerste/laatste letter van een woord of het eerste/laatste woord van een zin moeten kunnen aanduiden. Tevens moeten ze op basis van de kaft van een boek in staat zijn om de inhoud van dat boek al enigszins te voorspellen. Taal voor kleuters groep 1 De opgaven in de toets Taal voor kleuters voor groep 1 hebben betrekking op de (mondelinge) taalontwikkeling (luisteren en spreken). Aan het proces van opgavenconstructie voor groep 1 lagen de aspecten ‘betekenis’ en ‘luisteren’ ten grondslag. De opgaven in de toets Taal voor kleuters voor groep 1 kunnen we onderverdelen in twee categorieën. De categorie Passieve woordenschat is gericht op betekenistoekenning en bevat twee opgaventypen: passieve woordenschat en definitievaardigheid. De categorie Kritisch luisteren is gericht op het begrijpen van wat je hoort en bevat drie opgaventypen: beschrijvende zin, kort verhaal, kort verhaal met vraag (zie figuur 3.1). Hoe de opgaven uit de toets Taal voor kleuters groep 1 exact over de categorieën verdeeld zijn, is beschreven in de bijlagen van de handleiding.
32
Figuur 3.1
Opgaventypen in Taal voor kleuters groep 1
Categorie
Opgaventype
Tussendoelen
Passieve woordenschat
Passieve woordenschat Definitievaardigheid Beschrijvende zin Kort verhaal Kort verhaal met vraag
MC 4 Woordenschat
Kritisch luisteren
MC 5 Begrijpend luisteren MC 5 Begrijpend luisteren MC 5 Begrijpend luisteren
MC = Mondelinge Communicatie
Taal voor kleuters groep 2 De opgaven in de toets Taal voor kleuters voor groep 2 hebben betrekking op de (mondelinge) taalontwikkeling (luisteren en spreken) en de ontwikkeling tot geletterdheid (lezen en schrijven). Aan het proces van opgavenconstructie voor groep 2 lagen de aspecten ‘betekenis’, ‘luisteren’ en ‘ontwikkeling tot geletterdheid’ ten grondslag. De opgaven in de toets Taal voor kleuters voor groep 2 kunnen we onderverdelen in zes categorieën: Passieve woordenschat, Kritisch luisteren, Klank en rijm, Eerste en laatste woord horen, Auditieve synthese en Schriftoriëntatie. We onderscheiden: – één opgaventype binnen de categorie passieve woordenschat: passieve woordenschat; – twee opgaventypen binnen de categorie kritisch luisteren: kort verhaal en kort verhaal met vraag; – twee opgaventypen binnen de categorie klank en rijm: herkennen beginklank woord en eindrijm; – twee opgaventypen binnen de categorie eerste en laatste woord horen: herkennen eerste woord en laatste woord in een reeks; – één opgaventype binnen de categorie auditieve synthese: auditieve synthese (op klankniveau) en – drie opgaventypen binnen de categorie schriftoriëntatie: herkennen lees- en schrijftekens, kennis van woorden en zinnen, voorspellen inhoud boek (zie figuur 3.2). Hoe de opgaven uit de toets Taal voor kleuters groep 2 exact over de categorieën verdeeld zijn, kunt u vinden in de bijlagen.
Figuur 3.2
Opgaventypen in Taal voor kleuters groep 2
Categorie
Opgaventype
Tussendoelen
Passieve woordenschat
Passieve woordenschat
MC 4 Woordenschat
Kritisch luisteren
Kort verhaal
MC 5 Begrijpend luisteren
Kort verhaal met vraag
MC 5 Begrijpend luisteren
Klank en rijm Eerste en laatste woord horen
Herkennen beginklank woord
BG 5 Taalbewustzijn
Herkennen eindrijm
BG 5 Taalbewustzijn
Herkennen eerste woord in reeks Herkennen laatste woord in reeks
Auditieve synthese
Auditieve synthese
BG 5 Taalbewustzijn
Schriftoriëntatie
Herkennen lees- en schrijftekens
BG 1 Boekoriëntatie
Kennis van woorden en zinnen
BG 5 Taalbewustzijn
Voorspellen inhoud boek
BG 1 Boekoriëntatie
MC = Mondelinge Communicatie BG = Beginnende Geletterdheid
33
Beoogde en gerealiseerde opgavenverdeling De verdeling van de opgaven over de categorieën komt overeen met wat we beoogd hadden. Uitgangspunt was om zo dicht mogelijk bij de indeling van de ‘oude’ toetsen Taal voor kleuters te blijven. Alleen voor groep 2 wilden we daar wat van afwijken. De reden daarvoor is de wens om in de toekomst vanuit de score op de toets Taal voor kleuters voor groep 2 een voorspelling te kunnen doen over de verwachte vaardigheid van de leerlingen op de onderdelen Woordenschat en Luisteren in groep 3. Hiertoe hebben we een onderzoek gepland. In dat onderzoek willen we bekijken of er sprake is van een doorgaande lijn tussen groep 2 en 3 op de onderdelen ‘Woordenschat’ en ‘Luisteren’. Als daar sprake van zou zijn, dan maakt dit het in de toekomst wellicht inderdaad mogelijk om een voorspelling te doen over de vaardigheid van de leerling op de onderdelen Woordenschat en Luisteren in groep 3 vanuit de score op de toets Taal voor kleuters voor groep 2. Dat vereist echter wel dat de betreffende categorieën in de toetsen een minimale grootte van vijftien opgaven hebben. In dat kader hebben we de lengte van de categorie ‘kritisch luisteren’ verhoogd van 8 opgaven naar 15 opgaven. De lengte van de categorie ‘passieve woordenschat’ hebben we met 1 opgave teruggebracht van 16 naar 15 opgaven. De categorie ‘eerste en laatste woord horen’ hebben we ingekort met 2 opgaven (van 8 naar 6 opgaven). Hierdoor kwamen we uit op een toetslengte van 60 opgaven. Dit is de maximale toetslengte die we voor groep 2 acceptabel vinden indien verdeeld over twee delen van maximaal 30 opgaven. Per saldo is de toets voor groep 2 uitgebreid met 4 opgaven (van 56 naar 60). Op deze wijze hebben we een inhoudelijke toetssamenstelling gerealiseerd die én voldoet aan de doelstelling die we met de toets Taal voor kleuters voor groep 2 hebben (het in kaart brengen van de algemene taalvaardigheid van jonge kinderen door middel van niveau- en progressiebepaling) én in de toekomst de mogelijkheid biedt om (indien er sprake is van een doorgaande lijn tussen groep 2 en 3) op basis van de resultaten op de toets Taal voor kleuters voor groep 2 een voorspelling te doen over de vaardigheid van de leerlingen op de onderdelen Woordenschat en Luisteren in groep 3. Samenvattend geven we in tabel 3.4 nog eens aan hoe de verschillende leerstofonderdelen over zowel de ‘oude’ als de ‘nieuwe’ toetsen Taal voor kleuters zijn verdeeld.
Tabel 3.4
Onderdelen die in de ‘oude’ en ‘nieuwe’ LOVS-toetsen Taal voor kleuters voorkomen. Groep 1
Categorie
Groep 2
‘oude’ toets
‘nieuwe’ toets
‘oude’ toets
‘nieuwe’ toets
Passieve woordenschat
32
32
16
15
Kritisch luisteren
16
16
8
15
Klank en rijm
8
8
Eerste en laatste woord horen
8
6
Auditieve synthese
8
8
Schriftoriëntatie
8
8
56
60
Totaal
48
48
3.2.3
Selectie van opgaven voor de toetsen LOVS Taal voor kleuters
Alle opgaven die in de toetsen Taal voor kleuters zijn opgenomen werden speciaal voor deze toetsen geconstrueerd door toetsdeskundigen van Cito. De opgaven zijn in een gecombineerd onderzoek (proefafname, kalibratie-onderzoek en deel 1 normeringsonderzoek) in januari-februari 2009 voorgelegd aan leerlingen in de jaargroepen waarvoor ze bedoeld waren (waarbij het streven was dat elke opgave door minimaal 400 leerlingen gemaakt werd). Het doel van proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door vaardige leerlingen dan door minder vaardige leerlingen fout gemaakt worden) geïdentificeerd en verwijderd worden. Daarnaast hebben wij het onderzoek aangegrepen als een
34
mogelijkheid om aan de deelnemende leerkrachten te vragen of zij inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven. Sommige leerkrachten gaven aan dat zij sommige opgaven nogal moeilijk vonden. Dit oordeel werd de ene keer wel en de andere keer niet door de onderzoeksresultaten ondersteund. De opgaven die psychometrisch geschikt bleken, werden vervolgens ingedeeld voor opname in een tweede onderzoek, waarin het alleen nog om de normering ging (mei-juni 2009). In principe kwamen alle opgaven met een acceptabele moeilijkheid (in klassieke termen een p-waarde tussen .40 en .90) die door de vaardige leerlingen significant vaker goed werden gemaakt dan door de minder vaardige leerlingen (rir vanaf .20) hiervoor in aanmerking. Echter, bij het selecteren van de opgaven waren naast psychometrische criteria ook inhoudelijke criteria van belang. De uiteindelijke toetsen moeten een evenwichtige verzameling opgaven bevatten. Hierbij werd gelet op inhoudscategorie en opgaventype. In de meeste gevallen kon aan zowel de psychometrische (p-waarde, rir) als de inhoudelijke criteria voldaan worden, maar in sommige gevallen zijn er op basis van de inhoudelijke criteria opgaven opgenomen die (net) niet de gewenste psychometrische waarden hadden. Zowel in de het gecombineerde onderzoek (januari-februari 2009) als in het tweede deel van het normeringsonderzoek (mei-juni 2009) is de samenstelling van de toetsen met zorg bepaald. Elke toets bevatte een evenwichtige verzameling opgaven, zowel qua inhoud (categorie) als qua vorm (opgaventype). De toetsen leken dus al zoveel mogelijk op de definitief samen te stellen toetsen. Voor het eerste normeringsonderzoek (medio-afname; januari-februari 2009) – dat deel uitmaakte van het gecombineerde onderzoek – zijn voor groep 1 drie verschillende toetsboekjes en voor groep 2 vier verschillende toetsboekjes samengesteld. Alle opgaven waren tot dan toe (tijdens eerdere proefafnames) alleen in de digitale variant onderzocht. Hoe de papieren variant van de opgaven zou functioneren, wisten we op dat moment feitelijk nog niet. Met het oog op eventuele uitval van items wegens slecht functioneren (in de papieren variant), hebben we daarom beduidend meer items in deel 1 van het normeringsonderzoek meegenomen, dan we uiteindelijk nodig hadden. De kans op uitval van items was overigens relatief beperkt, omdat slecht functionerende items (in de digitale variant) al niet opgenomen waren. Voor het tweede deel van het normeringsonderzoek (eind-afname; mei-juni 2009) zijn zowel voor groep 1 als voor groep 2 twee toetsboekjes samengesteld. Een toetsboekje dat naar verwachting de nieuwe toets zou gaan vormen en een ‘reserve’ boekje, wederom met het oog op eventuele uitval van items wegens slecht functioneren. De kans daarop was in dit stadium overigens niet zo groot (en beduidend minder groot dan bij het eerste normeringsonderzoek), omdat slecht functionerende items al verwijderd waren na het eerste normeringsonderzoek en zowel het eerste als het tweede normeringsonderzoek alleen items in de papieren variant bevatten. Van alle opgaven in het tweede deel van het normeringsonderzoek is om te beginnen opnieuw de p-waarde en de rir bepaald (zie ook paragraaf 4.3). Vervolgens is voor zowel groep 1 als groep 2 op basis van de twee toetsen (verwachte nieuwe toets en reserve toets) de definitieve toets samengesteld. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek een te hoge of te lage moeilijkheid (pwaarde) of een te laag discriminerend vermogen (rir). Soms ook vielen opgaven af die psychometrisch gezien goed functioneerden, maar die op inhoudelijke gronden werden afgewezen en/of tot een categorie behoorden die al voldoende vertegenwoordigd was in de toetsen. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te gemakkelijk waren, maar waarvoor in de betreffende categorie geen beter functionerende alternatieven voorhanden waren. Bij elke individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden. De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer praktische aard (afnameduur, aantal opgaven per module, aantal categorieën per toets). Samenvattend geven we in tabel 3.5 aan hoe de opgaven over de categorieën en de opgaventypen in de toetsen Taal voor kleuters zijn verdeeld. Deze verdeling komt nagenoeg overeen met wat we voor ogen hadden. Alleen binnen de categorie Kritisch luisteren hadden we een iets andere verdeling voor ogen dan we hebben gerealiseerd (in groep 1: 6 – 5 – 5 en in groep 2: 7 – 8).
35
Tabel 3.5
Verdeling opgaven over categorieën en opgaventypen in de toetsen groep 1 en 2
Categorie
Opgavetype
Toets groep 1
Toets groep 2
Passieve woordenschat
Passieve woordenschat
24
15
Definitievaardigheid
8
Kritisch luisteren
Beschrijvende zin
6
Kort verhaal
4
5
Kort verhaal met vraag
6
10
Klank en rijm
Herkennen beginklank woord
4
Herkennen eindrijm
4
Eerste en laatste woord horen
Eerste woord horen
3
Laatste woord horen
3
Auditieve synthese
Auditieve synthese
8
Schriftoriëntatie
Herkennen lees- en schrijftekens
2
Kennis van woorden en zinnen
4
Voorspellen inhoud boek Totaal
2 48
36
60
4
Het normeringsonderzoek
Het normeringonderzoek is uitgevoerd met behulp van itemresponstheorie (IRT) en aan IRT verwante technieken, onder andere omdat deze werkwijze ons op een gemakkelijke manier in staat stelt gebruik te maken van een onvolledig design: niet alle opgaven hoeven bij alle leerlingen afgenomen te worden om toch voor alle groepen van leerlingen waarin wij geïnteresseerd zijn kennis te vergaren over deze opgaven. In paragraaf 2.4.2.2 is het gebruikte meetmodel verder beschreven. Het meetmodel heeft een aantal voordelen. Eén voordeel is dat op een gemakkelijke manier opgaven van verschillende toetsen alle op één meetschaal gebracht kunnen worden. Dit levert een “itembank”. Een ander voordeel is dat de gegevens van leerlingen en van populaties van leerlingen gerelateerd kunnen worden aan deze meetschaal. Door nu de in het onderzoek verkregen gegevens over de opgaven (itembank) en de populaties aan elkaar te relateren kunnen de eigenschappen van een toets berekend worden voor de onderscheiden normgroepen. Al deze voordelen zijn benut bij de normering van de toetsen LOVS Taal voor kleuters waarbij drie fasen zijn onderscheiden. Fase 1: Het maken van een itembank De eerste fase bestaat uit het analyseren van de opgaven, waarbij de itemparameters van de opgaven geschat worden (voor meer details zie paragraaf 2.4.2.2). Hierbij is gebruikgemaakt van het One Parameter Logistic Model (Verhelst, Glas en Verstralen, 1995). In deze fase wordt een itembank gemaakt waarbij alle opgaven uit de proefafname aan elkaar gerelateerd worden, zodat een schaal verkregen wordt. In het proefonderzoek zijn opgaven meegenomen die door peuters en/of kleuters gemaakt kunnen worden. Tevens vond de dataverzameling voor de toetsen Taal voor kleuters gelijktijdig plaats met die voor de toets Taal voor peuters. In de beschrijving van de gevonden meetschaal zal dan ook de gehele schaal voor de (papieren) toetsen Taal voor peuters en Taal voor kleuters beschreven worden. Bij de beschrijving van deze eerste fase (in paragraaf 4.1) zal ook het onderzoeksdesign en de dataverzameling ter sprake komen. Fase 2: Het schatten van de vaardigheidsverdeling van de normpopulaties In de tweede fase worden de populatiegegevens onderzocht. In tegenstelling tot de eerste fase waarbij dankzij populatieonafhankelijke schattingen van de itemparameters (zie paragraaf 2.4.2.2 ) representativiteit van de steekproef ten opzichte van de populatie niet noodzakelijk is, is dat tijdens deze fase wel van belang. Bij het bepalen van de verdelingen van de te onderscheiden normgroepen op de meetschaal wordt dan ook gelet op representativiteit. Aangezien het in deze wetenschappelijke verantwoording alleen om de toetsen Taal voor kleuters gaat, zijn de populatiegegevens van de peuters hier niet relevant. Die komen ter sprake in de publicatie waarin de toets Taal voor peuters wordt verantwoord (Lansink & Hemker, 2011). De beschrijving van de populaties zal daarom alleen de normpopulaties van de kleuters betreffen, waarbij speciale aandacht uitgaat naar representativiteit (zie paragraaf 4.2). Fase 3: Het normeren van de uiteindelijke toetsen In de derde en laatste fase worden de normen voor de twee uiteindelijke toetsen bepaald. Uit de gehele itembank van de toetsen Taal voor peuters en Taal voor kleuters worden opgaven voor twee kleutertoetsen geselecteerd: een toets voor groep 1 en een toets voor groep 2 (zie ook hoofdstuk 3 voor de criteria waaraan de opgaven moeten voldoen voor de uiteindelijke selectie). Beide toetsen zijn voor twee momenten genormeerd: ‘medio schooljaar’ (januari - februari) en ‘einde schooljaar’ (mei -juni). De normen zijn met behulp van IRT berekend (zie paragraaf 4.3). Voor de omschrijving en de normering van de peutertoets verwijzen we naar de wetenschappelijke verantwoording van Taal voor peuters. In een later stadium zijn ook digitale opgaven toegevoegd aan de opgavenbank. Een wetenschappelijke verantwoording van de digitale toetsen Taal voor kleuters is bij het uitbrengen van die toetsen verschenen (Lansink, Hemker & Verschoor, 2011). Het onderhavige verslag beperkt zich tot de “papieren” itembank en de toetsen zoals die zijn uitgebracht op papier.
37
4.1
Het ontwikkelen van een itembank
Met het oog op de ontwikkeling van de toetsen Taal voor peuters en Taal voor kleuters zijn voor peuters en de jaargroepen 1 en 2 opgaven geconstrueerd. Als inspiratiebron voor de opgaven voor de nieuwe papieren toetsen LOVS Taal voor kleuters, diende een set digitale opgaven die in de periode 2006-2009 ten behoeve van de digitale toetsen Taal voor kleuters (versie 2004 met uitbreiding itembank in 2008) was geconstrueerd. Deze digitale opgaven waren reeds in een tweetal digitale proefafnames (januari-februari 2007 en januari-februari 2008) op hun kwaliteit onderzocht. In 2009 zijn data verzameld om de itemparameters van de nieuw ontwikkelde opgaven (alle op papier) vast te stellen. In de eerste periode van het onderzoek waren er afnamen in januari-februari, terwijl de tweede afnameperiode in mei-juni plaatsvond. De eerste periode komt overeen met het ‘Medio’ moment van de normering, de tweede periode met het ‘Einde’ moment. In de eerste periode zijn tien verschillende ‘boekjes’ (sets van opgaven die door een groep leerlingen gemaakt worden) afgenomen bij drie verschillende onderscheiden normgroepen: peuters van 3 jaar (P) die een kinderdagverblijf of peuterspeelzaal bezoeken, kleuters in groep 1 van het basisonderwijs (G1) en kleuters in groep 2 van het basisonderwijs (G2). Met behulp van de tien taken (’boekjes’, sets van opgaven) zijn gegevens verzameld over 232 opgaven. Iedere opgave zat minstens in twee verschillende taken: er was sprake van een “geankerd design”. In tabel 4.1 is een overzicht opgenomen van de verschillende boekjes, het aantal beoogde leerlingen en het werkelijke aantal leerlingen per boekje. Tabel 4.2 geeft het onderzoeksdesign van deze eerste periode van het onderzoek weer.
Tabel 4.1
Boekje
Beoogde en werkelijke aantal leerlingen per boekje in januari-februari 2009 (Medio) Groep jan.-feb. (Medio)
Taak
Aantal leerlingen Beoogd
Werkelijk
1
Peuters
111
200
231
2
Peuters
121
200
171
3
Peuters
131
200
203
Peuters
Totaal
600
605
4
Groep 1
211
200
235
5
Groep 1
221
200
284
6
Groep 1
231
200
222
Groep 1
Totaal
600
741
7
Groep 2
311
200
260
8
Groep 2
321
200
244
9
Groep 2
331
200
244
10
Groep 2
341
200
273
Groep 2
Totaal
800
1021
Merk op dat de beoogde aantallen voor de drie verschillende groepen in werkelijkheid gehaald zijn. Slechts één taak is door iets minder leerlingen gemaakt, maar door het geankerde design zijn er per opgave voldoende observaties. Een deel van de opgaven werd geschikt geacht voor meer dan één populatie. Zo waren er opgaven die zowel door peuters als door kleuters in groep 1 gemaakt zijn en opgaven die door de beide kleutergroepen gemaakt zijn.
38
Tabel 4.2
Design eerste afnameperiode Opgaven voor verschillende populaties
Populaties
P
P / G1
G1
G1 / G2
G2
Peuters (P Medio) Groep 1 (G1 Medio) Groep 2 (G2 Medio)
Met behulp van dit eerste deel van het onderzoek werd ten eerste de kwaliteit en de moeilijkheid van de papieren opgaven bepaald. Op basis daarvan is ook het tweede deel van het onderzoek opgezet, dat plaatsvond in de periode mei-juni 2009. In deel 2 van het onderzoek zijn er per groep (peuters, groep 1 en groep 2) twee toetsboekjes afgenomen. Ieder toetsboekje bestond uit twee taken (zie tabel 4.3). In Tabel 4.3 is ook te zien dat het werkelijke aantal deelnemers in alle gevallen ruimschoots het aantal beoogde leerlingen overtrof.
Tabel 4.3
Beoogde en werkelijke aantal leerlingen per boekje in mei-juni 2009 (Eind) Groep mei-juni (Einde)
Boekje
Aantal leerlingen
Taak
Beoogd
Werkelijk
1
Peuters
141-142
300
431
2
Peuters
151-152
200
355
Peuters
Totaal
500
786
3
Groep 1
241-242
300
463
4
Groep 1
251-252
200
405
Groep 1
Totaal
500
868
5
Groep 2
351-352
300
547
6
Groep 2
361-362
200
556
Groep 2
Totaal
500
1103
Tijdens deel 2 van het onderzoek zijn de beste 152 opgaven van het onderzoek van januari-februari 2009 aangevuld met 48 nieuwe opgaven en ondergebracht in verschillende taken (zie tabel 4.4.). Ook hier komen opgaven in meer dan één taak voor. In de opzet is er zorg voor gedragen dat geen enkele leerling een opgave binnen een afnamemoment twee keer voorgelegd krijgt. De onderzoeksopzet (het gebruikte design) zorgt ervoor dat het mogelijk is de vaardigheid van leerlingen uit de zes normgroepen met elkaar te vergelijken. Tabel 4.4
Design tweede afnameperiode Opgaven voor verschillende populaties
Populaties P
P / G1
G1
G1 / G2
P Medio P Einde G1 Medio G1 Einde G2 Medio G2 Einde
39
G2
Dankzij dit verbonden design was het mogelijk om met CML-schattingsmethoden alle itemparameters op één schaal te brengen. Dat levert een itembank op waarin gegevens staan van 280 opgaven: 80 die alleen in de eerste periode zijn afgenomen, 48 die alleen in de tweede periode zijn afgenomen en 152 die in beide perioden zijn afgenomen. In een onvolledig heeft niet iedere leerling alle opgaven gemaakt. Dit zijn ontbrekende waarnemingen “by design”. Zoals al aangegeven zijn deze data door middel van IRT zeer goed te analyseren. Het is ook mogelijk dat er onbedoeld opgaven ontbreken. Een groep kan door omstandigheden bijvoorbeeld maar één taak gemaakt hebben in plaats van twee. Dit kwam in deel 2 van het onderzoek voor. Hier kan in het design van de IRT-analyses rekening mee worden gehouden. De niet gemaakte taak wordt dan buiten beschouwing gelaten. De overige ontbrekende waarnemingen (gemiddeld 1% per afname) konden geïnterpreteerd worden als het fout beantwoorden van de vraag, zoals dat ook bij het scoren van de uiteindelijke toets het geval is. Om een kwalitatief goede itembank te krijgen, is gelet op de modelpassing. Naast passingsmaten en -toetsen binnen OPLM, is ook onderzoek gedaan naar itembias6 (Differential Item Functioning). We hebben daarbij op drie verschillende niveaus gekeken of er sprake was itembias. Ten eerste tussen de zes verschillende normgroepen, ten tweede tussen leerlingen met al dan niet Nederlands als thuistaal en ten derde tussen jongens en meisjes. Opgaven met ernstige vormen van ‘misfit’ of itembias zijn uit de itembank verwijderd. Het betrof 12 opgaven waardoor er 268 opgaven overbleven in de itembank. Het slagen van de kalibratie betekent dat we met een selectie van items uit de bank de vaardigheid van een leerling kunnen meten.
Tabel 4.5
Aantal opgaven en observaties per opgave in de bank en de toetsen
Groep 1 en 2
bank
toetsen
Aantal opgaven
268
108
Gemiddeld aantal observaties per opgave
991
1269
Minimum aantal observaties per opgave
355
405
Maximum aantal observaties per opgave
3065
3065
In de itembank zitten gegevens van de 5124 afnamen. Het aantal observaties per opgave varieert van 355 tot en met 3065, met een gemiddelde van 991 (zie tabel 4.5). Voor een model dat een hybride is tussen een 1- en een 2-parameter model is de omvang van de steekproef voldoende. Merk ook op dat bij de uiteindelijk geselecteerde opgaven het minimum aantal observaties altijd boven de 400 ligt, met een gemiddelde van 1269 observaties. De omvang van de steekproef en het aantal observaties per item zijn daarmee goed (COTAN-richtlijn bij een 2-parametermodel: N > 400). Bij de evaluatie van de itemparameters wordt door de COTAN de maat c gesuggereerd (Evers, Lucassen, Meijer & Sijtsma, 2010; p40). Deze c (een maat voor de beoordeling van de nauwkeurigheid van de schattingen) is hierin als volgt gedefinieerd: c = se(bi) / sd(), waarbij se(bi) de standaardfout van de schatting van de moeilijkheidsparameters is (de enige parameter die geschat wordt in het OPLM) en sd() de standaarddeviatie van de kalibratiepopulatie betreft. Merk op dat in
6
Er is sprake van itembias als verschillen in prestaties op een item of opgave veroorzaakt worden door kenmerken van de opgave die niet relevant zijn voor wat de opgave beoogt te meten. Itembias impliceert dat de opgave niet dezelfde vaardigheid bij de onderscheiden groepen leerlingen meet (Bügel en Sanders, 1998).
40
ons geval de kalibratiepopulatie de verzameling van normpopulaties is. Bij deze itembank zijn de volgende resultaten gevonden:
c
gemiddeld 0,076
minimaal 0,037
maximaal 0,271
De nauwkeurigheid van de geschatte parameters is goed te noemen, aangezien het gemiddelde onder 0,10 ligt (zie Evers, et.al., 2010; p40) en nergens de waarde van c groter is dan 0,30. In paragraaf 4.3 over de normering van de uiteindelijke toetsen, volgt meer over de eigenschappen van de items. Over de representativiteit van de steekproef is hier niet gesproken aangezien voor de kalibratie van een itembank dat geen noodzakelijk voorwaarde is. Wat daarbij wel van belang is, is dat de spreiding redelijk is, maar doordat de parameterschattingen binnen de IRT populatieonafhankelijk zijn (zie paragraaf 2.4.2.2) is representativiteit hier niet van belang.
4.2
Representativiteit: het schatten van de vaardigheidsverdeling van de normpopulaties
In het nu volgende gaan we eerst nader in op het steekproefplan. Daarna geven we aan hoeveel leerlingen op de verschillende tijdstippen tijdens het normeringsonderzoek gevolgd zijn. Steekproefplan Voor het normeringsonderzoek van de toets Taal voor kleuters was het streven om 750 leerlingen uit groep 1 en 1000 leerlingen uit groep 2 mee te nemen in het onderzoek. Dit zijn meer kinderen dan er in feite nodig zijn voor de normering van dit type toets (toets voor minder belangrijke beslissingen op individueel niveau). We gingen er namelijk vanuit dat een deel van de kinderen en locaties tijdens het onderzoek zou afvallen vanwege verhuizing, ziekte, afmelding voor onderzoek, et cetera. Ons streven was om 400 observaties per item te verzamelen. Elk item kwam in (minimaal) 2 boekjes voor. Dat betekent dat we per boekje minimaal 200 leerlingen nodig hadden. Voor groep 1 hebben we op het Medio-moment 3 boekjes onderzocht. In groep 2 werden op dat meetmoment 4 boekjes onderzocht. Daarmee kwamen de benodigde aantallen leerlingen op 600 voor groep 1 en 800 voor groep 2. Om door tussentijdse uitval van leerlingen (om redenen zoals hierboven geschetst) uiteindelijk niet te weinig observaties per item over te houden, hebben we per boekje (minimaal) 50 leerlingen extra ingepland, waardoor we op de eerder genoemde 750 leerlingen uit groep 1 en 1000 leerlingen uit groep 2 terecht kwamen. In groep 2 hebben we meer leerlingen meegenomen dan in groep 1, omdat we in groep 2 meer items en daardoor een boekje extra (op het Medio-moment) te onderzoeken hadden. De genoemde aantallen leerlingen per groep hebben we vertaald naar het benodigde aantal scholen om zo de grootte van de steekproef te kunnen bepalen. Randvoorwaarde voor deelname aan het onderzoek was dat scholen met zowel een groep 1 als een groep 2 aan het onderzoek zouden meedoen. Als we ervan uitgaan dat in een groep gemiddeld 20 leerlingen zitten, dan moesten we ons onderzoek starten met 50 scholen om aan de vereiste aantallen leerlingen te komen (1000 in groep 2 en 750 in groep 1). Aan het einde van de rit zouden er dan minimaal 40 scholen over moeten blijven om aan de minimaal benodigde aantallen leerlingen te komen (600 in groep 1 en 800 in groep 2). Om er zeker van te zijn dat we voldoende aanmeldingen voor het onderzoek zouden krijgen, hebben we een steekproef getrokken die een factor 4 groter was dan het aantal scholen waarmee we het onderzoek wilden starten. Als uitgangspunt voor steekproeftrekking hebben we een lijst met alle basisscholen in Nederland gebruikt. Uit deze lijst hebben we een steekproef van 200 scholen getrokken (4x50). Bij de selectie van deze scholen zijn we uitgegaan van de landelijke verhouding wat betreft ‘stratum schoolgroep’ (percentage achterstandsleerlingen op school) en ‘regio’ om zo te streven naar een qua regio en achterstand representatieve steekproef.
41
We hebben deze 200 scholen aangeschreven met het verzoek om met zowel een groep 1 als een groep 2 deel te nemen aan de beide delen van het onderzoek (januari-februari én mei-juni 2009). Uiteindelijk hebben 81 scholen zich aangemeld voor het onderzoek. Van de overige scholen heeft een klein aantal aangegeven niet mee te kunnen doen om uiteenlopende redenen zoals, geen interesse, drukte door andere activiteiten, et cetera. Het grootste deel van de overige scholen heeft niet gereageerd op ons verzoek. De respons was groter dan verwacht. Daarnaast bleek onze aanname dat er gemiddeld 20 leerlingen in een groep zaten onjuist te zijn. Het waren er beduidend meer waardoor we met minder dan 50 scholen toe konden om aan het vereiste aantal leerlingen te komen. Vanwege de grotere respons en het grotere aantal leerlingen per groep hebben we zelfs een aantal scholen (36 stuks) moeten afbellen. Hierbij hebben we er zorg voor gedragen dat bij de overgebleven scholen zo veel mogelijk de landelijke spreiding gedekt werd. Waar dat minder het geval was, is dit opgelost door weging (zie verderop in dit hoofdstuk). Op de deelnemende locaties werd zowel in het eerste deel als in het tweede deel van het onderzoek de toets afgenomen bij alle toetsbare leerlingen uit groep 1 en 2. De toets werd in het onderzoek door de eigen leerkracht van de leerlingen afgenomen, net zoals dat in het gebruik van deze toets de bedoeling is (zie ook hoofdstuk 3). De uiteindelijke steekproef voor de kalibratie van de papieren opgavenbank bevatte 44 basisscholen en 51 peuterspeelzalen/kinderdagverblijven (23 kinderdagverblijven en 28 peuterspeelzalen). Voor de normering van de (papieren én digitale) kleutertoetsen zijn alleen de observaties gebruikt die gedaan zijn bij leerlingen in het basisonderwijs. Voor het maken van de vaardigheidsschaal – die de ontwikkeling van de algemene taalvaardigheid representeert van 3-jarige peuters tot en met kinderen in groep 2 – zijn zowel de gegevens van de kinderdagverblijven en peuterspeelzalen als de gegevens van de basisscholen gebruikt. Bij elkaar gaat het dan dus om 95 instellingen. Alle toetsen kunnen op twee momenten in de tijd afgenomen worden: op het ‘Medio’ moment (januarifebruari) en op het ‘Einde’ moment (mei-juni). Daar is in de steekproef die voor de kalibratie gebruikt is rekening mee gehouden. Een groot aantal leerlingen zat zowel op het ‘Medio’ moment als op het ‘Einde’ moment in de steekproef (zie tabel 4.6).
Tabel 4.6
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip P Medio
P Medio
605
P Einde
341
P Einde
M1
E1
741
E1
710
868
M2
1021
E2
Normering mei-juni 2009
E2
786
M1
Normering jan-feb 2009
M2
605
7
1001
741
1021
786
868
1103
1103
Merk op dat in de diagonaal van Tabel 4.6 het aantal leerlingen staat dat binnen een bepaalde normgroep een toets gemaakt heeft. Op de buitendiagonaal staat het aantal leerlingen dat twee toetsen gemaakt heeft. De getallen in de buitendiagonaal kunnen zodoende nooit groter zijn dan het getal op de diagonaal. De meest opmerkelijke buitendiagonaal is die van “M1” met “E2”. Dit getal betreft leerlingen die op het ‘Medio’ moment nog als groep 1 leerlingen gezien werden, maar in de loop van het jaar dusdanig vooruitgang hebben geboekt dat zij tot groep 2 bevorderd werden. Het aantal unieke leerlingen is 3065. Daarvan hebben er 1006 één toets gemaakt en 2059 twee toetsen.
42
Nadat een itembank is gemaakt, is het mogelijk een schatting te maken van de verdeling van de populaties op de met de itembank gemeten vaardigheidsschaal (de algemene taalvaardigheidsschaal). Nu is wel een representatieve steekproef noodzakelijk, omdat populatieschattingen juist niet populatieonafhankelijk zijn. De populatieschattingen zijn overigens wel itemonafhankelijk, waardoor het geen probleem is dat de leerlingen niet allemaal dezelfde opgaven hebben gemaakt. In de beschrijving van de populaties beperken we ons tot de vier normgroepen voor de kleuters omdat dit verslag ook alleen de kleutertoetsen betreft. In de wetenschappelijke verantwoording van de toets Taal voor peuters zal verder ingegaan worden op de verdelingen van de vaardigheid binnen de peuterpopulatie. Het normeringsonderzoek levert gegevens over de landelijke verdeling van de vaardigheid van de leerlingen op de verschillende afnamemomenten. Tijdens dit onderzoek zijn de leerlingen op zo veel mogelijk tijdstippen getoetst om in een landelijke normgroep referentiegegevens voor de verschillende afnamemomenten te kunnen verzamelen en om op basis daarvan de ontwikkeling van de taalvaardigheid in kaart te brengen. Vanwege de korte ontwikkeltijd was het niet mogelijk dezelfde leerlingen te volgen tijdens hun gehele schooltijd. De normeringsgroepen komen uit één steekproef voor de normering van M1, E1, M2 en E2. In het bovenste gedeelte van tabel 4.6 staat hoe de leerlingen verdeeld waren op de verschillende tijdstippen en hoeveel leerlingen ook op een later normeringstijdstip deelnamen. In het tweede gedeelte staat het aantal leerlingen per afname. Dit geeft een beter beeld van de aantallen waarop de normering is gebaseerd. Bij de normering van de toets maken we gebruik van cross-sectioneel normeringsonderzoek. Hierbij maken we geen gebruik van een groeimodel. De normgroep is gedefinieerd door de groep waarin de leerling zit en het moment waarop de leerling de toets afneemt. Dit levert de vier normgroepen op: medio groep 1, eind groep 1, medio groep 2 en eind groep 2. Binnen ons onderzoek kunnen we gebruikmaken van een deel van de gegevens die we ook gebruikt hebben bij het maken van de itembank. We hebben echter niet alle leerlingen daarbij meegenomen. Ten eerste zijn uiteraard de gegevens van de peuters buiten beschouwing gelaten, omdat deze voor de verdeling van de normgroepen van de kleuters geen informatie bevatten. Dit scheelt 1391 afnamegegevens. Ten tweede is een subsample uit onze steekproef van leerlingen getrokken uit de groep ‘matig tot niet stedelijke gebieden’ en uit de provincies Noord-Brabant en Limburg. De combinatie van Regio (Zuid) en Urbanisatiegraad (Landelijk) was in de steekproef namelijk oververtegenwoordigd, zo bleek uit gegevens van het cfi (Centrale Financiën Instellingen - een uitvoeringsorganisatie van het Ministerie van Onderwijs, Cultuur en Wetenschappen). Van deze oververtegenwoordiging was sprake op alle meetmomenten. Ook is er een subsample uit onze steekproef genomen van leerlingen uit ‘landelijke gebieden uit het Noorden’ (provincies Groningen, Friesland en Drenthe), aangezien deze ook – zij het in minder mate – oververtegenwoordigd waren bij de ‘Medio’ peiling in groep 1. Na deze steekproeftrekkingen bleven er 3126 afnamegegevens over voor de normering van de toetsen Taal voor kleuters.
Tabel 4.7
Aantal leerlingen per tijdstip dat wel/niet gebruikt is voor de normering
Normgroep
aantal leerlingen Niet gebruikt
In normering
Peuters Medio
786
0
Peuters Einde
605
0
Groep 1 Medio
200
541
Groep 1 Einde
151
717
Groep 2 Medio
128
893
Groep 2 Einde
141
975
43
Voor iedere normgroep van de toetsen Taal voor kleuters is het aantal leerlingen per normgroep goed te noemen voor wat betreft de grootte voor normgerichte interpretatie. De representativiteit van de normeringssteekproef is geëvalueerd met betrekking tot de variabelen leeftijd, sekse, regio, urbanisatiegraad en leerlinggewicht, waarbij de populatiegegevens afkomstig zijn van het cfi en het CBS. Doordat de gegevens over thuistaal bij minder dan 40% van de leerlingen was ingevuld, konden we deze variabele helaas niet direct betrekken bij het evalueren van de steekproef. Indirect kunnen we de gegevens van de 1215 leerlingen waarvan we de thuistaal wel kennen, wel gebruiken bij de evaluatie van het leerlinggewicht. Representativiteit naar leeftijd Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief vertegenwoordigd zijn. In de gegevens van het cfi staat hoe de verdeling van de 4- en 5-jarigen is op het peilmoment 1 oktober op de basisscholen in Nederland (per school). Daarbij wordt niet gespecificeerd hoe deze kinderen over de groepen 1 en 2 verdeeld zijn. In het geval van de kleuters kunnen we er gevoeglijk van uitgaan dat op de peildatum de leerlingen van 4 jaar in groep 1 zitten, en de leerlingen van 5 jaar in groep 2, aangezien er in deze groepen nog niet vaak sprake is van vertraagde leerlingen. De exacte gemiddelde leeftijd in de populatie op de vier meetmomenten is niet bekend, maar gegeven de manier van steekproef trekken, is het aannemelijk dat de verdeling naar leeftijd in de steekproef overeenkomt met de verdeling in de populatie. In tabel 4.8 is het gemiddelde gegeven van de leerlingen voor ieder van de vier normgroepen.
Tabel 4.8
Gemiddelde leeftijd van de leerlingen per tijdstip Gemiddelde leeftijd bij afname in maanden
Normgroep M1 (januari / februari)
56,1
E1 (mei / juni)
59,5
M2 (januari / februari)
68,2
E2 (mei / juni)
71,6
Representativiteit naar sekse Voor de normering is het van belang dat zowel jongens als meisjes representatief vertegenwoordig zijn. Bij het bekijken van de verdeling naar sekse hebben we gebruikgemaakt van de gegevens van het CBS. Daarbij hebben we de volgende resultaten gevonden (zie tabel 4.9).
Tabel 4.9
Verdeling naar sekse: percentage jongens en meisjes per tijdstip
Percentage
Populatie
Sekse
Steekproef per Normgroep
4-5 jarigen
M1
E1
M2
E2
Jongens
51,3
51,7
51,7
51,7
51,6
Meisjes
48,7
48,3
48,3
48,3
48,4
Het is duidelijk dat onze steekproeven de populatie zeer aardig benaderen. Representativiteit naar geografische verdeling De verdeling van alle scholen en de scholen in de normeringssteekproef naar regio staat in tabel 4.10. Regio Noord bevat de provincies Groningen, Friesland en Drenthe, regio Oost de provincies Overijssel, Gelderland, Flevoland, regio West de provincies Utrecht, Noord- en Zuid-Holland en Zeeland en de regio
44
Zuid bestaat uit Noord-Brabant en Limburg. Ook hier hebben we de gegevens van het cfi gebruikt. Kijken we naar de verdeling van de leerlingen in de steekproef over de verschillende regio’s dan zien we dat in dit geval de steekproef de populatie minder goed benadert dan bij ‘leeftijd’ en ‘sekse’ het geval was, ondanks het nemen van een subsample uit de originele steekproef.
Tabel 4.10
Verdeling naar regio: percentage leerlingen per regio per tijdstip
Percentage
Populatie
Regio
4-5 jarigen
Steekproef per Normgroep M1
E1
M2
E2
Noord
10,2
6,8
18,4
19,6
18,4
Oost
22,8
29,4
22,9
17,6
16,7
West
47,1
37,3
38,5
38,5
40,2
Zuid
19,9
26,4
20,2
24,3
24,7
Hoewel de verdeling van de steekproef in de normgroepen niet gelijk is aan die in de populatie, is er in geen van de gevallen sprake van een ondervertegenwoordiging van een factor 2. Dat maakt het mogelijk om door middel van gewichten de schattingen van de steekproef gelijk aan de verdeling van de populatie te krijgen. Deze werkwijze wordt nader toegelicht onder het kopje ‘Toegepaste wegingsprocedure’. Representativiteit naar verstedelijking De verdeling van alle scholen en de scholen in de normeringssteekproef naar verstedelijking staat in tabel 4.11. Wederom hebben we de gegevens van het cfi geraadpleegd. Kijken we naar de verdeling van de leerlingen in de steekproef over de twee ‘categorieën’ van Urbanisatiegraad dan zien we dat ook in dit geval de steekproef de populatie minder goed benadert dan bij ‘leeftijd’ en ‘sekse’ het geval was, ondanks het nemen van een subsample uit de originele steekproef.
Tabel 4.11
Percentage scholen naar verstedelijking
Percentage
Populatie
Urbanisatiegraad
4-5 jarigen
M1
Steekproef per Normgroep E1
M2
E2
Zeer sterk en sterk stedelijk
44,0
25,0
27,5
34,0
36,5
Matig, weinig en niet stedelijk
56,0
75,0
72,5
66,0
63,5
Hoewel de verdeling van de steekproef in de normgroepen niet gelijk is aan die in de populatie, is ook hier in geen van de gevallen sprake van een ondervertegenwoordiging van een factor 2. Daardoor kunnen we net als bij regio door middel van gewichten de schattingen van de steekproef gelijk krijgen aan de verdeling van de populatie. Een nadere toelichting volgt onder het kopje ‘Toegepaste wegingsprocedure’. Representativiteit naar achterstandsleerlingen (sociaaleconomische status) Ten slotte kijken we naar de verdeling naar leerlinggewicht. Het leerlinggewicht geeft aan of een leerling extra hulp nodig heeft en wordt gebruikt om achterstandsleerlingen op scholen te identificeren. Daarbij wordt uitgegaan van het door de ouders bereikte onderwijsniveau.
45
In de nieuwe gewichtenregeling worden drie typen ouders onderscheiden (zie ‘Brochure nieuwe gewichtenregeling basisonderwijs’, april 2008, van het cfi – zie ook www.cfi.nl). Vereenvoudigd weergegeven ziet dat er als volgt uit: Categorie 1: de ouder heeft maximaal (speciaal) basisonderwijs gehad. Categorie 2: de ouder heeft maximaal lbo/vbo, praktijkonderwijs, vmbo basis- of kaderberoepsgerichte leerweg gedaan, of de ouder heeft maximaal twee leerjaren van een andere opleiding in het VO gedaan. Categorie 3: de ouder heeft meer dan twee jaar mavo, havo, vwo, dan wel vmbo gemengde of theoretische leerweg gevolgd. Op basis van het onderwijs dat hun ouders hebben genoten, worden de gewichten van de kinderen bepaald. Deze gewichten zijn: Gewicht
Uitleg
0.00
(geen gewicht) voor leerlingen met (minstens) één ouder uit categorie 3
0.30
voor leerlingen die niet gewicht 0.00 hebben en niet gewicht 1.20 hebben
1.20
Voor leerlingen die geen ouder hebben in categorie 3 en (minstens) één ouder uit categorie 1
Bij het invullen van de gewichten wordt in de meeste gevallen geen getal ingevuld, aangezien een gewicht gelijk aan 0.00 gezien wordt als geen gewicht. Als er vanuit gegaan wordt dat bij iedere ontbrekende waarneming in de data een leerlinggewicht 0.00 verondersteld kan worden, dan is de verdeling naar leerlinggewicht in de steekproef zoals beschreven in tabel 4.12:
Tabel 4.12
Verdeling naar leerlinggewicht: percentage leerlingen per gewicht per tijdstip
Percentage
Populatie
Leerlinggewicht
4-5 jarigen
M1
E1
M2
E2
87,6 7,0 5,4
88,4 7,0 4,6
90,8 5,7 3,5
90,8 5,6 3,6
91,2 5,0 3,8
0.00 0.30 1.20
Steekproef per Normgroep
De populatieverdeling is gebaseerd op de gegevens over de 385.881 leerlingen van 4 en 5 jaar in het cfibestand. Het is duidelijk dat volgens deze evaluatie in onze steekproef te veel niet-achterstandleerlingen zouden zitten, en te weinig leerlingen met een ander gewicht dan 0.00. Echter, hier moet opgemerkt worden dat de percentages van de leerlingen met leerlinggewicht 0.00 overschattingen zijn, aangezien hier bij alle leerlingen in de data waarbij het leerlinggewicht ontbrak, het leerlinggewicht 0.00 werd verondersteld. Het is waarschijnlijk dat tussen deze groep leerlingen ook leerlingen zitten met andere gewichten. Hierbij konden we gebruikmaken van de gegevens van de 1215 leerlingen waar we wel de thuistaal van kennen. Bij deze leerlingen is gekeken naar de relatie leerlingegewicht en thuistaal: deze twee variabelen blijken in de praktijk namelijk vaak samen te hangen. Hoewel in vergelijking met de oude leerlinggewichten bij de nieuwe definities van de leerlinggewichten de herkomst van de ouders geen rol meer speelt, zien we in de praktijk die relatie nog wel. Relatief veel achterstandsleerlingen hebben namelijk ouders van niet-Nederlandse herkomst, waardoor ze thuis vaak een andere taal spreken dan het Nederlands. Door nu te kijken naar de verdeling van de thuistaal over de verschillende leerlinggewichten is het mogelijk een inschatting te maken van de opdeling van de onbekende leerlinggewichten. Daaruit valt inderdaad op te maken dat niet 100% van de ontbrekende waarden gelijk aan gewicht 0.00 zou moeten zijn, maar dat dit percentage tussen de 90% en de 100% zou moeten liggen. Als we inschatten dat 96% van de ontbrekende waarnemingen inderdaad gewicht 0.00 is en de overige 4% verdeeld wordt over de twee andere categorieën, dan wordt de volgende verdeling gevonden (zie tabel 4.13).
46
Doordat we itemparameters kennen en een schatting hebben van de verdelingen van de vaardigheid in welomschreven populaties, kunnen we de eigenschappen van de toetsen en de opgaven schatten voor deze populaties. We kunnen ook op basis van de scores op de toetsen de vaardigheid van de leerling bepalen. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie, die van belang zijn voor de indeling van leerlingen in de niveaugroepen, die zijn beschreven in paragraaf 2.3. Hoe nauwkeurig de meting van de vaardigheid van de leerlingen is, staat in paragraaf 5.2. In hoofdstuk 5 zullen ook de eigenschappen van de toetsen gegeven worden. De normen zelf zijn gegeven in tabel 6.3. Nu beperken we ons tot de beschrijving van de itemeigenschappen. Voor de normgroepen van de toets voor groep 1 en voor de normgroepen van de toets voor groep 2 zijn in tabel 4.15 het gemiddelde en de mediaan gegeven van de p-waarden, de Rit-waarden en de Rir-waarden. Het is duidelijk dat het gemiddelde en de mediaan van de p-waarden aan de hoge kant liggen. De opgaven zijn doorgaans gemakkelijk voor de leerlingen. Dat is niet zonder reden gedaan: over het algemeen wordt het als demotiverend gezien als kandidaten veel opgaven krijgen die aan de moeilijke kant zijn, en dat geldt zeker voor kleuters. Het zou hen bij de toetsafname kunnen frustreren. Bij de Rit- en de Rir-waarden valt op dat het gemiddelde en de mediaan ruimschoots boven de 0,30 liggen. Dat duidt op goed onderscheidende opgaven (voor de interpretatie van de hoogte van de Rit-waarden, zie Evers, et.al, 2010; p40; voor de interpretatie van de hoogte van de Rir-waarden zijn geen COTAN normen beschikbaar). De minimum en de maximum gevonden waarden van deze itemeigenschappen worden ook gegeven. Hierbij valt op dat er een minimumwaarde van onder 0,20 gevonden wordt bij de Rit, maar dit betreft slechts een opgave (zie tabel 4.16b). Dat dit een uitzondering betreft, blijkt ook uit de waarde van de P10. Die waarden zijn voor de Rit en ook zelfs ook de Rir altijd boven de 0,20. Dat houdt in dat voor 90% van de opgaven de waarden boven de 0,20 ligt. Voor de gehele verdeling van de Rit- en de Rir-waarden over de toetsen voor de normgroepen wordt verwezen naar tabel 4.16b en c. In tabel 4.16a wordt de verdeling van de p-waarden gegeven.
Tabel 4.15
Itemeigenschappen per toets per normeringsmoment
Toets Groep 1
Normgroep (afnamemoment) M1
Aantal opgaven
E1
P
Rit
Rir
P
Rit
Rir
Gemiddelde Mediaan
0,73 0,74
0,38 0,39
0,33 0,35
0,81 0,82
0,35 0,35
0,30 0,30
Minimum Maximum
0,43 0,90
0,16 0,53
0,11 0,49
0,56 0,95
0,16 0,48
0,10 0,44
P10 P90
0,59 0,83
0,30 0,48
0,25 0,44
0,66 0,90
0,28 0,44
0,22 0,39
48
Toets Groep 2
Normgroep (afnamemoment) M2
Aantal opgaven
E2
P
Rit
Rir
P
Rit
Rir
Gemiddelde Mediaan
0,77 0,80
0,36 0,37
0,32 0,33
0,83 0,86
0,34 0,34
0,30 0,30
Minimum Maximum
0,49 0,91
0,26 0,52
0,22 0,48
0,56 0,94
0,26 0,49
0,21 0,45
P10 P90
0,61 0,87
0,28 0,46
0,24 0,42
0,69 0,92
0,27 0,43
0,23 0,39
60
48
Tabel 4.16a Verdeling P-waarden per toets per normeringsmoment Toets
Aantal opgaven
Toets Groep 1
Toets Groep 2
Verdeling P-waarden
Normgroep
‘van …’
-
‘tot en met …’
M1
E1
M2
E2
0,00
-
0,40
0
0
0
0
0
0,40
-
0,50
1
0
1
0
2
0,50
-
0,60
4
1
4
1
10
0,60
-
0,70
9
4
9
5
27
0,70
-
0,80
22
14
16
11
63
0,80
-
0,90
12
22
29
27
90
-
1,00
0,90
Totaal
Totaal
0
7
1
16
24
48
48
60
60
216
Tabel 4.16b Verdeling Rit-waarden per toets per normeringsmoment Toets
Aantal opgaven
Toets Groep 1
Toets Groep 2
Verdeling Rit-waarden
Normgroep
‘van …’
-
‘tot en met …’
M1
E1
M2
E2
0,00
-
0,10
0
0
0
0
Totaal 0
0,10
-
0,20
1
1
0
0
2
0,20
-
0,30
3
10
16
16
45
0,30
-
0,40
22
25
26
34
107
0,40
-
0,50
21
12
17
10
60
0,50
-
0,60
1
0
1
0
2
0,60
-
1,00
0
0
0
0
0
48
48
60
60
216
Totaal
Tabel 4.16c Verdeling Rir-waarden per toets per normeringsmoment Toets
Aantal opgaven
Toets Groep 1
Toets Groep 2
Verdeling Rir-waarden
Normgroep
‘van …’
-
‘tot en met …’
M1
E1
M2
E2
0,00
-
0,10
0
0
0
0
0
0,10
-
0,20
2
3
0
0
5
0,20
-
0,30
13
21
24
30
88
0,30
-
0,40
23
21
26
26
96
0,40
-
0,50
10
3
10
4
27
0,50
-
1,00
0
0
0
0
0
48
48
60
60
216
Totaal
49
Totaal
Tabel 4.16b blijkt dat slechts 1 opgave in de Toets voor groep 1 een Rit-waarde onder de 0,20 heeft (in beide normgroepen van de Toets voor Groep 1). De Rit-waarden van de overige 105 opgaven in de twee toetsen liggen boven de 0,20. Voor alle normgroepen in de beide toetsen geldt dat voor 70% van de opgaven de Rit-waarde boven de 0,30 ligt. Voor de normgroep K1 Medio geldt dat zelfs voor meer dan 90% van de opgaven.
50
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Taal voor kleuters opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPLAT (Verstralen, 1997). In OPLAT wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we aan met τ(θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de ander berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we met een eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. De variantie van de geobserveerde toetsscore duiden we aan met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores gaan berekenen.
Var(t) = E[Var(t | ( ))]
(5.1)
Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan
MAcc =
Var( ) Var( ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de toetsen Taal voor kleuters voor groep 1 en 2. In de eerste kolom staat de Toets. In de tweede kolom staan de afnamemomenten. Daarna volgen de minimumscores en de maximumscores. De minimum score is voor iedere toets gelijk aan 0. De maximumscore is voor iedere toets gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. De tabel betreft namelijk de ruwe ongewogen scores, waarbij ieder goed antwoord 1 punt oplevert. De vijfde kolom geeft de geschatte gemiddelde scores van de leerlingen op de toetsen op de verschillende afnamemomenten. De zesde kolom betreft de geschatte standaarddeviatie van de scores van iedere normgroep. De zevende kolom bevat per normgroep informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de verschillende toetsen is.
51
De betrouwbaarheidscoëfficiënten liggen alle boven de 0,80. Aangezien de toetsen Taal voor kleuters bedoeld zijn voor voortgangscontrole (algemeen gebruik; geen zware consequenties verbonden aan de scores) zijn de gevonden betrouwbaarheden goed te noemen (Evers, et.al., 2010; p.33).
Tabel 5.1
Beschrijvende gegevens met ongewogen scores van de papieren toetsen Taal voor kleuters
Toets
Normgroep
Minimum en Maximumscore
Gemiddelde
Standaard deviatie
Standaard meetfout
Betrouwbaarheid
Groep 1 Groep 1
M1 E1
0 0
48 48
35,0 38,9
7,9 6,4
2,80 2,50
0,87 0,84
Groep 2 Groep 2
M2 E2
0 0
60 60
46,3 50,0
8,8 7,3
2,96 2,65
0,89 0,87
5.2
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid van de toetsen en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen Taal voor kleuters. De betrouwbaarheidstabel 5.2 doet dat wel. Zo laat tabel 5.2 bijvoorbeeld zien dat 72,2 procent van de leerlingen die bij de M1-toets in scoregroep E vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen. Anders gezegd: de kans dat een E-leerling terecht als een E-leerling wordt bestempeld is ongeveer 72 procent. Verder laat de tabel zien dat 26,8 procent van de leerlingen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleiding van het toetspakket (Lansink, 2009). In de schaalscoretabellen van bijlage 2 is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 68-procents-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting.
52
Tabel 5.2
Betrouwbaarheidstabellen bij de papieren versie van de toetsen Taal voor kleuters van het LOVS
Toets groep 1 - Medio moment Toets groep 1 - Medio moment Scoregroepen E tot en met A Scoregroep waarin ware score valt
E
D
Scoregroepen V tot en met I
C
B
A
Scoregroep waarin ware score valt
V
IV
III
II
I 0,0
E
72,2
8,4
0,1
0,0
0,0
V
77,3
11,0
0,3
0,0
D
26,8
56,6
10,2
0,3
0,0
IV
21,5
55,4
16,1
1,8
0,1
C
1,1
33,7
59,6
18,0
1,1
III
1,2
29,7
48,6
21,7
2,7
B
0,0
1,3
28,8
60,2
21,9
II
0,0
3,9
31,5
52,1
23,6
A
0,0
0,0
1,4
21,6
77,0
I
0,0
0,1
3,5
24,4
73,6
Toets groep 1 - Einde moment Toets groep 1 - Einde moment Scoregroepen E tot en met A Scoregroep waarin ware score valt
E
D
C
B
E
73,1
10,0
0,2
0,0
D
25,3
52,4
10,6
0,5
C
1,6
35,0
52,2
B
0,0
2,6
33,0
A
0,0
0,0
3,9
Scoregroepen V tot en met I
A
Scoregroep waarin ware score valt
V
IV
III
II
I
0,0
V
71,5
11,0
0,9
0,1
0,0
0,0
IV
25,3
49,7
18,6
3,9
0,4
16,3
1,7
III
3,0
32,1
42,9
24,0
5,3
51,9
20,5
II
0,1
6,9
31,9
47,0
27,0
31,3
77,7
I
0,0
0,3
5,7
25,1
67,3
Toets groep 2 - Medio moment Toets groep 2 - Medio moment Scoregroepen E tot en met A
Scoregroepen V tot en met I
A
Scoregroep waarin ware score valt
V
IV
III
II
I
0,0
V
78,5
11,3
0,5
0,0
0,0
0,3
0,0
IV
20,5
58,8
20,7
2,5
0,1
19,7
1,0
III
0,9
26,8
49,5
22,9
2,3
58,7
20,5
II
0,0
3,1
27,2
51,5
22,4
21,3
78,5
I
0,0
0,0
2,2
23,1
75,2
Scoregroep waarin ware score valt
E
D
C
B
E
75,7
8,3
0,1
0,0
D
23,7
59,5
11,5
C
0,6
31,3
62,9
B
0,0
0,9
24,6
A
0,0
0,0
0,9
Toets groep 2 - Einde moment Toets groep 2 - Einde moment Scoregroepen E tot en met A Scoregroep waarin ware score valt
E
D
C
B
Scoregroepen V tot en met I Scoregroep waarin ware score valt
A
V
IV
III
II
I
E
75,5
8,9
0,1
0,0
0,0
V
78,9
13,4
0,7
0,0
0,0
D
23,5
53,8
10,3
0,5
0,0
IV
19,7
54,3
17,7
2,5
0,2
C
1,0
35,3
57,1
20,4
2,3
III
1,4
27,5
42,3
19,8
4,1
B
0,0
1,9
29,8
54,4
23,7
II
0,0
4,6
32,9
47,6
24,5
A
0,0
0,0
2,7
24,6
73,9
I
0,0
0,1
6,3
30,1
71,1
53
De figuren 5.1 en 5.2 op de volgende pagina's geven nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. Dit hebben we bij de toetsconstructie ook nagestreefd. Een toets kan immers niet over het hele scorebereik dezelfde optimale nauwkeurigheid hebben. Door rekening te houden met itemkarakteristieken (moeilijkheidsgraad) is het discriminerend vermogen van de toetsen optimaal gemaakt in de scoreregionen waar dit het belangrijkste is, namelijk daar waar de zwakkere van de gemiddelde leerlingen moeten worden onderscheiden. Dit sluit goed aan bij het doel van de toetsen, namelijk het vaststellen van het niveau van taalvaardigheid en het signaleren van eventuele achterstanden. Veruit de meeste leerlingen die de toets maken, hebben een vaardigheid waarbij de toets een lage standaardmeetfout heeft.
Figuur 5.1
Grootte van de meetfouten voor de papieren toets Taal voor kleuters groep 1 en de kansdichtheidfuncties voor de M1- en E1-populatie TvK Toets Groep 1 (ongewogen scores)
45 40
standaardmeetfout 1000 X kansdichtheid
35 30 25 20 15 10 5 0 5
15
25
35
45
55
65
75
85
95
schaalscore
standaardmeetfout Toets Groep 1
kansdichtheid Groep 1 Medio
54
kansdichtheid Groep 1 Einde
Figuur 5.2
Grootte van de meetfouten voor de papieren toets Taal voor kleuters groep 2 en de kansdichtheidfuncties voor de M2- en E2-populatie TvK Toets Groep 2 (ongewogen scores) 45 40
standaardmeetfout 1000*kansdichtheid
35 30 25 20 15 10 5 0
10
30
50
70
90
schaalscore
Standaardmeetfout TvK Groep 2
Groep 2 Medio
Groep 2 Einde
55
56
6
Validiteit
De twee eisen waar de LOVS-toetsen Taal voor kleuters voor groep 1 en 2 aan moeten voldoen om valide te zijn, kunnen aangeduid worden met de termen inhoudsvaliditeit en begripsvaliditeit. De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Aangezien het beschrijven van het niveau van de vaardigheid van een leerling het doel van de toets is, en niet het voorspellen van ander gedrag is criteriumvaliditeit hier niet relevant.
6.1
Inhoudsvaliditeit
Zoals gesteld, heeft de inhoudsvaliditeit van een toets betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De inhoudsvaliditeit van de toetsen Taal voor kleuters wordt gewaarborgd door de wijze waarop de opgaven ontwikkeld zijn. In paragraaf 3.2 (‘Inhoudsverantwoording’) is al aangegeven dat aan de ontwikkeling van de opgaven het vaststellen van een domeinbeschrijving is voorafgegaan. Als domeinbeschrijving hebben we de tussendoelen Mondelinge communicatie en de tussendoelen Beginnende geletterdheid gehanteerd, waarmee de tussendoelen de basis vormden voor de itemconstructie. De toetsen zijn zodanig samengesteld dat de voor de verschillende afnamemomenten relevante subcategorieën erin vertegenwoordigd zijn. Een verdere inhoudelijke analyse van de toetsen Taal voor kleuters staat in paragraaf 3.2 van deze verantwoording (zie ook Van Kuyk, 1999).
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toetsen Taal voor kleuters beschreven.
6.2.1
Passing van het meetmodel
De opgaven Taal voor kleuters vormen na de kalibratie een gekalibreerde opgavenbank. Opgaven die niet voldeden aan de passingscriteria die we beschreven in paragraaf 2.4.2.2, werden uit de verzameling verwijderd. Het betrof opgaven waarop waarschijnlijk wordt gegokt, opgaven die niet juist geformuleerd zijn, opgaven die een slecht onderscheidend vermogen bleken te hebben, of opgaven die bij nader inzien toch niet alleen ‘algemene taalvaardigheid’ bleken te meten. Ook is er gelet op vraagonzuiverheid. Zo zijn er ook opgaven verwijderd die voor jongens en meisjes anders bleken te werken. Een voorbeeld van een opgave met vraagonzuiverheid is ‘Mama maakt een staartje in het haar van Loes. Zet een streep onder dat plaatje’. Deze opgave bevoordeelt meisjes. Naast vraagonzuiverheid voor sekse is er ook gelet op de vraagonzuiverheid voor thuistaal voor de leerlingen bij wie dat bekend was en op vraagonzuiverheid bij de verschillende normgroepen. De overgebleven opgaven in de itembank voldoen in voldoende mate aan de aannamen van het OPLMmodel. Dat is een goede waarborg voor de begripsvaliditeit van de toets, omdat er evidentie is voor de aanname dat één en dezelfde vaardigheid ten grondslag ligt aan de responsen op de opgaven in de toets (Embretson, 1983).
57
Bij de opgaven die uiteindelijk in de toetsen zijn opgenomen, is extra goed gelet op de passing in het OPLM model. Vooral de opgaven met een goed onderscheidend vermogen zijn hier geselecteerd, waarbij ondertussen in ogenschouw werd genomen dat de inhoudelijke dekking gewaarborgd is. Dit garandeert dat deze opgaven alle in zeer grote mate eenzelfde onderliggende vaardigheid meten, ondanks dat de opgaven betrekking hebben op verschillende categorieën (zie voor een verdeling van de opgaven over de categorieën hoofdstuk 3). De verschillende opgaven en opgaventypen doen dus een beroep op hetzelfde complex aan vaardigheden. De geslaagde kalibratie maakt duidelijk dat het aannemelijk is dat er sprake is van unidimensionaliteit en dat deze gekalibreerde opgavenbank de latente trek meet. Dat we deze latente trek ‘algemene taalvaardigheid’ betreft, wordt aannemelijk gemaakt onder 6.2.2.
6.2.2
Equivalentie met eerdere toetsen en interne structuur
Met het oog op de validering van de opgavenbank Taal voor kleuters zijn ten behoeve van de verantwoording van de toetsen uit het pakket Taal voor kleuters (Van Kuyk, 1996) al eerder studies uitgevoerd en gerapporteerd (Van Kuyk & Kamphuis, 2001). De betreffende toetsen zijn destijds door de COTAN op de meeste criteria als goed beoordeeld. Op het criterium ‘begripsvaliditeit’ kregen de toetsen het oordeel voldoende. Aangezien ook de oude de toets niet voor voorspellend gebruik bedoeld is, is criteriumvaliditeit niet van toepassing. Door de nieuwe toets te correleren met de oude toets kunnen we achterhalen of de nieuwe toets (vrijwel) dezelfde vaardigheid meet als de oude. Aangezien bij de oude toets voldoende aangetoond is dat deze taalvaardigheid bij kleuters meet, mag worden aangenomen dat de nieuwe toets bij een hoge correlatie met de oude toets ook taalvaardigheid bij kleuters meet. Voor het onderzoek naar de relatie tussen de oude toets en de nieuwe toets hebben een deel van de leerlingen tijdens deel 2 van het normeringsonderzoek naast nieuwe opgaven ook de oude toets gemaakt. Doordat de nieuwe opgaven in een onvolledig design zijn afgenomen, gaat het hier om de correlatie tussen de gemeten vaardigheid met de opgavenbank en de gemeten vaardigheid met de oude toets. In het onderzoek is gebruikgemaakt van een meting in juni (het ’Einde’ moment) in groep 2 waarbij leerlingen die verschillende sets nieuwe opgaven maakten ook de ‘oude’ toets Taal voor kleuters voor groep 2 (Van Kuyk, 1996) maakten. De gevonden latente correlatie, dat wil zeggen de correlatie tussen de gemeten vaardigheid van de oude en de nieuwe toets (door middel van de opgavenbank) was 0,92. Deze correlatie valt hoog te noemen waardoor we kunnen zeggen dat beide toetsen vrijwel hetzelfde meten. Ook als we naar de inhoudelijke categorieën kijken, die we binnen de toetsen Taal voor kleuters onderscheiden, zien we hoge latente correlaties (zie tabel 6.1). Dit betekent dat ook op het niveau van de inhoudelijke categorieën elke categorie in de nieuwe toets (vrijwel) hetzelfde meet (dezelfde vaardigheid) als de oude toets.
Tabel 6.1
Latente correlatie tussen categorie in oude toets en de categorie in de nieuwe toets
Latente correlatie per categorie tussen oude toets (1996) en nieuwe toets (2009) Passieve woordenschat (oud versus nieuw)
0,977
Kritisch luisteren (oud versus nieuw)
0,937
Klank & rijm (oud versus nieuw)
0,963
Eerste & laatste woord horen (oud versus nieuw)
0,821
Schriftoriëntatie (oud versus nieuw)
0,909
Auditieve synthese (oud versus nieuw)
0,961
58
Merk op dat er op de afzonderlijke categorieën niet gerapporteerd wordt op het niveau van vaardigheidsscores en vaardigheidsniveaus. De informatie in tabel 6.1 geven we hier om duidelijk te maken dat de inhoudelijke dekking niet over de oude en de nieuwe toets is veranderd. Wel kunnen leerkrachten met behulp van het Computerprogramma LOVS een nieuwe rapportagevorm maken. Deze rapportage op de categorieën – de profielanalyse – is puur en alleen bedoeld als hulpmiddel voor de leerkracht. Het is een beschrijvende rapportage waar geen normering aan ten grondslag ligt. Immers, het hoofddoel van de toets is om een uitspraak te doen over de algemene taalvaardigheid van de leerling (met behulp van één vaardigheidsscore en vaardigheidsniveau). We hebben niet voor ogen om dit soort uitspraken ook op de verschillende categorieën te doen (zie paragraaf 2.3). Hieronder gaan we nog wat verder in op de inhoudelijke dekking door te kijken naar de samenhang tussen de verschillende categorieën. Eerst gaan we in op de correlaties tussen de latente vaardigheden. Vervolgens geven we de inter-item-correlaties. Correlaties tussen inhoudelijke categorieën In het onderzoek naar de inhoudelijke dekking hebben we gekeken naar de correlatie tussen de verschillende categorieën. Dit hebben we gedaan door de onderlinge samenhang van deze categorieën in de opgavenbank te bekijken. Deze wordt gegeven door middel van de correlaties van de vaardigheid gerelateerd aan de categorieën in de itembank, zoals gevonden bij de kleuters (groep 1 en 2). De resultaten van deze analyse staan in tabel 6.2.
Tabel 6.2
PW KL KR ELW SO AS
Latente correlaties tussen de categorieën PW 3733 0,921 0,662 0,521 0,637 0,529
KL 3723 3723 0,598 0,575 0,639 0,422
KR 2110 2110 2110 0,620 0,745 0,788
ELW 2110 2110 2110 2110 0,677 0,406
SO 2110 2110 2110 2110 2110 0,619
AS 2110 2110 2110 2110 2110 2110
Logischerwijs zijn de correlaties op de diagonaal ‘1’. Deze worden daarom niet apart vermeld. De getallen onder de diagonaal geven de correlatie tussen de categorieën onderling. De getallen op en boven de diagonaal geven het aantal observaties weer waarop de correlaties gebaseerd zijn. Merk op dat de gegevens in tabel 6.2 de itembank beschrijven en niet de twee aparte toetsen voor groep 1 en 2. Er is immers sprake van één schaal. Het aantal observaties bij PW en KL is groter dan bij de andere categorieën, omdat deze twee categorieën zowel in de toets voor groep 1 als de toets voor groep 2 voorkomen. De overige categorieën komen alleen in de toets voor groep 2 voor. De gevonden latente correlaties zijn hoog genoeg om één totaalscore (vaardigheidsscore op ‘algemene taalvaardigheid’) te kunnen geven. Inter-item-correlaties Naast de correlatie tussen de vaardigheden zoals gemeten met de opgaven uit de inhoudelijke categorieën kan ook op opgaveniveau naar de samenhang binnen de toetsen gekeken worden. Doordat er gewerkt is met een onvolledig design zijn overigens niet alle correlaties tussen de opgaven bekend. We hebben daarom gekeken naar de gemiddelde inter-item-correlatie van opgaven binnen categorieën en over categorieën heen. Dit doen we voor de toetsen afzonderlijk. We zien bij de toets voor groep 1, waarin alleen opgaven met betrekking tot ‘passieve woordenschat’ en ‘kritisch luisteren’ zijn opgenomen, dat de opgaven onderling ongeveer even sterk samenhangen binnen een vaardigheid als over de twee categorieën heen. In tabel 6.3 staan de gemiddelde inter-item-correlaties van de items die dezelfde factor meten, dan wel verschillende factoren meten. Uiteraard zijn bij de interitem-correlaties binnen een vaardigheid de correlaties van de opgaven met zichzelf niet meegenomen.
59
Deze resultaten wijzen erop dat met de toets voor groep 1 maar één vaardigheid gemeten wordt.
Tabel 6.3
Gemiddelde inter-item-correlatie in de toets voor groep 1 Gemiddelde inter-item-correlatie in de toets voor groep 1
Vaardigheid/Categorie
PW
KL
PW
0,256
0,238
KL
0,238
0,248
Ook de structuur van de inter-item-correlaties in groep 2 (Tabel 6.4) wijst er op dat het geven van een enkele toetsscore zinvol is. De grootte van bijna alle tussen-categorie-correlaties ligt in een beperkte range van waarden (tussen 0,17 en 0,27; enige uitzondering is de tussen-categorie-correlatie ‘klank & rijm’ en ‘auditieve synthese’). Dit duidt op een redelijke interne samenhang waarbij een duidelijke opdeling van deelvaardigheden niet zinvol lijkt. De binnen-categorie-correlaties zijn overigens wel over het algemeen iets hoger dan de tussen-categorie-correlaties, maar het contrast is niet dusdanig dat aparte schalen nodig zijn.
Tabel 6.4
Gemiddelde inter-item-correlatie in de toets voor groep 2 Gemiddelde inter-item-correlatie in de toets voor groep 2
Vaardigheid
PW
KL
KR
ELW
SO
AS
PW
0,210
0,214
0,213
0,181
0,168
0,215
KL
0,214
0,258
0,205
0,214
0,189
0,188
KR
0,213
0,205
0,368
0,270
0,233
0,362
ELW
0,181
0,214
0,270
0,520
0,268
0,247
SO
0,168
0,189
0,233
0,268
0,284
0,249
AS
0,215
0,188
0,362
0,247
0,249
0,541
Doordat de data verzameld zijn met een onvolledig design en we daarom niet alle inter-item-correlaties kennen, is het toepassen een standaard factoranalyse lastig. Een factoranalyse door middel van het minimaliseren van de residuen (MinRes; Harman & Jones, 1966) is wel mogelijk bij onvolledige designs, maar levert niet altijd stabiele resultaten op, met name in het geval van Heywood cases (Harman & Fukuda, 1966). Dit laatste bleek het geval te zijn bij deze analyses. Op basis van bovenstaande analyses kunnen we het volgende concluderen: – Met de nieuwe toets Taal voor kleuters (2009) meten we hetzelfde als met de oude toets Taal voor kleuters (1996). – Met de nieuwe itembank en de daaruit voortkomende toetsen meten we in voldoende mate één vaardigheid, waardoor we dus kunnen spreken van één onderliggende schaal en één totaalscore mogen rapporteren. – Opgaven die inhoudelijk op elkaar lijken, hangen onderling iets sterker samen, maar over het algemeen niet veel hoger dan over de categorieën heen.
60
6.2.3
Longitudinale vaardigheidstoename
Verschillen tussen groepen Een belangrijk verschil dat men zou mogen verwachten wat betreft de taalvaardigheid van kleuters is dat deze toeneemt naarmate de leerlingen langer op school zitten. De vaardigheid zou dus toe moeten nemen van het eerste meetmoment (groep 1 medio) tot en met het laatste meetmoment (groep 2 einde). In tabel 6.5 is het gemiddelde van de geschatte vaardigheid gegeven voor de vier meetmomenten, evenals de standaarddeviaties.
Tabel 6.5
Overzicht van de vaardigheidsverdelingen per normeringsmoment bij de LOVS-toetsen Taal voor kleuters Gegevens nieuwe toetsen Taal voor kleuters
Normeringsmoment
Gemiddelde vaardigheid
Standaardafwijking
Groep 1 medio
49,0
10,4
Groep 1 einde
55,3
10,3
Groep 2 medio
62,4
9,4
Groep 2 einde
67,6
9,8
Zoals verwacht neemt de gemeten gemiddelde taalvaardigheid toe. De standaarddeviatie varieert iets over de tijd, maar die variatie is niet groot. De gemiddelde standaarddeviatie ligt rond de 10. Vergelijkbaarheid van de oude en nieuwe normering Het normeringsonderzoek dat referentiegegevens opleverde voor de ‘oude’ toetsen Taal voor kleuters (Van Kuyk, 1996) is verantwoord in Van Kuyk & Kamphuis (2001). In de genoemde publicatie zijn de steekproeven gecontroleerd op representativiteit. De numerieke waarden van de oude vaardigheidsschaal zijn echter door een andere lineaire transformatie niet rechtstreeks vergelijkbaar met die van de nieuwe vaardigheidsschaal. We kunnen echter wel vergelijken of de afstand tussen de normeringsmomenten binnen het afnamejaar over de jaren heen zijn veranderd of juist gelijk zijn gebleven. Om die vergelijking gemakkelijker te kunnen maken zijn beide toetsen op eenzelfde manier gestandaardiseerd: de gemiddelde vaardigheid is gesteld op 100 en de gemiddelde standaarddeviatie voor iedere normgroep op 10. In tabel 6.6 zijn de gegevens voor de oude en de nieuwe toetsen op deze ‘alternatieve’ schaal gegeven.
61
Tabel 6.6
Verschillen tussen de oude en de nieuwe toetsen bij de verschillende representatieve normeringgroepen Gegevens oude toetsen Taal voor kleuters (1996)
Normeringsmoment
Gemiddelde vaardigheid
Standaardafwijking
Groep 1 medio
90,6
9,9
Groep 1 einde
96,8
9,6
Groep 2 medio
102,8
9,8
Groep 2 einde
109,8
10,6
Gegevens nieuwe toetsen Taal voor kleuters (2009) Normeringsmoment
Gemiddelde vaardigheid
Standaardafwijking
Groep 1 medio
90,4
10,4
Groep 1 einde
96,7
10,3
Groep 2 medio
103,8
9,4
Groep 2 einde
109,0
9,8
We kunnen zien dat, vergelijkbaar met de oude toets, bij de nieuwe toets de standaarddeviatie per normgroep ongeveer gelijk blijft. Er zijn geen hele grote verschillen over de normeringmomenten. Ook de afstanden tussen de momenten zijn vergelijkbaar. De afstand tussen ‘Medio’ en ‘Einde’ in groep 1 is vrijwel gelijk gebleven als we de nieuwe toets met de oude toets vergelijken. De afstand tussen ‘Einde’ groep 1 en ‘Medio’ groep 2 is bij de nieuwe toetsen iets groter, terwijl de afstand tussen ‘Medio’ groep 2 en ‘Einde’ groep 2 iets kleiner geworden is. Uiteindelijk is de toename in taalvaardigheid van ‘Medio’ groep 1 naar Einde’ groep 2 in beide toetsen ongeveer gelijk gebleven. In beide gevallen is de groei van ‘Medio’ groep 1 naar ‘Einde’ groep 2 ongeveer 19 punten op de ‘alternatieve’ schaal. Aangezien in beide gevallen een gemiddelde standaarddeviatie van 10 genomen is, betekent dit in termen van effectgroottes dat er een effect gevonden is van 1,9. Dat is een zeer groot effect. Deze toename in vaardigheid en de gelijkenis in toename bij de oude en de nieuwe toets zijn een onderbouwing van de validiteit van de nieuwe toetsen. Merk overigens op dat alleen de afstanden binnen de toetsen vergeleken kunnen worden. De afstand in de vaardigheid over de toetsen heen is niet bekend. We kunnen dus geen uitspraken doen over of de kleuters door de jaren heen taalvaardiger zijn geworden of juist minder taalvaardig. De samenstelling van de populaties is ook veranderd tussen 1996 en 2009. Een dergelijke vergelijking wordt daardoor niet zinvol en is ook niet het doel van dit onderzoek. Responsiviteit Daar waar in de vorige tabellen is gekeken naar gemeten groei bij de verschillende normgroepen, wordt hier gekeken naar groei zoals geobserveerd bij individuele leerlingen. Doordat we van een groot aantal leerlingen twee metingen hebben (zie hoofdstuk 4) is het mogelijk te zien of de gevonden toename bij de normgroepen ook gevonden wordt bij individuele leerlingen. Hierbij moet opgemerkt worden dat we hier niet over alle meetmomenten de toename bij individuele kleuters kunnen meten. Alleen binnen de kleutergroepen hebben we waarnemingen. Dat wil zeggen dat we iets over groei bij individuele leerlingen kunnen zeggen van ‘Medio’ naar ‘Einde’ binnen groep 1 en van ‘Medio’ naar ‘Einde’ binnen groep 2. Over een eventuele groei van ‘Einde’ groep 1 naar ‘Medio’ groep 2 kunnen we geen uitspraken doen, aangezien we daar geen gegevens over hebben. De gemiddelde toename van het ‘Medio’ moment naar het ‘Einde’ moment is in groep 1 gelijk aan 6,4, wat in de lijn ligt van de groei in de populatie (zie tabel 6.7). Datzelfde geldt voor de gevonden groei in groep 2. De groei zoals gevonden bij individuele leerlingen is een beschrijving van de groei zoals geobserveerd in de ongewogen steekproef. De gerapporteerde groei bij de populaties is gebaseerd op de gewogen analyses (zie hoofdstuk 4).
62
Tabel 6.7
Groei in vaardigheid bij individuen zoals gevonden in de steekproef.
Groep
Populatie
N
Gemiddelde
StDdev
1
6,3
709
6,4
8,7
2
5,2
1002
5,3
8,4
Figuur 6.1
Geobserveerde vaardigheidsgroei van kandidaten in de groepen 1 en 2
De LOVS-toetsen Taal voor kleuters moeten in staat zijn om veranderingen te meten. Door het kalibratieonderzoek liggen de opgaven Taal voor kleuters op één onderliggende schaal. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt. De gemiddelden per afnamemoment verschillen immers. Zoals we naar aanleiding van tabel 6.5 hebben geconstateerd, blijkt dat de gemiddelde vaardigheid over de afnamemomenten heen toeneemt. Tevens blijkt uit onderstaande (latente) correlatietabel dat de correlaties zeer hoog zijn. Op basis hiervan kan gesteld worden dat bijna alle leerlingen een zekere groei doormaken, maar niet zo hoog dat we kunnen beweren dat dit voor alle leerlingen het geval is. Het bovenstaande onderbouwt dat de toetsen Taal voor kleuters in staat zijn veranderingen (responsiviteit) te meten.
Tabel 6.8
Latente correlatie tussen categorie in oude toets en de categorie in de nieuwe toets
Latente correlatie per groep tussen ‘Medio’ en ‘Eind’ Medio groep 1 – Eind groep 1
0,87
Medio groep 2 – Eind groep 2
0,90
63
64
7
Samenvatting
In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken. Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen uitvoerig zijn beschreven, werd in hoofdstuk 4 over het normeringsonderzoek gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de toetsen zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles achteraf (wat betreft verdeling over leeftijd, sekse, regio's, verstedelijking en sociaaleconomische status) wijzen uit dat de gebruikte steekproeven voor de normering na weging op basis van verstedelijking en regio representatief genoemd kunnen worden voor de populatie van scholen in Nederland. Het normeringsonderzoek leverde de resultaten op zoals vermeld in tabel 6.3: Overzicht van de vaardigheidsverdelingen per normeringsmoment bij de LOVS-toetsen Taal voor kleuters. In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten zijn hoog voor de papieren toetsen Taal voor kleuters: ze variëren van 0,84 tot 0,89. In de figuren 5.1 en 5.2 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. De nauwkeurigheid blijkt het hoogst waar dit het belangrijkst wordt geacht, namelijk in de zwakkere en gemiddelde scoreregionen. Over validiteit werd in hoofdstuk 6 gerapporteerd. De toetsen Taal voor kleuters van het LOVS sluiten nauw aan bij het doel en de inhoud van het taalonderwijs in de groepen 1 en 2 van de basisschool (zie de paragrafen 2.4.1 en 3.2). Voor wat betreft de taalontwikkeling en de ontwikkeling tot geletterdheid van kleuters dekken de toetsen Taal voor kleuters de kern- en tussendoelen. Daarbij merkten we al op dat niet alle tussendoelen met een toets als Taal voor kleuters getoetst kunnen worden. Ook worden sommige doelen meer impliciet dan expliciet getoetst. Een belangrijke indicatie voor de validiteit van de LOVS-opgaven Taal voor kleuters komt uit het kalibratieonderzoek (hoofdstuk 4). Uit dat onderzoek bleek dat de verzameling opgaven waaruit de toetsen Taal voor kleuters zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. Op basis van de uitgevoerde analyses kunnen we verder concluderen dat we met de nieuwe toets Taal voor kleuters (2009) hetzelfde meten als met de oude toets Taal voor kleuters (1996). Daarnaast meten we met de nieuwe itembank en de daaruit voortkomende toetsen in voldoende mate één vaardigheid, waardoor we kunnen spreken van één onderliggende schaal en één totaalscore mogen rapporteren. Tevens is duidelijk geworden dat opgaven die inhoudelijk op elkaar lijken, onderling iets sterker samenhangen, maar over het algemeen niet veel hoger dan over de categorieën heen. In paragraaf 6.2.3 is aangegeven dat de correlaties tussen de latente vaardigheden op twee opeenvolgende toetsen hoog zijn. Samen met de geobserveerde toename in vaardigheid over de meetmomenten heen betekent dit dat de verwachting is dat de vaardigheidsscore ook voor veruit de meeste individuen toeneemt van meetmoment tot meetmoment. Een andere aanwijzing voor begripsvaliditeit is af te leiden uit de correlatie tussen de ‘oude’ toets Taal voor kleuters (Van Kuyk, 1996) en de nieuwe toets Taal voor kleuters (Lansink, 2009).
65
66
8
Literatuur
Psychometrie Bügel, K. & Sanders, P.F. (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito Cito (z.j.). Computerprogramma LOVS. Arnhem: Cito. Cito (z.j.). Handleiding Computerprogramma LOVS. Arnhem: Cito. Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Embretson, S.E. (1983). Construct representation and nomothetic span. Psychological Bulletin, 93, 179-179. Evers, A., Lucassen, W., Meijer, R. & Sijstma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam, NIP/COTAN. Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Harman, H.H., & Jones, W.H. (1966). Factor analysis by minimizing residuals (minres). Psychometrika, 31, 351-368. Harman, H.H., & Fukuda, Y. (1966). Resolution of the heywood case in the minres solution. Psychometrika, 31, 563-571. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D., & Glas, C.A.W. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito.
67
Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verhelst, N. D. & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable (SAUL): Theory and a computer program. Arnhem: Cito. Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. Arnhem, The Netherlands: Cito.
Inhoudelijk Damhuis, R. & Litjens, P. (2003). Mondelinge communicatie. Drie werkwijzen voor mondelinge taalontwikkeling. Nijmegen: Expertisecentrum Nederlands. Elsäcker, W. van, Beek, A. van der, Hillen, J. & Peters, S (2006). De taallijn. Interactief taalonderwijs in groep 1 en 2. Nijmegen: Expertisecentrum Nederlands. Gillis, S. & Schaerlaekens, A.M. (red.) (2000). Kindertaalverwerving. Een handboek voor het Nederlands. Groningen: Martinus Nijhoff uitgevers. Greven, J. & Letschert, J.F.M. (2006). Kerndoelen primair onderwijs. Den Haag: Ministerie van Onderwijs, Cultuur en Wetenschap. Kienstra, M. (2006). Woordenschatontwikkeling. Werkwijzen voor groep 1-4 van de basisschool. Nijmegen: Expertisecentrum Nederlands. Kleef, M. van & Tomesen, M. (2002). Werken aan taalbewustzijn. Prototype voor het stimuleren van fonologisch bewustzijn in betekenisvolle contexten. Nijmegen: Expertisecentrum Nederlands. Kohnstamm, R. (2002). Kleine ontwikkelingspsychologie Deel 1 Het jonge kind. Houten/Diegem: Bohn Stafleu Van Loghum. Kuyk, J.J. van (1996). Taal voor kleuters. Arnhem: Cito. Kuyk, J.J. van (1999). Taalplezier. Observatie-, hulp- en cursorisch programma voor kleuters in de basisschool. Arnhem: Cito. Kuyk, J.J. van & Kamphuis, F. (2001). Verantwoording van de toetsen uit de pakketten Ruimte en Tijd, Taal voor kleuters en Ordenen. Arnhem: Citogroep. Kuyk, J.J. van (2004). Taal voor kleuters digitaal. Arnhem: Cito. Lansink, N. (2009). LOVS Taal voor kleuters groep 1 en 2. Arnhem: Cito. Lansink, N. & Hemker, B. (2011). Wetenschappelijke verantwoording van de toets Taal voor peuters uit het Cito Volgsysteem jonge kind. Arnhem: Citogroep.
68
Lansink, N., Hemker, B. & Verschoor, A. (2011). Wetenschappelijke verantwoording van de digitale toetsen Taal voor kleuters voor groep 1 en 2 uit het Cito Volgsysteem primair onderwijs. Arnhem: Citogroep. Robbe, R. & Pitstra, R. (2001). Taal en didactiek. Taal en kleuters. Groningen: Wolters-Noordhoff. Schaerlaekens, A., Kohnstamm, D. & Lejaegere, M. (1999). Streeflijst woordenschat voor zesjarigen. Derde herzien versie gebaseerd op nieuw onderzoek in Nederland en België. Lisse: Swets & Zeitlinger. Sijtstra, J., Aarnoutse, C. & Verhoeven, L. (1999). Taalontwikkeling van nul tot twaalf, Raamplan deel 2. Nijmegen: Expertisecentrum Nederlands. Te downloaden via: http://www.expertisecentrumnederlands.nl/ Verhallen, M. & Verhallen, S. (1994). Woorden leren, woorden onderwijzen. Hoevelaken: CPS. Verhoeven, L. (1994). Ontluikende geletterdheid. Een overzicht van de vroege ontwikkeling van lezen en schrijven. Lisse: Swets & Zeitlinger. Verhoeven, L. & Aarnoutse, C. (red.) (1999). Tussendoelen beginnende geletterdheid: een leerlijn voor groep 1 tot en met 3. Nijmegen: Expertisecentrum Nederlands. Verhoeven, L., Biemond, H & Litjens, P. (2007). Tussendoelen mondelinge communicatie: leerlijnen voor groep 1 tot en met 8. Nijmegen: Expertisecentrum Nederlands . Vloedgraven, J. (2008). Development of phonological awareness in relation to literacy. An item response theory perspective. Nijmegen: Expertisecentrum Nederlands. http://www.minocw.nl/kerndoelen/index.html http://tule.slo.nl http://www.expertisecentrumnederlands.nl/ http://www.taalsite.nl
69
70
Bijlage 1 Profielanalyse met IRT, Norman Verhelst
Profielanalyse met Item Respons Theorie
Norman Verhelst
Cito, maart 2007
1
© Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2007) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Stichting Cito Instituut voor Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inleiding In een aantal projecten binnen Cito is het de gewoonte toetsgegevens te analyseren met een unidimensionaal IRT model, zoals het Raschmodel of OPLM. In het PPON project is de inhoudelijke bepaling van de verzameling items die aldus wordt geanalyseerd vrij beperkt. In andere toepassingen, bijvoorbeeld het LVS, wordt een soortgelijk model toegepast op een inhoudelijk veel breder domein van items. In het domein Rekenen-Wiskunde bijvoorbeeld, worden aan het eind van het basisonderwijs 24 verschillende schalen onderscheiden binnen PPON, terwijl in het LVS gestreefd wordt om alle onderdelen uit het domein op een enkele schaal onder te brengen. Deze op het eerste gezicht niet consistente aanpak heeft praktische en historische redenen die hier niet aan de orde zullen worden gesteld; wat ons hier zal bezighouden is de vraag of en in welke mate twee zo duidelijk verschillende wijzen van analyseren psychometrisch kunnen worden verantwoord. Het probleem wordt aangepakt vanuit een praktische vraagstelling: indien we de items uit een breed domein indelen in een aantal (inhoudelijk of op anderszins zinvolle manier bepaalde) categorieën, welk nut en welke zin heeft het bestuderen van de deelscores op deze onderdelen als we het hele domein als een unidimensionale verzameling beschouwen. Een rijtje deelscores uit de verschillende subdomeinen wordt een profiel genoemd, vandaar de titel van dit rapport. Het rapport bestaat essentieel uit twee delen. In het eerste deel wordt beargumenteerd in welke zin het bestuderen van profielen zinvol is bij het gebruik van een unidimensionaal model. In het tweede deel wordt nader ingegaan op de technische uitwerking van zo’n profielanalyse. Dit gedeelte wordt dan meteen ook geïllustreerd met voorbeelden uit de Citopraktijk. Functie van de profielanalyse Men zou het volgende standpunt kunnen innemen: indien alle items uit een breed domein inderdaad een enkele latente dimensie aanspreken (een enkel concept) en we zijn in staat nauwkeurig te specificeren op welke wijze dit ‘aanspreken’ moet worden begrepen, dan heeft het bestuderen van profielen weinig of geen zin.We kunnen dan immers de positie van een leerling op het latente continuum (met een gekende nauwkeurigheid) bepalen aan de hand van antwoorden op een willekeurige deelverzameling van items uit het brede domein, waarbij moet worden aangetekend dat de graad van nauwkeurigheid afhangt van welke items men kiest – en meer in het bijzonder van het aantal items dat men kiest. Om concreet te maken wat hier precies wordt bedoeld, lichten we het voorgaande toe met een voorbeeld. Veronderstel dat we het brede domein Rekenen kunnen opdelen in twee deeldomeinen – breuken en meetkunde. Zeggen dat breuken en meetkunde-items hetzelfde concept aanspreken betekent dat de prestatie van een leerling op beide deeldomeinen alleen afhangt van eenzelfde vaardigheid, die we hier voor het gemak rekenvaardigheid noemen. Dit impliceert dat we de rekenvaardigheid van een leerling kunnen bepalen door hem een toets voor te leggen die uitsluitend items met breuken bevat, of uitsluitend meetkunde-items of een willekeurig mengsel van breuken en meetkunde-items. Dit is een belangrijk principe in de psychometrie, dat soms wordt aangeduid met de term ‘specifieke objectiviteit’. Daarmee is natuurlijk niet alles gezegd over de meetnauwkeurigheid. Stel dat in de hele itembank met meetkunde-items en breuken items, deze laatste categorie gemiddeld genomen substantieel moeilijker is dan de eerste, en wel zodanig dat hele zwakke leerlingen bijna geen enkel breuken-item correct kunnen beantwoorden, en dat heel vaardige leerlingen bijna geen fouten maken op de meetkunde-items. Dan ligt het een beetje voor de hand dat we voor een
3
nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een toets die hoofdzakelijk meetkunde-items bevat, en voor een sterke leerling met een toets die vooral breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang (‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag – hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid of vanuit twee verschillende vaardigheden. Het voorgaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke eigenschappen hebben, want die staan garant voor de eigenschap dat we verschillende leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we moeten aantonen is dat het gebruikte meetmodel geldig (valide) is voor de item-antwoorden die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we kunnen zeggen dat het principieel onmogelijk is. Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die nulhypothese te komen. Dit is de logische status van de statistische procedures in experimenteel onderzoek. Bij het evidentie zoeken ten voordele van een gebruikt model wordt deze werkwijze omgekeerd, en men spreekt van toetsen voor ‘goodness-of-fit’. Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is gemakkelijk in te zien door zich toetsen voor te stellen waarvan de analyse gebaseerd is op een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen onderscheidend vermogen of ‘power’ heeft. Gegeven een bepaalde statistische procedure (bijvoorbeeld een t-toets om de hypothese van gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen voor goodness-of-fit speelt er meestal nog een andere kwestie. Het gebruikte meetmodel (bijvoorbeeld OPLM) is een complexe nulhypothese, en het heeft helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde toetsprocedures veel power hebben, terwijl voor andere tekortkomingen andere procedures
4
meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen voor goodnessof-fit ingebouwd, en deze toetsen hebben vooral een goed onderscheidend vermogen om te ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar voor sommige schendingen van het model hebben deze toetsen weinig of geen power. Hier is een voorbeeld: een paar jaar geleden is op het Cito de Interessetest gemaakt voor leerlingen van groep 8. Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie, Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt voor jongens en voor meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die werd gebruikt om dit aan het licht te brengen was een statistische toets voor goodness-of-fit die speciaal is ontworpen om verschillen in functioneren van het model in verschillende deelpopulaties (hier: jongens en meisjes) te ontdekken. Het voorbeeld kan een paar zaken duidelijk maken: uit de bespreking van het voorbeeld kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is. Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is uitgevoerd voor jongens en meisjes, en niet, bijvoorbeeld, voor leerlingen die in de eerste zes maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn geboren. De reden hiervoor is dat er vooraf een vermoeden bestond dat er voor interesses wel eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het gebruikte meetmodel. In het voorbeeld van de Interessetest werd ervan uitgegaan dat de populatie waarvoor de test is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen. In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling een voorbeeld is van multidimensionaliteit. Daar is weinig tegen in te brengen tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bijvoorbeeld OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets Basisonderwijs wordt voor de items Rekenen meestal een unidimensionaal model gebruikt, maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het
5
toelaatbaar kan worden geacht een unidimensionaal model voor de drie deelvaardigheden te gebruiken. Dit brengt ons op een probleem dat direct met de toetspraktijk heeft te maken. Bij het schatten van de modelparameters wordt maar ten dele gebruik gemaakt van de informatie die in de data aanwezig is. Voor het OPLM bijvoorbeeld gebruiken we alleen de randtotalen van de gegevenstabel: van elk item het aantal keren dat het correct is beantwoord en van elke leerling zijn score op de toets (ongewogen bij het Raschmodel en gewogen in het OPLM). De overblijvende informatie wordt dan gebruikt om het model (statistisch) te toetsen: als de parameters (redelijk) nauwkeurig geschat zijn, kunnen allerlei eigenschappen van de datamatrix worden voorspeld, en deze voorspellingen kunnen worden vergeleken met de werkelijke eigenschappen van de datamatrix. Een voorbeeld: voor alle leerlingen met een bepaalde score op de toets (bijvoorbeeld 25) kan men voorspellen welke proportie van die leerlingen een bepaald item (bijv. item 1) correct heeft beantwoord, en deze voorspelde proportie kan men vergelijken met de proportie in de data, die men kan vinden door een simpele telling. Het probleem is echter dat er talloos veel verschillende voorspellingen kunnen worden gemaakt, en dat de overeenkomst tussen data en voorspelling soms minder goed zal zijn dan men zou willen, puur door toeval. Het heeft dus weinig zin om hap snap enkele voorspellingen eruit te pikken en de overeenkomst met de data te beoordelen. Het is wel zinvol om weloverwogen de voorspellingen te kiezen vanuit theoretische of didactische overwegingen en te overwegen wat men zou moeten of kunnen doen in geval de overeenkomst tussen data en voorspellingen niet goed is. Profielanalyse zoals hier verder zal worden uitgewerkt past in deze opvatting. Een profiel is een rijtje deelscores op bepaalde categorieën van items, maar men kan in principe de categorizering definiëren zoals men wil. Men zou inhoudelijke categorieën kunnen bepalen (zoals meetkunde, breuken, getalsrelaties, etc.), maar men kan ook andere categoriedefinities hanteren, zoals de even genummerde items tegenover de oneven genummerde, om maar een dwaas voorbeeld te noemen. Een goede categorisering is geen psychometrisch of statistisch probleem, maar een inhoudelijk probleem, en het is aan de inhoudelijke medewerkers hierover na te denken en een verantwoorde keuze te maken. In het genoemde voorbeeld van de rekenitems (in deeldomeinen) zou men een aantal overwegingen kunnen aanvoeren voor de gekozen categorisering: • Het bestaan van aparte methoden voor de genoemde onderdelen; • De noodzaak van bepaalde psychologische vaardigheden voor sommige onderdelen (zoals ruimtelijk inzicht voor meetkunde); • Het bestaan van didactische praktijken waarbij onderdelen ook echt bloksgewijs worden onderwezen; • De mogelijkheid van (partiële) incompetentie van (sommige) leerkrachten, etc. De eigenlijke profielanalyse bestaat dan uit drie onderdelen: • Het berekenen van het verwachte profiel met gebruikmaking van de parameters van het meetmodel; • De vergelijking van individuele geobserveerde profielen met dit verwachte profiel. Bij deze vergelijking kan men verschillende standpunten innemen: o Als de afwijking tussen geobserveerde en verwachte profielen erg groot is voor zeer veel leerlingen kan men de validiteit van het meetmodel in twijfel gaan trekken, en eventueel een herziening en/of uitbreiding van het meetmodel overwegen. Dit is eigenlijk een taak die behoort tot het monitoren van het hele systeem.
6
•
o Men kan echter ook afwijkingen aggregeren op een hoger niveau, bijvoorbeeld de school of de klas, en bijvoorbeeld vinden dat in een bepaalde school de afwijkingen van het verwachte profiel voor alle leerlingen in dezelfde richting wijzen zoals een relatief lage deelscore op het onderdeel breuken in vergelijking met de andere onderdelen. Dit te ontdekken, ordelijk te beschrijven en te rapporteren is een monitoring functie op school- of klasniveau. Om dit goed en op een verantwoorde manier te doen is geen triviale taak en er is nog behoorlijk veel werk te doen om op dit niveau goede service aan de scholen te kunnen aanbieden. o Natuurlijk kan men ook de afwijking tussen een individueel profiel (van een leerling) en het verwachte profiel bepalen en tot een (beschrijvend) besluit komen, ongeveer met de uitspraak dat de afwijking bij leerling A groot is en bij leerling B klein. In het tweede deel van dit rapport wordt uiteengezet hoe men op een rationele manier grote afwijkingen kan definiëren. De moeilijkste taak is echter het formuleren van besluiten en adviezen. Afwijkende patronen kunnen ook bij toeval ontstaan en hoeven niet per se op een probleem te wijzen bij de leerling. In de statistiek spreekt men van fouten van de eerste soort, soms ook aangeduid als vals alarm. Omgekeerd zullen niet alle problemen door een profielanalyse aan het licht komen. In het eerste geval is het botweg adviseren tot bijles of remediërende programma’s niet altijd een wijze handeling. Als een probleem gesignaleerd wordt (op statistische wijze) is het meestal verstandiger eerst bijkomende evidentie te zoeken dat het inderdaad om een probleem gaat. In een systeem als het LVS worden bijvoorbeeld mogelijkheden geboden omdat daar gegevens van dezelfde leerling op verschillende tijdstippen beschikbaar zijn. Maar het uitwerken van een geschikte procedure voor een aggregatie van profielen over de tijd is niet op stel en sprong gemaakt. Er ligt dus nog een groot onontgonnen veld van nadenken en uitwerken voor ons.
Profielanalyse op individueel niveau Als een leerling een toets maakt kunnen we deelscores berekenen op willekeurige onderdelen van de toets. We zullen aannemen dat de toetsitems in p (> 1) categorieën zijn onderverdeeld, waarbij elk item in niet meer dan een categorie valt. Voor elke categorie kunnen we de deelscore van de leerling berekenen en het rijtje van p deelscores noemen we het geobserveerde profiel. De deelscores kunnen gewone tellingen zijn: hoeveel items van elke categorie heeft de leerling correct beantwoord, of het kunnen gewogen scores zijn omdat niet alle items hetzelfde gewicht hebben. In Figuur 1 staat een voorbeeld uit de Eindtoets Basisonderwijs 2006 voor het onderdeel Rekenen, waarbij drie categorieën zijn onderscheiden. De verticale as geeft de gewogen score weer op de drie onderdelen. De gewogen score op het hele onderdeel Rekenen bedraagt voor de betrokken leerling 120 punten.
7
80
gewogen score
60
40
20
0 getal
m eten
breuken
Figuur 1. Een geobserveerd profiel met gewogen scores Het hele onderdeel Rekenen bestaat uit 60 items en de maximale gewogen score bedraagt 270. Op het eerste gezicht zou men kunnen zeggen dat de leerling zwak presteert op de categorie ‘meten’ en sterk op de categorie ‘breuken’, maar elke grond voor zulk een interpretatie ontbreekt: we weten immers niet hoeveel items er in elke categorie zijn en we kennen het gewicht van de afzonderlijke items niet. Geven we deze informatie erbij, dan kunnen we al iets van het probleem wegnemen. In figuur 2 is weer een profiel gegeven (van de zelfde leerling als in Figuur 1), maar nu zijn de resultaten uitgedrukt als percentage van de maximumscore in elke categorie, zodat de dubbelzinnigheid veroorzaakt door verschillende aantallen items of verschillende gewichten in ieder geval is weggenomen.
procent van de maximale score
80
60
40
20
0 getal
m eten
breuken
Figuur 2. Geobserveerd profiel uitgedrukt als percentage van de maximumscore In Figuur 2 lijkt de zwakste prestatie nu in de categorie getallen, maar ook dit resultaat kan misleidend zijn, want het zou zo kunnen zijn dat de items in de categorie ‘getallen’ veel moeilijker zijn dan in de twee andere categorieën. De spontane interpretatie bij een visuele weergave van een profiel is het nemen van de nullijn (of een willekeurige andere horizontale lijn in de figuur) als referentielijn, en dat kan aanleiding geven tot niet gerechtvaardigde interpretaties of conclusies.
8
Het referentieprofiel Om terdege rekening te houden met de verschillen in moeilijkheid van de onderscheiden categorieën kunnen we het beste een soort verwacht profiel gaan nemen als referentielijn. Maar we dienen goed te formuleren wat we met ‘verwachting’ bedoelen. Nemen we bijvoorbeeld als verwachting de gemiddelde categoriescore in de populatie van leerlingen van groep acht die deelnemen aan de Eindtoets, dan wordt de vergelijking weer gecompliceerd omdat het aldus gedefinieerde verwachte profiel in twee opzichten kan verschillen van het geobserveerde profiel uit Figuur 1: het kan verschillen door het algemene niveau (in het voorbeeld doet het dit ook, want een gewogen score van 120 op het onderdeel Rekenen is een tamelijk lage score) en het kan ook verschillen qua vorm. De directe visuele interpretatie van beide profielen wordt daardoor bemoeilijkt. We kunnen het probleem vereenvoudigen door een specifiek geobserveerd profiel te vergelijken met een gemiddeld profiel van alle leerlingen die op de hele toets (d.i. op het hele onderdeel Rekenen) dezelfde of ongeveer dezelfde score behalen als de score van het geobserveerde profiel. Dit verwachte profiel kunnen we op twee manieren bepalen: empirisch of theoretisch. Empirisch betekent dat we in het databestand van de Eindtoets het gemiddelde profiel bepalen van alle leerlingen met dezelfde score op het hele onderdeel Rekenen als de onderzochte leerling. Voor het onderzoek naar een andere leerling met een andere gewogen score op het onderdeel Rekenen kunnen we hetzelfde doen. We moeten deze hele procedure dus uitvoeren voor alle mogelijke scores op het onderdeel Rekenen. Drukken we het geobserveerde profiel uit met gewogen scores, dan moeten we deze procedure toepassen voor alle mogelijke gewogen scores. In termen van computertijd is dit niet zo’n groot probleem, maar wel in termen van statistische stabiliteit. Immers de frequentie van sommige gewogen scores zal behoorlijk groot zijn, maar voor andere scores zullen we onvermijdelijk te maken krijgen met kleine tot zeer kleine frequenties. De statistische stabiliteit van de verwachte profielen zal dan van score tot score gaan verschillen en dit is een onwenselijke situatie. Bovendien komt er nog een probleem bij als we een dergelijke werkwijze zouden willen toepassen in het LVS. Bij de Eindtoets worden de data centraal verzameld op het Cito, maar bij het LVS is dat niet zo. De data die daar beschikbaar zijn betreffen alleen de leerlingen van de school zelf en dan wordt de empirische aanpak wel heel problematisch. Als de gegevens met OPLM gecalibreerd zijn kunnen we ook theoretisch het verwachte profiel afleiden. De verwachte (gewogen) score voor elke categorie is een (nogal ingewikkelde) functie van de itemparameters (de discriminatie-indices en de moeilijkheidsparameters). Details over hoe die verwachte waarden worden berekend worden gegeven in Appendix A van dit rapport. In Figuur 3a wordt hetzelfde geobserveerde profiel afgebeeld als in Figuur 2, maar nu samen met het verwachte profiel. In Figuur 3b zijn beide profielen omgezet als percentage van de maximum te behalen score op elke categorie.
9
procent v.d. maximum score
gewogen score
80 60 40 20
obs exp
0 getal
meten
breuken
80 60 40 20
%obs %exp
0 getal
Figuur 3a. Profielen met gewogen scores
meten
breuken
Figuur 3b. Profielen met procenten
verschil geobs. min verw. (in %)
De visuele aanblik van beide figuren verschilt in bepaalde opzichten: in Figuur 3a zien we een dipje voor ‘meten’ dat in Figuur 3b verdwenen is, maar dat komt omdat de categorie ‘meten’ het minste items bevat met daarenboven nog eens het kleinste gemiddeld gewicht. Er zijn echter ook bepaalde eigenschappen die in beide figuren onveranderd blijven: op de categorie ‘getal’ doet de leerling het slechter dan verwacht; op de categorie ‘breuken’ doet hij het beter dan verwacht en op de categorie ‘meten’ is de geobserveerde prestatie zeer gelijkend aan de verwachte prestatie. En dit is precies de informatie die we nodig hebben, zodat het er eigenlijk niet veel toe doet of we Figuur 3a dan wel 3b kiezen. 20 15 10 5 0 -5
getal
meten
breuken
-10 -15 -20
Figuur 4. Afwijkingen van het verwachte profiel (in percentages) Samenvattend: het verwachte profiel is wat we gemiddeld kunnen verwachten van leerlingen die dezelfde gewogen toetsscore behalen als in het geobserveerde profiel (in het voorbeeld van Figuur 3 is dat 120). Voor elke categorie kunnen we met een simpele visuele inspectie nagaan of de leerling boven of onder de verwachting presteert, gezien zijn algemene niveau. In Figuur 4 geven we nog een andere visuele presentatie van de verschillen zoals afgebeeld in Figuur 3b: daar geven we aan (in procenten) hoever de leerling afwijkt van het verwachte percentage voor elke categorie. De nullijn komt dus overeen met het verwachte profiel. Door de wijze waarop het profiel (met gewogen scores) is gedefinieerd is het noodzakelijkerwijze zo dat de som van de categoriescores van het geobserveerde profiel gelijk is aan de som bij het verwachte profiel. Het kan dus nooit voorkomen dat het ene profiel volledig boven het andere ligt. Bij de afbeelding van de percentages geldt dat ook, maar daar is het niet noodzakelijk dat de som van de percentages in een profiel gelijk is aan 100, omdat de gewogen scores per categorie gedeeld worden door de maximumscore van die 10
categorie en die maxima zullen in de regel niet gelijk zijn aan elkaar. Daardoor is de som van de percentages in Figuur 4 ook niet gelijk aan nul. Afstand tussen twee profielen De verschillen tussen geobserveerd en verwacht profiel zoals in Figuur 3a zijn wel verbaal omschreven, maar voor verder onderzoek is het noodzakelijk dat die verschillen ook gekwantificeerd worden en bij voorkeur zo compact mogelijk. Het liefste met één getal dat op een of andere manier de afstand uitdrukt tussen de twee profielen. Er zijn veel mogelijke manieren om de afstand tussen twee profielen uit te drukken en wij kiezen er een die in de statistiek populair is, namelijk de chi-kwadraatafstand. We illustreren dit met de twee profielen uit Figuur 3a, waarvan de numerieke gegevens zijn ondergebracht in Tabel 1. De getalswaarden die overeenkomen met Figuur 3a zijn weergegeven in de rij ‘behaald’, waarbij de verwachte score tussen haakjes staat. Zoals te doen gebruikelijk bij contingentietabellen wordt deze rij echter ook gecompleteerd door een rij ‘niet behaald’: bij de categorie ‘getal’ is de maximale score 107, de geobserveerde score is 35, dus heeft de leerling 107 – 35 = 72 punten niet behaald. Tabel 1. Geobserveerd en verwacht profiel behaald niet behaald totaal
getal 35 (49.94) 72 (57.06) 107
meten 24 (26.42) 37 (34.58) 61
breuken 61 (43.65) 41 (58.36) 102
totaal 120 150 270
Elk van de zes grijsgekleurde cellen in Tabel 1 bevat een geobserveerde score (Oi) en een verwachte score (Ei) en de chi-kwadraatafstand tussen de twee profielen wordt gedefinieerd als 6 (O − Ei ) 2 X2 =∑ i = 20.83 Ei i =1 waarbij meteen de uitkomst van de formule voor de gegevens van Tabel 1 is ingevuld.
Het voordeel van een afstandsmaat is dat alle geobserveerde profielen met eenzelfde totaalscore nu kunnen worden geordend in termen van hun gelijkenis met het verwachte profiel (dat voor iedereen hetzelfde is). Maar we kunnen de profielen niet zomaar inwisselen tegen de afstand tot het verwachte profiel: immers twee profielen die op dezelfde afstand liggen van het verwachte profiel kunnen heel erg goed op elkaar lijken maar onderling ook heel verschillend zijn. Wat het geval is, kunnen we niet meer uit de afstandsmaat afleiden. Met de afstandsmaat op zichzelf kunnen we trouwens ook niet veel doen. In het voorbeeld bedraagt de afstand 20.83, maar daarmee weten we nog niet of dit nu heel gewoon is of eigenlijk toch wel een beetje aan de kleine kant of uitzonderlijk groot. Om zo een vraag zinvol te kunnen beantwoorden, moeten we antwoord geven op de volgende vraag: hoe ziet de verdeling van de chi-kwadraat afstanden eruit bij een totaalscore van 120 (en in de veronderstelling dat het gehanteerde OPLM model geldig is)? Of meer in het algemeen: kunnen we de overschrijdingskans van de gevonden waarde van 20.83 in die verdeling bepalen?
11
Indien die overschrijdingskans heel erg klein is, zeg 1%, dan weten we dat een chikwadraatafstand van 20.83 of groter slechts in 1% van de gevallen voorkomt indien het model voor deze leerling geldig is. Op grond van dit kleine percentage kunnen we ons geloof in het model (voor die leerling) opzeggen, en besluiten dat er wat aan de hand is met die leerling. Als de overschrijdingskans echter behoorlijk groot is, zeg 35%, betekent dit dat onder het model een chi-kwadraatafstand van 20.83 of groter voorkomt in 35 % van de gevallen, en ons besluit zal (waarschijnlijk) zijn dat we hier geen reden hebben om iets speciaals te signaleren. Maar wat hier met een hoop woorden is omschreven is niets anders dan een statistische toets. Hoe we die toets in concreto moeten uitvoeren beschrijven we hierna. De verdeling van de chi-kwadraatafstanden tussen geobserveerde en verwachte profielen De gedaante van Tabel 1 en van de formule die er op volgt zou kunnen suggereren dat de chikwadraatafstand de theoretische chi-kwadraatverdeling volgt. Dat zou zo zijn indien de rekentoets 270 items zou bevatten (het aantal items gelijk aan het grand total van de tabel), maar hier is dat niet zo: het onderdeel Rekenen in de Eindtoets bestaat slechts uit 60 items. We hebben dus geen theoretische basis om te beweren dat we de theoretische chi-kwadraatverdeling (met 2 vrijheidsgraden) kunnen gaan gebruiken. De theoretische verdeling op theoretische gronden afleiden is een moeilijke onderneming, maar gelukkig kunnen we dankzij de beschikbaarheid van snelle computers de theoretische verdeling willekeurig dicht benaderen door simulatietechnieken. We beschrijven kort hoe dit wordt gedaan. We vertrekken van een gegeven totaalscore, bijvoorbeeld 120 zoals in het voorbeeld hierboven. Als we de parameters van alle items in het OPLM model kennen kunnen we berekenen hoe groot de kans is dat iemand met een totaalscore van 120 item 1 (met een gewicht van 4) correct beantwoordt. Stel dat die kans 0.6 is. Dan gooien we (electronisch) een muntstuk op dat precies een kans van 0.6 heeft om ‘Munt’ op te leveren. Gebeurt dit, dan noteren we een correct antwoord op item 1, gebeurt het niet dan noteren we een fout antwoord. Als het antwoord op het eerste item correct was, dan moet de gesimuleerde leerling nog 120 – 4 = 116 punten behalen op de 59 overblijvende items; was het eerste item fout dan moet hij op de overblijvende 59 items alsnog een score van 120 behalen. En de procedure kan zich dus herhalen voor item 2, enzovoort tot alle items beantwoord zijn. Als de gesimuleerde persoon alle items heeft beantwoord kunnen we zijn geobserveerd profiel berekenen en dus ook de chi-kwadraatafstand tot het verwachte profiel. De details over het berekenen van de kans op een goed antwoord worden beschreven in Appendix B van dit rapport. Als we de hele procedure van de vorige alinea een groot aantal keren herhalen, bijvoorbeeld 30,000 keer, dan beschikken we over 30,000 chi-kwadraatafstanden waarvan we de cumulatieve frequentieverdeling kunnen tekenen. Dit hebben we ook inderdaad gedaan, en het resultaat staat in Figuur 5, samen met de theoretische cumulatieve chi-kwadraatverdeling met twee vrijheidsgraden.
12
cumulatief percentage cumulatief percentage
100 score = 120 chi2(2)
75
50
25
0 0
10
20
30
40
Chi-kwadraatafstand Chi-kwadraatafstand Figuur 5. Gesimuleerde verdeling voor een totaalscore van 120 en de theoretische chi-kwadraatverdeling met twee vrijheidsgraden We merken twee zaken op bij Figuur 5: 1. De twee verdelingen verschillen heel erg van elkaar en er kan geen sprake van zijn de theoretische chi-kwadraatverdeling te beschouwen als een goede benadering van de werkelijke (of gesimuleerde) verdeling. De mediaan bijvoorbeeld, (het punt waar de horizontale rasterlijn met label ‘50’ de curve snijdt) bedraagt 6.06 bij de gesimuleerde verdeling en 1.39 bij de theoretische chi-kwadraatverdeling. 2. De curve van de gesimuleerde verdeling is minder glad dan de curve van de theoretische verdeling. Dit wordt veroorzaakt door twee factoren. De eerste is dat het aantal gesimuleerde leerlingen weliswaar behoorlijk groot is maar toch eindig. Een deel van de onregelmatigheden zouden kunnen worden weggepoetst door bijvoorbeeld een steekproef te nemen die tien keer zo groot is. Maar er zouden toch nog onregelmatigheden overblijven omdat de chi-kwadraatafstanden die we berekenen geen continue grootheid zijn, maar discreet. Voor praktische doeleinden echter, is de gesimuleerde curve glad genoeg. Percentiel 90 bijvoorbeeld bedraagt 19.65 en de geobserveerde chikwadraatafstand in het voorbeeld bedraagt 20.83 (aangegeven door de positie van de verticale streepjeslijn), waardoor we weten dat deze waarde een overschrijdingskans heeft van minder dan 10%. Percentiel 95 in de gesimuleerde verdeling bedraagt 25.32 en de overschrijdingskans van de geobserveerde chi-kwadraatafstand is dus groter dan 5%. Deze waarde kan worden afgelezen aan de positie van de horizontale streepjeslijn: het cumulatieve percentage van de chi-kwadraatafstand 20.83 is ongeveer 91%, zodat de overschrijdingskans ongeveer 9% is. In principe zijn we nu klaar met de leerling uit het voorbeeld: Figuur 3 geeft duidelijk het verwachte en geobserveerde profiel aan, en de statistische toets vertelt ons dat het verschil significant is op het 10% niveau maar niet op het 5% niveau. En hier houdt de functie van de statistiek op. Of we dit resultaat nu aan de leerkracht moeten melden met groot alarm of klein alarm of geen alarm is in wezen een arbitraire kwestie waar de statistiek geen uitspraak kan over doen.
13
Tot hiertoe hebben we alleen de verdeling bestudeerd voor een geobserveerde totaalscore van 120, maar het spreekt vanzelf dat we iets dergelijks moeten doen voor bijna alle mogelijke totaalscores. We kunnen dit in principe doen voor alle mogelijke totaalscores, maar dit heeft niet veel zin. Het gemiddelde gewicht van de items Rekenen in de Eindtoets 2006 ligt tussen 4 en 5. Dit betekent dat een leerling met een gewogen totaalscore van 15 drie of vier juiste antwoorden heeft gegeven. Het is dus vrij zinloos om voor zo’n lage score een profielanalyse te doen met drie categorieën. Een soortgelijk argument geldt natuurlijk ook voor zeer hoge totaalscores: het heeft weinig zin een profielanalyse te maken voor een leerling die maar twee of drie foute antwoorden heeft gegeven.
cumulatief percentage cumulatief percentage
In Figuur 6 staat een (stukje van) de cumulatieve gesimuleerde verdelingen voor een vijftal totaalscores. Voor elke verdeling zijn weerom 30,000 gesimuleerde leerlingen gebruikt. We merken dat de curves vrij goed op elkaar lijken, maar dan toch niet weer zo goed dat we met een gerust hart kunnen zeggen dat ze ‘eigenlijk’ aan elkaar gelijk zijn (waarbij we dan haarfijn zouden moeten uitleggen wat we met ‘eigenlijk’ bedoelen.) Wat we wel kunnen zeggen is dat de curves dermate op elkaar lijken dat het onmogelijk is in Figuur 6 een patroon te ontdekken, gesteld dat dit er al zou zijn.
80
60
40 score = 40 score = 80 score = 120
20
score = 160 score = 200
0 0
3
6
9
12
Chi-kwadraatafstand Chi-kwadraatafstand Figuur 6. Gesimuleerde cumulatieve verdelingen voor vijf verschillende totaalscores Om een mogelijk patroon te kunnen ontdekken is Figuur 7 gemaakt. Daar zijn voor alle totaalscores in het interval [25, 245] de percentielen 50, 75, 90, 95, 97 en 99 grafisch weergegeven. Bemerk dat de percentielen hier moeten worden afgelezen op de verticale as. Over mogelijke patronen in die figuur merken we het volgende op: 1. Voor de allerlaagste gerapporteerde scores (25 en 26) zien we dat de curves omhoog schieten. Zo’n gekke uitschieters zien we bij nog lagere scores en ook bij extreem hoge scores. Dit geeft ons nog een extra reden om profielanalyse bij extreme scores gewoon achterwege te laten. 2. De percentielen 50 en 75 zijn merkwaardig constant op respectievelijk de waarden 6 en 12
14
3. Voor de andere geplotte percentielen zien we duidelijk een patroon: ze bereiken de hoogste waarde in het middengebied en worden kleiner naarmate de score groter of kleiner wordt. 4. Het feit dat de curves voor de hoge percentielen onregelmatiger verlopen dan voor de percentielen 50 en 75 moet waarschijnlijk worden geweten aan het discrete karakter van de chi-kwadraatafstand.
40
Chi-kwadraatafstand
32 p50
24
p75 p90 p95
16
p97 p99
8
0 25
50
75
100
125 150 toetsscore
175
200
225
Figuur 7. Zes percentielen van de verdelingen van de chi-kwadraatafstanden Moeten we nu met alle details zoals die zijn weergegeven in Figuur 7 gaan rekening houden als we profielen zouden willen rapporteren in het LVS bijvoorbeeld? Dit lijkt wat overdreven. Stel dat we een overschrijdingskans van 10% of minder de moeite waard vinden om aan de leerkracht te rapporteren dat de desbetreffende leerling een atypisch antwoordprofiel heeft. Uit Figuur 7 kunnen we gemakkelijk afleiden dat we een goede benadering krijgen als we signaleren bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen). Voor de extreme scores (zeg tussen 25 en 50 en tussen 225 en 245) zal overschrijdingskans dan wel iets kleiner zijn dan 10% en zo men wil zou men de drempel voor die scores iets lager kunnen zetten. We moeten echter niet gaan overdrijven, want anders vinden we schijnnauwkeurigheid zoals zal blijken in de volgende sectie. Profielanalyse als modeltoets Alle analyses die we tot hiertoe hebben gerapporteerd zijn uitgevoerd in de veronderstelling dat het OPLM model (met de parameterschattingen uit de calibratie) geldig is voor alle leerlingen. Maar als dat zo is, dan moet ongeveer 10% van alle leerlingen die aan de Eindtoets hebben deelgenomen een profiel chi-kwadraatafstand opleveren die significant is op het 10% niveau. Dat kunnen we empirisch nagaan. Voor alle leerlingen die aan de Eindtoets Basisonderwijs 2006 hebben deelgenomen en die op het onderdeel rekenen een totaalscore hadden groter dan 35 en kleiner dan 246 hebben we de chi-kwadraatafstand uitgerekend en
15
geclassificeerd in een van vier categorieën: een overschrijdingskans niet groter dan 50%; tussen 25% en 50%; tussen 10% en 25% en kleiner dan 10%. De resultaten zijn weergegeven in Tabel 2. De rechterkolom geeft voor elk van de vier categorieën het verwachte percentage aan. De andere kolommen geven voor verschillende score-intervallen (aangegeven in de bovenste rij) de geobserveerde percentages aan. In elke kolom tellen de percentages op tot 100. Tabel 2. Percentages leerlingen in de Eindtoets Basisonderwijs 2006 36-75 47.09 24.63 16.20 12.08
76-105 46.34 24.24 15.84 13.58
106-135 43.80 24.92 16.20 15.08
135-165 44.17 25.01 15.94 14.87
166-195 43.81 25.01 16.39 14.79
196-225 44.42 25.13 16.49 13.96
226-245 45.06 25.97 16.58 12.39
totaal 44.53 25.16 16.32 13.99
verwacht 50 25 15 10
Het is voldoende om naar de onderste rij in Tabel 2 te kijken om te zien dat er behoorlijk meer significanties op het 10% niveau zijn dan we op grond van het OPLM model mogen verwachten. Daaruit we moeten besluiten dat het model niet geldig is. Wat nu? Als we een beter model hadden (en een computerprogramma waarmee we de hele calibratie met een onvolledig design) konden overdoen, dan zou dat de aangewezen weg zijn: gebruik niet een slecht model als je een beter hebt. Maar het ziet er niet naar uit dat dit een realistische optie is; dus zullen we op een of andere manier een compromis moeten zien te vinden. Stel dat we in het geval van de individuele profielanalyse een profiel als atypisch hadden willen aanmerken bij een overschrijdingskans van 10% (dus bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen)). Dan zouden we (voor de populatie die aan de Eindtoets deelnam) dat niet doen in 10% van de gevallen maar in 14% (voorlaatste kolom, onderste rij in Tabel 7). Als we dit te veel vinden dan moeten we de drempel hoger gaan stellen; als we dit nog aanvaardbaar vinden dan weten we dat we in meer dan 10% een boodschap zullen afgeven. Als we dit op een adequate wijze aan het onderwijsveld weten mee te delen, dan kan dit heel aanvaardbaar zijn. Er zit echter een klein addertje onder het gras. De gegevens voor Tabel 2 komen van de Eindtoets, maar de profielanalyse is in eerste instantie bedoeld voor het LVS en niemand weet of een soortgelijke tabel voor het LVS ook soortgelijke percentages als die in Tabel 2 zal opleveren, want we hebben geen gegevens van het LVS. Een aantal losse opmerkingen Het profiel dat we als voorbeeld hebben behandeld (zie bijv. Figuur 3) heeft drie categorieën. De statistische analyse laat zien dat het geobserveerde profiel significant (op 10% niveau) van het verwachte profiel afwijkt. Deze uitkomst vertelt niet waaruit deze afwijking precies bestaat en waar (eventueel) het meeste aandacht moet worden aan besteed. Maar een visuele inspectie van de afwijkingen (bijvoorbeeld aan de hand van Figuur 4) laat hierover weinig twijfel bestaan. Omdat profielen ipsatief zijn (d.w.z. hun som is constant) is het aantal mogelijke ‘vormen van de afwijkingen’ redelijk beperkt, en lijkt de interpretatie behoorlijk eenvoudig. Wanneer echter het aantal categorieën toeneemt gaan de restricties die volgen uit de ipsativiteit steeds minder een rol spelen, en krijgen we een groeiend aantal mogelijke patronen van de afwijkingen tussen geobserveerd en verwacht profiel waarbij de interpretatie soms niet zo voor de hand liggend zal zijn. Het verdient daarom aanbeveling het aantal categorieën beperkt te houden. In de praktijk moeten we denken aan drie of vier. 16
Complementair hiermee is het wellicht nuttig een ander mogelijk probleem te signaleren: als het aantal categorieën toeneemt zal het gemiddeld aantal items per categorie afnemen. Maar categorieën met een klein aantal items kunnen een misleidende (visuele) indruk maken bij een presentatie zoals in Figuur 4. Veronderstel dat een categorie maar drie items bevat (van hetzelfde gewicht), dan kan in het geobserveerde profiel het percentage op die categorie maar vier verschillende waarden aannemen: nul, 33.3, 66.7 en 100, en wat ook de waarde is van het percentage juist in het verwachte profiel, minstens twee van de vier mogelijke uitkomsten zullen een grote afwijking te zien geven die op zichzelf niet veel hoeft te betekenen. Bij het definiëren van de categorieën is het raadzaam hier aandacht aan te besteden. Stel dat men er niet in slaagt een klein aantal evenwichtig verdeelde categorieën te definiëren, omdat er een inhoudelijk zinvolle restcategorie blijkt te bestaan die echter slechts een zeer klein aantal items bevat. Men kan dan zonder problemen die items uit de profielanalyse weglaten, met dien verstande dat de toetsscore en de verwachte profielen alleen op de andere items worden berekend. Men dient echter goed uit te kijken hier: twee leerlingen met dezelfde score op de niet uitgesloten items hebben dan hetzelfde verwachte profiel, maar dat impliceert niet dat die twee leerlingen dezelfde score hebben op de hele toets. Algebraïsch en statistisch is er ook geen enkel probleem om een item in meer dan een categorie op te nemen, maar als men dit doet bepaalt men het verwachte profiel conditioneel op een toetsscore waarbij het tweemaal gecategoriseerde item ook twee keer meetelt. Het is dus de vraag of een dergelijke werkwijze de interpreteerbaarheid van de profielen en hun afwijkingen ten goede komt.
17
Appendix A: verwachte profielen
Het OPLM wordt gekarakteriseerd door de volgende item respons functie voor item i: exp[ai (θ − β i )] fi (θ ) = P ( X i = 1| θ ) = 1 + exp[ai (θ − β i )] We definiëren ε i = exp(− ai βi ) Veronderstel dat de items zijn opgedeeld in C categorieën, en voor elke categorie c definiëren we de verzameling Ec = {ε i | item i behoort tot categorie c} en haar complement E c = {ε i | ε i ∉ Ec } De verzameling parameters voor alle items in de toets duiden we aan met E. Uit de theorie over de conditionele maximum likelihood schatting in het OPLM zijn genoegzaam de zogenaamde combinatorische basisfuncties bekend: k
γ s (ε1 ,… , ε k ) = ∑∏ ε ix
i
(*) i =1
waarin k
(*) betekent: ∑ ai xi = s, ( xi ∈ {0,1}) i =1
Het argument van deze functies is dus een rijtje ε ’s, en de functie is symmetrisch; derhalve kunnen we voor een willekeurige verzameling ε -parameters ook kortweg de functie aanduiden als γ s ( E ) . Voor een gewogen score s kleiner dan nul of groter dan de maximaal te behalen score definiëren we dat de functie de waarde nul aanneemt. Op die manier is de functie gedefinieerd voor alle gehele getallen. Voor een gegeven toetsscore s en een deelscore sc op de deeltoets die bestaat uit de items van categorie c is de kans op sc conditioneel op s gegeven door γ s ( Ec )γ s − sc ( E c ) P ( Sc = sc | s ) = c γ s (E) waaruit dan direct volgt dat de verwachte waarde van de deelscore op categorie c items conditioneel op de totaalscore s gegeven is door Mc
E ( Sc | s ) = ∑ jP( Sc = j | s ) j =0
waarin Mc de maximale deelscore is in categorie c. Het is wellicht instructief het speciale geval te beschouwen waar alle items hetzelfde gewicht en dezelfde moeilijkheid hebben. Zij k het totaal aantal items in de toets, en kc het aantal items in categorie c, dan is de kans op deelscore sc gegeven door ⎛ kc ⎞ ⎛ k − kc ⎞ ⎜ ⎟⎜ ⎟ sc ⎠ ⎝ s − sc ⎠ ⎝ P ( Sc = sc | s) = ⎛k ⎞ ⎜ ⎟ ⎝s⎠ d.w.z., Sc volgt de hypergeometrische verdeling.
18
Appendix B. Steekproeftrekken onder restricties
We beschouwen alleen het geval van binaire items. Het algoritme werkt sequentieel. Als op een bepaald item succes wordt geboekt wordt de lopende score met het gewicht van dat item verminderd. We definiëren S als de score die nog moet behaald worden na het beantwoorden van een gedeelte van de items. Bij aanvang van het algoritme is S de totaalscore. Na beëindiging heeft S de waarde nul. We definiëren E0 als de verzameling ε -parameters voor de gehele toets met k items en Ei als Ei = E − {ε1 ,… , ε i }, (i < k ) Voor i = 1,…,k passen we sequentieel de volgende procedure toe 1. bereken Pi:
Pi =
ε iγ s − a ( Ei ) i
γ s ( Ei −1 )
2. Trek een uniform verdeeld random getal z uit (0,1). a. Indien z > Pi is een fout antwoord gegeven: Xi=0; b. Indien z ≤ Pi is een correct antwoord gegeven: Xi=1 en de lopende score wordt met ai verminderd: s := s-ai. Het algoritme kan voortijdig worden afgebroken in twee gevallen. Als de lopende score s gelijk is aan nul zijn de resterende items fout beantwoord; als de lopende score gelijk is aan de som der gewichten van de resterende items zijn al die items noodzakelijkerwijze goed beantwoord.
19
20
Cito | Volgsysteem primair onderwijs
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toetsen Taal voor kleuters voor groep 1 en 2 uit het Cito Volgsysteem primair onderwijs Nienke Lansink en Bas Hemker