Cito | Volgsysteem jonge kind
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toets Taal voor peuters uit het Cito Volgsysteem jonge kind Nienke Lansink en Bas Hemker
Wetenschappelijke Verantwoording van de toets Taal voor peuters uit het Cito Volgsysteem jonge kind
Nienke Lansink Bas Hemker
Cito, Arnhem, juni 2011
1
© Cito B.V. Arnhem (2012) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
5
2 2.1 2.2 2.3 2.4 2.4.1 2.4.1.1 2.4.1.2 2.4.1.3 2.4.1.4 2.4.2 2.4.2.1 2.4.2.2
Uitgangspunten van de toetsconstructie 7 Meetpretentie 7 Doelgroep 8 Gebruiksdoel en functie 8 Theoretische inkadering 13 Inhoudelijk 13 Taalontwikkeling 14 Tussendoelen en leerlijnen 18 Het taalonderwijs/taalaanbod op peuterspeelzalen en kinderdagverblijven 19 Inhoud toets Taal voor peuters en relatie met toetsen Taal voor kleuters 19 Psychometrisch 19 Opgavenbanken voor jonge kinderen en het primair onderwijs 19 Het gehanteerde meetmodel 22
3 3.1 3.2 3.2.1 3.2.2 3.2.3
Beschrijving van de toets 27 Opbouw, structuur, afname van de toetsen en rapportage 27 Inhoudsverantwoording 29 Het ontwikkelproces van de toets Taal voor peuters 29 De inhoud van de toets Taal voor peuters 31 Selectie van opgaven voor de toets Taal voor peuters 32
4 4.1 4.2 4.3
Het normeringsonderzoek 35 Het ontwikkelen van een itembank 36 Representativiteit: het schatten van de vaardigheidsverdeling van de normpopulaties Het normeren van de uiteindelijke toetsen 47
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 49 Nauwkeurigheid 50
6 6.1 6.2 6.2.1 6.2.2 6.2.3
Validiteit 53 Inhoudsvaliditeit 53 Begripsvaliditeit 53 Passing van het meetmodel 53 Equivalentie met eerdere toetsen en interne structuur Longitudinale vaardigheidstoename 57
7
Samenvatting
8
Literatuur
49
65
67
Bijlage 1: Profielanalyse met IRT, Norman Verhelst
71
3
54
41
4
1
Inleiding
Deze wetenschappelijke verantwoording heeft betrekking op de toets Taal voor peuters (voor driejarige peuters) van het Cito Volgsysteem jonge kind (voorheen PVS ofwel Peutervolgsysteem). Het toetspakket bestaat uit: – Opgavenboek – Registratieformulieren – Handleiding – Inhoudsverantwoording Bij dit toetspakket kan het Computerprogramma LOVS gebruikt worden om toetsresultaten geautomatiseerd te verwerken en op basis hiervan verschillende rapporten en overzichten te maken. Dit computerprogramma kan zowel bij het Cito Volgsysteem jonge kind (voorheen PVS) als bij het Cito Volgsysteem primair onderwijs (voorheen LOVS) ingezet worden. Daarnaast kan het Hulpboek Taal uit het Hulpprogramma Peutervolgsysteem ingezet worden om gericht hulp te geven aan een kind om de taalontwikkeling te stimuleren (zie Van Kuyk, 2005). Tezamen met de inhoud van het toetspakket Taal voor peuters (Op den Kamp & Lansink, 2010) levert deze verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van het betreffende meetinstrument. Het genoemde materiaal maakt een beoordeling van de toets Taal voor peuters mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie – De kwaliteit van het toetsmateriaal – De kwaliteit van de handleiding – Normen – Betrouwbaarheid – Validiteit Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het Cito Volgsysteem jonge kind niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toets Taal voor peuters voor driejarige peuters in kinderdagverblijven en peuterspeelzalen. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van het toetspakket. Om de tekst leesbaar te houden worden er een aantal algemene termen gehanteerd. Waar ‘kinderdagverblijven’ worden genoemd, worden ook andere vormen van kinderopvang bedoeld. Waar ‘locatie’ wordt genoemd, wordt een locatie van een peuterspeelzaal of kinderdagverblijf bedoeld. Waar we over ‘leidster(s)’ spreken, bedoelen we ook pedagogisch medewerker(s).
5
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
De toets Taal voor peuters brengt de algemene taalvaardigheid van peuters in beeld. Taal is een middel waarmee we kunnen communiceren met de wereld om ons heen en waarmee we onze gedachten en gevoelens kunnen benoemen en ordenen (Damhuis & Litjens, 2003). Om goed te kunnen communiceren, moeten we beschikken over mondelinge taalvaardigheden. Deze vaardigheden verwerven kinderen al vanaf zeer jonge leeftijd. In de stimulering van de ontwikkeling van jonge kinderen is de taalontwikkeling niet alleen een doel op zich, maar speelt taal ook een cruciale rol bij de ontwikkeling op alle andere gebieden (zoals sociaal-emotionele ontwikkeling, denkontwikkeling of oriëntatie op de wereld). Overdracht van informatie vindt immers voor een groot deel plaats via taal. Een goede taalontwikkeling is dus een randvoorwaarde voor de ontwikkeling op andere gebieden. Ontwikkelt de taal zich niet goed, dan stagneert de ontwikkeling op andere gebieden mogelijk ook. Daarom is het belangrijk de taalontwikkeling van ieder individueel kind te volgen. Het taalaanbod in kinderdagverblijven en peuterspeelzalen aan driejarige peuters richt zich op het stimuleren van de taalontwikkeling, door veel aandacht te besteden aan de mondelinge taalvaardigheden. Daarbij gaat het om het leren luisteren en spreken én om de ontwikkeling van zowel de receptieve als de productieve woordenschat (zie verder paragraaf 2.4.1). In de toets Taal voor peuters komen deze vaardigheden aan de orde met uitzondering van ‘het leren spreken’. Deze vaardigheid is productief van aard. Met de toetsvorm die we voor de toets Taal voor peuters hebben gekozen, kunnen productieve vaardigheden – met uitzondering van de productieve woordenschat – niet geëvalueerd worden. Leidsters kunnen het aspect ‘leren spreken’ wel evalueren door middel van authentieke observaties. De toetsresultaten kunnen dan aangevuld worden met deze observatiegegevens om een compleet beeld van het kind te krijgen. Relatie met andere instrumenten Naast Taal voor peuters zijn er voor de groepen 1 en 2 van het basisonderwijs de toetsen Taal voor kleuters van het Cito Volgsysteem primair onderwijs (voorheen LOVS) beschikbaar. Deze toetsen brengen de algemene (receptieve) taalvaardigheid van jonge kinderen in beeld. De items uit de toetsen Taal voor peuters en Taal voor kleuters liggen op dezelfde schaal. Er is dus sprake van één vaardigheidsschaal die de ontwikkeling van de algemene taalvaardigheid representeert van peuters (driejarigen) tot en met kinderen in groep 2. Hierdoor is het mogelijk om de ontwikkeling van de algemene (receptieve) taalvaardigheid vanaf 3 jaar tot en met het einde van groep 2 te volgen in één doorgaande lijn. Omdat de toets Taal voor peuters niet op zichzelf staat, maar onderdeel uitmaakt van een volgsysteem dat loopt tot en met groep 2 van de basisschool geven we hier aan hoe de inhoud van de peutertoets zich verhoudt tot de inhoud van de kleutertoetsen. In de toetsen Taal voor peuters en kleuters maken we binnen het hoofdconstruct ‘algemene taalvaardigheid’ onderscheid tussen conceptueel bewustzijn en taalbewustzijn. Onder conceptueel bewustzijn verstaan we het herkennen van begrippen en het begrijpen van korte gesproken teksten. Taalbewustzijn is de vaardigheid om af te zien van de betekenis van een woord en in plaats daarvan te letten op de vorm of klank ervan. In de toetsen voor peuters en groep 1 zijn alleen opgaven opgenomen die over conceptueel bewustzijn gaan. In de toets voor groep 2 zijn daarnaast ook opgaven opgenomen over taalbewustzijn. Concreet betekent dat dat in de toets Taal voor peuters de volgende aspecten van conceptueel bewustzijn zijn opgenomen: – Passieve woordenschat – Definitievaardigheid – Kritisch luisteren – Actieve woordenschat
7
De eerste drie vallen onder de eerder genoemde mondelinge taalvaardigheid ‘luisteren’, de laatste onder ‘spreken’. Wat we onder de vier categorieën precies verstaan, wordt nader toegelicht in paragraaf 3.2.2. Daarvoor gaan we in paragraaf 2.4.1 eerst nog nader in op de theoretische achtergrond van de taalontwikkeling.
2.2
Doelgroep
De toets Taal voor peuters is bestemd voor en genormeerd bij driejarige peuters in kinderdagverblijven en peuterspeelzalen in Nederland. De populatieparameters van de toets zijn op twee leeftijdsgroepen bepaald: leeftijdscategorie P1 (vanaf 3 jaar tot 3 ½ jaar: 36 tot 42 maanden) en leeftijdscategorie P2 (vanaf 3 ½ jaar tot 4 jaar: 42 tot 48 maanden). De toets kan daardoor op ieder willekeurig moment in het jaar worden afgenomen, waarbij het telkens mogelijk is om uitspraken te doen over het niveau van de peuter ten opzichte van andere peuters in Nederland. Beperkingen De toets Taal voor peuters kan in principe afgenomen worden bij alle driejarige peuters die naar een kinderdagverblijf of peuterspeelzaal gaan. Hierbij gelden de volgende uitzonderingen. Het kan raadzaam zijn om nog één of twee maanden te wachten met de afname wanneer een kind pas een korte tijd in een peutergroep zit. Daarnaast heeft het geen zin om de toets voor te leggen aan peuters die de Nederlandse taal helemaal niet beheersen (zie paragraaf 2.1 van de handleiding). Verder is de toets niet geschikt voor kinderen jonger dan 3 jaar. Andere doelgroepen De toets Taal voor peuters is niet alleen bedoeld voor peuters in kinderdagverblijven en peuterspeelzalen, maar ook voor leerlingen (vanaf 4 jaar) op speciale scholen voor basisonderwijs (bijvoorbeeld IOBK) en voor speciale leerlingen in het reguliere onderwijs waarvoor de toetsen Taal voor kleuters te moeilijk zijn. Voor deze leerlingen zijn geen aparte normen opgesteld. Wordt de toets Taal voor peuters bij speciale leerlingen afgenomen, dan zullen deze leerlingen vergeleken worden met een normgroep van reguliere leerlingen. Met de term ‘normgroep van reguliere leerlingen’ verwijzen we in dit geval naar de leeftijdsgenootjes van de kleuter van 4 jaar of ouder die wel in het reguliere onderwijs zitten (en over het algemeen één van de twee kleutertoetsen zullen maken). Omdat we een doorgaande lijn van driejarige peuters tot en met groep 2 hebben, kunnen we namelijk de toets Taal voor peuters afnemen bij een kleuter van 4 jaar of ouder en het resultaat van die kleuter op de toets tóch vergelijken met de resultaten van leeftijdsgenootjes. Daarnaast kan het resultaat ook vergeleken worden met de normgroepen van de peuters om zo helder te krijgen op welk niveau de kleuter functioneert. Op deze manier kan de leidster uitspraken doen over een mogelijk achterblijvende taalontwikkeling bij de peuter. De aanwijzingen in de handleiding bij de toetsen gelden wat de principes betreft ook voor gebruik bij speciale leerlingen. Er zijn echter enkele onderdelen waarvoor extra aanwijzingen gelden: de keuze van de af te nemen toets, het afnamemoment, en het gebruik van de alternatieve leerlingrapporten. Voor meer informatie daarover verwijzen we naar de handleiding bij de toets Taal voor peuters (en eventueel de handleiding bij de toetsen Taal voor kleuters).
2.3
Gebruiksdoel en functie
Taal voor peuters heeft twee doelen: niveaubepaling en progressiebepaling. Daarnaast wordt de mogelijkheid geboden de door het kind gemaakte fouten te analyseren met het oog op het aanbieden van gerichte remediëring. Dit kan met behulp van het handmatig in te vullen categorieënoverzicht of de meer geavanceerde rapportagevorm categorieënanalyse die via het Computerprogramma LOVS kan worden opgevraagd. Verderop in deze paragraaf gaan we uitgebreider in op de beide rapportagevormen. Hier geven we alleen aan dat met het categorieënoverzicht gesignaleerd kan worden of kinderen laag scoren op
8
een bepaalde categorie en dat de categorieënanalyse een rapportagevorm is die opvallende patronen signaleert. Bij beide gaat het om het achterhalen van tekorten en het geven van aanwijzingen voor verder diagnostisch onderzoek om te kunnen bepalen of er daadwerkelijk sprake is van een achterstand en wat die achterstand dan precies is (zie ook bijlage 1 voor een gedetailleerde uiteenzetting over de categorieënanalyse). Beide vormen van ‘signalering’ staan geheel los van de niveau- en progressiebepaling en zijn in de kalibratie- en normeringsonderzoeken niet wetenschappelijk getoetst. Naast de onderwerpen ‘niveaubepaling’, ‘progressiebepaling’ en ‘signalering via categorieënoverzicht en categorieënanalyse’, gaan we aan het eind van deze paragraaf nog in op de onderwerpen ‘vervolgtraject’ en ‘extra aandacht/hulp’. Niveaubepaling De toetsafnamen in het kader van Taal voor peuters geven de leidster informatie over het niveau van de taalvaardigheid van de kinderen, individueel of als groep. Iedere behaalde vaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 4.2 voor de beschrijving van de referentiegroep). In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leidster de scores van een kind kan vergelijken met die van een grote groep kinderen. De leidster kan een keuze maken uit: – de indeling in de niveaus A tot en met E; – de indeling in de niveaus I tot en met V. Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: Niveau A
% 25
Interpretatie De 25% hoogst scorende kinderen
B
25
C
25
D
15
E
10
De 25% kinderen die net boven tot ruim boven het landelijk gemiddelde scoren De 25% kinderen die net onder tot ruim onder het landelijk gemiddelde scoren De 15% kinderen die ruim onder het landelijk gemiddelde scoren De 10% laagst scorende kinderen
Bij de indeling in A tot en met E wordt op de overzichten de hoogste groep (niveau A) nog onderverdeeld in twee groepen: een groep die ‘hoog’ scoort (15% van de kinderen) en een groep die het ‘allerhoogst’ scoort (10% van de kinderen). Deze groepen worden van elkaar gescheiden door een stippellijn. Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep kinderen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
Bij de indeling in I tot en met V worden op de overzichten de laagste groep en de hoogste groep nog onderverdeeld in twee groepen die ieder 10% kinderen bevatten. Deze groepen worden van elkaar gescheiden door een stippellijn.
9
In de eerste generatie van de Cito Volgsystemen ( PVS1- en LVS2-toetsen) werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leidsters C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. Daarom is bij de tweede generatie van het Cito Volgsysteem primair onderwijs (LOVS) en het Cito Volgsysteem jonge kind (waar de toets Taal voor peuters onder valt) een indeling toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als voordeel dat er een gemiddelde groep3 is. Deze indeling sluit aan bij de niveau-indeling van andere Citotoetsinstrumenten zoals de Entreetoetsen. Progressiebepaling De toets Taal voor peuters geeft de leidster informatie over de ontwikkeling van de taalvaardigheid van de kinderen, individueel of als groep, gedurende het jaar dat de peuter 3 jaar is. De toets geeft antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een kind op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – het aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal (het ‘algemeen niveau van taalvaardigheid’). Deze unidimensionale vaardigheidsschaal die aan de toets Taal voor peuters ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995). 'Signalering' via categorieënoverzicht of categorieënanalyse Het doel van de toets Taal voor peuters is het vaststellen van het algemene niveau van taalvaardigheid van kinderen. Het kan behulpzaam zijn voor een leidster om te weten welk type opgaven een kind fout gemaakt heeft. Daarom bestaat de mogelijkheid om handmatig rapportages te maken en/of op te vragen in het Computerprogramma LOVS4 waarin de resultaten op categorieniveau worden gerapporteerd. Met behulp van deze rapportages kan gesignaleerd worden of (relatief) veel opgaven uit een bepaalde categorie fout gemaakt worden door het kind. Het signaleren van fouten op categorieniveau kan op twee verschillende manieren gebeuren. Ten eerste kan gesignaleerd worden of een kind vergeleken met andere kinderen veel fouten in een bepaalde categorie maakt. Deze wijze van signaleren wordt gehanteerd in het categorieënoverzicht (m.b.v. de signaalscore). Ten tweede kan gesignaleerd worden of een kind op een bepaalde categorie relatief meer (of minder) fouten maakt dan op grond van zijn of haar algemene vaardigheidsniveau mag worden verwacht. In zeker zin wordt het kind dan met zichzelf vergeleken (zie voor de details van deze werkwijze bijlage 1). Dat gebeurt via de categorieënanalyse. De categorieënanalyse kan alleen gemaakt worden als een leidster de beschikking heeft over het Computerprogramma LOVS. Merk hierbij op dat in beide gevallen geen sprake is van een meting van de subcategorieën, maar dat het gaat om een ‘signaalfunctie’. In het nu volgende bespreken we eerst hoe ‘signalering via categorieënoverzicht’ verloopt. Vervolgens werken we uit hoe ‘signalering via categorieënanalyse’ in zijn werk gaat. Via categorieënoverzicht Zoals gesteld, kan de leidster met behulp van het categorieënoverzicht een beeld krijgen van de vaardigheid van kinderen binnen de verschillende categorieën van de toets. Met dit categorieënoverzicht kan gesignaleerd worden of kinderen laag scoren op een bepaalde categorie. Dit wordt gedaan door het
1
PVS staat voor Peutervolgsysteem.
2
LVS staat voor Leerlingvolgsysteem.
3
Gemiddeld moet hier niet opgevat worden in statische zin. De werkelijke gemiddelde ruwe score kan in werkelijkheid behaald worden door leerlingen die niet in groep III zitten.
4
Het Computerprogramma LOVS wordt zowel bij het Cito Volgsysteem primair onderwijs (LOVS) als bij het Cito Volgsysteem jonge kind (voorheen PVS) gebruikt.
10
‘aantal goed’ op de categorie te vergelijken met een ‘signaalscore’. Voor elke categorie is (per normeringsmoment) een signaalscore berekend. De signaalscore is bepaald door met drie zaken rekening te houden: de verdeling van de vaardigheid, de moeilijkheid van de opgaven én de mogelijke meetfout bij het doen van uitspraken over de categorieën. Met de verdeling van de vaardigheid wordt rekening gehouden doordat we het signaalpunt relatief stellen: we willen weten of het kind tot de 20% slechtst presterende leerlingen van de eigen normgroep behoort. Het vaardigheidsniveau waaronder 20% van de leerlingen zit, wordt het p20-punt op de vaardigheidsschaal genoemd. Waar dat punt ligt, verschilt dus per normgroep. Met de moeilijkheid van de opgaven wordt rekening gehouden doordat het aantal opgaven dat tot een signaalscore leidt afhankelijk is van de moeilijkheid van de opgaven. In het geval van zeer gemakkelijke opgaven moeten meer opgaven goed gemaakt worden om boven de signaalscore uit te komen. Dit aantal hangt uiteraard ook af van het aantal opgaven dat gemaakt moet worden per categorie. Met de mogelijke meetfout wordt rekening gehouden doordat niet alleen naar de puntschatter van de vaardigheid gekeken wordt, maar naar het gehele betrouwbaarheidsinterval. We willen met minstens 84% zekerheid stellen dat als we een signaal geven, de leerling ook daadwerkelijk een vaardigheid heeft die onder het p20-vaardigheidspunt van de eigen normgroep zit. Zoals beschreven hoort bij iedere score een vaardigheidsscore. Daaromheen wordt het betrouwbaarheidsinterval gegeven. Dat betrouwbaarheidsinterval heeft een ondergrens (geschatte vaardigheid verminderd met 1 standaardmeetfout: - 1 SE) en een bovengrens (geschatte vaardigheid vermeerderd met 1 standaardmeetfout: + 1 SE). We hebben 68% zekerheid dat de daadwerkelijke vaardigheid van het kind tussen deze twee grenspunten ligt. In 16% van de gevallen van de leerlingen met die score zal de vaardigheid iets hoger liggen dan de bovengrens en in 16% zal de vaardigheid iets lager liggen dan de ondergrens. Als we het p20-vaardigheidspunt kennen, dan willen we pas een leerling signaleren als zelfs de bovengrens van het betrouwbaarheidsinterval onder dat vaardigheidsniveau ligt. Dat houdt dus in dat in het meest extreme geval 16% van de leerlingen eigenlijk een hogere vaardigheid heeft dan het p20-punt, hetgeen betekent dat we met 84% zekerheid kunnen stellen dat de vaardigheid daaronder ligt. De signaalscore is de hoogst mogelijk score waarbij de bovengrens van het betrouwbaarheidsinterval nog onder het p20-vaardigheidspunt ligt. Hierbij kan opgemerkt worden dat de zekerheid dat het kind bij signalering daadwerkelijk onder het p20-punt ligt vaak groter is dan 84%. Ten eerste is dat omdat we werken met gehele scores, en we de signaalscore op minimaal 84% zekerheid gezet hebben. Meestal ligt die zekerheid hoger dan de 84% (vanaf 1 scorepunt hoger dan de opgegeven signaalscore zal de zekerheid onder de 84% zakken). Ten tweede geldt voor scores onder het signaalpunt, die ook een signalering geven, dat de zekerheid dat de vaardigheid zeer laag is nog groter is dan 84%. Deze berekeningen zijn voor de vier categorieën uitgevoerd en leveren voor de twee normgroepen van de peuters onderstaande signaalscores per categorie op. Signaalscores Normgroep P1 [36-42] P2 [42-48]
Passieve woordenschat 8 10
Categorie Definitievaardigheid Kritisch luisteren 6 7
3 4
Actieve woordenschat 2 4
Dit betekent bijvoorbeeld dat een kind van 3 jaar en 2 maanden dat 8 of minder opgaven goed heeft op de categorie passieve woordenschat (PW) met (minstens) 84% zekerheid tot de 20% slechtst presterende leerlingen hoort op die categorie. Als die leerling 3 opgaven goed heeft bij actieve woordenschat (AW) dan zit de leerling boven de signaalscore en behoort op die categorie dan dus niet tot de 20% zwakst scorende leerlingen. De kans dat bij een categorie de score van een kind gelijk is aan de signaalscore of lager, is het grootst bij kinderen die een laag vaardigheidsniveau hebben (V, D of E) hebben. Het behalen van een laag niveau betekent echter niet per definitie dat een kind dan ook op één of meer categorieën een score zal hebben die gelijk is aan of lager dan de signaalscore. Het kan namelijk voorkomen dat een kind over ‘de gehele linie’ lager presteert en dat dit niet tot uiting komt in het categorieënoverzicht. En andersom, het behalen
11
van een hoger niveau dan niveau V, D of E houdt niet in dat een kind op een specifiek onderdeel niet op of onder de signaalscore zou kunnen zitten. Bij de opdeling naar de vaardigheidsniveaus wordt geen rekening gehouden met de standaardmeetfout: bij iedere score hoort namelijk een toewijzing aan een vaardigheidsniveau. De kinderen worden aan het meest waarschijnlijke vaardigheidsniveau toegewezen. Dat dit voor de gehele schaal goed werkt blijkt wel uit de gegevens in tabel 5.2 uit het hoofdstuk over de betrouwbaarheid van de toetsen. Indien de leidster constateert dat een kind op één of meerdere categorieën laag scoort of over de gehele linie lager presteert, dan kan zij gericht kijken hoe zij haar aanbod nog beter kan laten aansluiten op de vaardigheid van het kind. Individuele kinderen die blijk geven van onvoldoende beheersing van één of meerdere categorieën zullen wellicht baat hebben bij extra hulp en gerichte oefeningen (zie ook paragraaf 3.1). Merk nogmaals op: het enige nut van het categorieënoverzicht is het doen van een handreiking aan leidsters. Er is hier dus geen sprake van een meting op categorieniveau. Een verdere inhoudelijke betekenis wordt daar niet aan toegekend, aangezien het doel van de toets is de algemene taalvaardigheid te meten. Via categorieënanalyse Met behulp van de toets Taal voor peuters kunnen we, zoals gezegd, het algemene niveau van taalvaardigheid van kinderen vaststellen. Daarnaast is het mogelijk om met behulp van het Computerprogramma LOVS een categorieënanalyse uit te voeren. Daarmee kan nagegaan worden of kinderen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. Bij de rapportage van het verschil (tussen waargenomen score en verwachte score) wordt aangegeven of dat een klein verschil is dat aan toeval kan worden toegeschreven of dat het een betekenisvol verschil is. In dat laatste geval kan de leidster gericht kijken hoe zij haar aanbod nog beter kan laten aansluiten op de vaardigheid van het kind. Individuele kinderen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen wellicht baat hebben bij extra hulp en gerichte oefeningen (zie ook paragraaf 3.1). De hier beschreven categorieënanalyse is in feite een statische procedure waarmee we kijken of we een bepaald patroon kunnen vinden in de resultaten van het kind. Het gaat daarbij om de vraag hoe waarschijnlijk dat patroon is. Gegeven de totaalscore van het kind halen we onwaarschijnlijke patronen eruit. Een onwaarschijnlijk patroon zou bijvoorbeeld kunnen zijn dat het kind op 3 van de 4 categorieën een hoge score haalt en op 1 categorie een lage score (of andersom). De ‘waarde’ van deze statische procedure hebben we, zoals eerder al gezegd, niet onderzocht. Met andere woorden er heeft geen validering plaatsgevonden met de praktijk (leidsters die gebruikmaken van de categorieënanalyse). Vervolgtraject Naar aanleiding van het resultaat op de totale toets (vaardigheidsscore en niveau) en het invullen van het categorieënoverzicht en/of de resultaten van de categorieënanalyse kan de leidster besluiten om verder te gaan kijken. Omdat het aantal opgaven per categorie in de toets Taal voor peuters enigszins beperkt is, kan niet worden uitgesloten dat het kind bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer zekerheid te verkrijgen over de beheersing van de betreffende categorie door dit kind of zijn taalvaardigheid in het algemeen, kan de leidster resultaten op toetsen en observatielijsten die de vaardigheid van het kind op andere gebieden in beeld brengen naast de resultaten op de toets Taal voor peuters leggen. Ook de indruk die de leidster zelf van het kind heeft en het verslag van dagelijkse observaties in een kinderdagverblijfboekje of portfolio geven informatie over het kind en zijn taalvaardigheid. Hoogstwaarschijnlijk ziet de leidster dan bevestigd dat een goede taalontwikkeling een randvoorwaarde is voor de ontwikkeling op andere gebieden. Ontwikkelt de taal niet goed, dan stagneert de ontwikkeling op andere gebieden mogelijk ook. Als op basis van de verzamelde aanvullende informatie blijkt dat de taalvaardigheid in het algemeen of de beheersing van één of meerdere categorieën inderdaad te wensen overlaat, kan de leidster het kind vervolgens extra hulp en/of oefenmateriaal aanbieden, bijvoorbeeld met het Hulpboek Taal uit het Hulpprogramma Peutervolgsysteem.
12
Extra aandacht/hulp De toets Taal voor peuters maakt deel uit van een systeem waarbij indien nodig extra aandacht/hulp wordt ingezet om kinderen optimaal te ondersteunen in hun ontwikkeling. Dat systeem bestaat uit materialen die ingezet kunnen worden bij het cyclische proces van ondersteuning op maat: signaleren, analyseren, handelen en terugkoppeling door middel van evaluatie. In paragraaf 4.3 van de handleiding bij de toetsen (Op den Kamp & Lansink, 2010) is een korte beschrijving opgenomen van de verschillende fasen. Ook vindt men daar beknopte informatie over het Hulpprogramma Peutervolgsysteem. Met het Hulpboek Taal uit dit programma kan een leidster gericht hulp geven aan een kind om de taalontwikkeling te stimuleren. De nadruk ligt hierbij net als in de toets Taal voor peuters op het luisteren en spreken. Voor gedetailleerde informatie wordt verwezen naar deze uitgave (Van Kuyk, 2005). Omdat in deze verantwoording alleen de toets Taal voor peuters verantwoord wordt, volstaan we hier met een overzicht van de materialen voor toetsing en extra hulp.
Figuur 2.1
Cito-materialen ten behoeve van de toetsing en extra hulp
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
De basis voor de inhoud van de toets Taal voor peuters van het Cito Volgsysteem jonge kind wordt gevormd door: ─ theorieën over de taalontwikkeling (luisteren en spreken) bij jonge kinderen; ─ het taalaanbod aan peuters op kinderdagverblijven en peuterspeelzalen; ─ de tussendoelen en leerlijnen van het Expertisecentrum Nederlands (EN) en de Stichting leerplanontwikkeling (SLO). Daarnaast hebben we ons bij het selecteren van de te toetsen ‘begrippen’ (in de onderdelen passieve/actieve woordenschat en definitievaardigheid) mede gebaseerd op woordenlijsten als de Lijst met basiswoorden voor onder- en neveninstromers in het basisonderwijs uit Kienstra (2006).
13
In deze paragraaf gaan we eerst in op de taalontwikkeling van jonge kinderen (zie paragraaf 2.4.1.1). Daarbij richten we ons op de ontwikkeling van de mondelinge taalvaardigheid. De ontwikkeling tot geletterdheid (schriftelijke taalvaardigheid) bespreken we niet uitgebreid in deze verantwoording, omdat deze buiten de doelstelling van de toets Taal voor peuters valt (meer informatie hierover is te vinden in de wetenschappelijke verantwoording van de toetsen Taal voor kleuters (Lansink & Hemker, 2010)). Het is een taak van kinderdagverblijven en peuterspeelzalen om de taalontwikkeling van kinderen te stimuleren. Daarom gaan we vervolgens in paragraaf 2.4.1.2 nader in op de tussendoelen5. De tussendoelen en leerlijnen, opgesteld door het EN, beschrijven hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) deze doelen bereikt kunnen worden (Greven & Letschert, 2006). Hoewel deze doelen zijn opgesteld voor kleuters, kunnen een aantal daarvan volgens Stoep & Van Elsäcker (2005) gebruikt worden als richtlijn voor het werken met peuters. Dit helpt leidsters om inzicht te krijgen in het uitstroomniveau dat van belang is voor een soepele overgang naar het basisonderwijs. We geven aan welke tussendoelen met de toets Taal voor peuters kunnen worden geëvalueerd. Daarbij besteden we ook aandacht aan de relatie tussen de toetsen Taal voor peuters en Taal voor kleuters. In paragraaf 2.4.1.3 stippen we kort aan hoe het taalaanbod aan peuters op kinderdagverblijven en peuterspeelzalen eruit ziet. Tot slot geven we in paragraaf 2.4.1.4 op conceptueel niveau aan wat de inhoud van de toets Taal voor peuters is. In paragraaf 3.2.2 wordt uitgewerkt hoe dit er op operationeel niveau uitziet. 2.4.1.1 Taalontwikkeling De basis voor de taalontwikkeling van een kind wordt gelegd in de opvoeding die kinderen thuis van hun ouders of verzorgers krijgen. Voordat kinderen naar school gaan, verwerven ze de basisprincipes van de taal die in hun directe omgeving wordt gesproken. Kinderen die in de leeftijd van nul tot vier jaar een kinderdagverblijf of peuterspeelzaal bezoeken, verwerven deze principes ook deels in die omgeving. Op de basisschool ontwikkelt de taalvaardigheid van kinderen zich in de loop van de jaren steeds verder (Verhoeven, Biemond & Litjens, 2007). Het leren van de moedertaal vindt voor een groot deel plaats via spontane ontwikkelingsprocessen, maar daarnaast is het voor een goede taalverwerving van groot belang deze ontwikkelingsprocessen expliciet te stimuleren. De verwerving van taal begint vanaf de geboorte bij het leren begrijpen van gesproken taal (luisteren). Op een gegeven moment komt daar het zelf produceren van taal bij (spreken). Later, als het kind naar school gaat, ontwikkelen deze mondelinge taalvaardigheden zich steeds verder en komen ook de schriftelijke taalvaardigheden erbij. Het onderwijs in lezen en schrijven start in principe in groep 3, hoewel in de groepen 1 en 2 tegenwoordig ook steeds meer aandacht wordt besteed aan voorbereidende activiteiten op dat terrein. Steeds meer kinderen kunnen op kleuterleeftijd al lezen (en soms misschien zelfs al wel een beetje schrijven). Verhoeven en Aarnoutse (1999) definiëren taalontwikkeling als volgt: ‘Taalontwikkeling is de groei of toename in communicatieve competentie op het gebied van luisteren, spreken, lezen en schrijven en de reflectie op deze vaardigheden in de zin van taalbewustzijn of taalbeschouwing.’ En taalvaardigheid kan gedefinieerd worden als het vermogen tot luisteren, spreken, lezen en schrijven (Sijtstra, Aarnoutse en Verhoeven, 1999). Uit bovenstaande definities blijkt dat taalvaardigheid opgesplitst kan worden in een aantal deelvaardigheden. Figuur 2.2 laat dit zien. De ontwikkelingen op deze verschillende deelvaardigheden staan niet los van elkaar. Ontwikkelingen op bijvoorbeeld de deelvaardigheid ‘spreken’ brengen ook
5
Na de uitgave van de nieuwe toets Taal voor peuters (2010) heeft SLO in 2011 nieuwe doelen uitgebracht. Het betreft beheersingsdoelen die beschrijven waarmee kinderen begin groep 1 ervaring opgedaan moeten hebben.
14
ontwikkelingen op de andere drie deelvaardigheden teweeg (Verhoeven en Aarnoutse, 1999). Tevens vormt de mondelinge taalvaardigheid de basis voor de ontwikkeling van de schriftelijke taalvaardigheid.
Figuur 2.2
Taalvaardigheden Receptieve taalvaardigheid
Productieve taalvaardigheid
Mondelinge taalvaardigheid
Luisteren
Spreken
Schriftelijke taalvaardigheid
Lezen
Schrijven
Bij luisteren en spreken ligt het accent op betekenisuitwisseling. Om te kunnen begrijpen wat de ander zegt (luisteren), moet het kind betekenis kunnen toekennen aan wat die ander zegt. Met andere woorden, het kind moet beschikken over een goede woordenschat (een woord geeft een betekenis weer). Goed kunnen luisteren dient ook nog een ander doel. Door te luisteren naar anderen leert het kind zijn taal beter kennen. Zo kan het onder meer zijn woordenschat verder uitbreiden. Daarnaast heeft het kind een goede woordenschat nodig om zelf aan een ander duidelijk te kunnen maken wat het bedoelt (spreken). Ook bij lezen en schrijven gaat het uiteindelijk om betekenisuitwisseling. In het begin let het kind daar echter nog niet op. Het is dan vooral bezig met het maken van allerlei krabbels en tekens en nog niet met het schrijven van letters en woorden. Het kind wil graag laten zien dat het kan schrijven. Voor volwassenen hebben de krabbels ook geen betekenis. Om uiteindelijk een boodschap over te kunnen brengen door iets op te schrijven, moet het kind (om te beginnen) leren dat er een relatie is tussen een letter en een klank. Dit is uiteraard ook van belang bij het begrijpen van een geschreven tekst (lezen). Het kind moet niet meer alleen letten op de betekenis van woorden en zinnen, maar ook op de vorm van de woorden en de klanken. Op de ontwikkeling van de schriftelijke taalvaardigheid gaan we in deze verantwoording niet dieper in. Het volgen van deze deelvaardigheid valt immers buiten het doel van de toets Taal voor peuters. Voor meer informatie over de ontwikkeling van de schriftelijke taalvaardigheid (en bronnen daarover) verwijzen we naar de wetenschappelijke verantwoording van de toetsen Taal voor kleuters. Hoe de ontwikkeling van de mondelinge taalvaardigheid in grote lijnen verloopt, beschrijven we in het nu volgende. Ontwikkeling van de mondelinge taalvaardigheid De taalkunde onderscheidt vier aspecten aan de mondelinge taalvaardigheid, namelijk: 1 de fonologie; 2 de semantiek; 3 de syntaxis en 4 de morfologie. Een kind ontwikkelt zich bij het leren van de moedertaal op elk van deze vier aspecten. Bij de fonologische ontwikkeling gaat het om de klanken die het kind leert te maken. De semantische ontwikkeling betreft het leren van de betekenis van woorden. Door de syntactische ontwikkeling leert het kind de regels van de zinsbouw. Daaraan gekoppeld is de morfologische ontwikkeling, waarbij het kind zich de voor de omgevingstaal typische verbuigingen en vervoegingen van woorden eigen maakt (Kohnstamm, 2002). Belangrijk om zich daarbij te realiseren is dat ieder kind uniek is. Kinderen verschillen in het tempo waarin ze zich ontwikkelen en ook in de kwaliteit van de ontwikkeling op de verschillende aspecten.
15
Het verwerven van de moedertaal verloopt in een min of meer vaste volgorde, waarbij vaak de volgende fase-indeling wordt gehanteerd (zie bijvoorbeeld Gillis en Schaerlaekens, 2000). 1 De voortalige fase (0 – 12 maanden), de periode voor het verschijnen van de eerste woorden, waarin de fonologische ontwikkeling centraal staat. 2 De vroegtalige fase (1 – 2,5 jaar) waarin tussen de 12 en 18 maanden met de eerste begrijpbare woorden de woordenschatontwikkeling start. Daarnaast wordt tussen 1,5 en 2,5 jaar, met korte zinnen een begin gemaakt met de verwerving van de grammatica van de moedertaal (zinsbouw / syntaxis). 3 De differentiatie fase (2,5 – 5 jaar), waarin het kind langere zinnen gaat produceren en zijn kennis over de grammatica verder ontwikkelt (woordvorming / morfologie). 4 De voltooiingsfase (5 jaar en ouder) is de fase waarin het kind het systeem van zijn moedertaal goed genoeg beheerst om zich goed uit te kunnen drukken, over te brengen wat het bedoelt en te begrijpen wat anderen tegen hem zeggen. Vanaf nu gaat het kind het geleerde uit de vorige fasen verder ontwikkelen en laat het langzaamaan volwassen taalgebruik horen. Hoewel de ontwikkeling van de ene fase als randvoorwaardelijk gezien kan worden voor de start van de ontwikkeling in de volgende fase, is het niet zo dat bijvoorbeeld de fonologische ontwikkeling stopt of afgerond is op het moment dat de woordenschatontwikkeling start. De fonologische ontwikkeling loopt door en ontwikkelt zich deels parallel aan de woordenschatontwikkeling. Dit bekent bijvoorbeeld dat een kind dat in de differentiatiefase is aangeland, zich nog sterk verder zal ontwikkelen op alle aspecten van de mondelinge taalvaardigheid. Op het moment dat (driejarige) peuters een kinderdagverblijf of peuterspeelzaal bezoeken bevinden ze zich in (het begin van) de differentiatiefase. Samenvattend kunnen we stellen dat het bij de ontwikkeling van de mondelinge taalvaardigheid van peuters gaat om het ontwikkelen van de receptieve taalvaardigheid ‘luisteren’ en de productieve taalvaardigheid ‘spreken’. In paragraaf 2.1 gaven we al aan dat we met de toets Taal voor peuters drie aspecten van ‘luisteren’ – namelijk passieve woordenschat, definitievaardigheid en kritisch luisteren – en één aspect van ‘spreken’ – namelijk actieve woordenschat – meten. In het nu volgende gaan we eerst nog wat nader in op de taalontwikkeling van de (driejarige) peuter. Daarna geven we aan dat leidsters de tussendoelen en leerlijnen die door het EN zijn opgesteld als richtlijn kunnen gebruiken bij het stimuleren van de taalontwikkeling van driejarige peuters. Tevens kunnen toetsconstructeurs zich bij de constructie van opgaven oriënteren op deze tussendoelen en leerlijnen, wat ook de gevolgde werkwijze bij de ontwikkeling van de toets Taal voor peuters zal blijken te zijn. Ten slotte beschrijven we welke tussendoelen met de toets Taal voor peuters worden geëvalueerd. Taalontwikkeling peuters: mondelinge taalvaardigheid Zoals gezegd ligt bij de mondelinge taalvaardigheden ‘luisteren’ en ‘spreken’ het accent op betekenisuitwisseling. Om te kunnen begrijpen wat een ander zegt (luisteren), moet het kind betekenis kunnen toekennen aan wat die ander zegt. Daarvoor moet het kind over een goede (passieve) woordenschat beschikken. Tevens kan het kind door te luisteren naar anderen zijn taal beter leren kennen en zodoende zijn woordenschat verder uitbreiden. Daarnaast heeft het kind als het zelf wat wil vertellen of vragen een goede (actieve) woordenschat nodig om aan een ander duidelijk te kunnen maken wat het bedoelt (spreken). Woordenschat en woordenschatontwikkeling spelen dus een hele belangrijke rol bij het ontwikkelen van het ‘luisteren’ en het ‘spreken’. Daarom én omdat we met de toets Taal voor peuters met name het aspect ‘luisteren’ en in wat mindere mate het aspect ‘spreken’ meten, zullen we in het nu volgende vooral inzoomen op de woordenschatontwikkeling van driejarige peuters. Peuters van 3 jaar kunnen al wel verwoorden wat ze willen, nodig hebben en voelen, maar daar lopen ze nog wel vaak tegen de ‘grenzen’ van hun woordenschat aan. Als ze zich niet goed of adequaat genoeg kunnen verwoorden, willen ze nog weleens terugvallen op andere manieren van communiceren zoals wijzen, duwen, trekken, huilen en schreeuwen (Stoep & Van Elsäcker, 2005). Uit zowel ouder als recenter onderzoek (Schaerlaekens, 2008) blijkt dat de woordenschat rond de leeftijd van 3 jaar enorm groeit (woordenschatexplosie). Schaerlaekens haalt onderzoek van Aitchinson uit 2003 aan waaruit blijkt dat
16
kinderen van 2 jaar ongeveer 500 woorden actief kunnen produceren. Als ze 3 zijn is dat aantal gegroeid naar 1000 en op vijfjarige leeftijd gaat het al om 3000 woorden. Stoep & Van Elsäcker (2005) noemen de volgende aantallen: op driejarige leeftijd een actieve woordenschat van gemiddeld 800 woorden. Met 4 jaar, als het kind naar de basisschool gaat, beheerst het kind ongeveer 2000 woorden actief. De gemiddelde passieve woordenschat op deze leeftijd zou beduidend groter zijn: ruim 3500 woorden. De enorme groei in de woordenschat kan enerzijds toegeschreven worden aan externe factoren en anderzijds aan interne factoren. Bij externe factoren moeten we denken aan de flinke uitbreiding van de leefwereld van het kind als het zich ontwikkeld van peuter naar kleuter. Deze wordt onder meer veroorzaakt door het bezoeken van de peuterspeelzaal en de basisschool, meer contact met leeftijdgenootjes, familie en buurtgenoten. Verder speelt de interesse van het kind in prentenboeken, verhalen, rijmpjes/versjes en tv-programma’s een rol. Schaerlaekens (2008) geeft aan dat in verschillende onderzoeken is aangetoond dat deze externe factoren van invloed zijn op de woordenschatuitbreiding. Interne factoren die van invloed zijn op de groei van de woordenschat zijn de sociaal-emotionele ontwikkeling, de fantasieontwikkeling en de denkontwikkeling. De ontwikkeling die de peuter op deze gebieden doormaakt, uit zich in zijn woordgebruik. Daarnaast ontwikkelt het ‘spel’ van de peuter zich, waarbij met name het fantasie- en creatieve spel een positief effect op de woordenschatontwikkeling hebben. Verder speelt de groeiende fonologische vaardigheid van de peuter een rol. Hierdoor is het kind namelijk minder gebonden aan het gebruiken van woorden die het min of meer aankan. En de groei in de grammaticale ontwikkeling zorgt ervoor dat het kind ook in staat is om nieuwe woordklassen, zoals bijvoorbeeld functiewoorden, te gebruiken. Tot slot leidt de morfologische ontwikkeling ertoe dat het kind verschillende nieuwe woordvormen kan gebruiken (Schaerlaekens, 2008). Dat peuters van 3 jaar al een behoorlijke woordenschat hebben, betekent niet dat ze alle woorden ook al goed uitspreken en grammaticaal correcte zinnen vormen. Het is voor kinderen van deze leeftijd normaal dat ze nog niet goed articuleren en soms hakkelen. Peuters praten in deze periode over van alles, bijvoorbeeld over wat ze eten, wat ze aan hebben, het spel dat ze spelen of het boekje dat ze bekijken. Wat ze vertellen heeft meestal betrekking op het hier en nu. Daarbij maken ze vaak nog kromme zinnen. En als ze niet ondersteund worden bij het vertellen, ontbreekt er vaak nog het een en ander in ‘het verhaal’ dat ze vertellen (Stoep & Van Elsäcker, 2005). Door het communiceren met anderen kunnen driejarigen hun woordenschat steeds verder uitbreiden en leren ze relaties te leggen tussen woorden. Door voorlezen, gesprekjes die ze voeren en allerlei ontdekactiviteiten leren ze elke dag nieuwe woorden. Ze krijgen ook steeds meer belangstelling voor woorden en woordbetekenissen en laten dat zien door expliciet te vragen naar de ‘naam’ van dingen of de betekenis van een woord of ze proberen zelf een begrip te omschrijven. Verder ontwikkelen peuters in deze periode gevoel voor zinsconstructies. Met woorden spelen, veel praten en zingen, levert hier een belangrijke bijdrage aan. Op deze wijze leren ze woorden op een zodanige manier te sorteren dat er een betekenisvolle zin ontstaat (Stoep & Van Elsäcker, 2005). Wat betreft het begrijpend luisteren geven Stoep & Van Elsäcker (2005) aan dat peuters geboeid kunnen luisteren als een gesprek over een onderwerp gaat dat ze interessant vinden of waardoor ze worden geraakt. De gesprekken kunnen over allerlei zaken gaan, zoals een prentenboek, een film of televisieprogramma of andere gebeurtenissen die zich thuis of op het kinderdagverblijf / de peuterspeelzaal voordoen. We hebben tot nu toe vooral gesproken over taalontwikkeling en ontwikkelingsprocessen. Deze ontwikkelingsprocessen resulteren in een aantal mijlpalen die als tussen- en einddoelen, respectievelijk leerlijnen te ordenen zijn. Deze weerspiegelen tegelijkertijd een toenemende algemene taalvaardigheid (die door de toets Taal voor peuters meetbaar wordt gemaakt). Bij de ontwikkeling van de opgaven voor de toets Taal voor peuters hebben we ons dan ook gebaseerd op de tussendoelen en leerlijnen die door het Expertisecentrum Nederlands zijn opgesteld. Daarnaast kunnen leidsters óók veel hebben aan de beschrijving van deze tussendoelen en leerlijnen om de ontwikkeling van de mondelinge taalvaardigheid van peuters zo goed mogelijk te stimuleren.
17
2.4.1.2 Tussendoelen en leerlijnen Het Expertisecentrum Nederlands (EN) én de Stichting Leerplanontwikkeling (SLO) hebben tussendoelen en leerlijnen geformuleerd voor de onderbouw van het basisonderwijs. Hierin staat beschreven hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) taaldoelen (kennis, strategieën en houdingen) bij kleuters bereikt kunnen worden (Greven & Letschert, 2006). Volgens Stoep & Van Elsäcker (2005) kan een aantal van deze doelen, zoals eerder aangegeven, als richtlijn gebruikt worden bij het werken met peuters. Per doel formuleren ze wat hierbij verwacht kan worden van peuters in de leeftijd van drie tot vier jaar; wat peuters laten zien aan ontwikkeling en wat niet. Daarnaast geven ze aan hoe de leidsters de taalontwikkeling van de peuters kunnen stimuleren. De formuleringen per tussendoel geven de leidsters inzicht in het uitstroomniveau van de peuters en beschrijven welke vaardigheden van belang zijn voor een soepele overgang naar het basisonderwijs. De woordenschatontwikkeling en de ontwikkeling van de mondelinge taalvaardigheid (luisteren en spreken) vallen onder de tussendoelen mondelinge communicatie. We noemen hier alleen de tussendoelen die met de toetsen Taal voor peuters geëvalueerd kunnen worden. Voor een totaaloverzicht van de tussendoelen mondelinge communicatie verwijzen we naar bijlage 1. Meer informatie over de tussendoelen kunt u vinden in Verhoeven et al. (2007) en Stoep et al. (2005). Om te kunnen bepalen hoe de taalontwikkeling van een peuter verloopt, is het van belang om het taalaanbod regelmatig te evalueren. Dagelijkse observaties én de resultaten op gestandaardiseerde toetsen zoals de toets Taal voor peuters, laten zien wat een kind zich tot nu toe eigen heeft gemaakt en geven samen een goed beeld van de ontwikkeling van het kind. Dit geeft de leidster handreikingen voor het vervolg, met andere woorden een antwoord op de vraag: Hoe kan ik mijn taalaanbod zo goed mogelijk laten aansluiten op het ontwikkelingsniveau van het kind? Wat kan ik het kind nu, in deze fase, het best aanbieden? Dekking van de tussendoelen De toets Taal voor peuters dekt een aantal tussendoelen voor de taalontwikkeling die opgesteld zijn voor kleuters, maar die als richtlijn gebruikt worden bij het werken met peuters. Daarbij merken we op dat niet alle tussendoelen met een toets als Taal voor peuters getoetst kunnen worden. De toetsvorm die we voor de toets Taal voor peuters hebben gekozen, brengt met zich mee dat voornamelijk receptieve vaardigheden (passieve woordenschat, defintievaardigheid en kritisch luisteren) met deze toets geëvalueerd kunnen worden. Daarnaast meten we ook de actieve woordenschat. Andere productieve vaardigheden (zoals spreken) meten we niet, maar deze kunnen bijvoorbeeld wel door middel van observaties geëvalueerd worden. Daarnaast worden sommige doelen meer impliciet dan expliciet getoetst. Hiermee bedoelen we dat het kind het betreffende tussendoel moet beheersen om bepaalde opgaven uit de toetsen te kunnen maken, maar dat de betreffende tussendoelen niet in één-op-één relatie heel expliciet worden getoetst door de opgaven in de toets. Tussendoelen mondelinge communicatie De mondelinge taalvaardigheid en de woordenschatontwikkeling van peuters kan met de toets Taal voor peuters worden gemeten. Met de toets wordt een deel van de tussendoelen mondelinge communicatie expliciet dan wel impliciet getoetst. Het betreft de tussendoelen genoemd onder de kopjes: – 4 Woordenschat; – 5 Begrijpend luisteren. Een paar voorbeelden ter verduidelijking: tussendoel 4.1 ‘Kinderen beschikken over een basiswoordenschat’ wordt bijvoorbeeld expliciet getoetst binnen de onderdelen Passieve woordenschat, Definitievaardigheid en Actieve woordenschat; het tussendoel 5.4 ‘Ze kunnen belangrijke en minder belangrijke informatie onderscheiden’ impliciet binnen het onderdeel Kritisch luisteren.
18
2.4.1.3 Het taalaanbod op kinderdagverblijven en peuterspeelzalen De toets Taal voor peuters is methodeonafhankelijk. Wel is belangrijk dat de toets aansluit op het taalaanbod in (peuter)groepen van kinderdagverblijven en peuterspeelzalen. In het aanbod op kinderdagverblijven en peuterspeelzalen wordt veel aandacht besteed aan taal. Dit gebeurt spontaan bijvoorbeeld tijdens het samenspelen, voorlezen of zingen, maar ook via VVE-programma’s. Veelgebruikte VVE-programma’s (zoals bijvoorbeeld Piramide, Puk & Ko) beschrijven op hun websites dat ze veel aandacht aan het ontwikkelingsgebied Taal besteden door de mondelinge taalvaardigheid (luisteren en spreken) en de uitbreiding van de woordenschat te stimuleren. Deze programma’s zijn opgenomen in de databank effectieve jeugdinterventies van het NJI en voldoen ‘in theorie’ aan de kwaliteitseisen die het ministerie van OC&W aan VVE-programma’s stelt. Eén van deze eisen is dat VVE-methodes de taalontwikkeling moeten stimuleren (wet ‘Ontwikkelingskansen door kwaliteit en educatie’, 1 augustus 2010, ook wel de wet OKÉ). 2.4.1.4 Inhoud toets Taal voor peuters en relatie met toetsen Taal voor kleuters Eerder hebben we al verwezen naar de toetsen LOVS Taal voor kleuters. Zoals gezegd, is er sprake van een doorgaande lijn tussen de toets Taal voor peuters en de toetsen Taal voor kleuters. Ze staan op dezelfde schaal waardoor de ontwikkeling van peuters vanaf drie jaar t/m hun zesde jaar gevolgd kan worden. In de toetsen Taal voor peuters en kleuters onderscheiden we de volgende twee subdomeinen: conceptueel bewustzijn en taalbewustzijn (zie ook paragraaf 3.2.2). In zowel de peutertoets als de beide kleutertoetsen zijn opgaven over conceptueel bewustzijn opgenomen. Het onderdeel taalbewustzijn komt alleen in groep 2 aan de orde. In tabel 2.1 staat beschreven hoe het onderdeel conceptueel bewustzijn in de drie verschillende toetsen is ingevuld. Voor meer informatie over de invulling van het onderdeel taalbewustzijn in de toets voor groep 2 verwijzen we naar Lansink (2009) en Lansink & Hemker (2010).
Tabel 2.1
Domein conceptueel bewustzijn in de peuter- en kleutertoetsen Taal
Onderdeel
Peutertoets
Toets voor groep 1
Toets voor groep 2
Passieve woordenschat (PW)
X
X
X
Definitievaardigheid (DV)
X
Kritisch luisteren (KL)
X
X als onderdeel van PW X
X
Actieve woordenschat (AW)
X
Tot nu toe hebben we de inhoud van Taal voor peuters op conceptueel niveau beschreven. In paragraaf 3.2.2 wordt de inhoud van de toetsen op operationeel niveau verder uitgewerkt. Daarbij gaan we ook in op het verband tussen de tussendoelen die met de toets Taal voor peuters getoetst kunnen worden en de vier verschillende onderdelen die in de toets zijn opgenomen. 2.4.2
Psychometrisch
2.4.2.1 Opgavenbanken voor jonge kinderen en het primair onderwijs Voor het samenstellen van toetsen voor kinderdagverblijven, peuterspeelzalen en het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in de Cito Volgsystemen (Cito Volgsysteem jonge kinderen, Cito Volgsysteem primair onderwijs, de Entreetoetsen, Eindtoets basisonderwijs). Voor de constructie van toets Taal voor peuters hebben we gebruikgemaakt van de opgavenbank Taal voor peuters en kleuters. Ook voor andere vakgebieden in het Cito Volgsysteem als bijvoorbeeld Rekenen voor peuters en kleuters zijn opgavenbanken in gebruik.
19
Een opgavenbank is nadrukkelijk niet ‘zomaar’ een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid taal kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elk kind voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van taalvaardigheid uit, waarbij een groter getal wijst op een grotere taalvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van het kind op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van het kind op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden die een kind op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank taalvaardigheid meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van kinderen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item voor kinderen in de leeftijdscategorie P2 groter zal zijn dan in leeftijdscategorie P1, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige verwijzing naar een bepaalde populatie van kinderen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een kind die mate van vaardigheid niet, dan kan het dit item niet juist beantwoorden; heeft het die drempel wel gehaald, dan geeft het (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van het kind, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een kind die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen
20
deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop we in het vervolg dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken, moeten we ook proberen de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van kinderen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van kinderen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle items aan alle kinderen voor te leggen. Elk kind in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat voor de kalibratie van de taalopgaven is gebruikt. Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1
In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurig kind. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de kinderen.
2
We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van kinderen uit populaties die van belang zijn voor de normering. In het geval van de toets Taal voor peuters zijn dat steekproeven van kinderen uit de leeftijdscategorieën P1 en P2. Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een kind binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van kinderen kan worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. In het kalibratie- en normeringsonderzoek van de toets Taal voor peuters hebben we ook de toetsen Taal voor kleuters meegenomen. Dit houdt in dat we een set met items die voor driejarige peuters bedoeld zijn niet alleen hebben afgenomen bij driejarige peuters, maar deels ook bij kinderen uit groep 1. Tevens hebben we een deel van de items die bedoeld zijn voor groep 1 ook bij driejarige peuters afgenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal konden plaatsen als de kleuteritems. De itembank bevat dus zowel peuter- als kleuteritems.
3
Aan kinderen die niet tot de betreffende referentiepopulatie behoren, kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een kind met achterstand in groep 1 kan een toets maken die normaliter aan peuters wordt voorgelegd, en zijn vaardigheidsschatting kan behalve met de populatie van groep 1 ook vergeleken worden met de percentielen in de populatie van peuters, met bijvoorbeeld de uitspraak: ‘De vaardigheid van dit kind komt overeen met de mediane vaardigheid van peuters in leeftijdscategorie P2.’
21
4
De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als het kind een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan peuters wordt voorgelegd, bijvoorbeeld de toets Taal voor kleuters voor groep 1. Immers, het kalibratieonderzoek heeft ons ervan overtuigd dat alle items dezelfde vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken.
2.4.2.2 Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek niet gemakkelijk gebruikt kunnen worden, aangezien het normeringsonderzoek van de taaltoetsen een onvolledig design betrof: niet alle kinderen hadden alle opgaven gemaakt. Het gebruik van het IRT-model heeft enkele belangrijke voordelen. Op de eerste plaats kunnen de populatieschattingen onafhankelijk van de schattingen van de itemparameters plaatsvinden. Dat heeft voordelen bij het wegen van de verschillende groepen om te zorgen dat de steekproef geheel overeenkomstig de populatieverdeling is (zie ook paragraaf 4.1). Als in de IRT een schaal gevonden is, dat wil zeggen dat er een set opgaven gevonden is waarbij een model past, dan kan de populatie op deze schaal afgebeeld worden. Met de gecombineerde informatie over de populatieverdelingen en de itemparameters kunnen de item- en toetskarakteristieken voor de populatie precies bepaald worden. Voor een overzicht van meer voordelen van IRT boven klassieke testtheorie wordt verwezen naar Hambleton, Swaminathan en Rogers (1991). In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen we θ (theta). We wijzen erop dat θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd. Modellen die onder de IRT vallen worden daarom ook wel latente trek-modellen genoemd. De itemresponsfunctie fi (θ) is gedefinieerd als een conditionele kans: (2.1) Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi (θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi (θ) gegeven is door (2.2) waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.3 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord.
22
Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, krijgen we (2.3) Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter βi dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
Figuur 2.3
Twee itemresponscurven in het Raschmodel
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo’n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.3. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een ‘laaggroep’, met de vijftig procent laagste scores, en een ‘hooggroep’, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in het geval van de taaltoetsen niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid (sufficient statistic) bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ. Een gedetailleerde uiteenzetting hierover wordt gegeven door Verhelst (1992). De CML-schattingsmethode maakt van deze functie gebruik. Deze methode
23
maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen ‘omwisseling’ van ‘proporties juist’ in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door (2.4) waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.4 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren.
Figuur 2.4
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuze-opgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van het kind niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met
24
name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hier rekening mee gehouden. Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de schattingen zoals die verkregen worden met het programma SAUL (Structural Analysis (of a) Univariate Latent trait; Verhelst en Verstralen, 2002). De schattingen van deze methode lijken erg op de schattingen die verkregen worden met de ‘marginale grootste aannemelijkheidsmethode’ (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Het voordeel van SAUL is dat deze methode gemakkelijker werkt als er groepen onderscheiden worden die op meer dan één achtergrondvariabele van elkaar verschillen. Een ander voordeel is dat het niet noodzakelijk is om een normaalverdeling te veronderstellen. In ons onderzoek zal blijken (zie hoofdstuk 4) dat het nodig is een weging aan te brengen voor ‘verstedelijking’ (één achtergrondvariabele met twee niveaus). Met behulp van gewichten in een mixture distribution (‘gemengde verdeling’) kunnen we de verdeling van de populatie bepalen. De toepassing van deze methode maakt het ook mogelijk de scores te normaliseren. Meer over het toepassen van het meetmodel kan worden gevonden in hoofdstuk 4 waarin de normering beschreven wordt. Toetsing van het IRT-model Als een meetmodel gehanteerd wordt, moet ook onderzocht worden of het meetmodel past bij de data. De passing van het model illustreren we met figuur 2.5 (zie Staphorsius, 1994, blz. 239). Daarin beelden we voor een opgave de gegevens af waarop de zogenaamde Si-toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep van kinderen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal 8) zogenaamde scoregroepen. Elke groep bestaat uit kinderen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die op grond van de parameterschattingen voorspeld kunnen worden. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal kinderen dat de opgave heeft beantwoord. In het voorbeeld van figuur 2.5 bedraagt dit aantal meer dan 3000. Uit het figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%- betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante Sitoetsingsgrootheid (Verhelst, et al., 1994).
Figuur 2.5
Grafische voorstelling van een Si -toets
25
Bij de opgaven in onze opgavenbank hoort een grafische voorstelling van de Si-toetsing die in grote lijnen met figuur 2.5 overeenkomt. Dit is, zeker gezien de relatief grote aantallen observaties die in het geding zijn, een zeer sterke aanduiding dat het ontwikkelde meetinstrument en het gebruikte meetmodel adequaat zijn om het gedrag van de kinderen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de kinderen te verklaren zijn door één unidimensionaal concept. Hiermee is echter het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat het kind heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse, als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen), kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten, dekkend is voor en samenvalt met het construct ‘algemene taalvaardigheid’ zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel ‘taalvaardigheid’: kan het unidimensionale concept onder de opgaven in de opgavenbank Taal voor peuters en kleuters inderdaad worden opgevat als ‘algemene taalvaardigheid’? Hier komen we op terug in hoofdstuk 6 over validiteit.
26
3
Beschrijving van de toets
3.1
Opbouw, afname van de toetsen en rapportage
Opbouw Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van het betreffende onderdeel in het taalaanbod) en psychometrische criteria (met name moeilijkheidsgraad en discriminatieparameter) zijn opgaven geselecteerd voor de toets. De toets bevat grotendeels receptieve opgaven (meerkeuzevragen). Daarnaast bestaat één deel uit productieve vragen (open vragen). Taal voor peuters van het Cito Volgsysteem jonge kind bevat één taaltoets voor peuters. Deze is primair bedoeld voor driejarige kinderen. De toets is voor twee leeftijdsgroepen genormeerd en kan in het jaar dat de peuter 3 jaar is twee keer afgenomen worden, namelijk in de leeftijdscategorieën P1 (vanaf 3 tot 3½ jaar) en P2 (vanaf 3½ tot 4 jaar). Afname De toets wordt individueel bij kinderen afgenomen door een vertrouwde leidster of pedagogisch medewerker. De leidster of het team van de locatie bepaalt het afnamemoment en de afnamefrequentie. Cito adviseert – om de taalontwikkeling te kunnen volgen – de toets twee keer af te nemen in het jaar dat de peuter 3 jaar oud is. De toets wordt alleen bij ‘toetsbare’ kinderen afgenomen (zie voor meer informatie de handleiding). De toets bestaat uit vier delen die overeenkomen met de categorieën die getoetst worden (zie tabel 3.1). Voor de afname geeft de leidster een korte instructie waarin de te volgen werkwijze wordt uitgelegd. Vervolgens wordt de feitelijke toets afgenomen. De leidster leest de instructie en de vragen voor. Het kind geeft antwoord door het plaatje aan te wijzen dat volgens hem het correcte antwoord op de vraag weergeeft met uitzondering van deel 4 (zie verderop). De leidster noteert op een registratieformulier welke antwoorden het kind geeft. Elk deel van de toets begint met een oefenopgave. Aan de hand van deze oefenopgaven kan de leidster uitleggen wat het kind moet doen en kan het kind vertrouwd raken met de werkwijze. Leidsters wordt geadviseerd om tijdens de afname een vlot tempo aan te houden door bijvoorbeeld niet meer dan 10 seconden per opgave te gebruiken. Naar verwachting duurt een toetsafname minder dan 15 minuten (zie tabel 3.1). Deel 4 zal echter gemiddeld genomen wat meer tijd in beslag nemen dan de andere delen, omdat dit deel open vragen bevat waarbij het kind zelf een antwoord moet formuleren in plaats van een plaatje aan te wijzen. De leidster noteert op het registratieformulier precies het woord / de woorden die het kind zegt. Voor meer informatie over de afname-instructies verwijzen we naar paragraaf 2.2 van de handleiding bij de toets (Op den Kamp & Lansink, 2010). In tabel 3.1 staat informatie over de afname van de toets Taal voor peuters. Voor meer informatie over de afname van de toets verwijzen we naar de handleiding van de toets die in de toetsmap is opgenomen.
Tabel 3.1 Toets Peutertoets
Peutertoets
Overzicht afnamemomenten, delen, aantal opgaven en afnametijd Afnamemoment / Leeftijdscategorie P1: 36 tot 42 maanden
P2: 42 tot 48 maanden
Delen Deel 1 Deel 2 Deel 3 Deel 4 Deel 1 Deel 2 Deel 3 Deel 4
27
Opgaven pp 15 12 8 10 15 12 8 10
Afnametijd
Totaal max. 15 minuten
Totaal max. 15 minuten
Toetsen op maat De taalvaardigheid van kinderen in een groep loopt vaak sterk uiteen. Als gevolg daarvan zal eenzelfde taaltoets voor een deel van de kinderen goed op niveau zijn, maar voor sommige andere kinderen erg moeilijk of erg gemakkelijk. Met name voor een aantal kinderen van niveau D en voor de kinderen van niveau E (of de kinderen van niveau V) zijn de toetsen van het eigenlijke afnamemoment aan de moeilijke kant. Voor een aantal kinderen van niveau A (of niveau I) zijn de toetsen echter aan de gemakkelijke kant. De bij de taaltoetsen van het Cito Volgsysteem gehanteerde meettechniek maakt het mogelijk de toetsen op het niveau van de kinderen af te stemmen. Omdat de toetsscores op verschillende taaltoetsen telkens naar eenzelfde schaal worden omgezet is het mogelijk kinderen die verschillende toetsen maken toch met elkaar te vergelijken. Kinderen kunnen daardoor bijvoorbeeld een toets maken die hoort bij een vorig afnamemoment (een kleuter maakt medio groep 2 de toets behorend bij eind groep 1) of een volgend afnamemoment (een kleuter maakt eind groep 1 de toets behorend bij medio groep 2). Bij de toets Taal voor peuters en de toetsen Taal voor kleuters is dit ‘toetsen op maat’ in mindere mate van toepassing dan bij de overige toetsen uit het Cito Volgsysteem voor groep 3 t/m 8. Immers, voor zowel de peuters als voor de kleuters hebben we maar één toets ‘per jaar’. De peutertoets wordt zowel in de leeftijdscategorie P1 als in de leeftijdscategorie P2 afgenomen. En de toetsen voor de groepen 1 en 2 worden zowel voor het medio-afnamemoment (respectievelijk M1 en M2) als voor het einde-afnamemoment (respectievelijk E1 en E2) gebruikt. Daarnaast is er geen taaltoets voor tweejarige peuters beschikbaar waardoor het in de peutergroepen niet mogelijk is om een toets van een ‘lager’ niveau aan te bieden aan een driejarige peuter. Bij het ‘toetsen op maat’ kan de leidster eventueel wel gebruikmaken van de toets Taal voor kleuters voor groep 1. Deze toets kan ingezet worden voor peuters die heel duidelijk aan meer uitdaging toe zijn. Daarnaast kunnen leerkrachten van groep 1 de toets Taal voor peuters inzetten voor kleuters voor wie de groep 1 toets nog wat te hoog gegrepen is. Correctie van de toets De toets Taal voor peuters is zowel handmatig na te kijken en te analyseren als via de computer, met behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van de toets kan gebruikgemaakt worden van het scoreformulier en een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Op het scoreformulier staan de goede antwoorden ook aangegeven. Indien gewenst kan de leidster in het Computerprogramma LOVS de gegeven antwoorden aanklikken. Op basis van de totaalscore van het kind op de toets wordt een inschatting gemaakt van de algemene taalvaardigheid van de kinderen. Verwerking resultaten en verdere analyses en interpretatie Na de toetsafname en correctie van de door het kind gegeven antwoorden kunnen de toetsresultaten door de leidster verwerkt worden op speciaal ontwikkelde rapportageformulieren, onder andere peuteroverzichten, categorieënoverzichten, groepsrapporten en groepsoverzichten. De resultaten kunnen zowel handmatig als met behulp van de computer verwerkt worden. In de handleiding bij het toetspakket Taal voor peuters (Op den Kamp & Lansink, 2010: hoofdstuk 4: Interpretatie en gebruik op niveau van kind en groep en hoofdstuk 5: Interpretatie en gebruik op locatieniveau) en de handleiding bij het Computerprogramma LOVS (module Schoolzelfevaluatie) worden de mogelijkheden besproken om handmatig en met behulp van het computerprogramma verschillende soorten overzichten te maken, zoals bijvoorbeeld peuteroverzichten, groepsrapporten, dwarsdoorsnedes en trendanalyses. Met behulp van deze overzichten kan de kwaliteit van het gegeven onderwijs ook op groepsniveau en schoolniveau geanalyseerd worden. Categorieënanalyse Voor verdere analyses op het niveau van het kind biedt het Computerprogramma LOVS naast de standaardrapportages ook een meer geavanceerdere rapportage: de Categorieënanalyse. De categorieënanalyse is bedoeld om na te gaan of het kind, gegeven zijn algemeen niveau, evenwichtig presteert op de verschillende onderdelen of categorieën van de toets.
28
Bij de toets kunnen de opgaven onderverdeeld worden in een relatief klein aantal didactisch zinvolle categorieën. Uit de vaardigheidsscore die de peuter behaalt en het toegekende niveau (A t/m E of I t/m V) weten we of we met een sterke of zwakke peuter van doen hebben. Met een categorieënanalyse kan nagegaan worden of kinderen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. De categorieën die bij de toets Taal voor peuters worden gehanteerd staan in tabel 3.2. In de rechterkolom staat het aantal opgaven per categorie. Niet elke categorie is met evenveel items vertegenwoordigd, want dat zou geen recht doen aan de relatieve belangrijkheid van de categorieën in het taalaanbod op peuterspeelzalen en kinderdagverblijven.
Tabel 3.2
Toets Taal voor peuters: categorieën en aantal opgaven per categorie
Verkorte naam
Omschrijving
PW
Passieve woordenschat
Aantal opgaven 15
DV KL AW
Definitievaardigheid Kritisch luisteren Actieve woordenschat
12 8 10
Totaal
45
Voor de categorieënanalyse is een aparte verantwoording geschreven (zie bijlage 1). Deze verantwoording is opgesteld voor het domein Rekenen-Wiskunde. De principes van de categorieënanalyse die voor Rekenen-Wiskunde gelden, zijn ook van toepassing op Taal voor peuters. In de handleiding bij het Computerprogramma LOVS is voor de leidsters een uitvoerige beschrijving opgenomen van de categorieënanalyse en de interpretatie van de uitkomsten. Ook deze is, hoewel toegespitst op RekenenWiskunde, van toepassing op Taal voor peuters.
3.2
Inhoudsverantwoording
In deze paragraaf geven we eerst een beschrijving van toetsontwikkelingsproces van de toets Taal voor peuters. Vervolgens beschrijven we welke inhoudscategorieën zijn opgenomen in de toets. Daarna geven we aan welke selectiecriteria we hebben gebruikt bij het samenstellen van de toets Taal voor peuters. De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in het toetspakket Taal voor peuters. Daar vindt u voor specifieke voorbeelden van de verschillende soorten opgaven die in de toets voorkomen. 3.2.1
Het ontwikkelproces van de toets Taal voor peuters
In het ontwikkelproces van toetsen zijn normaliter achtereenvolgens de volgende fasen te onderscheiden: domeinbeschrijving; itemconstructie; proefafname/kalibratieonderzoek; normeringsonderzoek, samenstelling van de toets, rapportageoverzichten, handleiding en inhoudsverantwoording. Bij het ontwikkelen van de toets Taal voor peuters zijn we daar enigszins van afgeweken. Bij het ontwikkelproces van deze toetsen kunnen achtereenvolgens de volgende fasen onderscheiden worden: domeinbeschrijving; itemconstructie; gecombineerd onderzoek: Proefafname – Kalibratieonderzoek – Normeringsonderzoek deel 1;
29
normeringsonderzoek deel 2; samenstelling van de toets, rapportageoverzichten, handleiding en inhoudsverantwoording. Deze werkwijze – waarbij de proefafname, het kalibratieonderzoek én deel 1 van het normeringsonderzoek gecombineerd worden – konden we volgen, omdat we uit eerdere onderzoeken (bij kleuters) naar digitale varianten van de geconstrueerde opgaven al veel informatie over deze digitale versie van de opgaven hadden verkregen. Dit vormde een goede inspiratiebron voor de itemconstructie en -selectie voor een gecombineerd onderzoek naar de papieren varianten van de opgaven en waarin in één keer de proefafname, het kalibratieonderzoek en het normeringsonderzoek (deel 1) plaatsvond. De tussendoelen Mondelinge communicatie vormen de basis voor de itemconstructie. De lijst met tussendoelen hebben we als ‘domeinbeschrijving’ gehanteerd. De tussendoelen kunnen als richtlijn gebruikt worden bij het werken met peuters. Stoep en Van Elsäcker (2005) hebben per doel geformuleerd wat hierbij verwacht kan worden van driejarige peuters, wat het uitstroomniveau van peuters zal zijn en welke vaardigheden van belang zijn bij een soepele overgang naar het basisonderwijs. Daardoor wordt dus duidelijk waar (met welke inhouden) kinderen aan het begin van groep 1 minimaal ervaring opgedaan moeten hebben. De doelen geven op deze wijze tevens sturing aan het leerproces gericht op het behalen van deze doelen. Daarom kunnen de tussendoelen prima als domeinbeschrijving gebruikt worden (voor meer informatie zie paragraaf 2.4.1). Allereerst is bepaald welke tussendoelen met een toets als Taal voor peuters geëvalueerd kunnen worden. Vervolgens zijn op basis van de geselecteerde tussendoelen (zie paragraaf 2.4.1) opgaven geconstrueerd die een operationalisering vormen van die doelen. Dat is gebeurd door toetsdeskundigen van Cito. De geconstrueerde opgaven zijn voorgelegd aan en besproken met collega toetsdeskundigen (van Cito). Vervolgens zijn de opgaven op basis van een afnamedesign in het gecombineerde onderzoek (januari-februari 2009) afgenomen bij kinderen van 51 peuterspeelzalen en kinderdagverblijven waarbij leidsters de gelegenheid hadden om inhoudelijk te reageren op de opgaven (zie hoofdstuk 4). Ten slotte zijn de opgaven, op basis van de gegevens uit het gecombineerde onderzoek, indien nodig bijgesteld of verwijderd. In het tweede deel van het normeringsonderzoek (mei-juni 2009) is de overgebleven set met opgaven opnieuw op basis van een afnamedesign voorgelegd aan een steekproef van kinderen en peuterspeelzalen/kinderdagverblijven (zie hoofdstuk 4). Bij de afnames van het gecombineerde onderzoek en deel 2 van het normeringsonderzoek is een deel van de kinderen gedurende twee afnamemomenten gevolgd. De kinderen zijn gevolgd om de ontwikkeling van de taalvaardigheid in kaart te brengen en referentiegegevens van een landelijke normgroep te verzamelen. Na de afnames zijn de antwoorden van de kinderen op de toetsen geanalyseerd met behulp van het programmapakket One Parameter Logistic Model (OPLM; Verhelst, 1993; Verhelst en Glas, 1995). Voor een algemene technische beschrijving van dit model zie paragraaf 2.4.2. Voor een beschrijving van de opzet en uitvoering van het normeringsonderzoek en een verantwoording van de representativiteit van de steekproef verwijzen we naar hoofdstuk 4 van deze verantwoording. Bij de analyses is de kwaliteit van de afzonderlijke items en de totale verzameling voor een leeftijdscategorie in kaart gebracht. Itemparameters zijn geschat en normeringstabellen zijn samengesteld. Bij de analyses van de antwoorden van de kinderen op de opgaven is nagegaan of de verschillende onderdelen een beroep doen op hetzelfde complex aan vaardigheden. Dat bleek het geval te zijn. Daarom is voor peuters, groep 1 en 2 een schaal geconstrueerd, die we de algemene taalvaardigheidsschaal genoemd hebben. Op basis van inhoudelijke en psychometrische criteria zijn vervolgens toetsen samengesteld. Met behulp van de totaalscore op iedere toets (dat is het totaal aantal goed gemaakte opgaven in alle onderdelen van de toets) is de algemene taalvaardigheid van een kind op een bepaald afnamemoment te bepalen. Indien kinderen twee keer de toets Taal voor peuters maken, maakt deze schaal het mogelijk de algemene taalvaardigheid van de kinderen te volgen. Zoals eerder vermeld (zie paragraaf 2.4.2.1) hebben we in het kalibratie- en normeringsonderzoek van de toetsen Taal voor peuters ook de toets Taal voor kleuters meegenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal konden plaatsen als de kleuteritems. Dit maakt het mogelijk op de ontwikkeling in taalvaardigheid van jonge kinderen te volgen vanaf driejarige leeftijd (peuters) tot en met groep 2.
30
Naast toetsen zijn rapportageoverzichten gemaakt en een handleiding en inhoudelijke verantwoording geschreven. 3.2.2
De inhoud van de toets Taal voor peuters
De verschillende leerstofonderdelen die in de toets Taal voor peuters aan de orde komen, hebben we in paragraaf 2.4.1 op conceptueel niveau beschreven. In deze paragraaf lichten we die leerstofonderdelen op operationeel niveau kort toe. Voor een uitvoerige beschrijving van de inhoud van de peutertoets verwijzen we naar de Inhoudsverantwoording in het toetspakket Taal voor peuters (Op den Kamp & Lansink, 2010). Daar is een uitgebreide inhoudsbeschrijving opgenomen die geïllustreerd wordt met voorbeeldopgaven uit de toetsen. In paragraaf 2.4.1 hebben we aangegeven dat de verschillende onderdelen van het domein Taal voor peuters en kleuters een samenhangend geheel vormen en dat we de volgende twee subdomeinen onderscheiden: 1 conceptueel bewustzijn; 2 taalbewustzijn (ofwel metalinguïstisch bewustzijn / fonologisch bewustzijn), We bespreken hierna alleen de onderdelen/categorieën die in het subdomein Conceptueel bewustzijn aan de orde komen, omdat het subdomein Taalbewustzijn niet getoetst wordt met de toets Taal voor peuters. Voor meer informatie over dit subdomein verwijzen we naar de wetenschappelijke verantwoording van de toetsen Taal voor kleuters (Lansink & Hemker, 2010). Na de beschrijving van het subdomein Conceptueel bewustzijn wordt weergegeven welke opgavenvormen per categorie in de toets zijn opgenomen. Daarbij leggen we ook een link met de tussendoelen. Conceptueel bewustzijn Onder conceptueel bewustzijn vallen Passieve woordenschat, Definitievaardigheid, Actieve woordenschat en Kritisch luisteren: het herkennen van begrippen en het begrijpen van korte gesproken teksten. Voor de opgaven Passieve woordenschat geldt dat de kinderen een ‘begrip’ aan een persoon, voorwerp, handeling of situatie moeten koppelen. Om de opgave correct te kunnen beantwoorden moet het kind de betekenis van het begrip kennen. Bij de opgaven Definitievaardigheid moeten de kinderen een raadsel oplossen. Ze moeten een omschrijving aan een persoon of voorwerp koppelen. Definitievaardigheid is de vaardigheid om een begrip met woorden te beschrijven. Dat kan een eenvoudige beschrijving zijn, waarbij één of meer kenmerken worden benoemd (bijvoorbeeld kleur, vorm of materiaal). Het kan ook een moeilijker beschrijving zijn, waarbij de essentiële kenmerken worden weergegeven (wat is de functie van het voorwerp). De opgaven Kritisch luisteren laten de kinderen een beschrijvende zin aan een situatie koppelen. Om de opgave te kunnen beantwoorden, moeten de kinderen de ‘begrippen’ in de zin begrijpen (er wordt een beroep gedaan op hun woordenschat). Dat alleen is echter niet voldoende om de opgave correct te kunnen beantwoorden. Daarvoor moeten de kinderen de ‘begrippen’ in relatie tot elkaar kunnen begrijpen. Bij de zin ‘De plant staat op de tafel’ is het bijvoorbeeld niet voldoende dat de kinderen weten wat een ‘plant’ en wat een ‘tafel’ is. Ze moeten uit de zinsconstructie af kunnen leiden wat in die zin de relatie is tussen de plant en de tafel, namelijk dat de plant op de tafel staat. Voor de opgaven Actieve woordenschat geldt dat de kinderen een ‘begrip’ aan een persoon, voorwerp, handeling of situatie moeten koppelen. Om de opgave correct te kunnen beantwoorden moet het kind de betekenis van het begrip kennen en actief kunnen gebruiken. Taal voor peuters De opgaven in de toets Taal voor peuters hebben betrekking op de (mondelinge) taalontwikkeling (luisteren en spreken). Aan het proces van opgavenconstructie voor peuters lagen de aspecten ‘betekenis’ en
31
‘luisteren’ ten grondslag. De opgaven in de toets Taal voor peuters kunnen we onderverdelen in vier categorieën. De categorieën Passieve woordenschat, Definitievaardigheid en Actieve woordenschat zijn gericht op betekenistoekenning. De categorie Kritisch luisteren is gericht op het begrijpen van wat je hoort (zie figuur 3.1). Hoe de opgaven uit de toets Taal voor peuters exact over de categorieën verdeeld zijn, is beschreven in de bijlagen van de handleiding.
Figuur 3.1
Categorieën in Taal voor peuters
Categorie
Opgavenvorm
Tussendoelen
Passieve woordenschat Definitievaardigheid Kritisch luisteren Actieve woordenschat
Receptief Receptief Receptief Productief
MC 4 Woordenschat MC 4 Woordenschat MC 5 Begrijpend luisteren MC 4 Woordenschat
MC = Mondelinge Communicatie
Beoogde en gerealiseerde opgavenverdeling De verdeling van de opgaven over de categorieën komt overeen met wat we beoogd hadden. Uitgangspunt was om zo dicht mogelijk bij de indeling van de ‘oude’ toets Taal voor peuters te blijven. Dit is ook gelukt. We hebben een inhoudelijke toetssamenstelling gerealiseerd die voldoet aan de doelstelling die we met de toets Taal voor peuters voor ogen hebben. Tabel 3.3 laat zien hoe de verschillende leerstofonderdelen over zowel de ‘oude’ als de ‘nieuwe’ toets Taal voor peuters zijn verdeeld.
Tabel 3.3
Onderdelen die in de ‘oude’ en ‘nieuwe’ toetsen Taal voor peuters voorkomen.
Categorie
Peutertoets ‘oude’ toets
‘nieuwe’ toets
Passieve woordenschat
15
15
Definitievaardigheid
12
12
Kritisch luisteren
8
8
Actieve woordenschat
10
10
Totaal
45
45
3.2.3
Selectie van opgaven voor de toets Taal voor peuters
Alle opgaven die in de toets Taal voor peuters zijn opgenomen werden speciaal voor deze toets geconstrueerd door toetsdeskundigen van Cito. De opgaven zijn in een gecombineerd onderzoek (proefafname, kalibratieonderzoek en deel 1 normeringsonderzoek) in januari-februari 2009 voorgelegd aan kinderen in de leeftijdscategorie waarvoor ze bedoeld waren (waarbij het streven was dat elke opgave door minimaal 400 kinderen gemaakt werd). Het doel van proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door vaardige kinderen dan door minder vaardige kinderen fout gemaakt worden) geïdentificeerd en verwijderd worden. Daarnaast hebben wij het onderzoek aangegrepen als een mogelijkheid om aan de deelnemende leidsters te vragen of zij inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven. Sommige leidsters gaven aan dat zij sommige opgaven nogal moeilijk vonden. Dit oordeel werd de ene keer wel en de andere keer niet door de onderzoeksresultaten ondersteund.
32
De opgaven die psychometrisch geschikt bleken, werden vervolgens ingedeeld voor opname in een tweede onderzoek, waarin het alleen nog om de normering ging (mei-juni 2009). In principe kwamen alle opgaven met een acceptabele moeilijkheid (in klassieke termen een p-waarde tussen .40 en .90) die door de vaardige kinderen significant vaker goed werden gemaakt dan door de minder vaardige kinderen (rir vanaf .20) hiervoor in aanmerking. Echter, bij het selecteren van de opgaven waren naast psychometrische criteria ook inhoudelijke criteria van belang. De uiteindelijke toetsen moeten een evenwichtige verzameling opgaven bevatten. Hierbij werd gelet op inhoudscategorie. In de meeste gevallen kon aan zowel de psychometrische (p-waarde, rir) als de inhoudelijke criteria voldaan worden, maar in sommige gevallen zijn er op basis van de inhoudelijke criteria opgaven opgenomen die (net) niet de gewenste psychometrische waarden hadden. Zowel in het gecombineerde onderzoek (januari-februari 2009) als in het tweede deel van het normeringsonderzoek (mei-juni 2009) is de samenstelling van de toetsen met zorg bepaald. Elke toets bevatte een evenwichtige verzameling opgaven qua inhoud (categorie). De toetsen leken dus al zoveel mogelijk op de definitief samen te stellen toetsen. Voor het eerste normeringsonderzoek (medio-afname; januari-februari 2009) – dat deel uitmaakte van het gecombineerde onderzoek – zijn drie verschillende toetsboekjes samengesteld. Een deel van de opgaven was tot dan toe nog niet onderzocht. Een ander deel was (tijdens eerdere proefafnames) alleen in de digitale variant bij kleuters onderzocht. Hoe de papieren variant (bij peuters) van de opgaven zou functioneren, wisten we op dat moment feitelijk nog niet. Met het oog op eventuele uitval van items wegens slecht functioneren (in de papieren variant), hebben we daarom beduidend meer items in deel 1 van het normeringsonderzoek meegenomen, dan we uiteindelijk nodig hadden. De kans op uitval van items was overigens relatief beperkt, omdat slecht functionerende items (in de digitale variant) al niet opgenomen waren. Voor het tweede deel van het normeringsonderzoek (eind-afname; mei-juni 2009) zijn twee toetsboekjes samengesteld. Een toetsboekje dat naar verwachting de nieuwe toets zou gaan vormen en een ‘reserve’ boekje, wederom met het oog op eventuele uitval van items wegens slecht functioneren. De kans daarop was in dit stadium overigens niet zo groot (en beduidend minder groot dan bij het eerste normeringsonderzoek), omdat slecht functionerende items al verwijderd waren na het eerste normeringsonderzoek en zowel het eerste als het tweede normeringsonderzoek alleen items in de papieren variant bevatten. Van alle opgaven in het tweede deel van het normeringsonderzoek is om te beginnen opnieuw de p-waarde en de rir-waarde bepaald (zie ook paragraaf 4.3). Vervolgens is op basis van de twee toetsen (verwachte nieuwe toets en reservetoets) de definitieve toets samengesteld. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek een te hoge of te lage moeilijkheid (p-waarde) of een te laag discriminerend vermogen (rir). Soms ook vielen opgaven af die psychometrisch gezien goed functioneerden, maar die op inhoudelijke gronden werden afgewezen en/of tot een categorie behoorden die al voldoende vertegenwoordigd was in de toetsen. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te gemakkelijk waren, maar waarvoor in de betreffende categorie geen beter functionerende alternatieven voorhanden waren. Bij elke individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden. De uiteindelijke verdeling van aantallen opgaven per categorie is een zo goed mogelijk compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer praktische aard (afnameduur, aantal opgaven per module, aantal categorieën per toets).
33
34
4
Het normeringsonderzoek
Het normeringonderzoek is uitgevoerd met behulp van itemresponstheorie (IRT) en aan IRT verwante technieken, onder andere omdat deze werkwijze ons op een gemakkelijke manier in staat stelt gebruik te maken van een onvolledig design: niet alle opgaven hoeven bij alle leerlingen afgenomen te worden om toch voor de gehele populatie kennis te vergaren over deze opgaven. In paragraaf 2.4.2.2 is het gebruikte meetmodel verder beschreven. Het meetmodel heeft een aantal voordelen. Eén voordeel is dat op een gemakkelijke manier opgaven van verschillende toetsen alle op één meetschaal gebracht kunnen worden. Dit levert een ‘itembank’. Een ander voordeel is dat de gegevens van leerlingen en van populaties van leerlingen gerelateerd kunnen worden aan deze meetschaal. Door nu de gegevens over de opgaven (itembank) en de populaties aan elkaar te relateren kunnen de eigenschappen van een toets berekend worden. Al deze voordelen zijn benut bij de normering van de toets Taal voor peuters waarbij drie fasen zijn onderscheiden. Fase 1: Het maken van een itembank De eerste fase bestaat uit het analyseren van de opgaven, waarbij de itemparameters van de opgaven geschat worden (voor meer details zie paragraaf 2.4.2.2). Hierbij is gebruikgemaakt van het One Parameter Logistic Model (Verhelst, Glas en Verstralen, 1995). In deze fase wordt een itembank gemaakt waarbij alle opgaven uit de proefafname aan elkaar gerelateerd worden, zodat een schaal verkregen wordt. In het proefonderzoek zijn opgaven meegenomen die door peuters en/of kleuters gemaakt kunnen worden. Tevens vond de dataverzameling voor de toetsen Taal voor peuters gelijktijdig plaats met die voor de toets Taal voor kleuters (Lansink & Hemker, 2010). In de beschrijving van de gevonden meetschaal zal dan ook de gehele schaal voor de (papieren) toetsen Taal voor peuters en Taal voor kleuters beschreven worden. Bij de beschrijving van deze eerste fase (in paragraaf 4.1) zal ook het onderzoeksdesign en de dataverzameling ter sprake komen. Fase 2: Het schatten van de vaardigheidsverdeling van de normpopulaties In de tweede fase worden de populatiegegevens onderzocht. In tegenstelling tot de eerste fase waarbij dankzij populatieonafhankelijke schattingen van de itemparameters (zie paragraaf 2.4.2.2) representativiteit van de steekproef ten opzichte van de populatie niet noodzakelijk is, is dat tijdens deze fase wel van belang. Bij het bepalen van de verdelingen van de te onderscheiden normgroepen op de meetschaal wordt dan ook gelet op representativiteit. Aangezien het in deze wetenschappelijke verantwoording alleen om de toetsen Taal voor peuters gaat, zijn de gegevens van de normeringssteekproef van de kleuters hier niet relevant (zie voor de gegevens van de normgroepen van de kleuters Lansink & Hemker, 2010). De beschrijving van de normeringssteekproef zal daarom alleen de normgroepen van de peuters betreffen waarbij speciale aandacht uitgaat naar representativiteit (zie paragraaf 4.2). Fase 3: Het normeren van de uiteindelijke toetsen In de derde en laatste fase worden de normen voor de uiteindelijke toets bepaald. Uit de gehele itembank van de toetsen Taal voor peuters en Taal voor kleuters worden opgaven voor een peutertoets geselecteerd (zie ook hoofdstuk 3 voor de criteria waaraan de opgaven moeten voldoen voor de uiteindelijke selectie). De toets is genormeerd voor twee normgroepen: de ‘jongste’ driejarigen (P1: peuters vanaf 36 tot 42 maanden) en de ‘oudste’ driejarigen (P2: peuters vanaf 42 tot 48 maanden). De normen zijn met behulp van IRT berekend (zie paragraaf 4.3). Voor de omschrijving en de normering van de kleutertoetsen verwijzen we naar de wetenschappelijke verantwoording van Taal voor kleuters (Lansink & Hemker, 2010). Voor de kleuters zijn er naast de ‘papieren’ toetsen, ook ‘digitale’ toetsen die op de computer gemaakt kunnen worden (Lansink & Evers, 2010; Lansink, Hemker & Verschoor, 2011). Voor de peuters zijn alleen ‘papieren’ toetsen beschikbaar, omdat we ervan uitgaan dat peuters van 3 jaar nog niet computervaardig genoeg zijn om (zelfstandig) een toets op de computer te maken. Het onderhavige verslag betreft daarom alleen de ‘papieren’ itembank.
35
4.1
Het ontwikkelen van een itembank
De hier beschreven opgavenbank is dezelfde als de bank die gebruikt is voor de ‘papieren’ kleutertoetsen (Lansink & Hemker, 2010). Met het oog op de ontwikkeling van deze itembank voor de toetsen Taal voor peuters en Taal voor kleuters zijn voor peuters en de jaargroepen 1 en 2 opgaven geconstrueerd. Als inspiratiebron voor de opgaven voor de nieuwe papieren toetsen Taal voor peuters en kleuters, diende een set digitale opgaven die in de periode 2006-2009 ten behoeve van de digitale toetsen Taal voor kleuters (versie 2004 met uitbreiding itembank in 2008) was geconstrueerd. Deze digitale opgaven waren reeds in een tweetal digitale proefafnames (januari-februari 2007 en januari-februari 2008) op hun kwaliteit onderzocht. Bij de analyse van de resultaten van deze twee digitale proefafnames bleek een deel van de opgaven een moeilijkheidsgraad te hebben die mogelijk beter bij peuters dan bij kleuters zou passen (in de ‘digitale’ variant was een deel van de opgaven duidelijk te gemakkelijk voor leerlingen van groep 1). Deze opgaven zijn daarom in een later stadium omgezet naar een ‘papieren’ variant voor peuters. In het onderzoek dat we in onderhavige verantwoording beschrijven, hebben we ook informatie over deze ‘papieren’ opgaven verzameld bij driejarige peuters. In 2009 zijn data verzameld om de itemparameters van de nieuw ontwikkelde opgaven (alle op papier) vast te stellen. In de eerste periode van het onderzoek waren er afnamen in januari-februari, terwijl de tweede afnameperiode in mei-juni plaatsvond. Deze periodes komen overeen met de normeringsmomenten van de kleutertoetsen, respectievelijk het medio-moment en het einde-moment. Bij de peutertoetsen is de leeftijd van de peuters op beide momenten bepaald. In de eerste periode zijn tien verschillende ‘boekjes’ (sets van opgaven die door een groep leerlingen gemaakt worden) afgenomen bij drie verschillende onderscheiden normgroepen: peuters van 3 jaar (P; bij de normering is pas onderscheid gemaakt tussen de ‘jongste’ en de ‘oudste’ peuters), kleuters in groep 1 van het basisonderwijs (G1) en kleuters in groep 2 van het basisonderwijs (G2). Met behulp van de tien taken (toetsen) zijn gegevens verzameld over 232 opgaven. Iedere opgave zat minstens in twee verschillende taken: er was sprake van een ‘geankerd design’. In tabel 4.1 is een overzicht opgenomen van de verschillende boekjes, het aantal beoogde leerlingen en het werkelijke aantal leerlingen per boekje. Tabel 4.2 geeft het onderzoeksdesign van deze eerste periode van het onderzoek weer.
Tabel 4.1
Beoogde en werkelijke aantal leerlingen per boekje in januari-februari 2009 (Medio) Aantal leerlingen
Boekje
Groep jan.-feb. (Medio)
Taak
1 2
Peuters Peuters
111 121
Beoogd 200 200
Werkelijk 231 171
3
Peuters
131
200
203
Peuters
Totaal
600
605
Groep 1 Groep 1 Groep 1
211 221 231
200 200 200
235 284 222
Groep 1
Totaal
600
741
Groep 2 Groep 2 Groep 2 Groep 2
311 321 331 341
200 200 200 200
260 244 244 273
Groep 2
Totaal
800
1021
4 5 6 7 8 9 10
36
Merk op dat de beoogde aantallen voor de drie verschillende groepen in werkelijkheid gehaald zijn. Slechts één taak is door iets minder leerlingen gemaakt, maar door het geankerde design zijn er per opgave voldoende observaties (zie tabel 4.5). Een deel van de opgaven werd geschikt geacht voor meer dan één populatie. Zo waren er opgaven die zowel door peuters als door kleuters in groep 1 gemaakt zijn en opgaven die door de beide kleutergroepen gemaakt zijn.
Tabel 4.2
Design eerste afnameperiode Opgaven voor verschillende afnamegroepen
Afnamegroep Peuters (P Medio) Groep 1 (G1 Medio)
P
P / G1
G1
G1 / G2
G2
Groep 2 (G2 Medio)
Met behulp van dit eerste deel van het onderzoek werd ten eerste de kwaliteit en de moeilijkheid van de papieren opgaven bepaald. Op basis daarvan is ook het tweede deel van het onderzoek opgezet, dat plaatsvond in de periode mei-juni 2009. In deel 2 van het onderzoek zijn er per groep (peuters, groep 1 en groep 2) twee toetsboekjes afgenomen. Ieder toetsboekje bestond uit twee taken (zie tabel 4.3). In tabel 4.3 is ook te zie dat het werkelijke aantal deelnemers in alle gevallen ruimschoots het aantal beoogde leerlingen overtrof.
Tabel 4.3
Beoogde en werkelijke aantal leerlingen per boekje in mei-juni 2009 (Eind)
Boekje
Groep mei-juni (Einde)
Taak
1
Peuters
2
Aantal leerlingen Beoogd
Werkelijk
141-142
300
431
Peuters
151-152
200
355
Peuters
Totaal
500
786
3
Groep 1
241-242
300
463
4
Groep 1
251-252
200
405
Groep 1
Totaal
500
868
5
Groep 2
351-352
300
547
6
Groep 2
361-362
200
556
Groep 2
Totaal
500
1103
Tijdens deel 2 van het onderzoek zijn de beste 152 opgaven van het onderzoek van januari-februari 2009 aangevuld met 48 nieuwe opgaven en ondergebracht in verschillende taken (zie tabel 4.4). Ook hier komen opgaven in meer dan één taak voor. In de opzet is er zorg voor gedragen dat geen enkele leerling een opgave binnen een afnamemoment twee keer voorgelegd kreeg. De onderzoeksopzet (het gebruikte design) zorgt ervoor dat het mogelijk is de vaardigheid van leerlingen uit de zes normgroepen met elkaar te vergelijken. Bij de kleutertoetsen zijn de normgroepen direct gerelateerd aan het afnamemoment. Voor de peutertoets zijn gegevens voor zowel de ‘jongste’ als de ‘oudste’ peuters op beide momenten verzameld.
37
Tabel 4.4
Design tweede afnameperiode Opgaven voor verschillende afnamegroepen
Afnamegroep
P
P / G1
G1
G1 / G2
G2
P Medio P Einde G1 Medio G1 Einde G2 Medio G2 Einde
Dankzij dit verbonden design was het mogelijk om met CML-schattingsmethoden alle itemparameters op één schaal te brengen. Dat levert een itembank op waarin gegevens staan van 280 opgaven: 80 die alleen in de eerste periode zijn afgenomen, 48 die alleen in de tweede periode zijn afgenomen en 152 die in beide perioden zijn afgenomen. In een onvolledig design heeft niet iedere leerling alle opgaven gemaakt. Dit zijn ontbrekende waarnemingen ‘by design’. Zoals al aangegeven zijn deze data door middel van IRT zeer goed te analyseren. Het is ook mogelijk dat er onbedoeld opgaven ontbreken. Een groep kan door omstandigheden bijvoorbeeld maar één taak gemaakt hebben in plaats van twee. Dit kwam in deel 2 van het onderzoek voor. Hier kan in het design van de IRT-analyses rekening mee worden gehouden. De niet gemaakte taak wordt dan buiten beschouwing gelaten. De overige ontbrekende waarnemingen (gemiddeld 1% per afname) konden geïnterpreteerd worden als het fout beantwoorden van de vraag, zoals dat ook bij het scoren van de uiteindelijke toets het geval is. Om een kwalitatief goede itembank te krijgen, is gelet op de modelpassing. Naast passingsmaten en -toetsen binnen OPLM, is ook onderzoek gedaan naar itembias6 (Differential Item Functioning). We hebben daarbij op drie verschillende niveaus gekeken of er sprake was itembias. Ten eerste tussen de zes verschillende afnamemomenten, ten tweede tussen leerlingen met al dan niet Nederlands als thuistaal en ten derde tussen jongens en meisjes. Opgaven met ernstige vormen van ‘misfit’ of itembias zijn uit de itembank verwijderd. Het betrof 12 opgaven waardoor er 268 opgaven overbleven in de itembank. Het slagen van de kalibratie betekent dat we met een selectie van items uit de bank de vaardigheid van een leerling kunnen meten. Er kan ook specifiek naar de 90 peuteropgaven gekeken worden. Een peuteropgave is gedefinieerd als een opgave die in één van de toetsboekjes bij peuters is afgenomen. Van deze opgaven zijn er in totaal 8 uit de gehele bank verwijderd. Daarnaast zijn er 4 opgaven die wel bij peuters afgenomen zijn, maar uiteindelijk niet geschikt bevonden voor peuters. Dit waren opgaven die zowel bij peuters als bij kleuters zijn afgenomen. Deze zijn voor peuters uit de bank verwijderd, maar niet voor kleuters. Dit betekent dat voor peuters uiteindelijk 78 opgaven in de itembank overbleven. In de itembank met opgaven voor peuters en kleuters zitten gegevens van de 5124 afnamen, waarvan 1391 betrekking hebben op peuters. Het aantal observaties per opgave varieert van 355 tot en met 3065, met een gemiddelde van 991. Voor een model dat een hybride is tussen een 1- en een 2-parametermodel is de omvang van de steekproef voldoende. In de itembank zitten zowel opgaven voor peuters als voor kleuters. De gegevens voor de peuteropgaven zijn gegeven in tabel 4.5. Het uiteindelijk aantal opgaven voor peuters in de opgavenbank is 78. Een deel van die opgaven is ook geschikt voor kleuters en is daarom ook bij kleuters afgenomen. Om die reden zijn de totalen groter dan wanneer alleen naar peuters gekeken wordt. 6
Er is sprake van itembias als verschillen in prestaties op een item of opgave veroorzaakt worden door kenmerken van de opgave die niet relevant zijn voor wat de opgave beoogt te meten. Itembias impliceert dat de opgave niet dezelfde vaardigheid bij de onderscheiden groepen leerlingen meet (Bügel en Sanders, 1998).
38
Tabel 4.5
Aantal observaties per item in de opgavenbank en in de toets
Aantal observaties
Peuteritems in de opgavenbank Alleen Peuters
Totaal
Geselecteerde peuteritems in toets Alleen Peuters
Totaal
Gemiddelde
708
969
872
1002
Minimum Maximum
355 1220
355 3065
355 1220
355 1593
Bij de 45 opgaven die geselecteerd zijn voor de toets, is het aantal opgaven met relatief weinig observaties (minder dan 400) beperkt. Het betreft slechts 2 opgaven. Aangezien het OPLM een hybride is van een 1- en een 2-parametermodel is zelfs voor deze twee opgaven het aantal observaties goed te noemen. Bij de geselecteerde opgaven voor de toets ligt het gemiddelde aantal observaties per opgave boven de 1000. Dat is zelfs zeer goed te noemen. Bij de evaluatie van de itemparameters wordt door de COTAN de maat c gesuggereerd (Evers, Lucassen, Meijer & Sijtsma, 2010; p40). Deze c (een maat voor de beoordeling van de nauwkeurigheid van de schattingen) is hierin als volgt gedefinieerd: c = se(bi) / sd(), waarbij se(bi) de standaardfout van de schatting van de moeilijkheidsparameters is (de enige parameter die geschat wordt in het OPLM) en sd() de standaarddeviatie van de kalibratiepopulatie betreft. Merk op dat in ons geval de kalibratiepopulatie de verzameling van normpopulaties is. Bij deze itembank zijn de volgende resultaten gevonden:
c
gemiddeld 0,076
minimaal 0,037
maximaal 0,271
De nauwkeurigheid van de geschatte parameters is goed te noemen, aangezien het gemiddelde onder 0,10 ligt (zie Evers, et al., 2010; p 40) en nergens de waarde van c groter is dan 0,30. In paragraaf 4.3 over de normering van de uiteindelijke toetsen volgt meer over de eigenschappen van de items. In het nu volgende gaan we eerst nader in op het steekproefplan. Daarna geven we aan hoeveel leerlingen op de verschillende tijdstippen tijdens het normeringsonderzoek gevolgd zijn. Steekproefplan Voor het normeringsonderzoek van de toets Taal voor peuters was het streven om 800 driejarige peuters mee te nemen in het onderzoek: 400 voor de P1-normering en 400 voor de P2-normering. Dit zijn meer kinderen dan er in feite nodig zijn voor de normering van dit type toets (toets voor minder belangrijke beslissingen op individueel niveau). We gingen er namelijk vanuit dat een deel van de kinderen en locaties tijdens het onderzoek zou afvallen vanwege verhuizing, ziekte, afmelding voor onderzoek, etcetera. Als uitgangspunt voor de steekproeftrekking hebben we een lijst met populatiegegevens (uit 2008) van marktonderzoeksbureau DUO gebruikt met daarin een overzicht van alle peuterspeelzalen en kinderdagverblijven in Nederland. In deze lijst waren in totaal ruim 6700 kinderdagverblijven en peuterspeelzalen opgenomen. Uit deze lijst hebben we een extra grote steekproef getrokken om voldoende locaties uit te nodigen. Hier is om een aantal redenen bewust voor gekozen. Ten eerste hebben we te maken met het feit dat in groepen van kinderdagverblijven/peuterspeelzalen vaak maar een beperkt aantal driejarigen zitten. Dit geldt zeker voor verticale groepen (leeftijdsheterogeen), maar ook voor horizontale groepen (leeftijdshomogeen), omdat in peutergroepen maximaal 16 kinderen mogen zitten. Dit betekent dat we meer groepen nodig hebben dan bij een onderzoek op scholen om aan het vereiste aantal kinderen te komen.
39
Merk op dat kinderdagverblijven en peuterspeelzalen vaak meerdere groepen en/of locaties hebben. Daarnaast is het op dit moment zo dat een groot deel van de kinderdagverblijven maar ook een deel van de peuterspeelzalen maar beperkt ervaring hebben met het afnemen van toetsen. Door de onbekendheid met toetsen verwachtten we minder animo voor deelname aan ons onderzoek. Voor het onderzoek hebben we 300 locaties geselecteerd. De selectie is gebaseerd op postcode om zodoende een zo goed mogelijke spreiding over het land te verkrijgen. Het betrof 150 kinderdagverblijven en 150 peuterspeelzalen die we hebben aangeschreven met het verzoek om deel te nemen aan de beide delen van het onderzoek (januari-februari én mei-juni 2009). Helaas was de respons na het verzenden van de brief en een herinneringsmail kleiner dan verwacht. Daarom hebben we locaties die niet hadden gereageerd vervolgens telefonisch benaderd om nogmaals te vragen of men bereid was aan het onderzoek mee te werken. Een deel van de locaties gaf zich naar aanleiding van het telefoongesprek (waarin ook meer informatie over het onderzoek werd gegeven) op voor het onderzoek. Een ander deel kon helaas niet aan ons verzoek voldoen om uiteenlopende redenen, zoals drukke agenda’s, onrust door verhuizing, locaties opgedoekt wegens fusies, ziekte van personeel, etcetera. Op een deel van de deelnemende locaties werd zowel in het eerste deel als in het tweede deel van het onderzoek de toets afgenomen bij alle toetsbare driejarige kinderen uit de deelnemende groepen. De toets werd in het onderzoek door de eigen leidster van het kind afgenomen, net zoals dat in het gebruik van deze toets de bedoeling is (zie ook hoofdstuk 3). De uiteindelijke steekproef voor de kalibratie van de opgavenbank bevat 44 basisscholen en 51 peuterspeelzalen/kinderdagverblijven. Voor de normering van de peutertoetsen is alleen gebruikgemaakt van de observaties die gedaan zijn bij peuters in peuterspeelzalen/kinderdagverblijven. Op 51 van de aangeschreven 300 locaties (17%) zijn gegevens verzameld die gebruikt zijn voor de normering van de peutertoetsen. Het betrof 23 kinderdagverblijven en 28 peuterspeelzalen. Voor het maken van de vaardigheidsschaal – die de ontwikkeling van de algemene taalvaardigheid representeert van driejarige peuters tot en met kinderen in groep 2 – zijn zowel de gegevens van de kinderdagverblijven en peuterspeelzalen als de gegevens van de basisscholen gebruikt. Bij elkaar gaat het dan dus om 95 instellingen. Alle toetsen kunnen op twee momenten in de tijd afgenomen worden: op het medio-moment (januarifebruari) en op het einde-moment (mei-juni). Daar is in de steekproef die voor de kalibratie gebruikt is rekening mee gehouden. Een groot aantal leerlingen zat zowel op het medio-moment als op het eindemoment in de steekproef (zie tabel 4.5). Merk op dat de peutertoets indien gewenst op ieder willekeurig moment afgenomen kan worden, omdat bij de peutertoets een ‘leeftijdsnormering’ wordt gehanteerd.
Tabel 4.5
Aantal leerlingen per tijdstip en aantal leerlingen dat gevolgd is op een later tijdstip P Medio
P Medio
605
P Einde
341
P Einde
M1
E1
E2
786
M1
741
E1
710
868
M2
1021
E2 Normering jan-feb 2009 Normering mei-juni 2009
M2
n.v.t.
7
1001
741
1021
n.v.t.
868
40
1103
1103
In de diagonaal van tabel 4.5 staat het aantal leerlingen dat binnen een bepaalde afnamegroep een toets gemaakt heeft. Op de buitendiagonaal staat het aantal leerlingen dat twee toetsen gemaakt heeft. De getallen in de buitendiagonaal kunnen dus nooit groter zijn dan het getal op de diagonaal. Het aantal unieke leerlingen is 3065. Daarvan hebben er 1006 één toets gemaakt en 2059 twee toetsen. Bij de peutertoetsen waren dit 1050 unieke kandidaten bij wie in totaal 1391 toetsafnames hebben plaats gevonden (341 peuters zijn dus twee keer getoetst). Over de representativiteit van de steekproef is hier niet gesproken aangezien voor de kalibratie van een itembank dat geen noodzakelijk voorwaarde is. Wat daarbij wel van belang is, is dat de spreiding redelijk is, maar doordat de parameterschattingen binnen de IRT populatieonafhankelijk zijn (zie paragraaf 2.4.2.2) is representativiteit hier niet van belang. De representativiteit van de steekproef ten opzichte van de populatie is echter wel van belang voor de normering. Bij de normering wordt gebruikgemaakt van de vaardigheidsverdeling van de normgroepen. Aangezien het in deze verantwoording alleen de peutertoetsen betreft wordt hieronder beschreven hoe representativiteit verkregen is bij de twee normgroepen die bij de peuters zijn onderscheiden. Merk op dat in het onderste deel van tabel 4.5 bij de normering voor de cellen van peuters Medio en Einde ‘n.v.t’ (niet van toepassing) staat, aangezien de normering bij peuters niet gebaseerd is op afnamemoment, zoals bij de kleutergroepen het geval is, maar op de leeftijd van de peuter.
4.2
Representativiteit: het schatten van de vaardigheidsverdeling van de normpopulaties
Nadat een itembank is gemaakt, is het mogelijk een schatting te maken van de verdeling van de populaties op de met de itembank gemeten vaardigheidsschaal (de algemene taalvaardigheidsschaal). Nu is wel een representatieve steekproef noodzakelijk, omdat populatieschattingen juist niet populatieonafhankelijk zijn. De populatieschattingen zijn overigens wel itemonafhankelijk, waardoor het geen probleem is dat de leerlingen niet allemaal dezelfde opgaven hebben gemaakt. In de beschrijving van de populaties beperken we ons tot de twee normgroepen voor de peuters omdat dit verslag ook alleen de peutertoetsen betreft. In de wetenschappelijke verantwoording van de toets Taal voor kleuters zijn de verdelingen van de vaardigheid binnen de kleuterpopulatie beschreven (Lansink & Hemker, 2010). Het normeringsonderzoek levert gegevens over de landelijke verdeling van de vaardigheid van de driejarige peuters in peuterspeelzalen en kinderdagverblijven. Vanwege de groei in vaardigheid binnen dat jaar is er voor gekozen te werken met normeringsgroepen van een half jaar. Een halfjaarsindeling om de ontwikkeling te verdisconteren is vrij gebruikelijk (zie bijvoorbeeld Suijkerbuijk & Kuiken, 2009). Een tweede reden om voor een halfjaarsindeling te kiezen, was dat uit onze data bleek dat de beste opdeling van de normgroepen een tweedeling naar halfjaargroepen was. Bij de beschrijving van de valideringsstudie, waar we de verschillen tussen de groepen beschrijven, wordt verder uitgewerkt waarom er gekozen is voor een opdeling naar halfjaargroepen. Tijdens het normeringsonderzoek zijn de leerlingen op twee verschillende momenten getoetst om in een landelijke normgroep referentiegegevens te kunnen verzamelen en om op basis daarvan de ontwikkeling van de taalvaardigheid in kaart te brengen. Die afnamen vonden plaats in januari-februari 2009 en mei-juni 2009. Voor de normering is de leeftijd van de leerling op het moment van toetsafname gebruikt. Vanwege de korte ontwikkeltijd was het niet mogelijk dezelfde kinderen te volgen tijdens hun gehele voorschool- en schooltijd. Wel zijn er 341 kinderen op twee momenten getoetst om te kunnen bepalen wat de groei binnen de kinderen zelf was. Hierbij is gebruikgemaakt van de eigenschappen van de IRT. De peuters kregen op twee verschillende meetmomenten niet-identieke toetsen voorgelegd, maar hun ontwikkeling kon dankzij IRT wel op dezelfde schaal gevolgd worden. Binnen het peuteronderzoek kunnen we een deel van de gegevens gebruiken die we ook gebruikt hebben bij het maken van de itembank. We hebben echter niet alle kinderen daarbij meegenomen. Zo zijn alle kinderen die nog geen drie jaar oud waren op het moment van afname of waarvan de geboortedatum niet bekend was, niet gebruikt voor de normering aangezien ze niet tot een van de twee de normgroepen
41
gerekend konden worden. Verder zit geen van de driejarigen in de normgroepen in het basisonderwijs, omdat in Nederland leerlingen pas vanaf 4 jaar naar de basisschool mogen. Voor het normeren van de peutertoets is gebruikgemaakt van de hierboven beschreven steekproef van peuterspeelzalen en kinderdagverblijven. De normeringssteekproef en de referentiepopulatie betreffen beide leerlingen van 3 jaar die een peuterspeelzaal of kinderdagverblijf bezoeken aangezien zij ook de doelgroep zijn voor het gebruik van deze toets. De toets is alleen bedoeld voor gebruik binnen peuterspeelzalen en kinderdagverblijven7 en dus niet voor gebruik door ouders. Daarmee bedoelen we dat het niet de bedoeling is dat ouders zelf de toets afnemen. Ze kunnen en mogen uiteraard wel kennis nemen van de uitkomsten van de toets. Generaliseren naar de gehele populatie van driejarigen is dan ook niet mogelijk, omdat een deel van de driejarigen géén peuterspeelzaal of kinderdagverblijf bezoekt. Er zijn aanwijzingen dat peuters die noch naar een kinderdagverblijf, noch naar een peuterspeelzaal gaan een iets lagere taalvaardigheid hebben (Van der Aar, 2010). Er zijn 1391 afnames geweest op de kinderdagverblijven en peuterspeelzalen, waarvan 605 op het mediomoment (januari-februari) en 786 op het einde-moment (mei-juni). Deze aantallen zijn ook te vinden in tabel 4.5.
Tabel 4.6
Normgroep en afnamegroep
Aantal afnamen Afnamemoment
Leeftijdsgroep (in mnd) in normgroep
niet in normgroep onbekend
Totaal
8
37
605
27
21
786
58
1391
36 tot 42
42 tot 48
< 36 48 of meer
P Medio
277
254
29
P Eind
322
384
32
Peuters Totaal
599
638
61
35
In tabel 4.6 is het aantal kinderen per afnamemoment per normgroep gegeven. Bij de afnames kwamen ook kinderen voor die te jong (2 jaar) of te oud waren (4 jaar). Met name op het einde-moment komen we relatief veel oudere kinderen tegen, aangezien scholen vlak voor de zomer vaak geen nieuwe leerlingen meer opnemen. De kinderen die jonger of ouder dan 3 waren of van wie de leeftijd niet bekend was, zijn niet in de normeringssteekproef terecht gekomen, zodat we echt alleen met kinderen te maken hebben waarvan zeker is dat ze in de juiste leeftijdsnormgroep zitten. Bij de normering van de toets maken we gebruik van cross-sectioneel normeringsonderzoek. We gebruiken de metingen op de twee momenten als metingen voor de twee normeringspopulaties op basis van leeftijd op het moment van afname. Hierbij maken we geen gebruik van een groeimodel. Bij het bepalen van de normverdeling is vervolgens rekening gehouden met de landelijke verdeling van driejarigen, zoals verderop beschreven wordt. De verdeling van de jongste peuters (vanaf 36 tot 42 maanden) is, zoals af te leiden valt uit tabel 4.6, bepaald met 599 afnames, en die van de oudste peuters (vanaf 42 tot 48 maanden) met 638 afnames. Voor iedere normgroep van de toets Taal voor peuters is het aantal waarnemingen per normgroep, respectievelijk 599 en 638 voor de ‘jongste’ en de ‘oudste’ peuters, goed te noemen, zeker als men bedenkt dat de normgerichte interpretatie alleen wordt gebruikt ter onderbouwing van minder belangrijke beslissingen. De representativiteit van de normeringssteekproef is geëvalueerd met betrekking tot de variabelen leeftijd, sekse, regio en urbanisatiegraad, waarbij de populatiegegevens afkomstig zijn van het CBS.
7
Vanwege de doorgaande lijn van driejarige peuters tot en met groep 2 is het ook mogelijk om de toets Taal voor peuters aan specifieke leerlingen uit groep 1 voor te leggen in het kader van het ‘toetsen op maat’. Zie ook de handleidingen van de toetsen Taal voor peuters en Taal voor kleuters.
42
Daar waar het in het basisonderwijs ook mogelijk is te refereren aan het leerlinggewicht, is dat bij de voorschoolse instellingen niet mogelijk, aangezien zij niet met leerlingewichten werken en daar dus ook geen gegevens over bekend zijn. Onder het kopje ‘Representativiteit naar verstedelijking en thuistaal’ wordt verder uitgewerkt hoe we hiermee zijn omgegaan. Representativiteit naar leeftijd Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief vertegenwoordigd zijn, ook als de normering op basis van leeftijdsgroepen is. Het is namelijk niet de bedoeling dat binnen de normgroep de leeftijd scheef verdeeld is, dus bijvoorbeeld dat de kinderen in de groep vanaf 3 jaar tot 3½ jaar (vanaf 36 tot 42 maanden) bijna allemaal 3 jaar en 5 maanden oud zijn. In de ideale situatie is de leeftijd binnen de normgroep uniform verdeeld. Om dit te evalueren is voor ieder kind bepaald hoeveel dagen het kind 3 jaar oud is op het moment van afname. Hierbij is per normgroep het gemiddelde aantal dagen berekend dat de kinderen oud zijn en de standaarddeviatie. Deze gegevens zijn vervolgens afgezet tegen het verwachte gemiddelde en de verwachte standaarddeviatie indien de leeftijd uniform verdeeld zou zijn binnen de normgroep, hetgeen de wenselijke verdeling van de leeftijd binnen de normgroep is. De resultaten staan in tabel 4.7.
Tabel 4.7
Gemiddelde leeftijd in dagen per normgroep
leeftijd in dagen normgroepdefinitie
Leeftijd in dagen gemiddelde standaarddeviatie
Normgroep Jongste peuters (36 tot 42 mnd)
Oudste Peuters (42 tot 48 mnd)
van
t/m
van
tot
1096
1278
1279
1461
in data
verwacht
in data
verwacht
1194
1187
1369
1370
53
53
53
53
In de evaluatie van de steekproef valt op dat de ‘jongste’ peuters (vanaf 36 tot 42 maanden; in tabel 4.7 gegeven in aantal dagen) gemiddeld een week ouder zijn dan idealiter onder de uniforme verdeling verwacht wordt. De standaarddeviatie is precies gelijk. Er is overigens gecontroleerd of dit een significant effect kon hebben op de norm, maar dat was niet het geval. Bij de normgroep van de ‘oudste’ peuters is de gevonden verdeling vrijwel gelijk aan verwachte verdeling. Samengevat kan worden gesteld dat de verdeling van de leeftijd van de kinderen in de normgroepen vrijwel gelijk is aan de verwachte verdelingen en dat daar waar deze iets afwijken er geen sprake is van een significant effect. Representativiteit naar sekse Voor de normering is het van belang dat zowel jongens als meisjes representatief vertegenwoordig zijn. Bij het bekijken van de verdeling naar sekse hebben we gebruikgemaakt van de gegevens van het CBS. Daarbij hebben we de volgende resultaten gevonden (zie tabel 4.8).
43
Tabel 4.8
Verdeling naar sekse: percentage jongens en meisjes per normgroep Populatie
percentage
36 tot 42 maanden
42 tot 48 maanden
incl. onbekend
excl. onbekend
incl. onbekend
excl. onbekend
Jongens
51,3
47,2
50,1
50,3
53,3
Meisjes
48,7
47,1
49,9
44,0
46,7
onbekend
5,7
5,6
Van 34 kinderen in de normgroep ‘jongste’ en 36 kinderen in de normgroep ‘oudste’ peuters was het geslacht niet bekend. Bij de kinderen van wie het geslacht bekend is, ligt de verdeling zeer dicht tegen de verwachte verdeling aan. Representativiteit naar geografische verdeling De verdeling van alle peuterspeelzalen/kinderdagverblijven en de peuterspeelzalen/kinderdagverblijven in de normeringssteekproef naar regio staat in tabel 4.9. Regio Noord bevat de provincies Groningen, Friesland en Drenthe, regio Oost de provincies Overijssel, Gelderland, Flevoland, regio West de provincies Utrecht, Noord- en Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg. De verdeling van de kinderen binnen de normgroepen over de regio’s is gegeven in tabel 4.9.
Tabel 4.9
Verdeling naar regio: percentage kinderen per regio per normgroep
Verdeling over regio
Aantal
Percentage
Normgroep (in mnd)
[36 - 42)
[42 - 48)
[36 - 42)
[42 - 48)
referentie
Noord
50
58
8,3
9,1
10,0
regio
Oost
92
105
15,4
16,5
22,7
West
304
294
50,8
46,1
47,8
Zuid
153
181
25,5
28,4
19,5
Totaal
599
638
100,0
100,0
100,0
Populatiegegevens betreffende de verdeling van de driejarigen (in kinderdagverblijven en peuterspeelzalen) per regio waren niet beschikbaar. De driejarigen waren een jaar later echter wel terug te vinden als vierjarigen in de cfi-bestanden. Die gegevens zijn als referentie gebruikt (zie laatste kolom tabel 4.9). Het valt hierbij op dat met name de regio Oost iets ondervertegenwoordigd was in de steekproef en de regio Zuid iets oververtegenwoordigd. Dat is echter geen probleem aangezien regio geen additioneel effect heeft (zie tabel 4.10).
Tabel 4.10
Effecten van regio
verschil regio contrast Oost - Noord West - Noord Zuid - Noord West - Oost Zuid - Oost Zuid - West
Op de vaardigheidsschaal effect SE 0,09 1,40 0,01 1,20 0,52 1,30 -0,08 0,88 0,42 0,97 0,49 0,75
44
Cohen's effectsize 0,009 0,001 0,053 -0,008 0,043 0,051
significantie z 0,064 0,011 0,395 -0,086 0,424 0,651
p 0,95 0,99 0,69 0,93 0,67 0,52
De gevonden effecten zijn nergens significant verschillend van 0. De effecten zijn dan ook zeer klein. Cohen’s maat voor effectgrootte wordt ook pas vanaf 0,2 relevant geacht. Representativiteit naar verstedelijking en thuistaal De verdeling van alle peuterspeelzalen/kinderdagverblijven in de populatie en de peuterspeelzalen/kinderdagverblijven in de normeringssteekproef naar verstedelijking staat in tabel 4.11. Wederom hebben we voor de referentie de gegevens van het cfi geraadpleegd (van een jaar later als de peuters inmiddels 4 jaar zijn). Kijken we naar de verdeling van de kinderen in de steekproef over de twee ‘categorieën’ van urbanisatiegraad dan zien we dat de steekproef de populatie minder goed benadert.
Tabel 4.11
Verdeling van kinderen in de normgroepen naar verstedelijking aantallen
percentages
Normgroep (mnd) Verstedelijking Stad Land Totaal
Normgroep (mnd)
(36 - 42) 352 247
(42 - 48) 373 265
Totaal
(42 - 48) 58,5 41,5
Totaal
Referentie
725 512
(36 - 42) 58,8 41,2
58,6 41,4
44,0 56,0
599
638
1237
100,0
100,0
100,0
100,0
De verdeling van de kinderen over thuistaal wordt gegeven in tabel 4.12.
Tabel 4.12
Verdeling van kinderen naar thuistaal aantallen
percentages
Normgroep (mnd) Thuistaal Nederlands Anders Onbekend Totaal
Normgroep (mnd)
(36 - 42) 233 60 306
(42 - 48) 168 80 390
Totaal
(42 - 48) 26,3 12,5 61,1
Totaal
401 140 696
(36 - 42) 38,9 10,0 51,1
599
638
1237
100,0
100,0
100,0
32,4 11,3 56,3
Hierbij zijn twee opmerkingen te maken. Ten eerste is bij meer dan de helft van de kinderen de thuistaal niet bekend. De ervaring leert dat in de meeste gevallen een ontbrekende waarde bij thuistaal refereert aan Nederlands als thuistaal. Het zou kunnen dat ook kinderen met een andere thuistaal dan Nederlands in de groep onbekend zitten. Als dat het geval zou zijn dan is het aannemelijk dat de prestatie van de groep ‘onbekend’ lager zou liggen dan die van de groep waarbij expliciet aangegeven is dat zij Nederlands spreken. Het omgekeerde is echter het geval: bij het bepalen van de effecten (zie tabel 4.13) bleek dat kinderen bij wie de thuistaal niet opgegeven is zelfs iets beter presteren dan kinderen bij wie de thuistaal Nederlands is. Het verschil is echter niet significant en het effect van -0,07 is verwaarloosbaar te noemen.
45
Tabel 4.13
Effecten van thuistaal
Effecten
Cohen's
van thuistaal
significantie
effectsize
z
p
Nederlands – Onbekend
-0,07
-0,89
0,37
Nederlands – Anders dan Nederlands
1,60
14,34
0,00
Onbekend – Anders dan Nederlands
1,66
16,02
0,00
Duidelijk wel significant zijn de verschillen tussen de groep waarbij expliciet is opgegeven dat zij een andere thuistaal hebben dan Nederlands (de groep met thuistaal ‘Anders dan Nederlands’) en de andere twee groepen. Kinderen die een andere thuistaal dan het Nederlands spreken, presteren duidelijk slechter dan de andere kinderen. Het verschil tussen de groepen ‘Nederlands’ en ‘Anders dan Nederlands’ was vrijwel even groot als het verschil tussen de leerlingen bij wie niet expliciet was opgegeven dat ze thuis Nederlands spraken (de groep ‘Onbekend’). Samenvattend kan geconcludeerd worden dat zowel om inhoudelijke redenen als gebaseerd op de onderzoeksgegevens gesteld kan worden dat de groepen met thuistaal ‘Nederlands’ en ‘Onbekend’ niet van elkaar onderscheiden kunnen worden. Ze verschillen echter wel duidelijk van de groep ‘Anders dan Nederlands’. Ten tweede kan opgemerkt worden dat er geen referentiegegevens beschikbaar zijn over de landelijke verdeling van thuistaal bij driejarigen8. Zodoende kon niet direct teruggewogen worden op de variabele thuistaal. Om die reden hebben we in dit geval de samenhang tussen thuistaal en verstedelijking gebruikt (zie tabel 4.14) om per normgroep tot een zo goed mogelijke landelijke verdeling te komen.
Tabel 4.14
Verdeling naar thuistaal Aantallen
Normgroep
Percentages
Stad
Land
Totaal
Stad
Land
Totaal
Vanaf 36 tot Nederlands (incl. 'onbekend') 42 Anders dan Nederlands maanden Totaal
296
243
539
49,5
40,5
90,0
56
4
60
9,3
0,7
10,0
352
247
599
58,76
41,24
100,0
Vanaf 42 tot Nederlands (incl. 'onbekend') 48 Anders dan Nederlands maanden Totaal
299
259
558
46,8
40,6
87,4
74
6
80
11,6
0,9
12,5
373
265
638
58,46
41,54
100,0
leeftijd
Thuistaal
Uit tabel 4.14 blijkt dat de anderstaligen met name in de stad gevonden worden. Het is daarom relevant om de verdeling van (zeer) sterk stedelijke gebieden (‘Stad’) en de matig tot niet stedelijke gebieden (‘Land’) overeenkomstig de populatie te krijgen. Hierbij wordt gebruikgemaakt van de gegevens die in tabel 4.11 staan. Om de verdeling in de steekproef overeenkomstig de populatie te krijgen, is met behulp van het programma SAUL een model opgesteld met de achtergrondvariabelen normgroep, sekse, verstedelijking, regio en thuistaal. Zo is binnen de twee normgroepen de verdeling geschat voor de verschillende subgroepen.
8
Wel is bekend dat in groep 8 de afgelopen 3 jaar ongeveer 89% van de leerlingen thuis vooral Nederlands spreekt (Hemker & Van Weerden, 2009; Hemker, Kuhlemeier & Van Weerden, 2010; Hemker & Kordes, 2011). Dat percentage is vergelijkbaar met wat we hier vinden, maar aangezien de gegevens van leerlingen van groep 8 niet direct vergelijkbaar zijn met die van de driejarigen in kinderdagverblijven en peuterspeelzalen kunnen we geen gebruikmaken van dit gegeven.
46
Hoewel de verdeling van de steekproef in de normgroepen (naar urbanisatiegraad) niet gelijk is aan die in de populatie, is er in geen van de gevallen sprake van een ondervertegenwoordiging van een factor 2. Dat maakt het mogelijk om door middel van gewichten (mixture verdeling) de schattingen van de steekproef gelijk aan de verdeling van de populatie te krijgen. Naar aanleiding van de beschrijving van ons onderzoek naar de representativiteit van onze steekproef met betrekking tot de variabelen leeftijd, sekse, regio, urbanisatiegraad en thuistaal, kunnen we concluderen dat de enige weging die nodig is, een weging is op basis van urbanisatiegraad. Voor het effect van deze variabelen hebben we dan ook via een statistische wegingsprocedure gecompenseerd.
4.3
Het normeren van de uiteindelijke toetsen
Op basis van inhoudelijke criteria en gunstige psychometrische eigenschappen van de opgaven is een toets voor driejarige peuters samengesteld die op ieder willekeurig moment te gebruiken is (i.v.m. leeftijdsnormering). Over de samenstelling van de toets op inhoudelijke gronden is meer te vinden in hoofdstuk 3. Wat betreft de psychometrische eigenschappen is de selectie van de opgaven zodanig dat de opgaven geen itembias bevatten voor geslacht, thuistaal en normgroep, er geen ernstige misfit is en er voldoende observaties per opgave zijn (minstens 355, gemiddeld 1002). Doordat we itemparameters kennen en een schatting hebben van de verdelingen van de vaardigheid in welomschreven populaties, kunnen we de eigenschappen van de toets en de opgaven schatten voor deze populaties. We kunnen ook op basis van de scores op de toets de vaardigheid van het kind bepalen. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie die van belang zijn voor de indeling van de kinderen in de niveaugroepen die zijn beschreven in paragraaf 2.3. Hoe nauwkeurig de meting van de vaardigheid van de kinderen is, staat in paragraaf 5.2. In hoofdstuk 5 zullen ook de eigenschappen van de toets gegeven worden. De normen zelf zijn gegeven in bijlage 2 van de handleiding bij de toets (Op den Kamp & Lansink, 2010). Nu beperken we ons tot de beschrijving van de itemeigenschappen. Voor de normgroepen van de peutertoets zijn in tabel 4.15 het gemiddelde en de mediaan gegeven van de p-waarden, de Rit-waarden en de Rir-waarden. Het is duidelijk dat het gemiddelde en de mediaan van de p-waarden aan de hoge kant liggen. De opgaven zijn doorgaans gemakkelijk voor de leerlingen. Dat is niet zonder reden gedaan: over het algemeen wordt het als demotiverend gezien als kandidaten veel opgaven krijgen die aan de moeilijke kant zijn, en dat geldt zeker voor peuters. Het zou hen bij de toetsafname kunnen frustreren. Daarnaast kunnen we door het gebruik van (relatief) gemakkelijke opgaven ook beter differentiëren aan de onderkant van de verdeling, zodat we de zwakkere van de gemiddelde kinderen kunnen onderscheiden (zie ook hoofdstuk 5). Bij de Rit- en de Rir-waarden valt op dat het gemiddelde en de mediaan ruimschoots boven de 0,30 liggen. Dat duidt op goed onderscheidende opgaven (voor de interpretatie van de hoogte van de Rit-waarden, zie Evers, et al., 2010; p. 40; voor de interpretatie van de hoogte van de Rir-waarden zijn geen COTAN-normen beschikbaar). De minimum en de maximum gevonden waarden van deze itemeigenschappen worden ook gegeven. Hierbij valt op dat de minimumwaarde boven de 0,20 ligt bij de Rit. De waarden van de P10 zijn voor de Rit en ook zelfs ook de Rir altijd zeer ruim boven de 0,20. Dat houdt in dat voor 90% van de opgaven de waarden zeer ruim boven de 0,20 ligt. Voor de gehele verdeling van de Rit- en de Rir-waarden over de toets voor de normgroepen wordt verwezen naar tabel 4.16b. In tabel 4.16a wordt de verdeling van de p-waarden gegeven.
47
Tabel 4.15
Itemeigenschappen van de toets Taal voor peuters per normgroep
Taal voor peuters Aantal opgaven
Normgroep (leeftijd in maanden) Jong (vanaf 36 tot 42 mnd)
Ouder (vanaf 42 tot 48 mnd)
45
P
Rit
Rir
P
Rit
Rir
Gemiddelde
0,75
0,38
0,37
0,83
0,41
0,40
Mediaan
0,77
0,37
0,36
0,85
0,41
0,39
Minimum
0,52
0,24
0,22
0,65
0,26
0,25
Maximum
0,90
0,50
0,49
0,95
0,54
0,53
P10 P90
0,60 0,87
0,30 0,46
0,29 0,45
0,71 0,92
0,32 0,49
0,31 0,48
Tabel 4.16a Verdeling P-waarden van de toets Taal voor peuters per normgroep verdeling in aantallen opgaven p-waarden
Normgroep [36 – 42]
[42 – 48]
Totaal
0,4 - 0,5 0,5 - 0,6 0,6 - 0,7
0 4 10
0 0 4
0 4 14
0,7 - 0,8 0,8 - 0,9 0,9 - 1,0
12 18 1
12 20 9
24 38 10
Totaal
45
45
90
van - tot en met
Tabel 4.16b Verdeling Rit- en Rir-waarden van de toets Taal voor peuters per normgroep verdeling in aantallen opgaven Rit-waarden
verdeling in aantallen opgaven
Normgroep
Rir-waarden
[36 – 42]
[42 – 48]
Totaal
0,1 - 0,2
0
0
0
0,2 - 0,3 0,3 - 0,4
5 22
4 15
0,4 - 0,5 0,5 - 0,6 0,6 - 0,7
17 1 0
Totaal
45
van - tot en met
Normgroep [36 – 42]
[42 – 48]
Totaal
0,1 - 0,2
0
0
0
9 37
0,2 - 0,3 0,3 - 0,4
7 22
4 19
11 41
22 4 0
39 5 0
0,4 - 0,5 0,5 - 0,6 0,6 - 0,7
16 0 0
19 3 0
35 3 0
45
90
Totaal
45
45
90
van - tot en met
Uit tabel 4.16b blijkt dat geen enkele opgave in de peutertoets een Rit- of Rir-waarde onder de 0,20 heeft. Uit tabel 4.15 blijkt dat de Rir- en Rit-waarden gemiddeld ruim boven de 0,30 liggen. Van de Rit-waarden is ook 90% (over beide normgroepen) 0,30 of hoger en dat geldt ook voor meer dan 87% van de Rir-waarden.
48
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elk kind dat deelgenomen heeft aan het normeringsonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toets Taal voor peuters opgenomen zijn. De betrouwbaarheid van de toets in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van de toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toets OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toets volledig bestaat uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de toets te genereren, is gebruik gemaakt van het programma OPLAT (Verstralen, 1997). In OPLAT wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we aan met τ(θ) = E(t| θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores Var(τ(θ)) in de populatie, duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de ander berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we met een eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. Als de geobserveerde scores telkens zeer dicht bij de geschatte verwachte scores liggen, dan worden er weinig fouten gemaakt bij de schatting. In dat geval is er sprake van een kleine foutenvariantie. Zijn de waarden telkens zeer verschillend van de ware score, dan is de foutenvariantie groot. Deze foutenvariantie kan beschreven worden als de verwachte variantie van geobserveerde scores als men de ware score zou weten: E[Var(t|τ(θ))]. Ook deze kan geschat worden voor de populatie, wat we nu noteren als Var(e). Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan
MAcc =
Var( ) Var( ) + Var(e)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de toets Taal voor peuters. In de eerste kolom staat de normgroep. In de tweede kolom staat het leeftijdsinterval. Daarna volgen de minimumscores en de maximumscores. De minimumscore is voor iedere toets gelijk aan 0. De maximumscore is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets (45). De tabel betreft namelijk de ruwe ongewogen scores, waarbij ieder goed antwoord 1 punt oplevert. De vijfde kolom geeft de geschatte gemiddelde scores van de kinderen op de toets in de verschillende normgroepen. De zesde kolom betreft de geschatte standaarddeviatie van de scores van iedere normgroep. De zevende kolom bevat per normgroep informatie over de geschatte standaardmeetfout van iedere toets. De laatste kolom laat zien wat de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de toets voor de verschillende normgroepen is. De betrouwbaarheidscoëfficiënten liggen ruim boven de 0,80. Aangezien de toets Taal voor peuters bedoeld is voor voortgangscontrole (algemeen gebruik; geen zware consequenties verbonden aan de scores) zijn de gevonden betrouwbaarheden goed te noemen (Evers, et.al., 2010; p.33).
49
Tabel 5.1
Beschrijvende gegevens met ongewogen scores van de papieren toets Taal voor peuters
Normgroep
Leeftijd in maanden vanaf – tot
P1
36 - 42
0
P2
42 - 48
0
5.2
Minimum- en Maximumscore
Gemiddelde
Standaarddeviatie
Standaard meetfout
Betrouwbaarheid
45
33,7
7,8
2,6
0,89
45
37,5
7,1
2,2
0,90
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid van de toets en geven geen beeld van de lokale meetnauwkeurigheid van de toets Taal voor peuters. De betrouwbaarheidstabel 5.2 doet dat wel. Zo laat tabel 5.2 bijvoorbeeld zien dat 78,1 procent van de kinderen uit de P1-groep die in scoregroep E vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen. Anders gezegd: de kans dat een kind met niveau E terecht als een kind met niveau E wordt bestempeld is ongeveer 78 procent. Verder laat de tabel zien dat 20,8 procent van de kinderen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in niveaugroep D valt. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleiding van het toetspakket (Op den Kamp & Lansink, 2010). In de schaalscoretabellen van bijlage 2 is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 68%-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting.
Tabel 5.2
Betrouwbaarheidstabellen bij de papieren versie van de toets Taal voor peuters
Scoregroep waarin ware score valt E D C B A
Peutertoets P1 (vanaf 3 tot 3½ jaar; vanaf 36 tot 42 maanden) Scoregroepen E tot en met A Scoregroepen V tot en met I Scoregroep waarin ware score valt V IV III II I E D C B A 78,1 12,2 0,3 0,0 0,0 V 80,2 11,4 0,4 0,0 0,0 20,8 56,1 11,9 0,3 0,0 IV 19,3 61,2 23,1 4,0 0,2 1,0 31,3 68,8 26,4 1,8 III 0,5 23,2 44,2 23,2 2,8 0,0 0,3 18,3 56,0 22,0 II 0,0 4,2 30,3 54,8 26,5 0,0 0,0 0,7 17,3 76,2 I 0,0 0,0 2,1 18,0 70,6
Scoregroep waarin ware score valt E D C B A
Peutertoets P2 (vanaf 3½ jaar tot 4 jaar; vanaf 42 tot 48 maanden) Scoregroepen E tot en met A Scoregroepen V tot en met I Scoregroep waarin ware score valt V IV III II I E D C B A 79,1 7,8 0,1 0,0 0,0 V 82,2 12,2 0,4 0,0 0,0 20,6 62,1 13,3 0,8 0,0 IV 17,4 62,5 22,6 3,5 0,2 0,3 29,0 61,6 24,4 2,1 III 0,4 21,7 42,6 21,2 3,6 0,0 1,1 24,1 57,7 25,5 II 0,0 3,5 30,5 49,6 24,7 0,0 0,0 0,9 17,1 72,4 I 0,0 0,1 3,9 25,7 71,5
50
Figuur 5.1 geeft nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid van de toets in de twee normeringsgroepen. In deze figuur staat voor de toets de grootte van de meetfout afgebeeld. Ook zijn de kansdichtheidfuncties voor de normgroepen opgenomen. Deze laten zien hoe de vaardigheid van de kinderen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuur maakt duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. Dit hebben we bij de toetsconstructie ook nagestreefd. Een toets kan immers niet over het hele scorebereik dezelfde optimale nauwkeurigheid hebben. Door rekening te houden met itemkarakteristieken (moeilijkheidsgraad) is het discriminerend vermogen van de toets optimaal gemaakt in de scoreregionen waar dit het belangrijkste is, namelijk daar waar de zwakkere van de gemiddelde kinderen moeten worden onderscheiden. Dit sluit goed aan bij het doel van de toets, namelijk het vaststellen van het niveau van taalvaardigheid en het signaleren van eventuele achterstanden. Veruit de meeste kinderen die de toets maken, hebben een vaardigheid waarbij de toets een lage standaardmeetfout heeft.
Figuur 5.1
Grootte van de meetfouten voor de papieren toets Taal voor peuters en de kansdichtheidfuncties voor de populaties P1 en P2
51
52
6
Validiteit
De twee eisen waar de toets Taal voor peuters aan moet voldoen om valide te zijn, kunnen aangeduid worden met de termen inhoudsvaliditeit en begripsvaliditeit. De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Aangezien het beschrijven van het niveau van de vaardigheid van een leerling het doel van de toets is, en niet het voorspellen van ander gedrag, is criteriumvaliditeit hier niet relevant.
6.1
Inhoudsvaliditeit
Zoals gesteld, heeft de inhoudsvaliditeit van een toets betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De inhoudsvaliditeit van de toets Taal voor peuters wordt gewaarborgd door de wijze waarop de opgaven ontwikkeld zijn. In paragraaf 3.2 (‘Inhoudsverantwoording’) is al aangegeven dat aan de ontwikkeling van de opgaven het vaststellen van een domeinbeschrijving is voorafgegaan. Als domeinbeschrijving hebben we de tussendoelen Mondelinge communicatie gehanteerd, waarmee de tussendoelen de basis vormden voor de itemconstructie. De toetsen zijn zodanig samengesteld dat de voor de verschillende afnamemomenten relevante subcategorieën erin vertegenwoordigd zijn. Een verdere inhoudelijke analyse van de toets Taal voor peuters staat in paragraaf 3.2 van deze verantwoording (zie ook Van Kuyk, 2005).
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toets Taal voor peuters beschreven. 6.2.1
Passing van het meetmodel
De opgaven Taal voor peuters en kleuters vormen na de kalibratie een gekalibreerde opgavenbank. Opgaven die niet voldeden aan de passingscriteria die we beschreven in paragraaf 2.4.2.2, werden uit de verzameling verwijderd. In paragraaf 4.1 is dit verder beschreven. Van de 90 opgaven die bij de peuters zijn afgenomen, bleven er 78 over die geschikt bleken voor peuters. Van de 12 verwijderde opgaven voor de peuters waren er 4 wel geschikt voor kleuters. De opgaven konden om verschillende redenen niet geschikt zijn voor peuters. Het betrof opgaven waarop zeer duidelijk gegokt werd, opgaven die niet juist geformuleerd zijn, opgaven die een slecht onderscheidend vermogen bleken te hebben, of opgaven die bij nader inzien toch niet alleen ‘algemene taalvaardigheid’ bleken te meten. Ook is er gelet op vraagonzuiverheid. Zo zijn er ook opgaven verwijderd die voor jongens en meisjes anders bleken te werken. Een voorbeeld van een opgave die uit de opgavenbank verwijderd is vanwege vraagonzuiverheid is ‘Mama maakt een staartje in het haar van Loes. Zet een streep onder dat plaatje’. Deze opgave bevoordeelt meisjes. Naast vraagonzuiverheid voor sekse is er ook gelet op de vraagonzuiverheid voor thuistaal voor de leerlingen bij wie dat bekend was en op vraagonzuiverheid bij de verschillende normgroepen. De overgebleven opgaven in de itembank voldoen in voldoende mate aan de aannamen van het OPLMmodel. Dat is een goede waarborg voor de begripsvaliditeit van de toets, omdat er evidentie is voor de
53
aanname dat één en dezelfde vaardigheid ten grondslag ligt aan de responsen op de opgaven in de toets (Embretson, 1983). Bij de opgaven die uiteindelijk in de toets zijn opgenomen, is extra goed gelet op de passing in het OPLMmodel. Vooral de opgaven met een goed onderscheidend vermogen zijn hier geselecteerd, waarbij ondertussen in ogenschouw werd genomen dat de inhoudelijke dekking gewaarborgd is. Dit garandeert dat deze opgaven alle in zeer grote mate eenzelfde onderliggende vaardigheid meten, ofschoon de opgaven betrekking hebben op verschillende categorieën (zie voor een verdeling van de opgaven over de categorieën hoofdstuk 3). De verschillende opgaven en opgaventypen doen dus een beroep op hetzelfde complex aan vaardigheden. Van de geselecteerde opgaven is er slechts één opgave met een iets minder fraaie passing in het model, omdat kinderen met een zeer lage vaardigheid soms op deze opgave gokken. Het model is echter robuust voor dergelijke kleine afwijkingen. De geslaagde kalibratie maakt duidelijk dat het aannemelijk is dat er sprake is van unidimensionaliteit en dat deze gekalibreerde opgavenbank de latente trek meet. Dat we deze latente trek ‘algemene taalvaardigheid’ betreft, wordt aannemelijk gemaakt onder 6.2.2. 6.2.2
Equivalentie met de toetsen voor kleuters toetsen en interne structuur
Met het oog op de validering van de opgavenbank Taal voor peuters en kleuters zijn ten behoeve van de verantwoording van de toetsen uit het pakket Taal voor kleuters (Lansink, 2009) al eerder studies uitgevoerd en gerapporteerd (Lansink & Hemker, 2010). De betreffende toetsen zijn destijds door de COTAN op de meeste criteria als goed beoordeeld. Op het criterium ‘begripsvaliditeit’ kregen de toetsen het oordeel voldoende. Aangezien ook de toets voor kleuters niet voor voorspellend gebruik bedoeld is, is criteriumvaliditeit niet van toepassing. In de opgavenbank zijn opgaven opgenomen die bedoeld zijn voor peuters én kleuters. Doordat er in januari-februari en mei-juni met een ‘geankerd design’ is gewerkt (zie ook tabel 4.2 en 4.4) is een deel van de kleuteropgaven ook door peuters gemaakt. Daarnaast is een deel van de opgaven voor peuters ook bij kleuters afgenomen. Het betreft hier afnamen in groep 1 aangezien de opgaven voor peuters aan de (zeer) gemakkelijke kant zijn voor kleuters uit groep 2. Door deze werkwijze is het mogelijk de scores op de opgaven voor de peuters te correleren met de scores op de opgaven voor kleuters. Op die manier kunnen we achterhalen of de sets van opgaven (vrijwel) dezelfde vaardigheid meten. Aangezien bij de toetsen voor kleuters voldoende aangetoond is dat deze taalvaardigheid meten (Lansink & Hemker, 2010), mag worden aangenomen dat bij een hoge correlatie met de opgaven voor kleuters, de toets voor peuters ook taalvaardigheid meet. De gevonden latente correlatie, dat wil zeggen de correlatie tussen de gemeten vaardigheid van de opgaven voor peuters en de opgaven voor kleuters (door middel van de opgavenbank) was 0,95 (0,954). Deze correlatie is ook uitgerekend voor alleen de peuters. Die correlatie is iets lager, maar is afgerond nog steeds 0,95 (0,948). Deze correlatie valt hoog te noemen waardoor we kunnen zeggen dat beide sets van opgaven vrijwel hetzelfde meten: aangezien bij de toetsen Taal voor kleuters volgens het oordeel van de COTAN voldoende is aangetoond dat deze taalvaardigheid meet, is het dus aannemelijk dat dit ook geldt voor de toets Taal voor peuters. Ook als we naar de inhoudelijke categorieën kijken, die we binnen de toetsen Taal voor kleuters en Taal voor peuters onderscheiden, zien we hoge latente correlaties (zie tabel 6.1). Dit betekent dat ook op het niveau van de inhoudscategoriëen de categorieën die in beide toetsen voorkomen in beide toetsen (vrijwel) hetzelfde (dezelfde vaardigheid) meten.
54
Tabel 6.1
Latente correlatie tussen de categorie in opgaven voor peuters en de categorie in opgaven voor kleuters
Passieve woordenschat
0,958
Passieve woordenschat & Definitievaardigheid
0,968
Kritisch Luisteren
0,916
Actieve woordenschat
niet bij kleuters
Bij kleuters wordt het onderscheid tussen Passieve woordenschat en Definitievaardigheid niet gemaakt. Om die reden is de correlatie voor deze subschaal gemaakt zowel met als zonder de opgaven Definitievaardigheid. De toets voor peuters bevat ook opgaven over Actieve woordenschat. Deze zijn niet bij kleuters afgenomen, dus als subset kunnen deze opgaven niet vergeleken worden met opgaven voor kleuters. Bij de correlaties van de gehele set opgaven voor peuters en kleuters zijn deze opgaven wel meegenomen. Op de afzonderlijke categorieën wordt niet gerapporteerd op het niveau van vaardigheidsscores en vaardigheidsniveaus. Wel kunnen leidsters een categorieënoverzicht en/of een nieuwe rapportagevorm – de categorieënanalyse – maken. Deze rapportages op de categorieën zijn puur en alleen bedoeld als hulpmiddel voor de leidster. Het zijn beschrijvende rapportages waar geen normering aan ten grondslag ligt. Immers, het hoofddoel van de toets is om een uitspraak te doen over de algemene taalvaardigheid van het kind (met behulp van één vaardigheidsscore en vaardigheidsniveau). We hebben niet voor ogen om dit soort uitspraken ook op de verschillende categorieën te doen (zie paragraaf 2.3). Tabel 6.1 wordt daarom alleen gegeven om aan te geven dat de subonderdelen die in de toetsmatrijs (zie tabel 3.4) genoemd worden dezelfde betekenis hebben voor peuters als voor kleuters. Overigens kan opgemerkt worden dat de inhoudelijke dekking van de nieuwe toets Taal voor peuters hetzelfde is als de oude toets Taal voor peuters (Van Kuyk, 2000) met evenveel opgaven per categorie. Om verder in te gaan op de inhoudelijke dekking, is ook de samenhang tussen de verschillende categorieën onderzocht. Eerst gaan we in op de correlaties tussen de latente vaardigheden. Vervolgens geven we de inter-itemcorrelaties. Correlaties tussen inhoudelijke categorieën In het onderzoek naar de inhoudelijke dekking hebben we gekeken naar de correlatie tussen de verschillende categorieën. Dit hebben we gedaan door de onderlinge samenhang van deze categorieën in de opgavenbank te bekijken. Deze wordt gegeven door middel van de correlaties van de vaardigheid gerelateerd aan de categorieën in de itembank, zoals gevonden bij de peuters. De resultaten van deze analyse staan in tabel 6.2.
Tabel 6.2
Latente correlaties tussen de categorieën PW
DV
KL
AW
PW
1391
1391
1391
1319
DV
0,913
1391
1391
1319
KL
0,893
0,936
1391
1319
AW
0,818
0,768
0,750
1319
Logischerwijs zijn de correlaties op de diagonaal ‘1’. Deze worden daarom niet apart vermeld. De getallen onder de diagonaal geven de correlatie tussen de categorieën onderling. De getallen op en boven de diagonaal geven het aantal observaties weer waarop de correlaties gebaseerd zijn. Door het onvolledige
55
design heeft een deel van de leerlingen geen opgaven uit de categorie Actieve woordenschat gemaakt. Merk tevens op dat de gegevens in tabel 6.2 de itembank beschrijven en niet alleen de toets zelf. Er is immers sprake van één schaal. De gevonden latente correlaties zijn hoog genoeg om één totaalscore (vaardigheidsscore op ‘algemene taalvaardigheid’) te kunnen geven. Inter-item-correlaties Naast de correlatie tussen de vaardigheden, zoals gemeten met de opgaven uit de inhoudelijke categorieën, kan ook op opgavenniveau naar de samenhang binnen de toets gekeken worden. Doordat er gewerkt is met een onvolledig design zijn overigens niet alle correlaties tussen de opgaven bekend. We hebben daarom voor de toets Taal voor peuters gekeken naar de gemiddelde inter-item-correlatie van opgaven binnen categorieën en over categorieën heen. We zien dat de correlaties van opgaven binnen een vaardigheid niet extreem veel hoger zijn dan tussen verschillende vaardigheden: gemiddelde 0,30 tegenover 0,34.9 In tabel 6.3 staan de gemiddelde inter-item-correlaties van de items die dezelfde factor meten, dan wel verschillende factoren meten. Uiteraard zijn bij de inter-item-correlaties binnen een vaardigheid de correlaties van de opgaven met zichzelf niet meegenomen. Deze resultaten duiden op een redelijke interne samenhang waarbij een duidelijke opdeling in deelvaardigheden niet zinvol lijkt. De binnen-categoriecorrelaties zijn overigens wel over het algemeen iets hoger dan de tussen-categorie-correlaties, maar het contrast is niet dusdanig dat aparte schalen nodig zijn. De resultaten wijzen er dus op dat met de toets Taal voor peuters maar één vaardigheid gemeten wordt.
Tabel 6.3
Gemiddelde inter-item-correlatie in de toets voor peuters
Vaardigheid/categorie
PW
Def
KL
AW
PW
0,297
0,329
0,261
0,277
Def
0,329
0,435
0,351
0,318
KL
0,261
0,351
0,328
0,270
AW
0,277
0,318
0,270
0,474
Doordat de data verzameld zijn met een onvolledig design en we daarom niet alle inter-item-correlaties kennen, is het toepassen van een standaard factoranalyse lastig. Een factoranalyse door middel van het minimaliseren van de residuen (MinRes; Harman & Jones, 1966) is wel mogelijk bij onvolledige designs, maar levert niet altijd stabiele resultaten op, met name in het geval van Heywood cases (Harman & Fukuda, 1966). Dit laatste bleek het geval te zijn bij deze analyses. Op basis van bovenstaande analyses kunnen we het volgende concluderen: – Met de toets Taal voor peuters (2010) meten we hetzelfde als met de toets Taal voor kleuters (2009), waarvan voldoende aangetoond is dat deze taalvaardigheid meet. – Met de nieuwe itembank en de daaruit voortkomende toets(en) meten we in voldoende mate één vaardigheid, waardoor we dus kunnen spreken van één onderliggende schaal en één totaalscore mogen rapporteren. – Opgaven die inhoudelijk op elkaar lijken, hangen onderling iets sterker samen, maar over het algemeen niet veel meer dan over de categorieën heen.
9 Deze correlatie moet niet verward worden met de gemiddelde correlatie van de diagonaalcellen in tabel 6.3, aangezien bij een dergelijk gemiddelde genegeerd wordt dat het met name de relatief ‘kleine’ schalen zijn die een wat hogere interne samenhang hebben (Definitievaardigheid en Actieve woordenschat met respectievelijk 16 en 11 opgaven van de 78 opgaven in de opgavenbank die afgenomen zijn bij peuters).
56
6.2.3
Longitudinale vaardigheidstoename
Verschillen tussen leeftijdsgroepen Bij de taalontwikkeling van peuters mogen we verwachten dat de vaardigheid met de leeftijd toeneemt. Om dit te onderzoeken zijn de 1237 driejarigen verdeeld in twaalf maandgroepen, waarbij de eerste groep kinderen betreft van precies 3 jaar tot 3 jaar en 1 maand; de tweede groep van 3 jaar en 1 maand tot van 3 jaar en 2 maanden, enzovoort tot de twaalfde groep van 3 jaar en 11 maanden tot 4 jaar. In iedere maandgroep zaten gemiddeld 103 kinderen. Het geringste aantal kinderen in een groep was 72, en het grootste 125. De verdeling van de kinderen over de leeftijdgroepen kan bij benadering uniform genoemd worden (zie ook tabel 4.7). De gevonden gemiddelden voor de leeftijdsgroepen zijn gegeven in tabel 6.4.
Tabel 6.4
Ongecorrigeerde gemiddelde vaardigheidsscores per maandgroep
Normgroep
P1 – vanaf 36 tot 42 maanden
P2 – vanaf 42 tot 48 maanden
Maandgroep
Maand
Taal-
Vanaf
Tot
vaardigheid
36
36
37
32,9
37
37
38
33,6
38
38
39
33,7
39
39
40
37,3
40
40
41
35,4
41
41
42
36,6
42
42
43
41,4
43
43
44
40,0
44
44
45
41,3
45
45
46
43,2
46
46
47
40,5
47
47
48
43,2
Uit bovenstaande tabel is op te maken dat de trend over de maanden heen een stijgende vaardigheid per leeftijdsgroep weergeeft, maar dat deze in de gevonden groepen niet monotoon stijgend is. Dat is uiteraard met dergelijk relatief kleine maandgroepen te verwachten. We hebben immers te maken met steekproeffluctuaties in vaardigheid en ook in de verdeling van de achtergrondvariabelen. Om de invloed van deze fluctuaties nader te onderzoeken zijn de gecorrigeerde effecten bepaald, waarbij gecorrigeerd wordt voor verdeling naar regio, verstedelijking, thuistaal en geslacht. Bij deze effecten is onderzocht of de verschillen significant zijn: is de vaardigheid van de ‘hogere’ maandgroep ook significant hoger? Dit is niet alleen onderzocht voor opvolgende maandgroepen – waarbij het gemiddelde verschil in leeftijd 1 maand is – maar ook voor alle ‘paren’. Hoe groter het verschil in maanden tussen de maandgroepen, hoe aannemelijker de verwachting is dat de ‘hogere’ maandgroep vaardiger is. Merk op dat er ook tweezijdig getoetst kan worden: verschillen de vaardigheden van twee maandgroepen van elkaar? In dat geval kan ook de mogelijkheid ondervangen worden dat de vaardigheid van een ‘lagere’ naar een ‘hogere’ maandgroep significant daalt. Bij deze analyses bleek dat geen van de dalingen significant was.
57
Naast het verschil in maanden wordt ook gekeken of twee maandgroepen die met elkaar vergeleken worden tot dezelfde normgroep behoren. Het is de verwachting dat wanneer twee maandgroepen tot dezelfde normgroep behoren het verschil minder snel significant is dan wanneer twee maandgroepen tot verschillende normgroepen behoren. In tabel 6.5 is aangegeven wat het verschil in maanden is tussen een hogere en een lagere maandgroep. Hierbij zijn de vetgedrukte aantallen verschillen in maanden van maandgroepen die niet bij elkaar in de normgroep zitten.
Tabel 6. 5
Verschil in maanden tussen een hogere en een lagere maandgroep
36
0
37
1
0
38
2
1
0
39
3
2
1
0
40
4
3
2
1
0
41
5
4
3
2
1
0
42
6
5
4
3
2
1
0
43
7
6
5
4
3
2
1
0
44
8
7
6
5
4
3
2
1
0
45
9
8
7
6
5
4
3
2
1
0
46
10
9
8
7
6
5
4
3
2
1
0
47
11
10
9
8
7
6
5
4
3
2
1
P2 (42 – 48)
P1 (36 – 42)
36
Hogere maandgroep
Verschil maanden tussen hogere en lagere maandgroep
Lagere maandgroep Normgroep P1 (36 – 42) 37
38
39
Normgroep P2 (42 – 48)
40
41
42
43
44
45
46
De verschillen in vaardigheid tussen de maandgroepen worden gegeven als gecorrigeerde effectschattingen. Daarbij wordt het verschil in vaardigheid tussen een hogere en een lagere maandgroep gerelateerd aan de standaarddeviatie van de vaardigheid, waarbij wordt gecorrigeerd voor de toevallige verschillen in verdelingen naar de achtergrondvariabelen binnen de geobserveerde maandgroepen. Deze effectschattingen zijn gegeven in tabel 6.6.
58
47
0
Tabel 6.6
Effectschattingen voor effecten tussen hogere en lagere maandgroepen
Effectschattingen voor effecten tussen hogere en lagere maandgroepen
Lagere maandgroep Normgroep P1 (36 – 42) 36
37
38
39
40
Normgroep P2 (42 – 48) 41
42
43
44
45
46
P1 (36 – 42) P2 (42 – 48)
Hogere maandgroep
36 37
0,10
38
0,08
39
0,42** 0,32*
0,34*
40
0,30
0,20
0,22
-0,12
41
0,36*
0,27
0,29
-0,06
42
0,80** 0,70** 0,72** 0,38** 0,50** 0,43**
43
0,81** 0,71** 0,73** 0,39** 0,51** 0,44** 0,01
44
0,92** 0,82** 0,84** 0,50** 0,63** 0,56** 0,13
0,12
45
1,08** 0,98** 1,00** 0,66** 0,78** 0,72** 0,29
0,28
0,16
46
0,89** 0,79** 0,81** 0,47** 0,59** 0,53** 0,10
0,09
-0,03 -0,19
47
1,17** 1,07** 1,09** 0,75** 0,87** 0,80** 0,37* 0,36* 0,25
-0,02
0,07
0,09
0,28
De significante effectschattingen zijn gemarkeerd. Bij een significant verschil op een 1% niveau is de effectschatting vetgedrukt en gemarkeerd met 2 asterisken. Bij significantie op een 5% niveau is het effect gemarkeerd met 1 asterisk. Het is duidelijk dat veel van de stijgingen significant zijn. In het algemeen geldt, hoe groter de afstand in maanden, hoe groter het effect (zie ook figuur 6.1). Er is dus duidelijk sprake van groei.
Figuur 6.1
Gemiddeld effect gegeven de afstand tussen maandgroepen
Ook is het duidelijk dat de effecten tussen maandgroepen die bij elkaar in de normgroep zitten duidelijk minder vaak significant zijn. Dat is helemaal duidelijk op een 1% significantieniveau. Uiteraard wordt dat
59
47
mede veroorzaakt doordat de afstand in maanden voor maandgroepen binnen een normgroep kleiner is dan voor paren maandgroepen uit verschillende normgroepen. Echter, ook als daarvoor gecorrigeerd wordt blijft dat het geval, zoals geconcludeerd kan worden naar aanleiding van tabel 6.7
Tabel 6.7
Effecten van maandgroepen gegeven de afstand in maanden Effecten van maandgroepen
Afstand in maanden
Totaal
Totaal
binnen normgroepen
tussen normgroepen
Gem
N
Nsign
Gem
N
Nsign
Gem
N
Nsign
1
0,11
11
1
0,07
10
0
0,43
1
1
2
0,20
10
2
0,13
8
0
0,47
2
2
3
0,33
9
4
0,25
6
1
0,48
3
3
4
0,43
8
4
0,26
4
0
0,61
4
4
5
0,57
7
5
0,37
2
0
0,65
5
5
6
0,73
6
6
.
0
.
0,73
6
6
7
0,80
5
5
.
0
.
0,80
5
5
8
0,87
4
4
.
0
.
0,87
4
4
9
0,99
3
3
.
0
.
0,99
3
3
10
0,98
2
2
.
0
.
0,98
2
2
11
1,17
1
1
.
0
.
1,17
1
1
30
1
36
36
66
37
Gem=gemiddeld effect; N = aantal effecten; Nsign= Aantal significante effecten (=,01)
Van de 36 effecten tussen maandgroepen die niet bij elkaar in de normgroep zitten, zijn alle 36 significant op een 1% niveau. Van de 30 effecten van maandgroepen die bij elkaar in een normgroep zitten, is er slechts 1 significant op een 1% niveau. Dit is ook evidentie voor de keuze om halfjaarsnormgoepen te gebruiken in de normering. Tevens wordt dit ondersteund als we opnieuw naar de ongecorrigeerde gegevens van tabel 6.4 kijken, visueel weergegeven in figuur 6.2.
60
Figuur 6.2
Taalvaardigheid per maandgroep
Met de resultaten voor de maandgroepen zijn twee zaken aangetoond. – Binnen de groep van de driejarigen is taalvaardigheid een toenemende vaardigheid. – De halfjaargroepen leveren de beste opdeling voor de normering. Verschillen tussen normgroepen De toets Taal voor peuters is op dezelfde schaal gebracht als de toetsen Taal voor kleuters. Dat houdt in dat de vaardigheidsverdelingen van de normgroepen bij de peuters en de kleuters op een en dezelfde schaal af te beelden zijn. Daarmee hebben we een doorgaande lijn van alle normgroepen in de toetsen Taal voor peuters en kleuters. Op die manier kan op één en dezelfde vaardigheidsschaal de taalontwikkeling gevolgd worden van peuters tot en met groep 2. In tabel 6.8 is te zien dat de oudste peuters een hogere vaardigheid hebben dan de jongste peuters. De weergegeven verdelingen betreffen hier de gecorrigeerde normgroepgemiddelden. Dat de oudste peuters vaardiger zijn dan de jongste peuters is geen verrassing gegeven de resultaten van het onderzoek die we hiervoor gerapporteerd hebben. Het blijkt dat de taalvaardigheid ook blijft stijgen van peuters naar kleuters. De groei van iedere normgroep is zo ongeveer 6 à 7 vaardigheidspunten ten opzichte van de voorafgaande normgroep.
61
Tabel 6.8
Overzicht van de vaardigheidsverdelingen per normeringsmoment bij de toetsen Taal voor peuters en kleuters
Normeringsmoment
Gemiddelde vaardigheid
Standaardafwijking
Peuters 1 (vanaf 36 tot 42 mnd)
35,1
9,6
Peuters 2 (vanaf 42 tot 48 mnd)
42,3
11,8
Groep 1 medio
49,0
10,4
Groep 1 einde
55,3
10,3
Groep 2 medio
62,4
9,4
Groep 2 einde
67,6
9,8
Zoals verwacht neemt de gemeten gemiddelde taalvaardigheid dus toe. De standaardvariatie varieert iets over de tijd, maar die variatie is niet groot. De gemiddelde standaarddeviatie ligt rond de 10. Responsiviteit Daar waar in de vorige tabellen is gekeken naar gemeten groei bij de verschillende normgroepen, wordt hier gekeken naar groei zoals geobserveerd bij individuele kinderen. Van een redelijk aantal kinderen (341) hebben we twee metingen (zie hoofdstuk 4; tabel 4.5). Niet al deze leerlingen behoren tot de normgroepen. Bij een tweetal peuterspeelzalen/kinderdagverblijven was de afname zodanig dat op individueel niveau de kinderen niet goed te koppelen waren. Er was ook een aantal kinderen waarbij de koppeling niet geheel zeker was. Deze kinderen zijn verwijderd voor de analyses met betrekking tot de groei. Zo houden we een set van 302 kinderen over van wie de groei in vaardigheid te bepalen was op individueel niveau. De gemiddelde toename van het medio-moment naar het einde-moment is voor de peuters gelijk aan 7,5 (zie tabel 6.9). Deze toename is ongeveer even groot als die gevonden is van normgroep P1 naar P2.
Tabel 6.9
Normgroep
Groei in vaardigheid bij normgroepen en individuen zoals gevonden in de steekproef
Groei
Individuele aantal kinderen kinderen
Groei in vaardigheid Medio - Einde Gemiddelde
Standaarddeviatie
P1 – P2
7,2
Peuters
302
7,5
8,5
M1 – E1
6,3
Groep 1
709
6,4
8,7
M2 – E2
5,2
Groep 2
1002
5,3
8,4
62
Figuur 6.3
Geobserveerde vaardigheidsgroei van de 302 peuters in het responsiviteitsonderzoek
De toetsen Taal voor peuters en Taal voor kleuters moeten in staat zijn om veranderingen te meten. Door het kalibratieonderzoek liggen de opgaven Taal voor peuters en kleuters op één onderliggende schaal. De resultaten uit het normeringsonderzoek laten zien dat er verandering gemeten wordt. De gemiddelden per afnamemoment verschillen immers. Zoals we naar aanleiding van tabel 6.8 hebben geconstateerd, blijkt dat de gemiddelde vaardigheid over de afnamemomenten heen toeneemt. Tevens blijkt uit onderstaande (latente) correlatietabel (tabel 6.10) dat de correlaties zeer hoog zijn. Op basis hiervan kan gesteld worden dat bijna alle kinderen een zekere groei doormaken, maar niet zo hoog dat we kunnen beweren dat dit voor alle kinderen het geval is. Het bovenstaande onderbouwt dat de toetsen Taal voor peuters en Taal voor kleuters in staat zijn veranderingen (responsiviteit) te meten.
Tabel 6.10
Latente correlatie tussen categorie in oude toets en de categorie in de nieuwe toets Latente correlatie per groep tussen afnamemoment
Peuters ’Medio’ – Peuters ’Eind’
0,89
Medio groep 1 – Eind groep 1
0,87
Medio groep 2 – Eind groep 2
0,90
63
64
7
Samenvatting
In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken. Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen uitvoerig zijn beschreven, werd in hoofdstuk 4 over het normeringsonderzoek gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de toetsen zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles voor wat betreft de verdeling naar leeftijd, sekse, regio, verstedelijking en thuistaal wijzen uit dat de gebruikte steekproeven voor de normering na weging op basis van verstedelijking (en daarmee impliciet ook voor thuistaal) representatief genoemd kunnen worden voor de populatie van kinderdagverblijven en peuterspeelzalen in Nederland. Het normeringsonderzoek leverde de resultaten op zoals vermeld in bijlage 2 van de handleiding bij de toets (Op den Kamp & Lansink, 2010). In die bijlage zijn de tabellen met de normen opgenomen. In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten zijn hoog voor de toets Taal voor peuters: 0,89 en 0,90. In de figuren 5.1 en 5.2 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. De nauwkeurigheid blijkt het hoogst waar dit het belangrijkst wordt geacht, namelijk in de zwakkere en gemiddelde scoreregionen. Over validiteit werd in hoofdstuk 6 gerapporteerd. De inhoud van de toets Taal voor peuters sluit nauw aan bij het doel en de inhoud van het taalaanbod in de peutergroepen van kinderdagverblijven en peuterspeelzalen (zie de paragrafen 2.4.1 en 3.2). Voor wat betreft de taalontwikkeling van peuters dekken de toetsen Taal voor peuters de tussendoelen. Daarbij merkten we al op dat niet alle tussendoelen met een toets als Taal voor peuters getoetst kunnen worden. Ook worden sommige doelen meer impliciet dan expliciet getoetst. Een belangrijke indicatie voor de validiteit van de opgaven Taal voor peuters komt uit het kalibratieonderzoek (hoofdstuk 4). Uit dat onderzoek bleek dat de verzameling opgaven waaruit de toets Taal voor peuters is samengesteld, beschreven kan worden met OPLM. Dat betekent dat de met de toets gemeten verschillen in gedrag tussen de kinderen te verklaren zijn door één unidimensionaal concept. Op basis van de uitgevoerde analyses kunnen we verder concluderen dat we met de nieuwe toets Taal voor peuters (2010) hetzelfde meten als met de nieuwe toets Taal voor kleuters (2009). Daarnaast meten we met de nieuwe opgavenbank en de daaruit voortkomende toetsen in voldoende mate één vaardigheid, waardoor we kunnen spreken van één onderliggende schaal en één totaalscore mogen rapporteren. Tevens is duidelijk geworden dat opgaven die inhoudelijk op elkaar lijken, onderling iets sterker samenhangen, maar over het algemeen niet veel hoger dan over de categorieën heen. In paragraaf 6.2.3 is aangegeven dat de correlaties tussen de latente vaardigheden op twee opeenvolgende toetsen hoog zijn. Samen met de geobserveerde toename in vaardigheid over de meetmomenten heen betekent dit dat de verwachting is dat de vaardigheidsscore ook voor veruit de meeste individuen toeneemt van meetmoment tot meetmoment. Een andere aanwijzing voor begripsvaliditeit is af te leiden uit de hoge correlatie tussen de opgaven van de toets Taal voor kleuters (Lansink, 2009; Lansink & Hemker, 2010) – waarvan volgens de COTAN voldoende is aangetoond dat ze taalvaardigheid meet – en de opgaven van de toets Taal voor peuters (Op den Kamp & Lansink, 2010).
65
66
8
Literatuur
Psychometrie Bügel, K. & Sanders, P.F. (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. Cito (z.j.). Computerprogramma LOVS. Arnhem: Cito. Cito (z.j.). Handleiding Computerprogramma LOVS. Arnhem: Cito. Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Embretson, S.E. (1983). Construct representation and nomothetic span. Psychological Bulletin, 93, 179-179. Evers, A., Lucassen, W., Meijer, R. & Sijstma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam, NIP/COTAN. Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Harman, H.H., & Jones, W.H. (1966). Factor analysis by minimizing residuals (minres). Psychometrika, 31, 351-368. Harman, H.H., & Fukuda, Y. (1966). Resolution of the heywood case in the minres solution. Psychometrika, 31, 563-571. Hemker, B.T. & J.J. van Weerden (2009). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2008. Jaarlijks Peilingsonderzoek van het Onderwijsniveau – Technische rapportage. Arnhem: Cito. Hemker, B.T., Kuhlemeier, H., & J.J. van Weerden (2010). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2009. Jaarlijks Peilingsonderzoek van het Onderwijsniveau – Technische rapportage. Arnhem: Cito. Hemker, B.T., Kordes, J., & J.J. van Weerden (2011). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010. Jaarlijks Peilingsonderzoek van het Onderwijsniveau – Technische rapportage. Arnhem: Cito. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente.
67
Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83–178). Arnhem: Cito. Verhelst, N.D., & Glas, C.A.W. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verhelst, N. D. & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable (SAUL): Theory and a computer program. Arnhem: Cito. Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. Arnhem, The Netherlands: Cito.
Inhoudelijk Aar, van der M.R. (2010). De relatie tussen voorschoolse vorming en de ontwikkeling van kinderen. Open Universiteit Nederland. Bacchini, S., Boland, T., Hulsbeek, M., Pot, H., Smits, M. (2005). Duizend-en-eenwoorden. De allereerste Nederlandse woorden voor anderstalige peuters en kleuters. Enschede: Stichting leerplanontwikkeling. Blok, H. & Leseman, P. (1996). Effecten van voorschoolse stimuleringsprogramma’s: Een review van reviews. Pedagogische Studieën, 73, 184-197. Damhuis, R. & Litjens, P. (2003). Mondelinge communicatie. Drie werkwijzen voor mondelinge taalontwikkeling. Nijmegen: Expertisecentrum Nederlands. Elsäcker, W. van, Beek, A. van der, Hillen, J. en Peters, S (2006). De taallijn.Interactief taalonderwijs in groep 1 en 2. Nijmegen: Expertisecentrum Nederlands. Gillis, S. & Schaerlaekens, A.M. (red.) (2000). Kindertaalverwerving. Een handboek voor het Nederlands. Groningen: Martinus Nijhoff uitgevers. Greven, J. & Letschert, J.F.M. (2006). Kerndoelen primair onderwijs. Den Haag: Ministerie van Onderwijs, Cultuur en Wetenschap. Kamp, M. op den & Lansink, N. (2010). Taal voor peuters. Arnhem: Cito.
68
Kienstra, M. (2006). Woordenschatontwikkeling. Werkwijzen voor groep 1-4 van de basisschool. Nijmegen: Expertisecentrum Nederlands. Kohnstamm, R. (2002). Kleine ontwikkelingspsychologie Deel 1 Het jonge kind. Houten/Diegem: Bohn Stafleu Van Loghum. Kuyk, J.J. van (1996). Taal voor kleuters. Arnhem: Cito. Kuyk, J.J. van (2000). Peutervolgsysteem. Arnhem: Cito. Kuyk, J.J. van (2005). Hulpprogramma Peutervolgsysteem. Arnhem: Cito. Kuyk, J.J. van & Kamphuis, F. (2006). Verantwoording van de toetsen Ruimte, Taal en Ordenen van het Peutervolgsysteem. Arnhem: Citogroep. Lansink, N. (2009). LOVS Taal voor kleuters. Arnhem: Cito. Lansink, N. & Evers, G. (2010). LOVS Taal voor kleuters groep 1 en 2. Handleiding digitale toetsen. Arnhem: Cito. Lansink, N. & Hemker, B. (2010). Wetenschappelijke verantwoording van de toetsen Taal voor kleuters voor groep 1 en 2 uit het LOVS. Arnhem: Cito. Lansink, N., Hemker, B. & Verschoor, A. (2011). Wetenschappelijke verantwoording van de digitale toetsen Taal voor kleuters voor groep 1 en 2 uit het LOVS. Arnhem: Cito. Slichting, L. & Spelberg, H.C. lutje (2007). Lexilijst Nederlands. Een instrument om de taalontwikkeling te onderzoeken bij Nederlandstalige kinderen van 15 – 27 maanden in het kader van de vroegtijdige onderkenning. Amsterdam: Harcourt Test Publishers. Schaerlaekens, A., Kohnstamm, D. en Lejaegere, M. (1999). Streeflijst woordenschat voor zesjarigen. Derde herziene versie gebaseerd op nieuw onderzoek in Nederland en België. Lisse: Swets & Zeitlinger. Schaerlaekens, A. (2008). De taalontwikkeling van het kind. Groningen/Houten: Wolters-Noordhoff. Sijtstra, J., Aarnoutse, C. & Verhoeven, L. (1999). Taalontwikkeling van nul tot twaalf, Raamplan deel 2. Nijmegen: Expertisecentrum Nederlands. Te downloaden via: http://www.expertisecentrumnederlands.nl/ Singer, E. & Klerekoper, L. (2009). Pedagogisch kader kindercentra 0-4 jaar. Maarssen: Elsevier gezondheidszorg. Stoep, J. & Elsäcker, W. van (2005). Peuters Interactief met Taal. De Taallijn VVE: Taalstimulering voor jonge kinderen. Nijmegen: Expertisecentrum Nederlands. Suijkerbuijk, E. & Kuiken, F. (2009). Taaldoelen in de Amsterdamse voor- en vroegschoolse educatie. Amsterdam: Universiteit van Amsterdam. Verhallen, M. & Verhallen, S. (1994). Woorden leren, woorden onderwijzen. Hoevelaken: CPS. Verhoeven, L. & Aarnoutse, C. (red.) (1999). Tussendoelen beginnende geletterdheid: een leerlijn voor groep 1 tot en met 3. Nijmegen: Expertisecentrum Nederlands.
69
Verhoeven, L., Biemond, H. & Litjens, P. (2007). Tussendoelen mondelinge communicatie: leerlijnen voor groep 1 tot en met 8. Nijmegen: Expertisecentrum Nederlands. http://tule.slo.nl http://www.expertisecentrumnederlands.nl http://www.taalsite.nl
70
Bijlage 1 Profielanalyse met IRT, Norman Verhelst
Profielanalyse met Item Respons Theorie Norman Verhelst
Cito, maart 2007
1
© Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2007) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Stichting Cito Instituut voor Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inleiding In een aantal projecten binnen Cito is het de gewoonte toetsgegevens te analyseren met een unidimensionaal IRT model, zoals het Raschmodel of OPLM. In het PPON project is de inhoudelijke bepaling van de verzameling items die aldus wordt geanalyseerd vrij beperkt. In andere toepassingen, bijvoorbeeld het LVS, wordt een soortgelijk model toegepast op een inhoudelijk veel breder domein van items. In het domein Rekenen-Wiskunde bijvoorbeeld, worden aan het eind van het basisonderwijs 24 verschillende schalen onderscheiden binnen PPON, terwijl in het LVS gestreefd wordt om alle onderdelen uit het domein op een enkele schaal onder te brengen. Deze op het eerste gezicht niet consistente aanpak heeft praktische en historische redenen die hier niet aan de orde zullen worden gesteld; wat ons hier zal bezighouden is de vraag of en in welke mate twee zo duidelijk verschillende wijzen van analyseren psychometrisch kunnen worden verantwoord. Het probleem wordt aangepakt vanuit een praktische vraagstelling: indien we de items uit een breed domein indelen in een aantal (inhoudelijk of op anderszins zinvolle manier bepaalde) categorieën, welk nut en welke zin heeft het bestuderen van de deelscores op deze onderdelen als we het hele domein als een unidimensionale verzameling beschouwen. Een rijtje deelscores uit de verschillende subdomeinen wordt een profiel genoemd, vandaar de titel van dit rapport. Het rapport bestaat essentieel uit twee delen. In het eerste deel wordt beargumenteerd in welke zin het bestuderen van profielen zinvol is bij het gebruik van een unidimensionaal model. In het tweede deel wordt nader ingegaan op de technische uitwerking van zo’n profielanalyse. Dit gedeelte wordt dan meteen ook geïllustreerd met voorbeelden uit de Citopraktijk. Functie van de profielanalyse Men zou het volgende standpunt kunnen innemen: indien alle items uit een breed domein inderdaad een enkele latente dimensie aanspreken (een enkel concept) en we zijn in staat nauwkeurig te specificeren op welke wijze dit ‘aanspreken’ moet worden begrepen, dan heeft het bestuderen van profielen weinig of geen zin.We kunnen dan immers de positie van een leerling op het latente continuum (met een gekende nauwkeurigheid) bepalen aan de hand van antwoorden op een willekeurige deelverzameling van items uit het brede domein, waarbij moet worden aangetekend dat de graad van nauwkeurigheid afhangt van welke items men kiest – en meer in het bijzonder van het aantal items dat men kiest. Om concreet te maken wat hier precies wordt bedoeld, lichten we het voorgaande toe met een voorbeeld. Veronderstel dat we het brede domein Rekenen kunnen opdelen in twee deeldomeinen – breuken en meetkunde. Zeggen dat breuken en meetkunde-items hetzelfde concept aanspreken betekent dat de prestatie van een leerling op beide deeldomeinen alleen afhangt van eenzelfde vaardigheid, die we hier voor het gemak rekenvaardigheid noemen. Dit impliceert dat we de rekenvaardigheid van een leerling kunnen bepalen door hem een toets voor te leggen die uitsluitend items met breuken bevat, of uitsluitend meetkunde-items of een willekeurig mengsel van breuken en meetkunde-items. Dit is een belangrijk principe in de psychometrie, dat soms wordt aangeduid met de term ‘specifieke objectiviteit’. Daarmee is natuurlijk niet alles gezegd over de meetnauwkeurigheid. Stel dat in de hele itembank met meetkunde-items en breuken items, deze laatste categorie gemiddeld genomen substantieel moeilijker is dan de eerste, en wel zodanig dat hele zwakke leerlingen bijna geen enkel breuken-item correct kunnen beantwoorden, en dat heel vaardige leerlingen bijna geen fouten maken op de meetkunde-items. Dan ligt het een beetje voor de hand dat we voor een
3
nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een toets die hoofdzakelijk meetkunde-items bevat, en voor een sterke leerling met een toets die vooral breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang (‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag – hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid of vanuit twee verschillende vaardigheden. Het voorgaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke eigenschappen hebben, want die staan garant voor de eigenschap dat we verschillende leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we moeten aantonen is dat het gebruikte meetmodel geldig (valide) is voor de item-antwoorden die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we kunnen zeggen dat het principieel onmogelijk is. Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die nulhypothese te komen. Dit is de logische status van de statistische procedures in experimenteel onderzoek. Bij het evidentie zoeken ten voordele van een gebruikt model wordt deze werkwijze omgekeerd, en men spreekt van toetsen voor ‘goodness-of-fit’. Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is gemakkelijk in te zien door zich toetsen voor te stellen waarvan de analyse gebaseerd is op een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen onderscheidend vermogen of ‘power’ heeft. Gegeven een bepaalde statistische procedure (bijvoorbeeld een t-toets om de hypothese van gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen voor goodness-of-fit speelt er meestal nog een andere kwestie. Het gebruikte meetmodel (bijvoorbeeld OPLM) is een complexe nulhypothese, en het heeft helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde toetsprocedures veel power hebben, terwijl voor andere tekortkomingen andere procedures
4
meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen voor goodnessof-fit ingebouwd, en deze toetsen hebben vooral een goed onderscheidend vermogen om te ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar voor sommige schendingen van het model hebben deze toetsen weinig of geen power. Hier is een voorbeeld: een paar jaar geleden is op het Cito de Interessetest gemaakt voor leerlingen van groep 8. Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie, Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt voor jongens en voor meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die werd gebruikt om dit aan het licht te brengen was een statistische toets voor goodness-of-fit die speciaal is ontworpen om verschillen in functioneren van het model in verschillende deelpopulaties (hier: jongens en meisjes) te ontdekken. Het voorbeeld kan een paar zaken duidelijk maken: uit de bespreking van het voorbeeld kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is. Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is uitgevoerd voor jongens en meisjes, en niet, bijvoorbeeld, voor leerlingen die in de eerste zes maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn geboren. De reden hiervoor is dat er vooraf een vermoeden bestond dat er voor interesses wel eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het gebruikte meetmodel. In het voorbeeld van de Interessetest werd ervan uitgegaan dat de populatie waarvoor de test is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen. In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling een voorbeeld is van multidimensionaliteit. Daar is weinig tegen in te brengen tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bijvoorbeeld OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets Basisonderwijs wordt voor de items Rekenen meestal een unidimensionaal model gebruikt, maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het
5
toelaatbaar kan worden geacht een unidimensionaal model voor de drie deelvaardigheden te gebruiken. Dit brengt ons op een probleem dat direct met de toetspraktijk heeft te maken. Bij het schatten van de modelparameters wordt maar ten dele gebruik gemaakt van de informatie die in de data aanwezig is. Voor het OPLM bijvoorbeeld gebruiken we alleen de randtotalen van de gegevenstabel: van elk item het aantal keren dat het correct is beantwoord en van elke leerling zijn score op de toets (ongewogen bij het Raschmodel en gewogen in het OPLM). De overblijvende informatie wordt dan gebruikt om het model (statistisch) te toetsen: als de parameters (redelijk) nauwkeurig geschat zijn, kunnen allerlei eigenschappen van de datamatrix worden voorspeld, en deze voorspellingen kunnen worden vergeleken met de werkelijke eigenschappen van de datamatrix. Een voorbeeld: voor alle leerlingen met een bepaalde score op de toets (bijvoorbeeld 25) kan men voorspellen welke proportie van die leerlingen een bepaald item (bijv. item 1) correct heeft beantwoord, en deze voorspelde proportie kan men vergelijken met de proportie in de data, die men kan vinden door een simpele telling. Het probleem is echter dat er talloos veel verschillende voorspellingen kunnen worden gemaakt, en dat de overeenkomst tussen data en voorspelling soms minder goed zal zijn dan men zou willen, puur door toeval. Het heeft dus weinig zin om hap snap enkele voorspellingen eruit te pikken en de overeenkomst met de data te beoordelen. Het is wel zinvol om weloverwogen de voorspellingen te kiezen vanuit theoretische of didactische overwegingen en te overwegen wat men zou moeten of kunnen doen in geval de overeenkomst tussen data en voorspellingen niet goed is. Profielanalyse zoals hier verder zal worden uitgewerkt past in deze opvatting. Een profiel is een rijtje deelscores op bepaalde categorieën van items, maar men kan in principe de categorizering definiëren zoals men wil. Men zou inhoudelijke categorieën kunnen bepalen (zoals meetkunde, breuken, getalsrelaties, etc.), maar men kan ook andere categoriedefinities hanteren, zoals de even genummerde items tegenover de oneven genummerde, om maar een dwaas voorbeeld te noemen. Een goede categorisering is geen psychometrisch of statistisch probleem, maar een inhoudelijk probleem, en het is aan de inhoudelijke medewerkers hierover na te denken en een verantwoorde keuze te maken. In het genoemde voorbeeld van de rekenitems (in deeldomeinen) zou men een aantal overwegingen kunnen aanvoeren voor de gekozen categorisering: • Het bestaan van aparte methoden voor de genoemde onderdelen; • De noodzaak van bepaalde psychologische vaardigheden voor sommige onderdelen (zoals ruimtelijk inzicht voor meetkunde); • Het bestaan van didactische praktijken waarbij onderdelen ook echt bloksgewijs worden onderwezen; • De mogelijkheid van (partiële) incompetentie van (sommige) leerkrachten, etc. De eigenlijke profielanalyse bestaat dan uit drie onderdelen: • Het berekenen van het verwachte profiel met gebruikmaking van de parameters van het meetmodel; • De vergelijking van individuele geobserveerde profielen met dit verwachte profiel. Bij deze vergelijking kan men verschillende standpunten innemen: o Als de afwijking tussen geobserveerde en verwachte profielen erg groot is voor zeer veel leerlingen kan men de validiteit van het meetmodel in twijfel gaan trekken, en eventueel een herziening en/of uitbreiding van het meetmodel overwegen. Dit is eigenlijk een taak die behoort tot het monitoren van het hele systeem.
6
•
o Men kan echter ook afwijkingen aggregeren op een hoger niveau, bijvoorbeeld de school of de klas, en bijvoorbeeld vinden dat in een bepaalde school de afwijkingen van het verwachte profiel voor alle leerlingen in dezelfde richting wijzen zoals een relatief lage deelscore op het onderdeel breuken in vergelijking met de andere onderdelen. Dit te ontdekken, ordelijk te beschrijven en te rapporteren is een monitoring functie op school- of klasniveau. Om dit goed en op een verantwoorde manier te doen is geen triviale taak en er is nog behoorlijk veel werk te doen om op dit niveau goede service aan de scholen te kunnen aanbieden. o Natuurlijk kan men ook de afwijking tussen een individueel profiel (van een leerling) en het verwachte profiel bepalen en tot een (beschrijvend) besluit komen, ongeveer met de uitspraak dat de afwijking bij leerling A groot is en bij leerling B klein. In het tweede deel van dit rapport wordt uiteengezet hoe men op een rationele manier grote afwijkingen kan definiëren. De moeilijkste taak is echter het formuleren van besluiten en adviezen. Afwijkende patronen kunnen ook bij toeval ontstaan en hoeven niet per se op een probleem te wijzen bij de leerling. In de statistiek spreekt men van fouten van de eerste soort, soms ook aangeduid als vals alarm. Omgekeerd zullen niet alle problemen door een profielanalyse aan het licht komen. In het eerste geval is het botweg adviseren tot bijles of remediërende programma’s niet altijd een wijze handeling. Als een probleem gesignaleerd wordt (op statistische wijze) is het meestal verstandiger eerst bijkomende evidentie te zoeken dat het inderdaad om een probleem gaat. In een systeem als het LVS worden bijvoorbeeld mogelijkheden geboden omdat daar gegevens van dezelfde leerling op verschillende tijdstippen beschikbaar zijn. Maar het uitwerken van een geschikte procedure voor een aggregatie van profielen over de tijd is niet op stel en sprong gemaakt. Er ligt dus nog een groot onontgonnen veld van nadenken en uitwerken voor ons.
Profielanalyse op individueel niveau Als een leerling een toets maakt kunnen we deelscores berekenen op willekeurige onderdelen van de toets. We zullen aannemen dat de toetsitems in p (> 1) categorieën zijn onderverdeeld, waarbij elk item in niet meer dan een categorie valt. Voor elke categorie kunnen we de deelscore van de leerling berekenen en het rijtje van p deelscores noemen we het geobserveerde profiel. De deelscores kunnen gewone tellingen zijn: hoeveel items van elke categorie heeft de leerling correct beantwoord, of het kunnen gewogen scores zijn omdat niet alle items hetzelfde gewicht hebben. In Figuur 1 staat een voorbeeld uit de Eindtoets Basisonderwijs 2006 voor het onderdeel Rekenen, waarbij drie categorieën zijn onderscheiden. De verticale as geeft de gewogen score weer op de drie onderdelen. De gewogen score op het hele onderdeel Rekenen bedraagt voor de betrokken leerling 120 punten.
7
80
gewogen score
60
40
20
0 getal
m eten
breuken
Figuur 1. Een geobserveerd profiel met gewogen scores Het hele onderdeel Rekenen bestaat uit 60 items en de maximale gewogen score bedraagt 270. Op het eerste gezicht zou men kunnen zeggen dat de leerling zwak presteert op de categorie ‘meten’ en sterk op de categorie ‘breuken’, maar elke grond voor zulk een interpretatie ontbreekt: we weten immers niet hoeveel items er in elke categorie zijn en we kennen het gewicht van de afzonderlijke items niet. Geven we deze informatie erbij, dan kunnen we al iets van het probleem wegnemen. In figuur 2 is weer een profiel gegeven (van de zelfde leerling als in Figuur 1), maar nu zijn de resultaten uitgedrukt als percentage van de maximumscore in elke categorie, zodat de dubbelzinnigheid veroorzaakt door verschillende aantallen items of verschillende gewichten in ieder geval is weggenomen.
procent van de maximale score
80
60
40
20
0 getal
m eten
breuken
Figuur 2. Geobserveerd profiel uitgedrukt als percentage van de maximumscore In Figuur 2 lijkt de zwakste prestatie nu in de categorie getallen, maar ook dit resultaat kan misleidend zijn, want het zou zo kunnen zijn dat de items in de categorie ‘getallen’ veel moeilijker zijn dan in de twee andere categorieën. De spontane interpretatie bij een visuele weergave van een profiel is het nemen van de nullijn (of een willekeurige andere horizontale lijn in de figuur) als referentielijn, en dat kan aanleiding geven tot niet gerechtvaardigde interpretaties of conclusies.
8
Het referentieprofiel Om terdege rekening te houden met de verschillen in moeilijkheid van de onderscheiden categorieën kunnen we het beste een soort verwacht profiel gaan nemen als referentielijn. Maar we dienen goed te formuleren wat we met ‘verwachting’ bedoelen. Nemen we bijvoorbeeld als verwachting de gemiddelde categoriescore in de populatie van leerlingen van groep acht die deelnemen aan de Eindtoets, dan wordt de vergelijking weer gecompliceerd omdat het aldus gedefinieerde verwachte profiel in twee opzichten kan verschillen van het geobserveerde profiel uit Figuur 1: het kan verschillen door het algemene niveau (in het voorbeeld doet het dit ook, want een gewogen score van 120 op het onderdeel Rekenen is een tamelijk lage score) en het kan ook verschillen qua vorm. De directe visuele interpretatie van beide profielen wordt daardoor bemoeilijkt. We kunnen het probleem vereenvoudigen door een specifiek geobserveerd profiel te vergelijken met een gemiddeld profiel van alle leerlingen die op de hele toets (d.i. op het hele onderdeel Rekenen) dezelfde of ongeveer dezelfde score behalen als de score van het geobserveerde profiel. Dit verwachte profiel kunnen we op twee manieren bepalen: empirisch of theoretisch. Empirisch betekent dat we in het databestand van de Eindtoets het gemiddelde profiel bepalen van alle leerlingen met dezelfde score op het hele onderdeel Rekenen als de onderzochte leerling. Voor het onderzoek naar een andere leerling met een andere gewogen score op het onderdeel Rekenen kunnen we hetzelfde doen. We moeten deze hele procedure dus uitvoeren voor alle mogelijke scores op het onderdeel Rekenen. Drukken we het geobserveerde profiel uit met gewogen scores, dan moeten we deze procedure toepassen voor alle mogelijke gewogen scores. In termen van computertijd is dit niet zo’n groot probleem, maar wel in termen van statistische stabiliteit. Immers de frequentie van sommige gewogen scores zal behoorlijk groot zijn, maar voor andere scores zullen we onvermijdelijk te maken krijgen met kleine tot zeer kleine frequenties. De statistische stabiliteit van de verwachte profielen zal dan van score tot score gaan verschillen en dit is een onwenselijke situatie. Bovendien komt er nog een probleem bij als we een dergelijke werkwijze zouden willen toepassen in het LVS. Bij de Eindtoets worden de data centraal verzameld op het Cito, maar bij het LVS is dat niet zo. De data die daar beschikbaar zijn betreffen alleen de leerlingen van de school zelf en dan wordt de empirische aanpak wel heel problematisch. Als de gegevens met OPLM gecalibreerd zijn kunnen we ook theoretisch het verwachte profiel afleiden. De verwachte (gewogen) score voor elke categorie is een (nogal ingewikkelde) functie van de itemparameters (de discriminatie-indices en de moeilijkheidsparameters). Details over hoe die verwachte waarden worden berekend worden gegeven in Appendix A van dit rapport. In Figuur 3a wordt hetzelfde geobserveerde profiel afgebeeld als in Figuur 2, maar nu samen met het verwachte profiel. In Figuur 3b zijn beide profielen omgezet als percentage van de maximum te behalen score op elke categorie.
9
procent v.d. maximum score
gewogen score
80 60 40 20
obs exp
0 getal
meten
breuken
80 60 40 20
%obs %exp
0 getal
Figuur 3a. Profielen met gewogen scores
meten
breuken
Figuur 3b. Profielen met procenten
verschil geobs. min verw. (in %)
De visuele aanblik van beide figuren verschilt in bepaalde opzichten: in Figuur 3a zien we een dipje voor ‘meten’ dat in Figuur 3b verdwenen is, maar dat komt omdat de categorie ‘meten’ het minste items bevat met daarenboven nog eens het kleinste gemiddeld gewicht. Er zijn echter ook bepaalde eigenschappen die in beide figuren onveranderd blijven: op de categorie ‘getal’ doet de leerling het slechter dan verwacht; op de categorie ‘breuken’ doet hij het beter dan verwacht en op de categorie ‘meten’ is de geobserveerde prestatie zeer gelijkend aan de verwachte prestatie. En dit is precies de informatie die we nodig hebben, zodat het er eigenlijk niet veel toe doet of we Figuur 3a dan wel 3b kiezen. 20 15 10 5 0 -5
getal
meten
breuken
-10 -15 -20
Figuur 4. Afwijkingen van het verwachte profiel (in percentages) Samenvattend: het verwachte profiel is wat we gemiddeld kunnen verwachten van leerlingen die dezelfde gewogen toetsscore behalen als in het geobserveerde profiel (in het voorbeeld van Figuur 3 is dat 120). Voor elke categorie kunnen we met een simpele visuele inspectie nagaan of de leerling boven of onder de verwachting presteert, gezien zijn algemene niveau. In Figuur 4 geven we nog een andere visuele presentatie van de verschillen zoals afgebeeld in Figuur 3b: daar geven we aan (in procenten) hoever de leerling afwijkt van het verwachte percentage voor elke categorie. De nullijn komt dus overeen met het verwachte profiel. Door de wijze waarop het profiel (met gewogen scores) is gedefinieerd is het noodzakelijkerwijze zo dat de som van de categoriescores van het geobserveerde profiel gelijk is aan de som bij het verwachte profiel. Het kan dus nooit voorkomen dat het ene profiel volledig boven het andere ligt. Bij de afbeelding van de percentages geldt dat ook, maar daar is het niet noodzakelijk dat de som van de percentages in een profiel gelijk is aan 100, omdat de gewogen scores per categorie gedeeld worden door de maximumscore van die 10
categorie en die maxima zullen in de regel niet gelijk zijn aan elkaar. Daardoor is de som van de percentages in Figuur 4 ook niet gelijk aan nul. Afstand tussen twee profielen De verschillen tussen geobserveerd en verwacht profiel zoals in Figuur 3a zijn wel verbaal omschreven, maar voor verder onderzoek is het noodzakelijk dat die verschillen ook gekwantificeerd worden en bij voorkeur zo compact mogelijk. Het liefste met één getal dat op een of andere manier de afstand uitdrukt tussen de twee profielen. Er zijn veel mogelijke manieren om de afstand tussen twee profielen uit te drukken en wij kiezen er een die in de statistiek populair is, namelijk de chi-kwadraatafstand. We illustreren dit met de twee profielen uit Figuur 3a, waarvan de numerieke gegevens zijn ondergebracht in Tabel 1. De getalswaarden die overeenkomen met Figuur 3a zijn weergegeven in de rij ‘behaald’, waarbij de verwachte score tussen haakjes staat. Zoals te doen gebruikelijk bij contingentietabellen wordt deze rij echter ook gecompleteerd door een rij ‘niet behaald’: bij de categorie ‘getal’ is de maximale score 107, de geobserveerde score is 35, dus heeft de leerling 107 – 35 = 72 punten niet behaald. Tabel 1. Geobserveerd en verwacht profiel behaald niet behaald totaal
getal 35 (49.94) 72 (57.06) 107
meten 24 (26.42) 37 (34.58) 61
breuken 61 (43.65) 41 (58.36) 102
totaal 120 150 270
Elk van de zes grijsgekleurde cellen in Tabel 1 bevat een geobserveerde score (Oi) en een verwachte score (Ei) en de chi-kwadraatafstand tussen de twee profielen wordt gedefinieerd als 6 (O − Ei ) 2 X2 =∑ i = 20.83 Ei i =1 waarbij meteen de uitkomst van de formule voor de gegevens van Tabel 1 is ingevuld.
Het voordeel van een afstandsmaat is dat alle geobserveerde profielen met eenzelfde totaalscore nu kunnen worden geordend in termen van hun gelijkenis met het verwachte profiel (dat voor iedereen hetzelfde is). Maar we kunnen de profielen niet zomaar inwisselen tegen de afstand tot het verwachte profiel: immers twee profielen die op dezelfde afstand liggen van het verwachte profiel kunnen heel erg goed op elkaar lijken maar onderling ook heel verschillend zijn. Wat het geval is, kunnen we niet meer uit de afstandsmaat afleiden. Met de afstandsmaat op zichzelf kunnen we trouwens ook niet veel doen. In het voorbeeld bedraagt de afstand 20.83, maar daarmee weten we nog niet of dit nu heel gewoon is of eigenlijk toch wel een beetje aan de kleine kant of uitzonderlijk groot. Om zo een vraag zinvol te kunnen beantwoorden, moeten we antwoord geven op de volgende vraag: hoe ziet de verdeling van de chi-kwadraat afstanden eruit bij een totaalscore van 120 (en in de veronderstelling dat het gehanteerde OPLM model geldig is)? Of meer in het algemeen: kunnen we de overschrijdingskans van de gevonden waarde van 20.83 in die verdeling bepalen?
11
Indien die overschrijdingskans heel erg klein is, zeg 1%, dan weten we dat een chikwadraatafstand van 20.83 of groter slechts in 1% van de gevallen voorkomt indien het model voor deze leerling geldig is. Op grond van dit kleine percentage kunnen we ons geloof in het model (voor die leerling) opzeggen, en besluiten dat er wat aan de hand is met die leerling. Als de overschrijdingskans echter behoorlijk groot is, zeg 35%, betekent dit dat onder het model een chi-kwadraatafstand van 20.83 of groter voorkomt in 35 % van de gevallen, en ons besluit zal (waarschijnlijk) zijn dat we hier geen reden hebben om iets speciaals te signaleren. Maar wat hier met een hoop woorden is omschreven is niets anders dan een statistische toets. Hoe we die toets in concreto moeten uitvoeren beschrijven we hierna. De verdeling van de chi-kwadraatafstanden tussen geobserveerde en verwachte profielen De gedaante van Tabel 1 en van de formule die er op volgt zou kunnen suggereren dat de chikwadraatafstand de theoretische chi-kwadraatverdeling volgt. Dat zou zo zijn indien de rekentoets 270 items zou bevatten (het aantal items gelijk aan het grand total van de tabel), maar hier is dat niet zo: het onderdeel Rekenen in de Eindtoets bestaat slechts uit 60 items. We hebben dus geen theoretische basis om te beweren dat we de theoretische chi-kwadraatverdeling (met 2 vrijheidsgraden) kunnen gaan gebruiken. De theoretische verdeling op theoretische gronden afleiden is een moeilijke onderneming, maar gelukkig kunnen we dankzij de beschikbaarheid van snelle computers de theoretische verdeling willekeurig dicht benaderen door simulatietechnieken. We beschrijven kort hoe dit wordt gedaan. We vertrekken van een gegeven totaalscore, bijvoorbeeld 120 zoals in het voorbeeld hierboven. Als we de parameters van alle items in het OPLM model kennen kunnen we berekenen hoe groot de kans is dat iemand met een totaalscore van 120 item 1 (met een gewicht van 4) correct beantwoordt. Stel dat die kans 0.6 is. Dan gooien we (electronisch) een muntstuk op dat precies een kans van 0.6 heeft om ‘Munt’ op te leveren. Gebeurt dit, dan noteren we een correct antwoord op item 1, gebeurt het niet dan noteren we een fout antwoord. Als het antwoord op het eerste item correct was, dan moet de gesimuleerde leerling nog 120 – 4 = 116 punten behalen op de 59 overblijvende items; was het eerste item fout dan moet hij op de overblijvende 59 items alsnog een score van 120 behalen. En de procedure kan zich dus herhalen voor item 2, enzovoort tot alle items beantwoord zijn. Als de gesimuleerde persoon alle items heeft beantwoord kunnen we zijn geobserveerd profiel berekenen en dus ook de chi-kwadraatafstand tot het verwachte profiel. De details over het berekenen van de kans op een goed antwoord worden beschreven in Appendix B van dit rapport. Als we de hele procedure van de vorige alinea een groot aantal keren herhalen, bijvoorbeeld 30,000 keer, dan beschikken we over 30,000 chi-kwadraatafstanden waarvan we de cumulatieve frequentieverdeling kunnen tekenen. Dit hebben we ook inderdaad gedaan, en het resultaat staat in Figuur 5, samen met de theoretische cumulatieve chi-kwadraatverdeling met twee vrijheidsgraden.
12
cumulatief percentage cumulatief percentage
100 score = 120 chi2(2)
75
50
25
0 0
10
20
Chi-kwadraatafstand Chi-kwadraatafstand
30
40
Figuur 5. Gesimuleerde verdeling voor een totaalscore van 120 en de theoretische chi-kwadraatverdeling met twee vrijheidsgraden We merken twee zaken op bij Figuur 5: 1. De twee verdelingen verschillen heel erg van elkaar en er kan geen sprake van zijn de theoretische chi-kwadraatverdeling te beschouwen als een goede benadering van de werkelijke (of gesimuleerde) verdeling. De mediaan bijvoorbeeld, (het punt waar de horizontale rasterlijn met label ‘50’ de curve snijdt) bedraagt 6.06 bij de gesimuleerde verdeling en 1.39 bij de theoretische chi-kwadraatverdeling. 2. De curve van de gesimuleerde verdeling is minder glad dan de curve van de theoretische verdeling. Dit wordt veroorzaakt door twee factoren. De eerste is dat het aantal gesimuleerde leerlingen weliswaar behoorlijk groot is maar toch eindig. Een deel van de onregelmatigheden zouden kunnen worden weggepoetst door bijvoorbeeld een steekproef te nemen die tien keer zo groot is. Maar er zouden toch nog onregelmatigheden overblijven omdat de chi-kwadraatafstanden die we berekenen geen continue grootheid zijn, maar discreet. Voor praktische doeleinden echter, is de gesimuleerde curve glad genoeg. Percentiel 90 bijvoorbeeld bedraagt 19.65 en de geobserveerde chikwadraatafstand in het voorbeeld bedraagt 20.83 (aangegeven door de positie van de verticale streepjeslijn), waardoor we weten dat deze waarde een overschrijdingskans heeft van minder dan 10%. Percentiel 95 in de gesimuleerde verdeling bedraagt 25.32 en de overschrijdingskans van de geobserveerde chi-kwadraatafstand is dus groter dan 5%. Deze waarde kan worden afgelezen aan de positie van de horizontale streepjeslijn: het cumulatieve percentage van de chi-kwadraatafstand 20.83 is ongeveer 91%, zodat de overschrijdingskans ongeveer 9% is. In principe zijn we nu klaar met de leerling uit het voorbeeld: Figuur 3 geeft duidelijk het verwachte en geobserveerde profiel aan, en de statistische toets vertelt ons dat het verschil significant is op het 10% niveau maar niet op het 5% niveau. En hier houdt de functie van de statistiek op. Of we dit resultaat nu aan de leerkracht moeten melden met groot alarm of klein alarm of geen alarm is in wezen een arbitraire kwestie waar de statistiek geen uitspraak kan over doen.
13
Tot hiertoe hebben we alleen de verdeling bestudeerd voor een geobserveerde totaalscore van 120, maar het spreekt vanzelf dat we iets dergelijks moeten doen voor bijna alle mogelijke totaalscores. We kunnen dit in principe doen voor alle mogelijke totaalscores, maar dit heeft niet veel zin. Het gemiddelde gewicht van de items Rekenen in de Eindtoets 2006 ligt tussen 4 en 5. Dit betekent dat een leerling met een gewogen totaalscore van 15 drie of vier juiste antwoorden heeft gegeven. Het is dus vrij zinloos om voor zo’n lage score een profielanalyse te doen met drie categorieën. Een soortgelijk argument geldt natuurlijk ook voor zeer hoge totaalscores: het heeft weinig zin een profielanalyse te maken voor een leerling die maar twee of drie foute antwoorden heeft gegeven.
cumulatief percentage cumulatief percentage
In Figuur 6 staat een (stukje van) de cumulatieve gesimuleerde verdelingen voor een vijftal totaalscores. Voor elke verdeling zijn weerom 30,000 gesimuleerde leerlingen gebruikt. We merken dat de curves vrij goed op elkaar lijken, maar dan toch niet weer zo goed dat we met een gerust hart kunnen zeggen dat ze ‘eigenlijk’ aan elkaar gelijk zijn (waarbij we dan haarfijn zouden moeten uitleggen wat we met ‘eigenlijk’ bedoelen.) Wat we wel kunnen zeggen is dat de curves dermate op elkaar lijken dat het onmogelijk is in Figuur 6 een patroon te ontdekken, gesteld dat dit er al zou zijn.
80
60
40 score = 40 score = 80 score = 120
20
score = 160 score = 200
0 0
3
6
Chi-kwadraatafstand Chi-kwadraatafstand
9
12
Figuur 6. Gesimuleerde cumulatieve verdelingen voor vijf verschillende totaalscores Om een mogelijk patroon te kunnen ontdekken is Figuur 7 gemaakt. Daar zijn voor alle totaalscores in het interval [25, 245] de percentielen 50, 75, 90, 95, 97 en 99 grafisch weergegeven. Bemerk dat de percentielen hier moeten worden afgelezen op de verticale as. Over mogelijke patronen in die figuur merken we het volgende op: 1. Voor de allerlaagste gerapporteerde scores (25 en 26) zien we dat de curves omhoog schieten. Zo’n gekke uitschieters zien we bij nog lagere scores en ook bij extreem hoge scores. Dit geeft ons nog een extra reden om profielanalyse bij extreme scores gewoon achterwege te laten. 2. De percentielen 50 en 75 zijn merkwaardig constant op respectievelijk de waarden 6 en 12
14
3. Voor de andere geplotte percentielen zien we duidelijk een patroon: ze bereiken de hoogste waarde in het middengebied en worden kleiner naarmate de score groter of kleiner wordt. 4. Het feit dat de curves voor de hoge percentielen onregelmatiger verlopen dan voor de percentielen 50 en 75 moet waarschijnlijk worden geweten aan het discrete karakter van de chi-kwadraatafstand.
40
Chi-kwadraatafstand
32 p50
24
p75 p90 p95
16
p97 p99
8
0 25
50
75
100
125 150 toetsscore
175
200
225
Figuur 7. Zes percentielen van de verdelingen van de chi-kwadraatafstanden Moeten we nu met alle details zoals die zijn weergegeven in Figuur 7 gaan rekening houden als we profielen zouden willen rapporteren in het LVS bijvoorbeeld? Dit lijkt wat overdreven. Stel dat we een overschrijdingskans van 10% of minder de moeite waard vinden om aan de leerkracht te rapporteren dat de desbetreffende leerling een atypisch antwoordprofiel heeft. Uit Figuur 7 kunnen we gemakkelijk afleiden dat we een goede benadering krijgen als we signaleren bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen). Voor de extreme scores (zeg tussen 25 en 50 en tussen 225 en 245) zal overschrijdingskans dan wel iets kleiner zijn dan 10% en zo men wil zou men de drempel voor die scores iets lager kunnen zetten. We moeten echter niet gaan overdrijven, want anders vinden we schijnnauwkeurigheid zoals zal blijken in de volgende sectie. Profielanalyse als modeltoets Alle analyses die we tot hiertoe hebben gerapporteerd zijn uitgevoerd in de veronderstelling dat het OPLM model (met de parameterschattingen uit de calibratie) geldig is voor alle leerlingen. Maar als dat zo is, dan moet ongeveer 10% van alle leerlingen die aan de Eindtoets hebben deelgenomen een profiel chi-kwadraatafstand opleveren die significant is op het 10% niveau. Dat kunnen we empirisch nagaan. Voor alle leerlingen die aan de Eindtoets Basisonderwijs 2006 hebben deelgenomen en die op het onderdeel rekenen een totaalscore hadden groter dan 35 en kleiner dan 246 hebben we de chi-kwadraatafstand uitgerekend en 15
geclassificeerd in een van vier categorieën: een overschrijdingskans niet groter dan 50%; tussen 25% en 50%; tussen 10% en 25% en kleiner dan 10%. De resultaten zijn weergegeven in Tabel 2. De rechterkolom geeft voor elk van de vier categorieën het verwachte percentage aan. De andere kolommen geven voor verschillende score-intervallen (aangegeven in de bovenste rij) de geobserveerde percentages aan. In elke kolom tellen de percentages op tot 100. Tabel 2. Percentages leerlingen in de Eindtoets Basisonderwijs 2006 36-75 47.09 24.63 16.20 12.08
76-105 46.34 24.24 15.84 13.58
106-135 43.80 24.92 16.20 15.08
135-165 44.17 25.01 15.94 14.87
166-195 43.81 25.01 16.39 14.79
196-225 44.42 25.13 16.49 13.96
226-245 45.06 25.97 16.58 12.39
totaal 44.53 25.16 16.32 13.99
verwacht 50 25 15 10
Het is voldoende om naar de onderste rij in Tabel 2 te kijken om te zien dat er behoorlijk meer significanties op het 10% niveau zijn dan we op grond van het OPLM model mogen verwachten. Daaruit we moeten besluiten dat het model niet geldig is. Wat nu? Als we een beter model hadden (en een computerprogramma waarmee we de hele calibratie met een onvolledig design) konden overdoen, dan zou dat de aangewezen weg zijn: gebruik niet een slecht model als je een beter hebt. Maar het ziet er niet naar uit dat dit een realistische optie is; dus zullen we op een of andere manier een compromis moeten zien te vinden. Stel dat we in het geval van de individuele profielanalyse een profiel als atypisch hadden willen aanmerken bij een overschrijdingskans van 10% (dus bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen)). Dan zouden we (voor de populatie die aan de Eindtoets deelnam) dat niet doen in 10% van de gevallen maar in 14% (voorlaatste kolom, onderste rij in Tabel 7). Als we dit te veel vinden dan moeten we de drempel hoger gaan stellen; als we dit nog aanvaardbaar vinden dan weten we dat we in meer dan 10% een boodschap zullen afgeven. Als we dit op een adequate wijze aan het onderwijsveld weten mee te delen, dan kan dit heel aanvaardbaar zijn. Er zit echter een klein addertje onder het gras. De gegevens voor Tabel 2 komen van de Eindtoets, maar de profielanalyse is in eerste instantie bedoeld voor het LVS en niemand weet of een soortgelijke tabel voor het LVS ook soortgelijke percentages als die in Tabel 2 zal opleveren, want we hebben geen gegevens van het LVS. Een aantal losse opmerkingen Het profiel dat we als voorbeeld hebben behandeld (zie bijv. Figuur 3) heeft drie categorieën. De statistische analyse laat zien dat het geobserveerde profiel significant (op 10% niveau) van het verwachte profiel afwijkt. Deze uitkomst vertelt niet waaruit deze afwijking precies bestaat en waar (eventueel) het meeste aandacht moet worden aan besteed. Maar een visuele inspectie van de afwijkingen (bijvoorbeeld aan de hand van Figuur 4) laat hierover weinig twijfel bestaan. Omdat profielen ipsatief zijn (d.w.z. hun som is constant) is het aantal mogelijke ‘vormen van de afwijkingen’ redelijk beperkt, en lijkt de interpretatie behoorlijk eenvoudig. Wanneer echter het aantal categorieën toeneemt gaan de restricties die volgen uit de ipsativiteit steeds minder een rol spelen, en krijgen we een groeiend aantal mogelijke patronen van de afwijkingen tussen geobserveerd en verwacht profiel waarbij de interpretatie soms niet zo voor de hand liggend zal zijn. Het verdient daarom aanbeveling het aantal categorieën beperkt te houden. In de praktijk moeten we denken aan drie of vier. 16
Complementair hiermee is het wellicht nuttig een ander mogelijk probleem te signaleren: als het aantal categorieën toeneemt zal het gemiddeld aantal items per categorie afnemen. Maar categorieën met een klein aantal items kunnen een misleidende (visuele) indruk maken bij een presentatie zoals in Figuur 4. Veronderstel dat een categorie maar drie items bevat (van hetzelfde gewicht), dan kan in het geobserveerde profiel het percentage op die categorie maar vier verschillende waarden aannemen: nul, 33.3, 66.7 en 100, en wat ook de waarde is van het percentage juist in het verwachte profiel, minstens twee van de vier mogelijke uitkomsten zullen een grote afwijking te zien geven die op zichzelf niet veel hoeft te betekenen. Bij het definiëren van de categorieën is het raadzaam hier aandacht aan te besteden. Stel dat men er niet in slaagt een klein aantal evenwichtig verdeelde categorieën te definiëren, omdat er een inhoudelijk zinvolle restcategorie blijkt te bestaan die echter slechts een zeer klein aantal items bevat. Men kan dan zonder problemen die items uit de profielanalyse weglaten, met dien verstande dat de toetsscore en de verwachte profielen alleen op de andere items worden berekend. Men dient echter goed uit te kijken hier: twee leerlingen met dezelfde score op de niet uitgesloten items hebben dan hetzelfde verwachte profiel, maar dat impliceert niet dat die twee leerlingen dezelfde score hebben op de hele toets. Algebraïsch en statistisch is er ook geen enkel probleem om een item in meer dan een categorie op te nemen, maar als men dit doet bepaalt men het verwachte profiel conditioneel op een toetsscore waarbij het tweemaal gecategoriseerde item ook twee keer meetelt. Het is dus de vraag of een dergelijke werkwijze de interpreteerbaarheid van de profielen en hun afwijkingen ten goede komt.
17
Appendix A: verwachte profielen
Het OPLM wordt gekarakteriseerd door de volgende item respons functie voor item i: exp[ai (θ − β i )] fi (θ ) = P ( X i = 1| θ ) = 1 + exp[ai (θ − β i )] We definiëren ε i = exp(− ai βi ) Veronderstel dat de items zijn opgedeeld in C categorieën, en voor elke categorie c definiëren we de verzameling Ec = {ε i | item i behoort tot categorie c} en haar complement E c = {ε i | ε i ∉ Ec } De verzameling parameters voor alle items in de toets duiden we aan met E. Uit de theorie over de conditionele maximum likelihood schatting in het OPLM zijn genoegzaam de zogenaamde combinatorische basisfuncties bekend: k
γ s (ε1 ,… , ε k ) = ∑∏ ε ix
i
(*) i =1
waarin k
(*) betekent: ∑ ai xi = s, ( xi ∈ {0,1}) i =1
Het argument van deze functies is dus een rijtje ε ’s, en de functie is symmetrisch; derhalve kunnen we voor een willekeurige verzameling ε -parameters ook kortweg de functie aanduiden als γ s ( E ) . Voor een gewogen score s kleiner dan nul of groter dan de maximaal te behalen score definiëren we dat de functie de waarde nul aanneemt. Op die manier is de functie gedefinieerd voor alle gehele getallen. Voor een gegeven toetsscore s en een deelscore sc op de deeltoets die bestaat uit de items van categorie c is de kans op sc conditioneel op s gegeven door γ s ( Ec )γ s − sc ( E c ) P ( Sc = sc | s ) = c γ s (E) waaruit dan direct volgt dat de verwachte waarde van de deelscore op categorie c items conditioneel op de totaalscore s gegeven is door Mc
E ( Sc | s ) = ∑ jP( Sc = j | s ) j =0
waarin Mc de maximale deelscore is in categorie c. Het is wellicht instructief het speciale geval te beschouwen waar alle items hetzelfde gewicht en dezelfde moeilijkheid hebben. Zij k het totaal aantal items in de toets, en kc het aantal items in categorie c, dan is de kans op deelscore sc gegeven door ⎛ kc ⎞ ⎛ k − kc ⎞ ⎜ ⎟⎜ ⎟ sc ⎠ ⎝ s − sc ⎠ ⎝ P ( Sc = sc | s) = ⎛k ⎞ ⎜ ⎟ ⎝s⎠ d.w.z., Sc volgt de hypergeometrische verdeling.
18
Appendix B. Steekproeftrekken onder restricties
We beschouwen alleen het geval van binaire items. Het algoritme werkt sequentieel. Als op een bepaald item succes wordt geboekt wordt de lopende score met het gewicht van dat item verminderd. We definiëren S als de score die nog moet behaald worden na het beantwoorden van een gedeelte van de items. Bij aanvang van het algoritme is S de totaalscore. Na beëindiging heeft S de waarde nul. We definiëren E0 als de verzameling ε -parameters voor de gehele toets met k items en Ei als Ei = E − {ε1 ,… , ε i }, (i < k ) Voor i = 1,…,k passen we sequentieel de volgende procedure toe 1. bereken Pi:
Pi =
ε iγ s − a ( Ei ) i
γ s ( Ei −1 )
2. Trek een uniform verdeeld random getal z uit (0,1). a. Indien z > Pi is een fout antwoord gegeven: Xi=0; b. Indien z ≤ Pi is een correct antwoord gegeven: Xi=1 en de lopende score wordt met ai verminderd: s := s-ai. Het algoritme kan voortijdig worden afgebroken in twee gevallen. Als de lopende score s gelijk is aan nul zijn de resterende items fout beantwoord; als de lopende score gelijk is aan de som der gewichten van de resterende items zijn al die items noodzakelijkerwijze goed beantwoord.
19
Cito | Volgsysteem jonge kind
Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 F (026) 352 11 35
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toets Taal voor peuters uit het Cito Volgsysteem jonge kind Nienke Lansink en Bas Hemker