Jaarlijks Peilingsonderzoek naar het Onderwijsniveau
Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 van het basisonderwijs – meting 2009 Een beknopt verslag J.J. van Weerden & B.H. Hemker Samenvatting In dit rapport wordt verslag gedaan van de tweede jaarlijkse peiling van de reken- en taalvaardigheid in groep 4 en 8. Vergelijken we de prestaties van 2009 met die van 2008, dan blijken de vierde- en achtstegroepers een kleine vooruitgang in respectievelijk Spelling en Begrijpend lezen te hebben geboekt. Daarnaast blijkt dat de kloof tussen de prestaties van autochtone en allochtone leerlingen iets kleiner is geworden. Dit geldt voor Woordenschat in groep 8 en voor Rekenen en Spelling in groep 4. Bij deze onderdelen lijken allochtone leerlingen dus een deel van hun achterstand te hebben ingehaald. De volgende jaarlijkse peilingen zullen uitwijzen in hoeverre deze ogenschijnlijke vooruitgang doorzet. Deze tweede jaarlijkse peiling geeft voor het eerst de mogelijkheid een vergelijking tussen jaren te maken voor de vaardigheden taal en rekenen in groep 4 en 8. Het valt niet te verwachten dat er op een dergelijke korte termijn al duidelijk op landelijk niveau relevante en eenduidig te interpreteren verschillen kunnen worden aangetroffen.
Inleiding In het kader van de kwaliteitsagenda ‘Scholen voor morgen’ is in 2008 het Jaarlijks Peilingsonderzoek van het Onderwijsniveau (JPON) van start gegaan. Dit jaarlijkse onderzoek is gericht op het monitoren van het onderwijsniveau op het gebied van taal- en rekenvaardigheid in het basisonderwijs. In 2008 is verslag gedaan van de eerste jaarlijkse niveaupeiling van taal en rekenen in groep 8 en 4 (Hemker & Van Weerden, 2008). De voor u liggende samenvatting bevat een beknopt verslag van de tweede peiling van de taal- en rekenvaardigheid die in 2009 is uitgevoerd in groep 8 en 4.
1
Vraagstelling en aanpak
1.1
Vraagstelling
Het belangrijkste doel van JPON is het nauwkeurig vaststellen van veranderingen in de taal- en rekenvaardigheden van leerlingen in groep 8 en 4 van het basisonderwijs. Daarnaast is het doel na te gaan in hoeverre de prestatieverschillen tussen bepaalde groepen leerlingen en scholen gelijk zijn gebleven dan wel groter of kleiner zijn geworden.
1.2
Wat is er gemeten?
Uit overwegingen van efficiëntie en kosten zijn voor de jaarlijkse niveaupeilingen overwegend gegevens gebruikt die toch al door scholen worden verzameld. Voor de meting van de taal- en rekenvaardigheid in groep 8 zijn dat de eerder verzamelde gegevens uit de Eindtoets Basisonderwijs 2008. Daarnaast is gebruik gemaakt van opgaven uit de bijbehorende Niveautoets en het zogeheten boekje Extra. Voor taal betreft het de onderdelen Begrijpend lezen, Spelling en Woordenschat. Bij rekenen gaat het om de onderdelen Getallen en bewerkingen, Breuken procenten en verhoudingen en Meten, tijd en geld. In groep 4 is gebruik gemaakt van toetsen van het Cito Leerling- en onderwijsvolgsysteem (LOVS) Voor taal is gekozen voor dezelfde onderdelen als in groep 8. Bij rekenen worden er vier onderdelen onderscheiden in plaats van drie, namelijk Getallen en getalsrelaties, Optellen en aftrekken, Vermenigvuldigen en delen en Meten, tijd en geld.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
1
In beide gevallen is gebruik gemaakt van een steekproefprocedure, zodat de resultaten als representatief mogen worden gezien voor het niveau in Nederland op de beide meetmomenten. De steekproeven verschilden wel in grootte. Behalve de genoemde taal- en rekenvaardigheden zijn o.a. de volgende achtergrondkenmerken in het onderzoek betrokken: Geslacht ; Leertijd : leerlingen die al of niet eens hebben gedoubleerd; Formatiegewicht: gewicht van de leerling voor de formatieregeling op grond van opleiding en herkomst (alleen oude regeling) van de ouders Thuistaal: Nederlands gesproken, een andere taal of een combinatie; Stratum: schoolindeling op basis van de verdeling in formatiegewichten van de leerlingen.
1.2
Hoe is er geanalyseerd?
Hieronder geven we beknopt weer hoe we de resultaten van 2009 hebben vergeleken met die van 2008. Voor een uitgebreide technische verantwoording van de steekproef, de gebruikte toetsen, de statistische analyse en de rapportage wordt verwezen naar de technische rapportages (Hemker & Van Weerden, 2009; Hemker, Kuhlemeier en Van Weerden 2010). Vergelijking tussen 2008 en 2009 Om de vaardigheden van 2008 en 2009 direct met elkaar te kunnen vergelijken, moet er aan ten minste twee voorwaarden zijn voldaan: A. De vaardigheden moeten in 2009 op dezelfde schaal gemeten zijn als in 2009; B. De samenstelling van de responsgroep mag niet gewijzigd zijn (bijvoorbeeld meer of minder vertraagde leerlingen bevatten). Aan voorwaarde A is voldaan als de steekproef van 2009 precies dezelfde toetsen heeft gemaakt als de steekproef van 2009. Voor leerjaar 4 is aan deze voorwaarde voldaan, aangezien de leerlingen in beide gevallen ongewijzigde toetsen uit het reguliere LOVS hebben gemaakt. De voor leerjaar 8 gebruikte Eindtoets Basisonderwijs wordt echter omwille van de geheimhouding ieder jaar volledig ververst. Wij hebben de vergelijkbaarheid echter kunnen waarborgen doordat de achtstegroepers in 2008 en 2009 een aantal extra opgaven zijn voorgelegd (namelijk ankertoetsen en het zogeheten toetsboekje Extra). Met behulp van een speciale analysetechniek - een zogeheten itemresponse model - konden de prestaties van 2009 toch met die van 2008 op dezelfde meetschaal met elkaar worden vergeleken (vgl. Hemker, Kuhlemeier & Van Weerden, 2010). Aan voorwaarde B is voldaan als de samenstelling van responsegroep in 2009 vergelijkbaar is met die in 2008. Veranderingen in de samenstelling van een responsgroep kunnen een gevolg zijn van zogenaamde steekproeffluctuaties en ‘echte’ verandering in de samenstelling van de populatie. Het probleem van steekproeffluctuaties zal zich voor groep 8 niet zo gauw voordoen. Zowel in 2008 als in 2009 is namelijk een zeer grote aselecte steekproef van vele honderdduizenden leerlingen getrokken (telkens ongeveer 85% van de populatie). Wel kan er zich een wijziging in de samenstelling van de populatie hebben voorgedaan. Stel dat scholen bijvoorbeeld overgaan op een strenger doubleerbeleid. De responsegroep in 2009 zou dan minder zittenblijvers bevatten dan die in 2008. We zouden dan ten onrechte kunnen concluderen dat de vaardigheid van de leerlingen vooruit is gegaan. Gelukkig zijn er tegenwoordig statische technieken beschikbaar die ons voor dit soort verkeerde conclusies kunnen behoeden. Vandaar dat wij voor groep 8 zowel ongecorrigeerde als gecorrigeerde gegevens verstrekken (d.w.z. gecorrigeerd voor veranderingen in de samenstelling van de populatie). In groep 4 is de steekproef veel minder groot dan in groep 8 (namelijk ‘slechts’ ongeveer 2500 leerlingen van ongeveer 100 scholen). De omvang van de beide steekproeven in groep 4 is te klein om steekproeffluctuaties met voldoende zekerheid te kunnen vaststellen en hiervoor vervolgens statistisch te kunnen corrigeren. Wel is het mogelijk te corrigeren voor veranderingen in de samenstelling van de populatie van vierdegroepers. Vandaar wij ook bij leerjaar 4 ongecorrigeerde en gecorrigeerde resultaten rapporteren, ook al is de correctie bij groep 4 van een iets andere aard dan bij groep 8. Twee correctiemodellen Voor de correctie voor eventuele verschillen in de samenstelling van de beide responsegroepen zijn twee statistische correctiemodellen beschikbaar: het hoofdeffectenmodel en het interactiemodel. De achtergrondkenmerken waarvoor gecorrigeerd wordt, zijn in beide modellen geslacht, leertijd, stratum en formatiegewicht. De keuze van het model is afhankelijk van de vraag of er behalve van een hoofdeffect ook
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
2
sprake is van een interactie tussen achtergrondkenmerken en het jaar van afname. We lichten dit toe aan de hand van een voorbeeld. We spreken van een hoofdeffect van sekse als het vaardigheidsverschil tussen jongens en meisjes in beide jaren gelijk is. Een interactie tussen geslacht en jaareffect wil zeggen dat prestatieverschil tussen jongens en meisjes het ene jaar groter of kleiner is dan het andere jaar. In het hoofdeffectenmodel wordt alleen gecorrigeerd voor eventuele hoofdeffecten van geslacht, leertijd, stratum en formatiegewicht. Als er sprake is van een interactie van een of meer van deze achtergrondvariabelen met het jaareffect, is gekozen voor correctie volgens het interactiemodel en rapporteren we de verandering in het prestatieniveau per categorie van de achtergrondvariabele. Significantie en effectgrootte Of we een gemiddeld vaardigheidsverschil tussen 2009 en 2008 statistisch significant is, hangt in belangrijke mate af van de steekproefgrootte. Hoe groter de steekproef, hoe eerder een verschil statistisch significant is. Voor groep 8 is de steekproef zeer veel groter dan voor groep 4. Om de resultaten in groep 4 en 8 toch zinvol met elkaar te kunnen vergelijken rapporteren wij behalve de statistische significantie ook de zogeheten effectgrootte. De effectgrootte wordt in ons geval berekend als het verschil tussen de gemiddelden van 2008 en 2009 gedeeld door de (gepoolde) standaardafwijking van de twee groepen die onderling worden vergeleken. Bij de interpretatie van de effectgrootte hanteren we de vuistregel van Cohen (1988) die is afgebeeld in Tabel 1.1.
Tabel 1.1
Kwalificatie van effectgrootten
Effectgrootte (zowel plus als min) 0,0 tot 0,2 0,2 tot 0,5 0,5 tot 0,8 0,8 of groter
Kwalificatie geen effect klein effect matig effect groot effect
De gekozen rapportageschaal Elke vaardigheid in dit onderzoek is getransformeerd naar een schaal met een gemiddelde van 250 en een standaarddeviatie van 50. Dit is conform de werkwijze bij PPON (zie bijv. Janssen, Van der Schoot & Hemker, 2005). De startwaarde is voor elke schaal het gemiddelde dat we in 2008 hebben aangetroffen. Dat gemiddelde is arbitrair op 250 gesteld (zie verder Hemker & Van Weerden, 2009). De transformatie heeft als voordeel dat we de prestaties voor verschillende vaardigheden en voor verschillende jaren met elkaar kunnen vergelijken. Voor de kwaliteit van de geconstrueerde meetschalen en de uitkomsten op itemniveau verwijzen we naar de technische rapportage (Hemker, Kuhlemeier & Van Weerden, 2010).
2
De resultaten voor groep 8
2.1 De vergelijking van 2009 met 2008 Ervan uitgaande dat steekproeffluctuaties geen rol spelen (zie paragraaf 1.2), vergelijken we in deze paragraaf de resultaten van groep 8 in 2008 met die in 2009. Eerst presenteren we de ongecorrigeerde en vervolgens de gecorrigeerde verschillen (d.w.z. gezuiverd voor eventuele verschillen in de verdeling van de achtergrondkenmerken). De startwaarde is voor elke schaal het gemiddelde van de leerlingen in 2008 dat arbitrair op 250 is gesteld (zie verder Hemker & Van Weerden, 2009). Ongecorrigeerd In Tabel 2.1 zijn de uitkomsten van de vergelijking tussen 2008 en 2009 weergegeven. Het gemiddelde voor 2008 is per definitie 250 en de standaarddeviatie is 50. De schaalwaarde van 250 is vastgelegd in 2008 en vormt het criterium waarmee we de uitkomsten van 2009 vergelijken. Ook is weergegeven welke percentielscore daarbij hoort, dat wil zeggen het percentage leerlingen met een gelijke of lagere score dan 250. Als het verschil tussen 2008 en 2009 statistisch significant is, is het gemiddelde van 2009 vetgedrukt.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
3
Tabel 2.1
Jaarvergelijking groep 8 - ongecorrigeerd (vet: significant)
Jaar Taal Begrijpend lezen Spelling Woordenschat Rekenen Getallen en bewerkingen Breuken, procenten en verhoudingen Meten, meetkunde, tijd en geld
gem*
2008 sd perc
Gem
2009 sd perc
250 250 250
50 50 50
(50) (50) (50)
252 250 249
50 50 49
(52) (50) (49)
250 250 250
50 50 50
(50) (50) (50)
250 250 249
50 50 50
(50) (50) (49)
* Gem = gemiddelde; sd = standaarddeviatie; perc = gemiddelde percentielscore basis 2008
Bij Taal zien we dat groep 8 in Begrijpend lezen een iets hoger gemiddelde bereikt dan in 2008. De stijging van het vaardigheidsniveau in Begrijpend lezen is statistisch significant. Spelling levert dezelfde waarde op als in 2008 en Woordenschat komt een punt lager uit. We zien deze verschuivingen ook terug in de percentielscores. Bij Rekenen zien we alleen een verandering bij Meten, meetkunde, tijd en geld. Het verschil tussen 2008 met 2009 is één punt op de meetschaal. De effectgroottes zijn weergegeven in Tabel 2.2. Er zijn drie effectgroottes die afwijken van 0, één positief en twee negatief. Alleen bij Begrijpend lezen is er sprake van een in statistisch opzicht significant verschil. De gevonden 0.04 ligt echter nog ver onder de grens van 0.20 om betekenisvol te mogen worden genoemd (zie Tabel 1.1). Tabel 2.2
Effecten voor jaarvergelijking groep 8 - ongecorrigeerd
Vaardigheid Effectgrootte Kwalificatie Taal Begrijpend Lezen 0,04 Geen effect ** Spelling 0,00 Geen effect Woordenschat -0,02 Geen effect Rekenen Getallen en Bewerkingen 0,00 Geen effect Breuken, Procenten en Verhoudingen. 0,00 Geen effect Meten, Meetkunde, Tijd en Geld -0,01 Geen effect ** Is geclassificeerd als “geen effect” (niet groter dan 0,2 en niet kleiner dan -,2), maar wel significant (p= ,0001)
Gecorrigeerd De gecorrigeerde resultaten voor rekenvaardigheid zijn weergegeven in Tabel 2.3 (d.w.z. dat de resultaten gezuiverd zijn voor eventuele verschillen in de samenstelling van de steekproeven naar geslacht, leertijd, stratum en formatiegewicht). Omdat geen van de interacties van de achtergrondkenmerken met het jaar van afname significant was, is gekozen voor correctie volgens het zogeheten hoofdeffectenmodel (zie paragraaf 1.2).Te zien is dat de gecorrigeerde resultaten nauwelijks afwijken van de ongecorrigeerde resultaten. Tabel 2.3 Jaareffect (Jaar: 2009 – 2008) bij rekenen (in hoofdeffectenmodel) Vaardigheid Getallen en Bewerkingen Breuken, Procenten en Verhoudingen. Meten, Meetkunde, Tijd en Geld
Effectgrootte 0,01 0,01 0,02
Kwalificatie geen effect geen effect geen effect
De gecorrigeerde resultaten voor taalvaardigheid zijn weergegeven in Tabel 2.4. Anders dan bij rekenvaardigheid was er sprake van een significante interactie tussen stratum en jaar van afname. Vandaar dat we de correctie volgens het interactiemodel hebben uitgevoerd (zie paragraaf 2.1) en de gecorrigeerde resultaten per stratum presenteren. De resultaten van de vergelijking tussen 2008 en 2009 kunnen als volgt worden beschreven: Bij de 1.00 leerlingen is er sprake van een significante vooruitgang in Begrijpend lezen en een significante achteruitgang in Woordenschat. Bij de 1.25 leerlingen zijn de prestaties voor alle drie onderdelen niet aantoonbaar veranderd.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
4
Bij de 1.90 leerlingen is er sprake van een significante vooruitgang in Spelling en Woordenschat (terwijl de ogenschijnlijke achteruitgang van Begrijpend lezen niet significant is).
Gezien de hoogte van de effectgrootte kan slechts een van de vier significante verschillen als betekenisvol worden gekarakteriseerd. Het betreft het onderdeel Woordenschat waar 1.90 leerlingen in 2009 een deel van hun achterstand ten opzichte van 1.00 leerlingen hebben goedgemaakt.
Tabel 2.4 Jaareffect (Jaar: 2009 – 2008) bij taal, per formatiegewicht (in interactiemodel ) Formatiegewicht
Vaardigheid
Effectgrootte
Kwalificatie
F1.00 F1.00 F1.00
Begrijpend Lezen Spelling Woordenschat
0,06 -0,04 -0,07
geen effect ** geen effect geen effect **
F1.25 F1.25 F1.25
Begrijpend Lezen Spelling Woordenschat
0,00 0,00 -0,09
geen effect geen effect geen effect
F1.90 F1.90 F1.90 ** Is geclassificeerd als
Begrijpend Lezen Spelling Woordenschat
-0,10 0,14 0,22
geen effect geen effect ** klein
“geen effect” (niet groter dan 0,2 en niet kleiner dan -,2), maar wel significant (p = ,0001)
2.2 Verschillen per achtergrondvariabele In deze paragraaf gaan we meer in detail in op de prestatieverschillen tussen leerlingen met een verschillende achtergrond. Hierbij presenteren we alleen de jaarverschillen voor de kenmerken geslacht, leertijd, formatiegewicht, thuistaal en stratum. Voor de overige achtergrondkenmerken: type toets, advies VO, regio en urbanisatiegraad, wordt verwezen naar de technische rapportage (Hemker, Kuhlemeier & Van Weerden, 2010). Hierbij moeten we bedenken dat alleen de kleine vooruitgang van 1.90 leerlingen op het onderdeel Woordenschat zowel statistisch significant als betekenisvol is (zie paragraaf 2.1). De volgende jaarlijkse peilingen moeten uitwijzen in hoeverre de in deze paragraaf geconstateerde veranderingen zich voortzetten. 2.2.1
Taalvaardigheden
De verschillen in de gemiddelde taalvaardigheid van groepen leerlingen met een verschillende achtergrond zijn gepresenteerd in Tabel 2.5. In de tabel is alleen de afstand tot het gemiddelde uit 2008 weergegeven, i.c. de schaalwaarde van 250. Per jaar van afname is weergegeven hoe groot die afstand is per categorie van het desbetreffende achtergrondkenmerk. Bovendien is er een kolom waar het verschil tussen de twee peilingsjaren per categorie is weergegeven.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
5
Tabel 2.5
Afstand tot het gemiddelde* bij taalvaardigheden voor een aantal achtergrondvariabelen (vet: significant)
groep 8 variabele jaar geslacht leertijd gewicht
thuistaal
stratum
Begrijpend lezen
Spelling
Woordenschat
categorie
2008
2009
verschil
2008
2009
verschil
2008
2009
verschil
jongen meisje regulier vertraagd 1.00 1.25 1.90 alleen NL NL en BU alleen BU 1 2 3
0 -4 4 7 -27 6 -26 -32 4 -20 -31 6 -4 -25
2 -2 6 8 -26 10 -25 -36 6 -22 -33 9 -2 -26
2 2 2 1 1 4 1 -4 2 -2 -2 3 2 -1
0 -8 8 7 -29 4 -20 -14 1 -3 -12 3 -3 -11
0 -9 8 6 -29 3 -19 -7 1 -1 -7 2 -3 -7
0 -1 0 -1 0 -1 1 7 0 2 5 -1 0 4
0 5 -5 6 -25 9 -21 -51 5 -30 -49 7 -3 -32
-1 3 -6 4 -25 6 -25 -40 3 -27 -42 5 -5 -28
-1 -2 -1 -2 0 -3 -4 11 -2 3 7 -2 -2 4
* Algemeen gemiddelde is 250, standaarddeviatie gemiddeld 50.
Geslacht Met betrekking tot het vaardigheidsverschil tussen jongens en meisjes er niet veel veranderd: net als in 2008 zijn meisjes ook in 2009 over het algemeen taalvaardiger dan jongens. Het verschil in het voordeel van meisjes is het grootst bij Spelling. Leertijd Vertraagde leerlingen, d.w.z. leerlingen die ten minste één keer zijn blijven zitten, behalen aanzienlijke lagere scores dan reguliere leerlingen. Ook dat verschil is vooralsnog niet gewijzigd. Formatiegewicht Bij dit achtergrondkenmerk zien we een gevarieerd beeld. Bij elke taalvaardigheid is de situatie anders. De belangrijkste resultaten vatten we als volgt samen: Bij Begrijpend lezen behalen 1.00 leerlingen hogere scores dan 1.25 leerlingen, die het op hun beurt weer beter doen dan 1.90 leerlingen. Dat verschil lijkt in 2009 zelfs iets toegenomen. Bij Spelling zijn de verschillen kleiner dan bij Begrijpend lezen. Opvallend is dat de 1.90 leerlingen gemiddeld beter spellen dan de 1.25 leerlingen. Dat verschil is in 2009 alleen maar toegenomen. Daarmee is het verschil tussen de 1.90 leerling en de 1.00-leerling in 2009 dus kleiner geworden. Bij Woordenschat is de situatie vergelijkbaar met die bij Spelling, maar zijn de verschillen groter. De achterstand van 1.90 leerlingen ten opzichte van 1.00 leerlingen is nog groter dan bij Begrijpend lezen. Vergeleken met 2008 is de achterstand echter duidelijk afgenomen. De 1.90 leerling heeft als het ware wat gewonnen, terwijl de 1.00 leerling iets heeft ingeleverd. Thuistaal Leerlingen die thuis alleen een andere taal spreken dan Nederlands behalen bij alle taalvaardigheden lagere scores dan leerlingen die thuis alleen Nederlands spreken. Dat geldt ook voor leerlingen die thuis zowel Nederlands als een ‘buitenlandse’ taal spreken, maar dan in mindere mate. De grootse verschillen vinden we bij Woordenschat, gevolgd door Begrijpend lezen. Bij Spelling zij de verschillen het kleinst. Als we 2009 vergelijken met 2008, dan blijkt dat de verschillen bij Spelling, en nog iets meer bij Woordenschat, zijn afgenomen. Stratum Scholen met bijna uitsluitend allochtone leerlingen behoren tot stratum 3, scholen met overwegend leerlingen met de gewichten 1.25 en 1.90 tot stratum 2 en de overige scholen met weinig ‘gewichtenleerlingen’ tot stratum 1. De gemiddelde scores van de leerlingen in stratum 3 blijken ver achter te blijven bij die in stratum 1 en 2. We zien dit bij alle drie taalvaardigheden. Het verschil is het kleinst bij Spelling (14 punten) en in 2009 is dat zelfs nog iets kleiner geworden (9 punten). Bij Woordenschat was en is het verschil het grootst, maar ook daar is dit verschil iets kleiner geworden.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
6
2.2.2
Rekenvaardigheden
De overeenkomstige veranderingen in de gemiddelde rekenvaardigheid van de groepen leerlingen zijn gepresenteerd in Tabel 2.6. De uitkomsten bevestigen in grote lijnen het beeld dat uit de rapportage van 2008 naar voren kwam (Hemker & Van Weerden, 2009) Tabel 2.6
Afstand tot het gemiddelde* bij rekenvaardigheden voor een aantal achtergrondvariabelen (vet: significant)
groep 8
variabele jaar geslacht leertijd gewicht
thuistaal
stratum
getallen en bewerkingen
breuken, procenten en verhoudingen
meten, meetkunde, tijd en geld
categorie
2008
2009
verschil
2008
2009
verschil
2008
2009
verschil
jongen meisje regulier vertraagd 100 125 190 alleen NL NL en BU alleen BU 1 2 3
0 9 -9 7 -26 5 -23 -16 2 -6 -11 4 -4 -12
0 9 -9 6 -26 4 -24 -16 1 -6 -11 3 -4 -12
0 0 0 -1 0 -1 -1 0 -1 0 0 -1 0 0
0 11 -11 7 -28 6 -24 -22 2 -11 -17 5 -4 -17
0 11 -11 6 -28 5 -24 -22 2 -11 -17 5 -4 -17
0 0 0 -1 0 -1 0 0 0 0 0 0 0 0
0 11 -11 7 -27 6 -25 -24 2 -13 -18 5 -4 -19
-1 10 -11 6 -28 5 -26 -24 2 -14 -18 4 -5 -19
-1 -1 0 -1 -1 -1 -1 0 0 -1 0 -1 -1 0
* Algemeen gemiddelde is 250, standaarddeviatie 50.
Geslacht De jongens scoren gemiddeld op alle vaardigheden hoger. In 2009 is dat hetzelfde als in 2009. Leertijd Van vertraagde leerlingen is de rekenvaardigheid aanmerkelijk lager dan van hun niet vertraagde klasgenoten. Ook hier is geen jaarverschil te noteren. Formatiegewicht Leerlingen met een gewicht van 1.90 of 1.25 behalen bij alle drie onderdelen lager rekenprestaties dan de 1.00 leerlingen. Opvallend is wel dat er tussen de allochtone leerlingen en de 1.25-leerlingen nauwelijks verschil blijkt te zijn. Alleen bij Getallen en bewerkingen is dat er wel en daar doen 1.25-leerlingen het minder goed dan de 1.00 leerlingen. Er zijn in 2009 geen andere verschillen dan in 2008. Thuistaal Leerlingen die thuis een andere taal dan Nederlands spreken, behalen lagere scores dan de leerlingen die thuis alleen Nederlands spreken. Dat is niet gewijzigd. Stratum Leerlingen van stratum-3 scholen, dus scholen met veel allochtone leerlingen, behalen lagere scores dan leerlingen van met name stratum-1-scholen. De verschillen tussen de strata zijn bij rekenen minder groot dan bij de taalonderdelen Begrijpend lezen en Woordenschat. Al met al blijken de verschillen naar achtergrondkenmerk in 2009 ongeveer gelijk aan die in 2008. Een uitzondering lijkt te gelden voor het onderdeel Getallen en bewerkingen waar het verschil wat is afgenomen, met name voor de kenmerken formatiegewicht en stratum. Dit neemt overigens niet weg dat het verschil tussen 2009 en 2008 ook hier miniem is (maximaal 1 punt).
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
7
3
De resultaten voor groep 4
3.1
De vergelijking van 2009 met 2008
Net als bij groep 8 is de startwaarde voor elke schaal het gemiddelde van de leerlingen in 2008 dat arbitrair op 250 is gesteld (zie Hemker & Van Weerden, 2009). Anders dan bij groep 8 rapporteren we voor groep 4 alleen de gecorrigeerde verschillen. De reden is dat de steekproeven te klein zijn om aan te nemen dat veranderingen in de verdeling van de achtergrondvariabelen daadwerkelijke veranderingen in de populatie representeren. Het zal hier eerder steekproeffluctuaties betreffen. De resultaten van de jaarvergelijking van de taal- en rekenprestaties voor groep 4 zijn weergegeven in Tabel 3.1. Tabel 3.1
Jaarvergelijking groep 4 met een hoofdeffectenmodel (vet: significant)
Jaar Taal Begrijpend Lezen Spelling Woordenschat* Rekenen Getallen en getalsrelaties Optellen/Aftrekken Vermenigvuldigen/Delen Meten, tijd en geld
gem
2008 Sd perc
gem
2009 sd Perc
250 250 nvt
50 50 nvt
(50) (50) nvt
246 251 250
49 50 50
(47) (51) (50)
250 250 250 250
50 50 50 50
(50) (50) (50) (50)
249 250 246 250
48 49 48 49
(49) (50) (47) (50)
* Gem = gemiddelde; sd = standaarddeviatie; perc = gemiddelde percentielwaarde basis 2008 * Woordenschat is in 2009 pas definitief geschaald.
De belangrijkste resultaten van de jaarvergelijking in groep 4 kunnen we als volgt beschrijven: Bij taalvaardigheid zijn de scores voor Begrijpend lezen in 2009 lager dan in 2008, terwijl voor Spelling het omgekeerde geldt. Voor Woordenschat kan de jaarvergelijking pas in 2010 gemaakt worden, omdat geschaalde gegevens pas sinds 2009 beschikbaar zijn. Bij alle vier rekenonderdelen zijn de scores in 2009 wat lager dan in 2008. De ogenschijnlijke achteruitgang is het grootst bij Vermenigvuldigen en delen en daarna bij Getallen en getalsrelaties. Alleen bij Spelling is het geconstateerde verschil statistisch significant Of deze verschillen ook betekenisvol zijn, is een vraag die we beantwoorden aan de hand van Tabel 3.2 waarin ook de effectgroottes zijn gerapporteerd. Zoals eerder geconstateerd, blijkt er bij de jaarvergelijking alleen een betekenisvol verschil te zijn voor Spelling. Het verschil bij Begrijpend lezen is, rekening houdend met steekproefkenmerken, niet significant en de effectgrootte is 0.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
8
Tabel 3.2
Effecten voor jaarvergelijking groep 4 – gecorrigeerd op hoofdeffecten
Vaardigheid Effectgrootte Kwalificatie Taal Begrijpend Lezen 0,00 geen effect Spelling 0,07 geen effect* Rekenen Getallen en getalsrelaties -0,01 geen effect Optellen/Aftrekken 0,07 geen effect Vermenigvuldigen/Delen -0,06 geen effect Meten, tijd en geld 0,02 geen effect ** Is geclassificeerd als “geen effect” (niet groter dan 0,2 en niet kleiner dan -,2), maar wel significant (p= ,0001) De interactie tussen afnamejaar en stratum bleek statistisch significant. Dat betekent dat het gemiddelde prestatieverschil tussen 2008 en 2009 niet voor ieder stratum hetzelfde is. In Tabel 3.1 rapporteren we het jaareffect daarom per stratum. De belangrijkste resultaten kunnen we als volgt beschrijven:
Voor de rekenvaardigheden zien we zowel bij stratum 1 als stratum 3 significante verschillen tussen 2008 en 2009. Gezien de effectgroottes zijn niet alle significante verschillen tevens betekenisvol. In stratum 1 is er alleen bij het onderdeel Vermenigvuldigen en delen sprake van een kleine achteruitgang. Maar in stratum 3 gaan de prestaties er bij alle vier onderdelen op vooruit.
Bij de taalvaardigheden zijn er twee significante verschillen. Alleen bij Spelling is er sprake van een betekenisvol effect voor stratum 3, maar de effectgrootte is klein.
Tabel 3.3
Jaareffect voor taal- en rekenvaardigheden per stratum Stratum 1
Rekenen Getallen en getalsrelaties Optellen en aftrekken Vermenigvuldigen en delen Meten, tijd en geld Taal Begrijpend lezen Spelling
Stratum 2
Stratum 3
Effectgrootte
Kwalificatie
Effectgrootte
Kwalificatie
Effectgrootte
Kwalificatie
-0,11* -0,13** -0,22** -0,04
geen geen klein geen
0,00 0,16 0,10 0,04
Geen Geen Geen Geen
0,35** 0,37** 0,29** 0,22*
Klein Klein Klein Klein
-0,13** -0,02
geen geen
0,04 0,13*
Geen Geen
0,12 0,36**
Geen Klein
* 0,5
3.2 Verschillen per achtergrondvariabele In deze paragraaf gaan we meer in detail in op de prestatieverschillen tussen vierdegroepers met een verschillende achtergrond. Hierbij presenteren de verschillen tussen 2008 en 2009 uitsluitend voor de achtergrond geslacht, leertijd, formatiegewicht, thuistaal en stratum. Voor de overige kenmerken type toets, regio en urbanisatiegraad wordt verwezen naar de technische rapportage (Hemker, Kuhlemeier & Van Weerden, 2010). Hierbij moeten we bedenken dat niet alle in statistisch opzicht significante veranderingen ook betekenisvol zijn (zie paragraaf 3.1). De volgende jaarlijkse peilingen moeten uitwijzen in hoeverre de in deze paragraaf geconstateerde veranderingen doorzetten. 3.2.1
Taalvaardigheden
De verschillen tussen de gemiddelde taalvaardigheid van groepen leerlingen met een verschillende achtergrond zijn gepresenteerd in Tabel 3.4. De gegevens voor Woordenschat ontbreken omdat de gegevens pas in 2009 geschaald konden worden.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
9
Tabel 3.4
Afstand tot het gemiddelde* bij taalvaardigheden voor een aantal achtergrondvariabelen (vet: significant)
groep 4
Begrijpend lezen
variabele jaar geslacht leertijd gewicht
thuistaal
stratum
Spelling
categorie
2008
2009
verschil
2008
2009
verschil
jongen meisje regulier vertraagd 100 125 190 alleen NL NL en BU alleen BU 1 2 3
0 -5 5 3 -21 6 -23 -45 6 -49 -21 10 -8 -35
-4 -8 1 1 -24 1 -23 -45 2 -44 -22 3 -6 -33
-4 -3 -4 -2 -3 -5 0 0 -4 5 -1 -7 2 2
0 -7 7 4 -25 2 -12 -15 4 -15 -17 4 -2 -15
1 -5 9 6 -21 3 -11 -9 0 -3 -6 2 2 -3
1 2 2 2 4 1 1 6 -4 12 11 -2 4 12
* Algemeen gemiddelde is 250, standaarddeviatie gemiddeld 50.
Geslacht Net als in 2008 behalen jongens over het algemeen lagere scores voor de taalvaardigheden dan meisjes. Het verschil is het grootst bij Spelling. De verschillen tussen 2008 en 2009 zijn vooralsnog klein. Leertijd Vertraagde leerlingen, d.w.z. degenen die ten minste een keer doubleerden, behalen aanzienlijk lagere scores dan reguliere leerlingen. Ook dat verschil is vooralsnog nauwelijks gewijzigd. Formatiegewicht Bij dit kenmerk zien we een gevarieerd beeld. Bij lezen is de situatie anders dan bij spelling. Net als in groep 8 behalen 1.00 leerlingen hogere scores voor Begrijpend lezen dan 1.25 leerlingen, die het op hun beurt weer beter doen dan 1.90 leerlingen. Bij Spelling zijn de verschillen kleiner. Opvallend is dat vooral de 1.90 leerlingen gemiddeld beter spellen dan de 1.25 leerlingen. Dat verschil is in 2009 ook in groep 4 iets toegenomen. Daarmee is het verschil in spelling tussen de 1.90 leerling en de 1.00 leerling in 2009 dus kleiner geworden. Thuistaal De verschillen in groep 4 blijken anders te zijn dan in groep 8. Opvallend is dat leerlingen die thuis zowel Nederlands als een ‘buitenlandse’ taal spreken hier de laagste scores behalen, lager nog dan leerlingen die thuis alleen een andere taal dan Nederlands spreken. In groep 8 was die laatste groep juist het zwakst. Wel zien we een kleine verbetering in deze situatie in 2009 ten opzichte van 2008. Stratum Leerlingen op stratum-3 scholen, dus scholen met relatief veel allochtone leerlingen, behalen een lagere score dan leerlingen op andere scholen. Dat is vooral bij lezen een behoorlijk verschil. De leesvaardigheid bij de stratum-1-scholen is relatief het sterkste. Bij spellen zijn de verschillen niet zo groot. Opvallend is dat die verschillen in 2009 aanzienlijk zijn afgenomen, namelijk van 19 tot 5 punten op de schaal. Dit is een significant effect. Ook bij lezen doet dit verschijnsel zich voor, maar in mindere mate.
3.2.2
Rekenvaardigheden
De resultaten van de jaarvergelijking van de rekenvaardigheid in groep 4 is weergegeven in Tabel 3.5. Eerder zagen we dat geen van de statistisch significante verschillen tevens betekenisvol is in de zin dat de effectgrootte groter is dan .20 (of kleiner dan -.20). Wel zien we hier dezelfde verschillen tussen de categorieën die ook reeds in 2008 zijn geconstateerd.
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
10
Tabel 3.5
Afstand tot het gemiddelde* bij rekenvaardigheden voor een aantal achtergrondvariabelen (vet: significant)
groep 4 variabele jaar geslacht leertijd
gewicht
thuistaal
stratum
categorie
getallen en getalsrelaties 2008 2009 V
optellen/aftrekken 2008
2009
V
vermenigvuldigen /delen 2008 2009 V
meten, tijd en geld 2008 2009 V
0 9 -9 3
-1 8 -11 2
-1 -1 -2 -1
0 7 -7 3
0 7 -8 3
0 0 -1 0
0 8 -8 3
-4 4 -12 -1
-4 -4 -4 -4
0 9 -8 3
0 9 -8 3
vertraagd
-17
-19
-2
-16
-16
0
-17
-21
-4
-16
-17
1.00 1.25 1.90 alleen NL NL en BU alleen BU
6 -24 -39 6 -41 -23
3 -17 -31 4 -30 -19
-3 7 8 -2 11 4
4 -20 -28 4 -26 -19
2 -13 -16 3 -12 -13
-2 7 12 -1 14 6
6 -22 -43 5 -41 -21
1 -5 -25 0 -32 -20
5 -22 -39 5 -39 -20
5 -16 -35 6 -33 -17
1
10
5
-5
8
1
-7
11
1
9
7
2 3
-9 -36
-8 -21
1 15
-7 -27
1 -10
8 17
-10 -37
-5 -25
-5 17 18 -5 9 1 10 5 12
-6 -33
-4 -24
jongen meisje regulier
0 0 0 0 1 0 6 4 1 6 3 2 2 9
* Algemeen gemiddelde is 250, standaarddeviatie 50.
Geslacht De jongens scoren gemiddeld op alle rekenvaardigheden hoger. Bij Vermenigvuldigen en delen gaan jongens en meisjes erin gelijke mate op achteruit. Leertijd Voor leertijd zien we een vergelijkbaar verschil als bij de taalvaardigheden tussen de vertraagde en de reguliere leerlingen. Formatiegewicht Leerlingen met een gewicht van 1.90 presteren op alle drie onderdelen aanzienlijk lager dan de leerlingen met 1.00 waarbij de 1.25 leerlingen een middenpositie innemen. Opvallend is dat de prestatieverschillen tussen de strata bij Vermenigvuldigen en delen aanzienlijk zijn afgenomen. Het verschil tussen allochtone leerlingen en 1.00-leerlingen is van 49 punten (bijna een hele standaarddeviatie!) teruggelopen tot 26 punten (een halve sd). Het verschil van de 1.25 leerlingen met de 1.00 leerlingen is ook aanzienlijk verminderd bij de vaardigheid in Vermenigvuldigen en delen. Thuistaal Leerlingen die thuis zowel Nederlands als ‘buitenlands’ spreken behalen bij drie van de vier schalen aanzienlijke lagere scores. Bij Optellen en aftreken was dat in 2008 ook het geval, maar sindsdien is het verschil duidelijk afgenomen (van 30 naar 15 punten), waardoor de volgorde nu een andere is. Ook bij de andere schalen is het verschil tussen de scores van leerlingen die thuis alleen Nederlands spreken en leerlingen die thuis een combinatie van talen spreken overigens duidelijk verminderd. Bij Getallen en getalsrelaties zien we dit effect ook (van 47 naar 34 punten verschil) evenals bij Vermenigvuldigen en delen ( van 46 naar 32). Leerlingen die thuis een streektaal spreken blijven qua prestatie het meest in de buurt van de leerlingen die alleen Nederlands spreken, maar er is wel sprake van een negatief verschil. Stratum Leerlingen van stratum-3 scholen, dus scholen met veel allochtone leerlingen, behalen in alle gevallen een lagere score dan leerlingen van andere scholen. De rekenvaardigheid bij de stratum-1-scholen is relatief het hoogst, hoewel het verschil met stratum-2 scholen soms nihil is (Optellen en aftrekken). Kenmerkend voor de rekenvaardigheden is dus dat de verschillen tussen de diverse categorieën bij alle drie rekenvaardigheden min of meer vergelijkbaar zijn. Alleen bij Optellen en aftrekken zijn deze minder extreem. Opvallend is dat het verschil tussen de scholen met relatief veel allochtone leerlingen en de scholen met weinig gewichtenleerlingen vanaf in 2009 duidelijk is afgenomen en dat bij alle vier rekenschalen. De verandering zijn het grootst bij de vaardigheden Getallen en getalsrelaties en Vermenigvuldigen en delen. Deze resultaten liggen in lijn met wat we al konden constateren bij de variabele
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
11
formatiegewicht, namelijk dat de traditionele achterstandsleerlingen op een aantal onderdelen lijken in te lopen op 1.00 leerlingen. Of dat een echte trend is, zal echter nog moeten blijken. Daar is pas bij een volgende peiling met meer zekerheid iets over te zeggen.
Literatuur Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates. Hemker, B.T. & J.J. van Weerden (2009): Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2008- Jaarlijks Peilingsonderzoek van het Onderwijsniveau - Technische rapportage. Cito, Arnhem. (http://www.minocw.nl/documenten/133682d.pdf) Hemker, B.T., J.B Kuhlemeier & J.J. van Weerden (2010): Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2009 - Jaarlijks Peilingsonderzoek van het Onderwijsniveau. Cito, Arnhem. Janssen, Jan, Frank van der Schoot, Bas Hemker (2005): Balans van het reken-wiskundeonderwijs aan het einde van de basisschool 4. Uitkomst van de vierde peiling in 2004. PPON-reeks nummer 32. Cito, Arnhem. (http://www.cito.nl/po/ppon/rekwisk/eind_fr.htm)
Stichting Cito Instituut voor Toetsontwikkeling / KvK 09103470
12