Herkomstkenmerken en begintoets Secundaire analyses op het PRIMA-cohortonderzoek
Jaap Roeleveld
1. Inleiding en opzet
In het werkprogramma van de Onderwijsraad voor 2003 is de begintoets primair onderwijs opgenomen als een van de adviesonderwerpen. De kernvraag daarbij betreft de beslissing om al of niet van overheidswege een begintoets voor vierjarigen in het onderwijs in te voeren. Deze toets zou de mogelijkheid moeten bieden om de toegevoegde waarde van scholen te bepalen. Als onderdeel van de voorbereiding voor dit advies wil de Onderwijsraad antwoord op de vraag of er voor een begintoets wellicht alternatieven bestaan die even effectief zijn. Daarbij wordt gedacht aan het gebruik van proxy-variabelen zoals opleiding van de ouders en leeftijd als voorspellers van het eindniveau van leerlingen. Voor de beantwoording van een dergelijke vraag zijn longitudinale gegevens nodig, zoals die in cohortonderzoeken als PRIMA worden verzameld. Daarom heeft de Onderwijsraad verzocht om een onderzoek waarin gegevens uit het PRIMA-cohortonderzoek benut worden voor de beantwoording van de vier volgende onderzoeksvragen. 1. Kan op grond van de in het prima cohort onderzoek gehanteerde achtergrondkenmerken, vastgesteld in groep 2, een voorspelling worden gedaan over het te verwachten niveau van leerlingen op de in het prima cohort onderzoek onderzochte domeinen, in groep 8, groep 6 en groep 4 (uitspraak over de verklaarde variantie)? 2. Zo ja, kan op grond van deze te verwachten uitslag en de feitelijke uitslag op een van de toetsmomenten (groep 8, 6, 4) een uitspraak worden gedaan over de toegevoegde waarde van het onderwijs? 3. Wordt de verklaarde variantie groter indien naast een uitspraak van het te verwachten tussen of eindniveau op basis van de te onderscheiden proxy-variabelen tevens de scores op de toetsen in groep 2 in de analyse worden betrokken? En omgekeerd, wat is de extra variantie van de achtergrondkenmerken na eerst de invloed van de toetsresultaten te hebben berekend? 4. Geeft opname van de toetsscores op de intelligentietoets in groep 4 nog extra informatie over de in vraag 3 genoemde analyses (in vergelijking met toetsscores op de begintoets in groep 2 of de scores op de schoolvorderingstoets uit groep 4? In dit rapport doen we verslag van analyses die uitgevoerd zijn om deze onderzoeksvragen te beantwoorden. In hoofdstuk 2 gaan we in op de opzet van het PRIMA-cohortonderzoek, de uitval bij longitudinale analyses en de gebruikte variabelen. In hoofdstuk 3 komen de verschillende voorspellers van onderwijsresultaten aan de orde. Daarmee geven we antwoord op de onderzoeksvragen 1, 3 en 4. In hoofdstuk 4 gaan we in op de toegevoegde waarde van onderwijs en van scholen. Daar wordt antwoord gegevens op onderzoeksvraag 2. In hoofdstuk 5 presenteren we nog enkele gegevens over de mutaties van leerlingen, die complicerend kunnen zijn voor elke manier om de toegevoegde waarde van scholen te bepalen. We eindigen in hoofdstuk 6 met een samenvatting van de belangrijkste conclusies uit ons onderzoek.
2. Data en variabelen Opzet PRIMA Het PRIMA-cohortonderzoek is een tweejaarlijks onderzoek, waarmee gepoogd wordt een stand van zaken te geven van het primair onderwijs in Nederland. Elke twee jaar worden op ongeveer 600 scholen voor reguliere basisonderwijs en ook nog eens 50 tot 100 speciale scholen voor basisonderwijs toetsen afgenomen bij leerlingen van de groepen 2, 4, 6 en 8. Bovendien worden vragenlijsten afgenomen bij leerkrachten van de betreffende groepen, bij directies en bij ouders van leerlingen uit groep 2. De steekproef van basisscholen bestaat steeds uit een representatief deel, waarmee een beeld verkregen wordt van het gehele primair onderwijs, en een aanvullende deel waarin extra scholen zijn opgenomen met veel kansarme leerlingen. Hierdoor wordt evaluatie van onderwijsbeleid, gericht op verbetering van de positie van de verschillende doelgroepen, mogelijk. Het cohortkarakter van het onderzoek wordt gewaarborgd doordat getracht wordt om zoveel als mogelijk dezelfde scholen aan de opeenvolgende metingen te laten meedoen. Bij een ongestoorde loopbaan doen leerlingen, die bij de eerste meting in groep 2 zaten, dan aan de volgende metingen opnieuw mee als leerlingen van groep 4, van groep 6 en van groep 8. Op deze manier worden individuele gegevens verkregen van leerlingen vanaf de kleuterperiode tot en met het eind van het basisonderwijs. Dergelijke individuele gegevens zijn noodzakelijk om tot een goede schatting van de toegevoegde waarde van het onderwijs en, meer in het bijzonder, van afzonderlijke scholen te komen (zie bijv. Bosker et al., 2001).
1
Hoewel de opzet van PRIMA dus longitudinaal van aard is blijkt dit in de praktijk moeilijk volledig te realiseren. Bij elke meting zijn er scholen die niet meer mee willen doen. Deze worden vervangen door nieuwe scholen, waardoor de “dwarsdoorsnede” per meting steeds een goed beeld geeft van het primair onderwijs op dat moment, maar waardoor de groep scholen en leerlingen, die door de tijd heen gevolgd kan worden, wel afneemt. Data De eerste meting van het PRIMA-cohortonderzoek vond plaats in schooljaar 1994/1995 en de vierde 1 in schooljaar 2000/2001 . Daardoor kunnen we voor het onderhavige onderzoek gebruik maken van gegevens van vier opeenvolgende metingen. We gaan daarbij uit van de 384 scholen, die bij de eerste meting deel uitmaakten van de representatieve steekproef. In Schema 1 geven we een overzicht van de aantallen leerlingen en scholen, waarvan we in dit onderzoek gebruik kunnen maken.
Schema 1
Aantallen leerlingen en scholen en uitval bij vier Prima metingen (representatieve steekproef)
meting 1 (1994) groep 2
meting 2 (1996) groep 4 à à
9070 leerlingen 384 scholen
totaal 9070 leerlingen in steekproef
meting 3 (1998) groep 6
uitval hele school: 1858 leerlingen individuele uitval: 1794 leerlingen à
à
meting 3 (2000) groep 8
5418 leerlingen 301 scholen
uitval hele school: 1641 leerlingen individuele uitval: 482 leerlingen à
à
3295 leerlingen 207 scholen
à
uitval school: 956 lln individueel: 316 lln. 2023 leerlingen 144 scholen
aanvulling met nieuwe scholen en leerlingen
aanvulling met nieuwe scholen en leerlingen
aanvulling met nieuwe scholen en leerlingen
totaal 10134 leerlingen in steekproef
totaal 10095 leerlingen in steekproef
totaal 9439 leerlingen in steekproef
Zoals te zien valt in dit schema is er bij elk van de metingen sprake van een behoorlijke uitval, die voor longitudinale analyses (van groep 2 in schooljaar 94/95 tot en met groep 8 in schooljaar 2000/2001) nog weer eens cumulatief werkt. Er zijn een aantal redenen voor uitval, die we hier zullen bespreken en die op hun consequenties voor de reikwijdte van de analyses moeten worden beoordeeld. Het grootste deel van de uitval komt doordat hele scholen uitvallen. Bij elke nieuwe ronde van het PRIMA-onderzoek zijn er scholen die besluiten om niet langer deel te nemen. Scholen vinden het onderzoek te belastend, de nieuwe directeur wil niet meedoen, scholen vinden dat nu maar eens andere scholen mee moeten doen, enzovoorts. De scholen die uitvallen onderscheiden zich niet van de scholen die mee blijven doen (Roeleveld & Portengen, 1998; Roeleveld & Vierke, te verschijnen in 2003). De uitval van scholen is dus weliswaar jammer, omdat voor longitudinale analyses de aantallen leerlingen daarmee afnemen, maar is geen serieuze bedreiging voor de representativiteit van het overblijvende bestand. De overige uitval komt doordat op scholen, die zelf wel mee blijven doen, individuele leerlingen verdwijnen. De belangrijkste oorzaak is verhuizing, maar er kan ook sprake zijn van zittenblijven (waardoor de leerlingen uit de “groep 2-4-6-8 systematiek” van Prima verdwijnen) of van verwijzing naar het speciaal basisonderwijs. Gegevens, verzameld over de uitval bij Prima-2 en Prima-3, geven aan dat het in 55% van de gevallen om verhuizing (waaronder 2% remigratie) gaat, bij 32% om zittenblijven en in 12% van de gevallen om verwijzing naar het SBO.
1
De vijfde meting vindt op dit moment plaats.
2
Het is duidelijk dat er bij zittenblijvers en verwijzingen naar SBO sprake is van selectieve uitval: deze leerlingen scoren lager op de in PRIMA afgenomen toetsen dan leerlingen die niet uitvallen (Roeleveld & Portengen, 1998; Roeleveld & Vierke, te verschijnen in 2003). De uiteindelijke selectiviteit van de longitudinale groep leerlingen, die in groep 8 terecht komt, valt echter mee. Vergeleken met de andere leerlingen (uit de representatieve steekproef) in groep 8 scoren ze 0.10 standaarddeviatie hoger op de Taal- en Begrijpend Lezen toets en 0.18 standaarddeviatie op de Rekentoets. Dit is in termen van Cohen (1988) hooguit een klein verschil. Maar bovendien gaat het in de nu volgende analyses niet zozeer om verdelingskenmerken, waarvoor representativiteit is vereist, maar om samenhangen tussen kenmerken van leerlingen en aanvangsscores aan de ene kant en hun onderwijsresultaten aan de andere kant. Hiervoor is strikte representativiteit geen absolute vereiste (Hox, 1998). We hebben niet gepoogd om tot een of andere vorm van imputatie van de gegevens van de uitgevallen leerlingen te komen. Bij een dergelijke imputatie worden de ontbrekende gegevens (hier: onderwijsresultaten in de hogere groepen) geschat vanuit eerdere gegevens, zoals toetsgegevens en achtergrondkenmerken. Maar het is juist die voorspelling van latere onderwijsresultaten vanuit eerdere gegevens die in dit onderzoek centraal staan. Imputatie zou daarom in dit geval een nogal tautologische bezigheid zijn. We willen nog een laatste opmerking plaatsen bij het probleem van uitval. Dit is namelijk niet alleen een onderzoekersprobleem voor wie met PRIMA bezig is, maar speelt tot op zekere hoogte ook bij elke bepaling van de toegevoegde waarde van scholen. Het zittenblijven zou in principe te verwerken kunnen zijn in een systematiek voor bepaling van toegevoegde waarde: voor die leerlingen wordt pas een jaar (of meer!) later hun ‘eindscore’ gemeten; of hun ‘eindscore’ wordt bepaald in groep 7 en niet in groep 8; enzovoorts. Maar verhuizingen zijn een algemeen probleem. Hoe dragen leerlingen die halverwege van school gaan (of andersom: halverwege instromen) bij aan de bepaling van toegevoegde waarde. Dit speelt des te meer als mocht blijken dat de omvang van dergelijke mutaties niet ongeveer gelijkelijk verdeeld is over scholen, maar op bepaalde scholen (met bv. een kansarm leerlingenpubliek) veel meer aanwezig is. Na de analyses ter beantwoording van de onderzoeksvragen gaan we hier nog apart op in. We keren nu terug naar schema 1. In het navolgende zullen we afzonderlijke analyses uitvoeren op de onderwijsresultaten, behaald in de groepen 4, 6 en 8. Daarbij beschikken we dus over gegevens van beduidend meer leerlingen in groep 4 dan in de hogere groepen. In de tabellen zullen we aangeven over hoeveel leerlingen de analyses zijn uitgevoerd.
Variabelen We gebruiken een aantal variabelen die in tal van onderzoekingen samen blijken te hangen met de onderwijsresultaten van leerlingen. De belangrijkste daarvan is: Opleidingsniveau ouders In PRIMA is bij de schooladministraties het onderwijsniveau van beide ouders opgevraagd. Daarbij werd de volgende vierdeling gebruikt: − maximaal lager onderwijs − maximaal lager beroepsonderwijs − maximaal middelbaar beroepsonderwijs − hoger onderwijs (HBO of WO) In de analyses gaan we uit van het hoogste opleidingsniveau in het gezin (van hetzij vader, hetzij moeder). Voor de onderscheiden niveaus zijn dummy-variabelen gemaakt, met ook een onbekend niveau als aparte variabele. Etnische herkomst Deze is bepaald op basis van de geboortelanden van de ouders, die opnieuw verkregen zijn vanuit de schooladministraties. Hiermee kunnen we onderscheid maken naar Turkse, Marokkaanse, Surinaams/Antilliaanse en overige allochtone leerlingen. In navolging van Tesser en Iedema (2001) onderscheiden we ook de categorie ‘gemengd’, waarbij er sprake is van een allochtone en een autochtone ouder. In de analyses gebruiken we voor al deze groepen dummy-variabelen, met opnieuw een aparte variabele voor een onbekende etnische herkomst. Verblijfsduur Naast etniciteit is ook de verblijfsduur in Nederland van invloed op onderwijsresultaten. Bij de eerste meting van PRIMA werd deze informatie nog niet bij scholen opgevraagd, bij latere metingen wel. We hebben daarom dit kenmerk geschat vanuit gegevens van Prima-2. Het resultaat is de volgende driedeling voor verblijfsduur − Kort: ten tijde van Prima-1 hooguit 3 jaar in Nederland; − Lang: ten tijde van Prima-1 al 3 of meer jaar in Nederland; − Altijd: in Nederland geboren
3
Ook deze variabelen worden als dummy-variabelen in de analyses opgenomen. Geslacht We gebruiken in dit onderzoek taal- en rekentoetsen als meting van de onderwijsresultaten van leerlingen. Omdat bekend is dat jongens en meisjes verschillend scoren voor taal en rekenen nemen we ook het kenmerk geslacht op. We doen dit met een dummy-variabele ‘meisje’ en een aparte dummy voor ‘geslacht onbekend’. Leeftijd We zouden hier het liefst de leeftijd bij instroom in het basisonderwijs willen weten. Deze is echter onbekend in Prima. Wel mogen we verwachten dat leerlingen die laat instromen ook ouder zullen zijn in groep 2. We hebben daarom voor de leerlingen in groep 2 een driedeling gemaakt: leeftijd gemiddeld (geboren na september 1988 en voor oktober 1989), jong of oud. Daarbij moet wel bedacht worden dat de leeftijdsverschillen in groep 2 zowel komen door het tijdstip van instroom als door eerdere gebeurtenissen op school (kleuterbouwverlenging of juist versnelde loopbaan door de kleuterbouw). Aanvangsscores toetsen We beschikken in PRIMA niet over gegevens uit een entreetoets, maar wel over de scores op een tweetal toetsen uit het Cito-leerlingvolgsysteem, die afgenomen zijn halverwege groep 2. Dat is in de eerste plaats de Begrippentoets. Deze wordt in PRIMA gebruikt als een eerste meting van de taalvaardigheid van leerlingen. De ruwe scores kunnen, via een calibratieprocedure (Vierke, 1995), omgezet worden in scores op een door de basisschoolgroepen heen doorlopende PrimaTaalvaardigheidsschaal. De andere toets is de toets Ordenen. Deze wordt gebruikt als eerste meting van de rekenvaardigheid van leerlingen. Ook deze worden afgebeeld op een doorlopende PRIMArekenvaardigheidsschaal. Onderwijsresultaten Naast deze onafhankelijke variabelen betrekken we een reeks van onderwijsresultaten als afhankelijke variabelen in onze analyses. Het gaat dan om scores op toetsen voor Taal en Rekenen in de groepen 4, 6 en 8. Ook deze scores worden uitgedrukt in de eerder genoemde Taal- en Rekenvaardigheidsschalen. In de groepen 6 en 8 zijn bovendien nog toetsen voor Begrijpend Lezen afgenomen. Tot slot is bij scholen ook de score van leerlingen in groep 8 op de Cito Eindtoets Basisonderwijs opgevraagd. Omdat niet alle scholen deze toets afnemen (en ook niet alle scholen de gevraagde informatie hebben opgeleverd) zijn de aantallen hier wel wat lager dan bij de reguliere PRIMA-toetsen. Tabel 1 geeft enige informatie over de achtergrondkenmerken en de aanvangsscores van de leerlingen in groep 2. We geven de verdeling van de kenmerken en de gemiddelde score op beide aanvangstoetsen voor die verschillende kenmerken.
4
Tabel 1 Achtergrondkenmerken en toetsscores n
%
Taal
Rekenen
opleiding LO
537
5.9
944.3
866.3
LBO
2498
27.5
962.9
886.0
MBO
2963
32.7
973.4
908.8
HO
1646
18.1
980.7
923.4
OPLONB
1426
15.7
967.6
892.7
AUTOCHTOON
7113
78.4
972.7
906.0
GEMENGD
369
4.1
970.1
900.5
herkomst
SURANT
127
1.4
954.6
881.3
TURKS
343
3.8
935.8
853.3
MAROK
220
2.4
944.2
861.4
OVERIG
290
3.2
948.4
871.9
ETNONB
608
6.7
968.5
889.2
VKORT
91
1.0
971.6
919.7
VLANGER
36
0.4
954.1
873.7
8943
98.6
969.3
900.2
JONGEN
4587
50.6
965.9
898.0
MEISJE
4202
46.3
973.3
904.2
SEXONB
281
3.1
963.4
876.5
verblijfsduur
ALTIJD geslacht
leeftijd
totaal
JONG
205
2.3
974.8
901.8
GEMIDDELD
7999
88.2
969.7
901.2
OUD
866
9.5
963.4
891.1
9070
100.0 gemiddelde
969.3
900.2
standaard deviatie
35.1
65.6
5
3. Voorspellers van onderwijsresultaten In dit hoofdstuk zullen we nagaan hoe goed de achtergrondkenmerken van de leerlingen enerzijds en hun toetsscores in groep 2 anderzijds gebruikt kunnen worden om de latere onderwijsresultaten van leerlingen te voorspellen. We voeren daartoe afzonderlijke multipele regressie-analyses uit met de verschillende onderscheiden onderwijsresultaten in de groepen 4, 6 en 8 als afhankelijke variabelen. In die analyses worden eerst de achtergrondkenmerken in het model opgenomen. Hiermee kan een antwoord verkregen worden op de eerste onderzoeksvraag: de (mate van) voorspelling van latere onderwijsresultaten door achtergrondkenmerken. Daarna worden de toetsscores in het model opgenomen. Dit maakt het mogelijk een antwoord te geven op de derde onderzoeksvraag: wordt de verklaarde variantie groter als we ook de scores op de aanvangstoetsen gebruiken. Bovendien zullen we de analyses ook andersom uitvoeren, met de toetsscores als eerste voorspellers en daarna pas de achtergrondkenmerken. Bij de uitkomsten zullen we ook steeds een overzicht presenteren hoeveel variantie in de onderwijsresultaten gemeenschappelijk verklaard kan worden (hetzij door kenmerken, hetzij door toetsscores, dat maakt niet uit in dit ‘overlappende’ deel van de verklaarde variantie) en hoeveel beide factoren uniek bijdragen.
3.1 Voorspelling van toetsresultaten in groep 4 In de volgende tabel worden de resultaten van de regressie-analyses voor groep 4 samengevat. Voor de taal en rekenscores in groep 4 worden steeds in de eerste kolom de coëfficiënten uit het model met alleen achtergrondkenmerken vermeld en in de tweede kolom die uit het model met achtergrondkenmerken en aanvangsscores. De vermelde coëfficiënten zijn de gestandaardiseerde bèta’s, omdat die onderling rechtstreeks vergelijkbaar zijn, zodat ook een idee kan worden verkregen van het relatieve belang van de verschillende voorspellers. Wanneer een bèta niet statistisch significant (p<.01) is, wordt de betreffende cel in grijs weergegeven Onderaan tabel 2 worden een aantal resultaten met betrekking tot de proportie verklaarde variantie 2 2 (R ) vermeld: de R in een model met alleen achtergronden, in een model met alleen toetsen en in een model met beide soorten voorspellers. Daaronder wordt dit nog eens uitgesplitst naar de proportie variantie die beide voorspellers gezamenlijk verklaren en wat beide uniek verklaren.
Wanneer we in tabel 2 eerst naar de modellen met alleen achtergrondkenmerken kijken, dan vinden we de meeste verwachte effecten terug: − kinderen van lager opgeleide ouders scoren lager en die van de hoogst opgeleide ouder hoger dan de referentiegroep (middelbaar opgeleide ouders); − de meeste allochtone leerlingen scoren lager, maar niet die uit gemengde gezinnen; bij de overige allochtonen zien we lagere taalscores, maar geen lagere rekenscores; − allochtone leerlingen die nog maar kort in Nederland waren toen ze naar school gingen scoren lager; − meisjes scoren hoger op taal, maar lager op rekenen; − leerlingen die relatief oud waren in groep 2 scoren lager. Zoals te verwachten hebben de aanvangsscores in de modellen in de volgende kolom een sterk positief effect (grote bèta’s). De meeste bèta’s van de achtergrondkenmerken worden hierdoor kleiner en sommigen zelfs niet significant. Zo scoren Surinaams/Antilliaanse, Turkse en Marokkaanse leerlingen eerst lager op rekenen, maar na invoer van de aanvangsscores is dat verschil weg: hun lagere scores is groep 4 worden verklaard doordat ze in groep 2 al lager scoorden.
6
Tabel 2 Regressie-analyse van scores in groep 4 Taal in groep 4
Rekenen in groep 4
opleiding (vs. mbo) LO
-0.07
-0.05
-0.07
-0.04
LBO
-0.11
-0.08
-0.09
-0.05
HO
0.10
0.07
0.08
0.05
OPLONB
-0.01
0.01
-0.05
-0.03
0.00
0.00
-0.02
-0.01
SURANT
-0.04
-0.02
-0.04
-0.02
TURKS
-0.18
-0.13
-0.06
0.01
MAROK
-0.11
-0.08
-0.04
0.00
OVERIG
-0.06
-0.03
0.00
0.04
ETNONB
0.01
0.00
0.02
0.01
VKORT
-0.05
-0.07
-0.04
-0.05
VLANGER
0.00
0.01
0.00
0.00
herkomst (vs. autocht.) GEMENGD
verblijfsduur (vs. altijd)
geslacht (vs. jongen) MEISJE
0.06
0.03
-0.06
-0.08
SEXONB
-0.04
-0.03
-0.05
-0.04
leeftijd (vs. gemiddeld) JONG
0.01
0.01
0.02
0.01
OUD
-0.07
-0.07
-0.10
-0.08
toetsen groep 2 BEGRIPPENTOETS
0.16
0.18
ORDENENTOETS
0.23
0.30
R-kwadraat alleen kenmerken
0.126
0.061
alleen toetsen
0.174
0.201
combinatie
0.235
0.229
gedeeld
0.065
0.033
uniek kenmerken
0.061
0.028
uniek toetsen n
0.109 5015
0.168 5049
De verklaarde variantie door alleen toetsen is duidelijk hoger dan die door alleen achtergronden, in het bijzonder bij rekenen. Achtergrondkenmerken kunnen meer verklaren van de taalscores dan van de rekenscores. Hierin weerspiegelt zich het feit dat rekenen in hoge mate op school wordt aangeleerd, terwijl bij taal veel sterker ook het thuismilieu een rol speelt.
7
3.2 Voorspelling van toetsresultaten in groep 6 De volgende tabel geeft, op vergelijkbare wijze, een onderwijsresultaten in groep 6 als afhankelijke variabelen.
overzicht
van
de
analyses
met
Tabel 3 Regressie-analyse van scores in groep 6
Taal in groep 6
Rekenen in groep 6
Begrijpend lezen in groep 6
opleiding (vs. mbo) LO
-0.11
-0.09
-0.12
-0.09
-0.13
-0.11
LBO
-0.15
-0.12
-0.11
-0.07
-0.14
-0.10
HO
0.14
0.12
0.13
0.10
0.14
0.11
OPLONB
0.00
0.01
0.01
0.03
-0.03
-0.01
GEMENGD
0.00
0.00
-0.03
-0.02
-0.01
-0.01
SURANT
-0.03
-0.02
-0.01
0.01
0.00
0.01
TURKS
-0.17
-0.12
-0.03
0.03
-0.09
-0.04
MAROK
-0.09
-0.06
-0.04
0.01
-0.04
-0.01
OVERIG
-0.05
-0.02
0.00
0.04
0.00
0.04
ETNONB
0.00
-0.01
-0.02
-0.04
-0.01
-0.03
VKORT
-0.01
-0.03
0.01
-0.02
0.02
-0.01
VLANGER
0.00
0.01
-0.01
0.00
-0.01
-0.01
MEISJE
0.05
0.02
-0.12
-0.16
0.07
0.03
SEXONB
-0.07
-0.04
-0.08
-0.04
-0.04
-0.01
JONG
0.03
0.03
0.01
0.02
0.02
0.02
OUD
-0.10
-0.09
-0.13
-0.13
-0.10
-0.10
herkomst (vs. autocht.)
verblijfsduur (vs. altijd)
geslacht (vs. jongen)
leeftijd (vs. gemiddeld)
toetsen groep 2 BEGRIPPENTOETS
0.15
0.15
0.15
ORDENENTOETS
0.23
0.33
0.24
R-kwadraat alleen kenmerken
0.163
0.103
0.123
alleen toetsen
0.173
0.191
0.164
combinatie
0.261
0.262
0.228
gedeeld
0.075
0.032
0.059
uniek kenmerken
0.088
0.071
0.064
uniek toetsen n
0.098
0.159
2881
2699
0.105 2824
Bij alle drie toetsen kunnen achtergrondkenmerken alleen minder verklaren dan aanvangsscores alleen.
8
3.3 Voorspelling van toetsresultaten in groep 8 De resultaten voor groep 8 staan weergegeven in tabel 4.
Tabel 4 Regressie-analyse van scores in groep 8
Taal in groep 8
Rekenen in groep 8
Begrijpend lezen in groep 8
opleiding (vs. mbo) LO
-0.11
-0.09
-0.12
-0.10
-0.11
-0.09
LBO
-0.17
-0.14
-0.16
-0.12
-0.16
-0.12
HO
0.14
0.12
0.14
0.11
0.17
0.15
OPLONB
-0.01
-0.01
0.01
0.03
0.00
0.02
GEMENGD
-0.03
-0.03
0.00
0.00
0.01
0.01
SURANT
-0.01
0.01
0.02
0.04
0.01
0.03
herkomst (vs. autocht.)
TURKS
-0.13
-0.07
0.02
0.08
-0.11
-0.04
MAROK
-0.06
-0.02
0.01
0.06
-0.03
0.02
OVERIG
-0.01
0.02
0.00
0.03
0.00
0.03
ETNONB
0.03
0.02
0.02
0.01
-0.02
-0.03
VKORT
0.02
0.00
-0.01
-0.04
0.05
0.01
VLANGER
0.00
0.01
-0.02
0.00
-0.01
0.01
MEISJE
-0.01
-0.05
-0.13
-0.17
0.09
0.04
SEXONB
-0.03
-0.01
-0.06
-0.04
-0.02
0.00
verblijfsduur (vs. altijd)
geslacht (vs. jongen)
leeftijd (vs. gemiddeld) JONG
0.00
0.01
0.03
0.04
0.02
0.03
OUD
-0.13
-0.12
-0.14
-0.13
-0.12
-0.12
toetsen groep 2 BEGRIPPENTOETS
0.23
0.15
0.21
ORDENENTOETS
0.17
0.30
0.23
0.146
0.112
0.148
R-kwadraat alleen kenmerken alleen toetsen
0.171
0.159
0.197
combinatie
0.255
0.252
0.279 0.066
gedeeld
0.062
0.019
uniek kenmerken
0.084
0.093
0.082
uniek toetsen
0.109
0.140
0.131
n
1870
1715
1825
Opnieuw kunnen ook hier de achtergrondkenmerken alleen minder verklaren dan aanvangsscores alleen. Bij de effecten van de achtergrondkenmerken valt op dat in de modellen met de aanvangsscores er bijna geen effecten van etnische achtergrond zijn. Losjes gezegd betekent dit dat de allochtone leerlingen bij aanvang lager scoren, maar niet verder achterblijven; bij rekenen lopen ze zelfs een stuk van hun achterstand in. De effecten van ouderlijk opleidingsniveau blijven echter ook na controle voor aanvangskenmerken bestaan. Dit duidt er op dat ook in de loop van het basisonderwijs leerlingen van hoog opgeleide ouders hun voorsprong op leerlingen met laag opgeleide ouders vergroten. Voor zover er ‘proxy-variabelen’ gehanteerd zouden worden bij de bepaling van de toegevoegde waarde van scholen lijkt het ouderlijk opleidingsniveau van meer gewicht dan de etnische herkomst van leerlingen. Tot slot valt op dat in al deze modellen ook een negatief effect gevonden wordt voor de ‘oudere’ leerlingen uit groep 2. Zoals eerder gezegd zal de groep oudere leerlingen zowel bestaan uit late
9
instromers als uit vertraagden (met kleuterbouwverlenging). Het lijkt van belang om bij gebruik van ‘proxy’-variabelen zeker ook de leeftijd bij instroom mee te nemen. Bij groep 8 is ook nog gekeken naar de voorspelling van scores op de Cito Eindtoets basisonderwijs. De volgende tabel geeft een overzicht.
Tabel 5 Regressie-analyse van scores Cito-eindtoets Cito-eindtoets opleiding (vs. mbo) LO
-0.17
-0.14
LBO
-0.17
-0.12
HO
0.14
0.12
OPLONB
0.01
0.01
0.00
0.00
SURANT
0.03
0.05
TURKS
-0.07
0.01
MAROK
-0.02
0.04
OVERIG
-0.01
0.03
ETNONB
0.02
0.01
VKORT
-0.02
-0.06
VLANGER
-0.04
-0.02
MEISJE
0.04
0.00
SEXONB
-0.03
0.00
herkomst (vs. autocht.) GEMENGD
verblijfsduur (vs. altijd)
geslacht (vs. jongen)
leeftijd (vs. gemiddeld) JONG
0.02
0.04
OUD
-0.18
-0.17
toetsen groep 2 BEGRIPPENTOETS
0.24
ORDENENTOETS
0.28
R-kwadraat alleen kenmerken
0.165
alleen toetsen
0.243
combinatie
0.336
gedeeld
0.072
uniek kenmerken
0.093
uniek toetsen n
0.171 1430
Het beeld verschilt weinig van de andere variabelen in groep 8. Opnieuw kunnen alleen de aanvangstoetsen duidelijk meer voorspellen dan alleen de achtergrondkenmerken.
10
3.4 IQ als extra voorspeller Binnen PRIMA wordt een toets voor (non-verbale) intelligentie pas afgenomen vanaf groep 4; voor groep 2 zijn dergelijke IQ-scores dus niet aanwezig. Om toch enig zicht te krijgen op het mogelijk belang van een (vroege) IQ-meting zijn we nagegaan of het opnemen van de IQ-scores uit groep 4 in het regressiemodel resulteert in een verhoogde verklaarde variantie van de scores uit groep 6 en 8. In tabel 6 geven we geen overzicht van alle coëfficiënten, maar beperken we ons tot de proportie 2 2 verklaarde variantie (R ) in de verschillende modellen. We geven eerst weer de R voor het model met alleen achtergrondkenmerken, het model met alleen aanvangstoetsen en het gecombineerde 2 model. De R is hier af en toe iets anders dan in de voorgaande tabellen, doordat de aantallen (met 2 bekende IQ-score) iets lager zijn. Daarna geven we de R van een model met alleen de IQ-score in groep 4 en van een model met alle voorspellers: zowel IQ als kenmerken en aanvangsscores. Als laatste geven we de extra bijdrage aan de verklaarde variantie door het opnemen van IQ in het model waarin reeds achtergronden en aanvangsscores zijn opgenomen.
Tabel 6 Bijdrage van IQ als extra voorspeller scores in groep 6
taal
rekenen
b lezen
n=
2788
2610
2729
alleen kenmerken
0.163
0.104
0.123
R-kwadraat alleen toetsen
0.171
0.192
0.163
combinatie
0.259
0.262
0.226
alleen IQ groep 4
0.120
0.166
0.133
alle voorspellers
0.282
0.313
0.258
extra bijdrage IQ
0.023
0.051
0.032
scores in groep 8
taal
rekenen
b lezen
cito-eind
n=
1804
1655
1759
1377
alleen kenmerken
0.152
0.108
0.149
0.164
R-kwadraat alleen toetsen
0.170
0.156
0.192
0.240
combinatie
0.257
0.245
0.274
0.330
alleen IQ groep 4
0.099
0.149
0.119
0.186
alle voorspellers
0.275
0.296
0.298
0.380
extra bijdrage IQ
0.018
0.051
0.024
0.050
Uit dit overzicht wordt duidelijk dat het opnemen van de IQ-score in het model resulteert in een lichte verhoging van de verklaarde variantie; het meest nog bij de rekentoetsen en de Cito eindtoets (rond 5%) en wat minder bij de ‘talige’ toetsen (2% tot 3%).
3.5 Conclusies In dit hoofdstuk zijn analyses uitgevoerd om antwoord te geven op de onderzoeksvragen 1 en 3: de voorspellende kracht van achtergrondkenmerken versus aanvangstoetsen. We geven hier allereerst 2 nog eens een overzicht van de proportie verklaarde variantie (R ) voor de verschillende afhankelijke variabelen.
11
Tabel 7 Overzicht van verklaarde varianties Groep 4 R-kwadraat
Taal
Groep 6
Rekenen
Taal
Rekenen
Lezen
alleen kenmerken
0.126
0.061
0.163
0.103
0.123
alleen toetsen
0.174
0.201
0.173
0.191
0.164
combinatie
0.235
0.229
0.261
0.262
0.228 0.059
gedeeld
0.065
0.033
0.075
0.032
uniek kenmerken
0.061
0.028
0.088
0.071
0.064
uniek toetsen
0.109
0.168
0.098
0.159
0.105
Groep 8 R-kwadraat
Taal
Rekenen
Lezen
Cito
alleen kenmerken
0.146
0.112
0.148
0.165
alleen toetsen
0.171
0.159
0.197
0.243
combinatie
0.255
0.252
0.279
0.336
gedeeld
0.062
0.019
0.066
0.072
uniek kenmerken
0.084
0.093
0.082
0.093
uniek toetsen
0.109
0.140
0.131
0.171
Als eerste conclusie uit dit overzicht kan gesteld worden dat de twee toetsen betere voorspellers zijn dan de gehanteerde achtergrondkenmerken. Tegelijk kunnen we zien dat de toetsen niet echt superieur zijn, maar dat ze alleen de wat betere voorspellers zijn. De gecombineerde voorspelling, op basis van zowel toetsen als kenmerken, is steeds weer duidelijk beter dan die van toetsen alleen. Voor een optimale voorspelling hebben we dus beide nodig. Verder zien we dat de voorspellende waarde van toetsen en achtergrondkenmerken maar voor een beperkt deel overlapt. Ze zijn dus niet grotendeels onderling inwisselbaar: elk voorspelt voor een belangrijk deel zijn eigen variantie in schoolresultaten Dit betekent bijvoorbeeld dat achtergrondkenmerken (meer specifiek: opleiding van de ouders, veel meer dan etniciteit) van belang blijven, ook als er gecontroleerd wordt voor eerdere toetsresultaten. En.andersom betekent het dat het toetsniveau in groep 2 effect blijft houden, ook na controle voor de achtergrondkenmerken. Een laatste opmerking betreft de totale verklaarde variantie. Deze komt alleen bij de Cito-eindtoets boven de 30% uit. Dat betekent dat de behaalde onderwijsresultaten van leerlingen in belangrijke mate niet vast liggen, maar beïnvloed worden door allerlei hier niet gemeten variabelen en, last but not least, door toevallige gebeurtenissen. Ook de toegevoegde waarde van onderwijs blijft daarmee omgeven door onzekerheid. Ter beantwoording van onderzoeksvraag 4 hebben we ook nog gekeken naar de toevoeging van een IQ-score. Het IQ, niet gemeten bij aanvang maar pas in groep 4, als extra voorspeller levert wel een substantiële maar geen spectaculaire verhoging van de verklaarde variantie. Bij rekenen en Citoeindtoets ongeveer 5%, bij de talige toetsen 2 tot 3%. Dit extra effect van IQ duidt erop dat de hier gehanteerde aanvangstoetsen (Begrippen en Ordenen) nog een onvoldoende meting opleveren van de (leer)capaciteiten van de leerlingen. Bij het eventuele toekomstige ontwerp van een entreetoets kan daarmee rekening worden gehouden. Ook voor het eventueel gebruik van achtergrondkenmerken bij een toekomstige bepaling van toegevoegde waarde kunnen enkele aanbevelingen worden gedaan. In de eerste plaats lijkt opleiding van de ouders, in dit onderzoek vrij grof gemeten, een belangrijke voorspeller, belangrijker dan etniciteit. Verder lijkt het van belang de leeftijd bij instroom te gebruiken.
12
4. Toegevoegde waarde
Niet alle scholen hebben hetzelfde leerlingenpubliek en niet alle leerlingen behalen even gemakkelijk goede onderwijsresultaten. Voor een school in Wassenaar is het veel gemakkelijker om goede resultaten te halen dan voor een school in een achterstandswijk. Bij de onderlinge vergelijking van scholen kan dus niet zomaar naar de eindresultaten van hun leerlingen gekeken worden, maar dient rekening te worden gehouden met de verschillen in leerlingenpubliek tussen de scholen. Het is gebruikelijk om dit aan te duiden met de ‘toegevoegde waarde’ van scholen en van het onderwijs: wat leren leerlingen erbij, rekening houdend met hun (voor- of nadelige) uitgangspositie. In dit hoofdstuk bespreken we, in aansluiting op de analyses in het vorige hoofdstuk, de toegevoegde waarde van scholen, gebaseerd op de achtergrondkenmerken van hun leerlingen, en de toegevoegde waarde, gebaseerd op de aanvangsscores op de toetsen Ordenen en Begrippen. Vooraf willen we nog opmerken dat hier eigenlijk multi-niveau analyses hadden moeten worden uitgevoerd (Roeleveld, 1994; Bosker et al. 2001). Gezien de beperkte tijd, beschikbaar voor dit onderzoek, was dat echter niet mogelijk. En omdat deze analyses weliswaar niet multi-niveau zijn, 2 maar wel gebaseerd op individuele en niet op geaggregeerde gegevens , is het algemeen beeld dat uit de analyses komt correct. De belangrijkste verandering bij multi-level analyse zou zijn dat schattingen van toegevoegde waarde op scholen met maar weinig leerlingen meer naar het gemiddelde waren toegetrokken (de zgn. shrinkage; vgl. Aitkin & Longford, 1986).
4.1 Voorspelling toetsscores in groep 4 Bij de toegevoegde waarde van het onderwijs gaan we steeds uit van een voorspelling van de onderwijsresultaten van leerlingen. Zo zijn de verwachte onderwijsresultaten van de leerlingen op de Wassenaarse school beduidend hoger dan die van de school in de achterstandswijk. Wanneer deze voorspelling eenmaal is gemaakt kan worden nagegaan hoeveel de individuele leerlingen afwijken, naar boven of naar beneden, van hun voorspelde waarde. Om te voorspellen gaan we uit van de feitelijk behaalde scores van een representatieve nationale steekproef. De volgende tabel geeft een overzicht van zulke feitelijk behaalde scores op de Taal- en Rekentoetsen in groep 4. Hier zien we bijvoorbeeld dat we voor leerlingen met laagopgeleide ouders een duidelijk lagere score verwachten dan voor leerlingen met hoogopgeleide ouders. En hetzelfde geldt voor Turkse en Marokkaanse leerlingen, vergeleken met autochtone leerlingen.
2
Bosker et al. (2001) laten zien dat multi-niveau schattingen van toegevoegde waarde behoorlijk af kunnen wijken van schattingen op basis van geaggregeerde gegevens. Maar diezelfde conclusie had waarschijnlijk getrokken kunnen worden op basis van mono-level analyses op individuele gegevens. Het is de aggregatie die tot onjuiste schattingen leidt.
13
Tabel 9 Behaalde scores in groep 4 Taal in groep 4 gemiddelde
1042.5
standaarddeviatie
Rekenen in groep 4 1077.0
35.8
afwijking
67.3
afwijking
LO
1013.6
-29.0
1044.7
-32.4
opleiding LBO
1035.0
-7.6
1065.5
-11.5
MBO
1046.3
3.8
1082.1
5.1
HO
1054.9
12.3
1097.7
20.7
OPLONB
1040.5
-2.0
1068.2
-8.9
herkomst AUTOCHTOON
1045.9
3.4
1080.7
3.7
GEMENGD
1046.0
3.5
1076.6
-0.4
SURANT
1027.1
-15.5
1040.6
-36.4
TURKS
1000.7
-41.8
1043.6
-33.5
MAROK
1007.4
-35.1
1039.5
-37.6
OVERIG
1026.3
-16.2
1069.6
-7.5
ETNONB
1042.5
0.0
1070.4
-6.6
verblijfsduur VKORT
1019.8
-22.7
1054.9
-22.1
VLANGER
1023.5
-19.1
1061.2
-15.8
ALTIJD
1043.1
0.5
1077.5
0.5
JONGEN
1040.8
-1.8
1080.9
3.8
geslacht MEISJE
1044.7
2.2
1074.1
-3.0
SEXONB
1035.1
-7.5
1059.8
-17.2 15.7
leeftijd JONG
1052.0
9.5
1092.8
GEMIDDELD
1043.8
1.3
1079.3
2.3
OUD
1027.4
-15.2
1050.4
-26.6
Een directe voorspelling valt hier echter niet uit te halen, omdat de verschillende kenmerken onderling samenhangen: Turkse en Marokkaanse leerlingen hebben bijvoorbeeld voor het merendeel ook laagopgeleide ouders. De eerder gepresenteerde regressie-analyses zijn echter multivariaat, wat wil zeggen dat er met verschillende kenmerken van de leerlingen tegelijk rekening wordt gehouden. Dit kan dus resulteren in een voorspelling, waarin al die kenmerken worden meegewogen. In het vorige hoofdstuk is een lineaire regressie-analyse uitgevoerd van de Taalscores in groep 4 met als onafhankelijke variabelen een aantal, onderling samenhangende, achtergrondkenmerken van de leerlingen. Per leerling kan hier nu een individuele residual worden bepaald: de afwijking van de feitelijk behaalde score van de voorspelling op basis van het regressiemodel. De volgende figuur geeft een illustratie van deze individuele residuals.
14
Figuur 1 Illustratie van individuele residuals
800
600
400
200 Std. Dev = 33.40 Mean = 0.0 N = 5268.00
0
0 0. 14 .0 0 12 .0 0 10 .0 80 .0 60 .0 40 .0 20 0 0. 0 0. -2 0 0. -4 0 0. -6 0 0. -8 .0 00 -1 .0 20 -1 .0 40 -1 .0 60 -1 .0 80
-1
residual taal op achtergrondkenmerken
We zien dat veel leerlingen dicht bij 0 zitten: hun score wijkt maar weinig af van hun voorspelling. Maar er zijn ook leerlingen die duidelijk verder afwijken: die veel hogere of lagere scores behalen dan we op basis van hun achtergrondkenmerken zouden hebben verwacht. Belangrijke vraag hier is of die hogere en lagere scores min of meer toevallig verdeeld zijn over de scholen of dat er scholen zijn waar leerlingen systematisch hoger of lager scoren dan hun voorspelling: dat kan duiden op beter of slechter functionerende scholen. Ter illustratie, opnieuw, laten we daarom in de volgende figuur gemiddelde residuals per school zien. Hier zijn het residuals van de voorspelling van de Cito eindtoets basisonderwijs door achtergrondkenmerken.
15
Figuur 2 Beter en minder presterende scholen: gemiddelde residuals op schoolniveau.
residual citoeind op achtergrondkenmerken
10
5
0
-5
-10
-15
School
We zien aan de rechterkant dat er scholen zijn waar de gemiddelde residual boven de 5 ligt (de leerlingen behalen gemiddeld 5 punten meer op de Cito eindtoets dan verwacht kon worden op basis van hun achtergrondkenmerken). Maar we zien aan de linkerkant dat er ook scholen zijn die beduidend lager scoren. Er zijn twee scholen waar de leerlingen gemiddeld zo’n 14 punten lager scoren dan verwacht mocht worden. We willen hier nog opmerken dat de hier gehanteerde manier van bepaling van toegevoegde waarde steeds relatief is. Er wordt uitgegaan van de gemiddelde toegevoegde waarde in het Nederlandse basisonderwijs en er wordt nagegaan of de feitelijke scores van leerlingen hoger of lager dan gemiddeld zijn (in de vorm van residuals, nadat rekening is gehouden met hun achtergrondkenmerken); en vervolgens of per school leerlingen gemiddeld boven hun voorspelling scoren of niet. Deze relatieve toegevoegde waarde levert dus altijd plaatjes op als in de voorgaande twee figuren, waarin ongeveer de helft (van leerlingen en scholen) onder het gemiddelde scoort en de andere helft erboven. Het is ook denkbaar om een absolute definitie van toegevoegde waarde te hanteren. Dat kan bijvoorbeeld als er een bepaalde cesuur zit in de onderwijsresultaten. We kunnen denken aan eindtermen, die door de leerlingen bereikt dienen te worden. Dan is goed voorstelbaar dat bijvoorbeeld 90% van de leerlingen, na correctie voor hun achtergronden, aan die eis voldoet en dat er maar weinig scholen zijn waarvan een substantieel deel van de leerlingen deze eindtermen niet haalt. Omdat we hier niet over zo’n absoluut criterium of standaard beschikken vervolgen we deze analyses met de relatieve residuals. Centraal in dit rapport staat de vergelijking van de onderwijsresultaten op basis van aanvangsscores van leerlingen en op basis van hun achtergrondkenmerken. In de volgende figuur laten we, per school gemiddeld, residuals zien van het regressiemodel van de Taalscores in groep 4, gebaseerd op alleen achtergrondkenmerken (op de X-as) en gebaseerd op alleen de aanvangsscores in groep 2 (op de Y-as).
16
Figuur 3 Toegevoegde waarde op basis van achtergrondkenmerken en op basis van toetsscores; Taal in groep 4
residuals Taal in groep 4 op basis van .. 75
60
45
toetsen in groep 2
30
15
0 -75
-60
-45
-30
-15
0
15
30
45
60
75
-15
-30
-45
-60
-75 achtergronden groep 2
Als eerste valt hierbij op dat beide manieren om de toegevoegde waarde per school te bepalen leiden tot onderling zeer samenhangende resultaten. Dit blijkt uit de vorm van de puntenwolk en de correlatie tussen beide is dan ook hoog (r = .83). Op scholen in het kwadrant rechtsboven is volgens beide criteria sprake van een positieve (meer dan gemiddelde) toegevoegde waarde; op scholen in kwadrant linksonder is er sprake van een te lage (minder dan gemiddelde) toegevoegde 3 waarde. Beide criteria laten 1 extreem laag scorende school zien . Maar naast overeenstemming laten beide criteria ook verschillen zien: alle scholen die afwijken van de diagonaal. Midden onderin zien we bijvoorbeeld een school die op basis van de toetsscores een gemiddelde residual heeft van ongeveer –50, terwijl de gemiddelde residual op basis van achtergrondkenmerken slechts ongeveer –10 is. Hieruit blijkt, zoals we ook al in hoofdstuk 3 zagen, dat de voorspelling van de taalscores in groep 4 op basis van beide criteria niet volledig samenvalt. Een vergelijkbaar beeld zien we bij de residuals voor Rekenen in groep 4 (Figuur 4).
3
Het gaat om een school met slechts enkele leerlingen. In de multi-level versie van deze analyse zou de residual van deze school minder extreem zijn geschat.
17
Figuur 4 Toegevoegde waarde op basis van achtergrondkenmerken en op basis van toetsscores; Rekenen in groep 4
residuals Rekenen groep 4 op basis van .. 150
100
toetsen in groep 2
50
0 -150
-125
-100
-75
-50
-25
0
25
50
75
100
125
150
-50
-100
-150 achtergronden in groep 2
Ook hier over het geheel genomen een grote mate van overeenstemming (r =.84), maar ook uitzonderingen. Ongeveer in het midden boven zien we bijvoorbeeld een school met een gemiddelde residual van +70 op basis van de aanvangsscores van leerlingen, maar met een negatieve residual (ongeveer –25) op basis van de achtergrondkenmerken. Als laatste laten we residuals zien van de voorspelling van de score op de Cito eindtoets, opnieuw op basis van enerzijds achtergrondkenmerken (X-as) en anderzijds aanvangsscores (Y-as).
18
Figuur 5 Toegevoegde waarde op basis van achtergrondkenmerken en op basis van toetsscores; Cito eindtoets in groep 8
Gemiddelde residuals Cito eindtoets op basis van ... 15
10
toetsen in groep 2
5
0 -15
-10
-5
0
5
10
-5
-10
-15 achtergrondkenmerken groep 2
Ook hier hangen beide typen residuals sterk samen (r = .77), maar zijn er anderzijds ook scholen die niet heel sterk overeenstemmen. De iets lagere correlatie tussen beide typen residuals is terug te zien als een wat grotere spreiding van de punten in figuur 5 rondom de diagonaal.
4.2 Conclusie Zowel op basis van achtergrondkenmerken van leerlingen als op basis van hun aanvangsscores op een tweetal toetsen is het mogelijk om uitspraken te doen over de toegevoegde waarde van onderwijs, en in het bijzonder die van scholen (onderzoeksvraag 2). Wanneer we de uitkomsten van beide methoden vergelijken dan zien we in de eerste plaats een behoorlijk grote mate van overeenstemming, met correlaties van rond de .80. Voor onderzoek naar algemene ontwikkelingen in het onderwijs zou dat aanleiding kunnen zijn om voor een van beide te kiezen. Maar wanneer de nadruk ligt op de resultaten van elke individuele school, dan zien we toch een aantal uitzonderingen: scholen die het bij de ene methode duidelijk beter doen dan bij de andere; scholen die zich bij gebruik van de ene methode tekortgedaan zouden kunnen (en mogen) voelen. Zoals we eerder zagen is de informatie, afkomstig van aanvangstoetsen, en die, afkomstig van achtergrondkenmerken, maar ten dele overlappend en de unieke informatie van elke methode zal ook leiden tot verschillende schattingen voor toegevoegde waarde.
19
15
5. Uitval van leerlingen
Zoals we in hoofdstuk 2 hebben gezien is er in het PRIMA-cohortonderzoek, naast uitval van scholen, ook sprake van uitval van individuele leerlingen. We hebben eerder betoogd dat dit niet alleen een probleem is voor PRIMA-onderzoekers, maar dat iedereen die een schatting wil maken van de toegevoegde waarde van scholen te maken krijgt met leerlingen, die verhuizen, blijven 4 zitten of verwezen worden naar speciaal onderwijs . In dit laatste hoofdstuk zullen we nagaan of het aandeel leerlingen dat op deze wijze uitvalt samenhangt met enkele kenmerken van de school. Allereerst kijken we naar de samenstelling van de leerlingbevolking. Daarvoor gebruiken we twee kenmerken. Dat is allereerst de schoolscore, zoals die gebruikt wordt door het Ministerie (Cfi) om de scholen te bekostigen. Een score van 100 betekent dat er (vrijwel) geen doelgroepen op de school aanwezig zijn en een hoge score betekent dat er veel leerlingen zijn met leerlinggewicht 1.90 en/of 1.25. Verder gebruiken we de schoolcompositie, zoals die binnen het PRIMA-onderzoek gebruikelijk is, en die gebaseerd is op de sociaal-etnische herkomst van de leerlingen (de categorieen A1-A5 hieronder): − C1: op deze scholen behoort ten minste 50 procent van de leerlingen tot categorie A1 (Turkse en Marokkaanse leerlingen wiens ouders laag zijn opgeleid) − C2: ook op deze scholen behoort ten minste 50 procent van de leerlingen tot de allochtone leerlingen met laagopgeleide ouders, maar hier gaat het om leerlingen uit categorie A2 (overig allochtone leerlingen met laag opgeleide ouders) of uit categorie A1 en A2 tezamen − C3: op deze scholen behoort ten minste 50 procent van de leerlingen tot categorie A3 (autochtone leerlingen met laag opgeleide ouders) − C4: op deze scholen behoort ten minste 50 procent van de leerlingen tot categorie A4 (leerlingen van wie de hoogst opgeleide ouder maximaal een MBO-opleidingsniveau heeft) − C5: op deze scholen behoort ten minste 50 procent van de leerlingen tot categorie A5 (leerlingen van wie de hoogst opgeleide ouder een HBO- of WO-opleidingsniveau heeft) − C6: op deze scholen is sprake van een tamelijk heterogene, maar overwegend kansrijke schoolbevolking. Het percentage leerlingen dat behoort tot de doelgroepen van het landelijke OnderwijsAchterstandenBeleid of OAB (d.w.z. leerlingen uit categorie A1, A2 en A3) is maximaal eenderde (33%). − C7: op deze scholen is sprake van een zeer heterogene schoolbevolking, ook qua onderwijskansen. Het percentage OAB-doelgroepleerlingen varieert van eenderde tot de helft (33 tot 50%). − C8: op deze scholen is sprake van een tamelijk heterogene, maar overwegend kansarme schoolbevolking. Het percentage OAB-doelgroepleerlingen is ten minste 50%. De volgende tabel geeft het percentage uitvallers op de 144 scholen die vanaf PRIMA-1 tot en met PRIMA-4 hebben meegedaan, onderscheiden naar beide voorgaande schoolkenmerken.
Tabel 10 schoolscore 100-109
Leerlinguitval naar samenstelling schoolbevolking uitval%
compositie
uitval%
38
C1
110-119
48
C2
56
120-129
56
C3
39
130-139
56
C4
38
140-149
56
C5
47
150-159
58
C6
39
160 of meer
65
C7
42
C8
56
67
Uit deze tabel blijkt dat als er op scholen veel allochtone leerlingen zitten er meer sprake is van uitval. We zien dat bij de hogere schoolscores en in het bijzonder ook bij de compositie-indeling. Op de C3-scholen (met veel 1.25 leerlingen) is de uitval vrij laag, maar op de C1, C2 en C8 scholen, met veel allochtone leerlingen, is de uitval beduidend hoger. De volgende tabel geeft uitvalpercentages op scholen naar urbanisatiegraad en naar richting.
4
En als extra complicatie: er vallen niet alleen leerlingen uit, maar er komen tussentijds ook nieuwe leerlingen bij, ook weer als gevolg van verhuizing of bijvoorbeeld door zij-instroom vanuit het buitenland.
20
Tabel 11
Leerlinguitval, urbanisatie en richting van de school
urbanisatie
uitval%
richting
uitval%
zeer sterk stedelijk
55
openbaar
46
sterk stedelijk
55
rooms-katholiek
42
matig stedelijk
46
protest.-christelijk
42
weinig stedelijk
37
algemeen bijzonder
52
niet stedelijk
35
reformatorisch
22
islamitisch
65
De uitval is duidelijk groter in de steden dan op het platteland. Bij de (enkele) reformatorische scholen is de uitval erg laag, terwijl die bij de (enkele) islamitische scholen (waar ouders waarschijnlijk toch ook een bijzondere band mee hebben) juist erg hoog is. We concluderen uit deze verkenning dat er vooral op scholen in de steden met veel allochtone leerlingen sprake is van een omvangrijke uitval die de bepaling van de toegevoegde waarde van deze scholen ernstig kan bemoeilijken. Dit stemt overeen met geluiden die PRIMA-onderzoekers te horen kregen in sommige Amsterdamse stadsdelen, waar scholen vertelden dat geen een van de leerlingen in groep 8 ook op die school begonnen was in de kleuterbouw. Tot slot hebben we nog gekeken of het percentage uitvallers samenhangt met de residuals voor de voorspelling van de Cito-eindtoets in groep 8. De samenhang met de voorspelling op basis van achtergrondkenmerken bedroeg -.03 en die met de voorspelling op basis van aanvangstoetsen .06. Dat zijn lage (en ook niet significante) correlaties. Het is kennelijk niet zo dat scholen met veel uitval ook systematisch een hogere (of lagere) toegevoegde waarde laten zien.
21
6. Conclusies
Voor een goede meting van de toegevoegde waarde van het onderwijs is een bepaling nodig van de ‘startpositie’ van individuele leerlingen. Een dergelijke startpositie kan gemeten worden door het afnemen van een begintoets of door het gebruik van proxy-variabelen, die bijvoorbeeld de sociale en etnische herkomst van de leerlingen representeren. In dit onderzoek is nagegaan hoe deze twee manieren om de startpositie te bepalen zich tot elkaar verhouden. Daarbij is gebruik gemaakt van gegevens uit het PRIMA-cohortonderzoek, waarmee de samenhang tussen de startpositie van leerlingen in groep 2 en hun latere onderwijsresultaten in de groepen 4, 6 en 8 bepaald kan worden. Als representant voor een begintoets zijn de scores op een tweetal toetsen uit het Cito-leerlingvolgsysteem (Begrippen en Ordenen) gebruikt. Als proxyvariabelen dienden het opleidingsniveau van de ouders, de etnische herkomst en verblijfsduur in Nederland, het geslacht en de leeftijd in groep 2. Uit de analyses blijkt allereerst dat de toetsscores betere voorspellers zijn voor latere onderwijsresultaten dan de achtergrondkenmerken. Met alleen de toetsscores kan meer variantie in de verschillende afhankelijke variabelen verklaard worden dan met alleen de proxy-variabelen. Tegelijk blijkt dat de voorspellende waarde van toetsen en achtergronden maar voor een beperkt deel overlapt. Elk verklaart voor een belangrijk deel zijn eigen unieke deel in de variantie van de verschillende onderwijsresultaten. Dat betekent dat we voor de meest optimale voorspelling beide typen informatie (toetsresultaten en proxy-variabelen) nodig hebben. De verklaarde variantie varieert dan van 23% (bij Begrijpend Lezen in groep 6) tot 34% (bij de Cito eindtoets in groep 8). Dat toetsen en achtergronden niet grotendeels overlappen, maar tot deels verschillende voorspellingen kunnen leiden, hebben we ook kunnen laten zien door per school te kijken naar de gemiddelde toegevoegde waarde voor hun leerlingen. De toegevoegde waarde, bepaald op basis van toetsen en die, bepaald op basis van de proxy-variabelen, leverden weliswaar globale overeenstemming op voor de meeste scholen, maar liet ook duidelijke uitzonderingen zien. Er zijn dan scholen, die zich door gebruik van de ene of de andere methode tekort gedaan mogen voelen. Als begintoets is hier gebruik gemaakt van scores op twee toetsen in groep 2, waarvan er een (Begrippen) meer talig van aard is en de andere (Ordenen) meer in de richting van rekenvaardigheid gaat. In de analyses bleek dat scores op een korte non-verbale IQ-test, afgenomen halverwege de basisschool in groep 4, nog een extra bijdrage aan de verklaarde variantie in de latere onderwijsresultaten konden leveren. Het lijkt daarom aan te bevelen dat een te ontwerpen (of te kiezen) begintoets ook dergelijke non-verbale elementen omvat. Met betrekking tot de proxy-variabelen is gebleken dat het opleidingsniveau van de ouders hier het belangrijkste is en ook steeds effect blijft houden op de latere onderwijsresultaten, ook als gecontroleerd wordt voor scores op de aanvangstoetsen. De etnische herkomst van de leerlingen is in dit opzicht van veel minder gewicht. Wel van belang blijkt de leeftijd in groep 2. Deze weerspiegelt weliswaar slechts ten dele de leeftijd bij instroom, maar het lijkt wel aan te bevelen de leeftijd bij instroom mee te nemen bij het gebruik van proxy’s. Tot slot hebben we nog gewezen op het probleem van mutaties van leerlingen bij de bepaling van de toegevoegde waarde van scholen. Hoe die toegevoegde waarde ook bepaald gaat worden, op basis van een begintoets of op basis van proxy-variabelen, altijd zullen er leerlingen zijn die uit hun ‘normale’ loopbaan vallen, door zittenblijven, verwijzing naar SBO of door verhuizingen. De systematiek van bepaling van toegevoegde waarde dient dat op een of andere manier te verdisconteren. We hebben hier laten zien dat zulke mutaties meer voorkomen op scholen in de grote steden met veel allochtone leerlingen. Ofwel: op scholen waar bij uitstek het Onderwijs Achterstandenbeleid op is gericht.
22
Literatuur Aitkin, M. & Longford, N. (1986) Statistical modelling issues in school effectiveness studies. Journal of the Royal Statistical Society, 149, pp. 1-43 Bosker, R., Beguin, A. & Rekers-Mombarg, L. (2001) Hoe meten we de prestatie van een school. In: Dijkstra, A.B., Karsten, S., Veenstra, R. & Visscher, A.J. (red.), Het oog der natie: scholen op rapport. Assen: Van Gorcum Cohen, J. (1988) Statistical power analysis for the behavioral sciences. New York: Academic Press. Dijkstra, A.B., Karsten, S., Veenstra, R. & Visscher, A.J. (2001). Het oog der natie: scholen op rapport. Standaarden voor de publicatie van schoolprestaties. Assen: Van Gorcum Hox, J. J. (1998). Er is nieuws onder de zon: nieuwe oplossingen voor oude problemen. Kwantitatieve Methoden, 19, 95-118 Tesser, P.T.M.& Iedema, J. (2001). Vorderingen op school. Rapportage minderheden 2001. Den Haag: Sociaal en Cultureel Planbureau Roeleveld, J. (1994). Verschillen tussen scholen. Kenmerken, effectiviteit en stabiliteit van onderwijsinstellingen in Nederland. Proefschrift Universiteit van Amsterdam. Amsterdam: SCOKohnstamm Instituut Roeleveld, J & R. Portengen (1998). Uitval en instroom bij het Prima-cohortonderzoek. Amsterdam/Nijmegen: SCO-Kohnstamm Instituut / ITS Roeleveld, J & H. Vierke (te verschijnen 2003) Uitval en Instroom bij de derde meting van het PRIMA-cohortonderzoek. Amsterdam/Nijmegen: SCO-Kohnstamm Instituut / ITS Vierke, H. (1995). De PRIMA-toetsen gecalibreerd. De ontwikkeling van vaardigheidsscores over de leerjaren heen op basis van de jaargroeptoetsen in het cohort primair onderwijs (PRIMA). Nijmegen: ITS.
23