HET BEPALEN VAN DE TOEGEVOEGDE WAARDE DOOR BASISSCHOLEN
2003-18
INHOUDSOPGAVE 1
INLEIDING 5
2
DE TOETSPRAKTIJK VAN BASISSCHOLEN 7
3
DE TOEGEVOEGDE WAARDE VAN BASISSCHOLEN 12
4
CONCLUSIE 15 LITERATUUR 17 BIJLAGE(N)
I
SAMENSTELLING PROJECTGROEP 19
II
VOORBEELD VOOR HET BEPALEN VAN TOEGEVOEGDE WAARDE 21
1
INLEIDING
In het Strategisch Akkoord van het eerste kabinet Balkenende wordt aandacht besteed aan het gebruik van een begintoets in het basisonderwijs. Naar aanleiding hiervan heeft het Ministerie van Onderwijs, Cultuur en Wetenschappen de Inspectie van het Onderwijs verzocht om een verkennend onderzoek naar antwoord op de volgende vragen: ‘Voegt het benutten van een begintoets iets toe aan de oordelen over de opbrengsten van een school, in vergelijking met de reeds beschikbare gegevens zoals het oordeel van de inspectie op basis van de Cito-eindscores? Zo ja, hoe verhoudt dit nieuwe oordeel zich tot de oordelen van de inspectie over de kwaliteit van het onderwijs op scholen op basis van de proceskenmerken? Lijkt de nieuwe opbrengstindicator een meer valide indicatie van de kwaliteit van het onderwijs dan de ‘oude’ indicator die alleen op de resultaten van de eindtoets was gebaseerd.’ Het gaat in het verzoek van het ministerie uitdrukkelijk om een verkennend onderzoek. Voor het geven van definitieve antwoorden op deze vragen is een langlopend onderzoek noodzakelijk. In dit rapport wordt achtereenvolgens ingegaan op: • De wijze waarop basisscholen op dit moment hun opbrengsten verantwoorden met gebruik van begin-, tussen- en eindtoetsen, en; • De eigen bijdrage, of toegevoegde waarde, die scholen kunnen leveren aan de ontwikkeling van hun leerlingen. Het rapport wordt afgesloten met een conclusie over het gebruik van een begintoets bij de bepaling van de toegevoegde waarde van basisscholen.
5
6
2
DE TOETSPRAKTIJK VAN BASISSCHOLEN
Dit rapport is gericht op de mogelijkheden die scholen zelf hebben om de toegevoegde waarde van hun onderwijs te bepalen. Daarvoor is het belangrijk om inzicht te hebben in het gebruik dat scholen maken van toetsen om de vorderingen van hun leerlingen te bepalen. Scholen gebruiken voor verschillende doelen diverse procedures en toetsen om vast te stellen wat de prestaties en vorderingen zijn van hun leerlingen op de verschillende leer- en vormingsgebieden in het basisonderwijs. Daarbij kan een onderscheid gemaakt worden tussen proefwerken, methode-afhankelijke toetsen en landelijk genormeerde toetsen. Met name deze laatstgenoemde toetsen zijn geschikt voor het bepalen van de toegevoegde waarde van scholen. Daarom is dit hoofdstuk beperkt tot het gebruik van landelijk genormeerde en dus (meestal) methodeonafhankelijke toetsen. Bijzondere aandacht wordt besteed aan het toetsgebruik in groep 1 en 2 van het basisonderwijs. De toetspraktijk aan het einde van het basisonderwijs Hoewel het percentage scholen dat systematisch aan kwaliteitszorg werkt al vijf jaar lang blijft steken op ongeveer 30 procent, zijn de basisscholen de afgelopen jaren wel steeds vaker en beter verantwoording gaan afleggen over de resultaten van hun leerlingen. Op dit moment worden in de schoolgidsen van basisscholen al heel vaak gegevens vermeld over de resultaten die leerlingen aan het eind van het basisonderwijs bereiken. Dit wordt door een toenemend aantal scholen aangevuld met gegevens over de doorstroom, het aantal zittenblijvers en het aantal leerlingen dat naar het speciaal (basis)onderwijs is verwezen. In 2002 constateerde de inspectie dat slechts 7.7 procent van de basisscholen niet in staat was om over de resultaten van hun leerlingen aan het eind van het basisonderwijs betrouwbare landelijk genormeerde gegevens te overleggen. In 1999 gold dit nog voor bijna 30 procent van de basisscholen (Inspectie van het Onderwijs, 2003). Veruit de meeste scholen gebruiken voor het bepalen van de resultaten aan het eind van het basisonderwijs de ‘Eindtoets Basisonderwijs’ van het Cito. Een klein percentage scholen gebruikt de ‘Schooleindtoets’ van het GPC te Zwolle. Eveneens een klein percentage basisscholen gebruikt voor de verantwoording van haar opbrengsten aan het eind van het basisonderwijs een mêlee van landelijk genormeerde toetsen uit een of meer leerlingvolgsystemen. Een zeer klein percentage scholen doet om uiteenlopende redenen niet mee aan een toets waarmee aan het eind van het basisonderwijs de prestaties van hun leerlingen vastgesteld kunnen worden. Ruim driekwart van de basisscholen kan over een reeks van jaren landelijk genormeerde gegevens overleggen over de resultaten die hun leerlingen aan het eind van het basisonderwijs bereiken.
7
De toetspraktijk gedurende het basisonderwijs Steeds meer basisscholen blijken ook voor de lagere leerjaren over betrouwbare en landelijk genormeerde gegevens over de resultaten van hun leerlingen te beschikken. In 2002 bleek bijna 70 procent van de basisscholen de beschikking te hebben over betrouwbare landelijk genormeerde gegevens over de resultaten bij taal én rekenen in groep 2/3, 4 en 6 (Inspectie van het Onderwijs, 2003). In 1999 gold dit voor nog maar iets meer dan 50 procent van de basisscholen. De volgende tabel, die gebaseerd is op gegevens van scholen die de inspectie vanaf het jaar 2000 heeft geïnventariseerd, geeft een gedetailleerd overzicht voor lezen en rekenen. Tabel 1. Toetsgebruik in groep 3-8 (in procenten) N=5355 De school bepaalt voor leerlingen van de leerjaren 3-8 ten minste één keer per jaar de leerresultaten met een methodeonafhankelijke toets voor … (voortgezet) technisch lezen begrijpend lezen rekenen en wiskunde Bron: Inspectie van het Onderwijs (2003).
ja 55.0 92.3 88.0
in ontwikkeling 8.3 3.9 6.2
nee 36.7 3.9 5.8
Het percentage ‘nee’ bij het toetsgebruik voor (voortgezet) technisch lezen is verhoudingsgewijs wat hoog. Dit wordt veroorzaakt doordat veel scholen in groep 7 en 8 de technische leesvaardigheden van hun leerlingen niet meer toetsen. De toetspraktijk aan het begin van het basisonderwijs Het aantal scholen dat over toetsen beschikt die in het begin van het basisonderwijs gebruikt kunnen worden, ligt hoog. Zo blijkt bijvoorbeeld uit gegevens van het Cito dat het percentage scholen dat de toetsen ‘Ordenen’ en ‘Taal voor Kleuters’ inmiddels heeft aangeschaft in de buurt van de 70 procent ligt. Wanneer we zouden beschikken over de verkoopcijfers van alle toetsen die voor deze leeftijdsgroep uitgebracht zijn, dan zal blijken dat het percentage scholen dat toetsen voor deze leeftijdsgroep in huis heeft nog veel hoger ligt. Kopen en daadwerkelijk gebruiken zijn echter verschillende zaken. Uit gegevens die de inspectie sinds 2000 verzamelt, blijkt dat ongeveer driekwart van de basisscholen in groep 1 of 2 een toets gebruikt om de taalontwikkeling en de wiskundige oriëntatie van de leerlingen te bepalen voor de overgang van groep 2 naar groep 3. De volgende tabel biedt een overzicht van het toetsgebruik in groep 1 en 2. Tabel 2. Toetsgebruik in groep 1-2 (in procenten) N=5277 De school bepaalt voor leerlingen van de leerjaren 1-2 ten minste één keer in de loop van de kleuterperiode … de taalontwikkeling de ontwikkeling van de wiskundige oriëntatie Bron: Inspectie van het Onderwijs (2003).
ja 76.2 73.7
in ontwikkeling nee 11.5 12.3 10.3 16.0
De toetsen die in tabel 2 genoemd worden, zijn bij basisscholen vooral in gebruik bij de overgang van groep 2 naar groep 3. Zij doen dat met name om te bepalen of de leerlingen reeds klaar zijn voor het leren in groep 3. Daar ligt ook het grote belang dat scholen bij begintoetsen hebben. Zij moeten op dat moment gewoon weten met welke van hun leerlingen zij veilig met het proces van aanvankelijk lezen kunnen starten en voor welke leerlingen eerst extra maatregelen getroffen moeten worden. In tabel 3 wordt een inzicht geboden in de toetsen die scholen gebruiken bij de overgang van groep 2 naar groep 3.
8
Tabel 3. Gebruikte toetsen in groep 1-2 (in procenten) N=5732 Ordenen Taal voor kleuters Begrippentoets Ruimte en tijd LVS 1-2 Eduforce IPMON Observatiepakket voor de Functieontwikkeling IPMON Eenvoudige lees- en rekenvoorwaardentoets Overige methode-onafhankelijke toetsen voor taalontwikkeling Overige methode-onafhankelijke toetsen voor wiskundige oriëntatie Instrumenten voor sociaal emotionele ontwikkeling Bron: Inspectie van het Onderwijs (2003).
46.5 35.7 29.2 12.0 3.3 3.3 1.7 16.4 11.4 17.3
Er blijkt sprake van een grote diversiteit. De toetsen ‘Ordenen’, ‘Taal voor Kleuters’ en de ‘Begrippentoets’ worden door de scholen het meest gebruikt. Achter de termen ‘overige toetsen’ gaat een aantal van zeker 40 verschillende toetsen en instrumenten schuil. Sommige van deze toetsen zijn delen van landelijk bekende toetsen; soms ook zijn het instrumenten van locale begeleidingsdiensten of instrumenten die in het verleden in wetenschappelijk onderzoek gebruikt zijn. Veel gebruikte toetsen zoals ‘Ordenen’ (1997, nieuwe versie), ‘Taal voor Kleuters’ (1996) en ‘Ruimte en Tijd’ (1996) voldoen aan de eisen die de COTAN (Evers, e.a., 2000; Resing, e.a., 2002; Evers, e.a., 2002) stelt aan betrouwbaarheid, validiteit en landelijke normering. De meeste overige toetsen voldoen daar echter niet of nog niet aan en zijn soms verouderd. De COTAN, of voluit de Commissie Testaangelegenheden Nederland van het Nederlands Instituut van Psychologen (NIP) brengt met een zekere regelmaat gidsen uit die informatie bieden over onderwijstoetsen die aan elementaire eisen zoals betrouwbaarheid, validiteit en landelijke normering voldoen. Sinds kort worden van deze gidsen ook voor basisscholen toegankelijke publicaties gemaakt . Deze gidsen zouden scholen behulpzaam kunnen zijn in hun keuze voor toetsen. Opvallend is het betrekkelijk lage gebruikspercentage bij instrumenten voor sociaalemotionele ontwikkeling. Hierbij wordt onder meer het PRAVOO-instrumentarium genoemd. Vaak wordt gedacht dat er voor zaken als gedrag, sociaal-emotionele ontwikkeling, werkhouding en dergelijke geen betrouwbare en valide landelijk genormeerde instrumenten beschikbaar zouden zijn. Dat is echter niet het geval. De gidsen van de hierboven reeds genoemde COTAN bieden ook hiervoor overzichten van toetsen die aan elementaire eisen zoals betrouwbaarheid, validiteit en landelijke normering voldoen. Recentelijk zijn ook toetsen voor peuters (zoals bijvoorbeeld ‘OBIS’ van de universiteit van Nijmegen en het ‘Peutervolgsysteem’ van het Cito) uitgebracht. Op dit moment is nog geen zicht op de mate waarin deze toetsen door basisscholen worden gebruikt. De beschikbaarheid van toetsgegevens Het feit dat veel basisscholen de prestaties van hun leerlingen regelmatig toetsen, wil niet zeggen dat deze scholen deze gegevens ook systematisch opslaan en bewaren. Wijnstra, Ouwens & Béguin (2003) hadden op grond van bij het Cito beschikbare Zie: Resing, W.C.M., Evers, A., Koomen, H.M.Y., Pameijer, M.K. Bleichrodt, N., Van Boxtel, H. (2002). Indicatiestelling: condities en instrumentarium in het kader van leerlinggebonden financiering. Lochem: NDC Boom. en: Evers, A., Van Vliet-Mulder, J.C., Resing, W.C.M., Starren, J.C.M.G., Van Alphen de Veer, R.J., Van Boxtel, H. (2002). COTAN testboek voor het onderwijs. Lochem: NDC Boom.
9
informatie goede redenen om te veronderstellen dat zij bij een groep van 178 basisscholen longitudinale gegevens konden verzamelen over de tussentijdse leerresultaten van twee cohorten leerlingen die in 2002 en 2003 aan de ‘Eindtoets Basisonderwijs’ deelnamen. Zij waren geïnteresseerd in de resultaten die deze twee leerlingencohorten achtereenvolgens in groep 2, 4, 6 en 8 hadden bereikt. Van de 178 scholen hebben er 69 meegedaan aan het onderzoek. Ongeveer de helft van deze scholen had de toetsuitslagen (van de Begrippentoets en Ordenen, versie 1992) uit groep 2 opgeslagen. Hierbij dient bedacht te worden dat dit het ‘bewaargedrag’ van zeven á acht jaar geleden betreft. Inmiddels werkt ongeveer de helft van de scholen met het computerprogramma dat bij het leerlingvolgsysteem van het Cito hoort. We kunnen aannemen dat mede daardoor het bewaren van gegevens de komende jaren zal verbeteren. Ontwikkelingen in de leerlingenpopulatie Wanneer we overwegen om voor het bepalen van de toegevoegde waarde van het onderwijs gebruik te maken van begin- en eindtoetsen, dan is het noodzakelijk dat de leerlingenpopulatie van een basisschool een zekere stabiliteit kent. Wijnstra, Ouwens en Béguin (2003) ontdekten dat een leerlingenpopulatie door verhuizing, doubleren of verwijzing naar het speciaal (basis)onderwijs allerminst stabiel blijft gedurende acht jaar. Zo’n 18 procent van de leerlingen die aan de afname van een kleutertoets hadden deelgenomen werd twee jaar later niet meer teruggevonden in groep 4. In groep 6 was dit 28 procent. In groep 8 kon 34 procent van de leerlingen niet teruggevonden worden. Ook uit onderzoek van Roeleveld (2003) blijkt dat een leerlingencohort gedurende acht jaar basisonderwijs grote veranderingen ondergaat. Hij ging ook na wat er gebeurd was met de leerlingen die in eerdere jaren deelgenomen hadden aan toetsafnames en die niet op het ‘verwachte’ moment in groep 8 van het basisonderwijs zaten. Het bleek dat het in 55 procent van de gevallen gaat om verhuizing (waaronder 2 procent remigratie), bij 32 procent om zittenblijven en in 12 procent van de gevallen om verwijzing naar het speciaal basisonderwijs. Ook het omgekeerde verschijnsel, instroom van leerlingen, treedt op: uit onderzoek van Wijnstra, Ouwens en Béguin (2003) blijkt dat ruim zeven procent van de leerlingen die aan de Eindtoets Basisonderwijs hadden deelgenomen twee jaar daarvoor nog niet op de betreffende school zat en 11 procent vier jaar daarvoor nog niet op de betreffende school zat. Deze instabiliteit van de leerlingenpopulatie, die zich overigens in stedelijke gebieden sterker voordoet dan op het platte land, is een belangrijke reden om de toegevoegde waarde van een school niet te baseren op een tijdspanne van acht jaar. Wijnstra, Ouwens en Béguin (2003) stellen voor om de toegevoegde waarde op verschillende momenten vast te stellen en te waarderen.
10
11
3
DE TOEGEVOEGDE WAARDE VAN BASISSCHOLEN
Niet alles wat leerlingen aan het eind van het basisonderwijs kennen en kunnen is een direct resultaat van de werkzaamheden van de school. Kinderen komen met grote verschillen in aanvangskennis en aanvangsvaardigheden de basisscholen binnen en ook tijdens de basisschoolperiode leveren ouders en andere kinderen uit school en buurt een bijdrage aan de resultaten die leerlingen aan het eind van het basisonderwijs bereiken. Daarom zijn de ‘bruto’ uitslagen op een schooleindtoets zoals bijvoorbeeld de ‘Eindtoets Basisonderwijs’ van het Cito niet hetzelfde als wat de leerlingen door het onderwijs op die school geleerd hebben. Dat maakt het belangrijk om na te gaan wat de school heeft bijgedragen aan de eindresultaten van de leerlingen. Het is helaas niet mogelijk om bij de leerlingen aan het begin en eind van het basisonderwijs dezelfde toets af te nemen en dan eenvoudigweg het verschil vast te stellen. Als we willen weten wat de school heeft bijgedragen aan de eindresultaten van de leerlingen, dan moeten we een andere oplossing gebruiken. Als alternatief wordt door veel onderzoekers bepleit om de ‘toegevoegde waarde’ van scholen te bepalen (Dijkstra, Karsten, Veenstra & Visscher, 2001). Dit is ook recentelijk nog eens door de Onderwijsraad (Onderwijsraad, 2003) naar voren gebracht. De toegevoegde waarde van een basisschool wordt bepaald door een (statistische) vergelijking op te stellen waarin de resultaten op een toets aan het eind van het basisonderwijs gecorrigeerd worden met gegevens over intelligentie, sociale, economische en etnische achtergronden van ouders, en kennis en vaardigheden van leerlingen aan het begin van het basisonderwijs. Op deze wijze kan vastgesteld worden of de toegevoegde waarde van een school op, onder of boven het niveau ligt dat op grond van deze kenmerken verwacht kan worden. Sommige deskundigen willen hier nog instrumenten aan toevoegen voor de motivatie om te leren en de eventuele gedragsproblemen van leerlingen. Bij dit laatste wordt gedacht aan faalangst, competentiebeleving, aandachtstekort, impulsiviteit, storend gedrag naar medeleerlingen, overmatige afhankelijkheid, en problemen met autoriteitsbeleving of met de omgang met leraren. Hierbij moet echter aangetekend worden dat de school in haar pedagogische aanpak hier wel degelijk invloed op kan uitoefenen. Wel is het juist, om niet alleen de kenmerken waarmee leerlingen zich aan het begin van het basisonderwijs melden, maar ook alle buitenschoolse zaken waar de school geen grip op heeft, maar die wel invloed hebben op de prestaties aan het eind van het basisonderwijs te verdisconteren in de bepaling van de toegevoegde waarde. Het meenemen van al deze factoren in de bepaling van de toegevoegde waarde is echter zeer complex. Tot nog toe is geen onderzoek gepubliceerd waarin alle bovengenoemde achtergrondkenmerken van leerlingen, hun intelligentie, hun aanvangskennis en aanvangsvaardigheden, alle belangrijke buitenschoolse invloeden enz. zijn tegelijk meegenomen om de toegevoegde waarde van scholen te bepalen. Wel is in een aantal onderzoekingen geprobeerd om de toegevoegde waarde van basisscholen te bepalen op basis van een deel van deze factoren (zie bijvoorbeeld: (Brandsma & Knuver, 1989; Bosker & Witziers, 1996; Reezigt, Houtveen & Van de Grift, 2002; Roeleveld, 2003; Wijnstra, Ouwens & Béguin, 2003). Deze onderzoekingen leveren
12
een reeks aanpakken op die verschillen in de adekwaatheid waarmee de toegevoegde waarde van scholen bepaald kan worden. In de meest eenvoudige aanpak wordt uitsluitend gebruik gemaakt van de achtergrondkenmerken van leerlingen (zoals opleiding en herkomst van ouders) in combinatie met eindtoetsgegevens. Deze aanpak wordt op het moment door veel scholen gebruikt. Het Cito heeft de populatie van basisscholen op grond van de samenstelling van de achtergronden van hun leerlingenpopulatie in zeven groepen ingedeeld. Voor elk van deze zeven schoolgroepen bepaalt het Cito elk jaar de gemiddelde score op de ‘Eindtoets Basisonderwijs’ en een daarbij behorende bandbreedte. Het Cito informeert de basisscholen jaarlijks of hun opbrengsten binnen of buiten deze bandbreedte vallen. Veel basisscholen gebruiken deze gegevens in de verantwoording van hun opbrengsten. Deze meest eenvoudige aanpak is erg praktisch, maar heeft beperkingen. Een technisch gezien betere variant van deze meest eenvoudige aanpak is gebaseerd op regressie-analyse. Hiermee wordt nagegaan welke verschillen tussen scholen in eindtoetsscores resteren, nadat rekening is gehouden met verschillen in achtergrondkenmerken van leerlingen zoals de opleiding en herkomst van ouders. Op grond hiervan kan vastgesteld worden of de eindopbrengsten van scholen op, onder of boven het niveau liggen dat op grond van deze achtergrondkenmerken verwacht kan worden. Een aanpak waarin naast een eindtoets gebruik gemaakt wordt van een of meer begintoetsen heeft een grotere voorspellende waarde dan een aanpak die op de achtergrondkenmerken van leerlingen gebaseerd is (zie: Roeleveld, 2003; Wijnstra, Ouwens & Béguin, 2003). Deze aanpak is daarom adekwater. Gezien het feit dat een groot aantal basisscholen op dit moment reeds een begintoets gebruikt in groep 2 verdient het aanbeveling om hiervan gebruik te maken. Met een combinatie van achtergrondkenmerken én begintoets(en) stijgt de voorspellende waarde nog weer iets (vergelijk: Roeleveld, 2003; Wijnstra, Ouwens & Béguin, 2003). Ook deze gecombineerde aanpak is in principe bij een groot aantal basisscholen mogelijk. Wanneer aan deze combinatie-aanpak ook nog eens intelligentie, motivatie, werkhouding en concentratie toegevoegd worden, wordt de voorspellende waarde nog weer een fractie groter (Brandsma & Knuver, 1989; Bosker & Witziers, 1996; Reezigt, Houtveen & Van de Grift, 2002; Wijnstra, Ouwens & Béguin, 2003). De toename in voorspellende waarde is echter klein omdat de effecten van intelligentie, motivatie en dergelijke voor een belangrijk deel al verdisconteerd zijn in de beginmeting. Het zal duidelijk zijn dat de aanpak voor de bepaling met toegevoegde waarde die de meeste door scholen niet beïnvloedbare kenmerken bevat, niet alleen de zuiverste bepaling van de toegevoegde waarde is, maar ook het meeste werk oplevert. De vraag is ook of dat zou moeten. In praktijk zijn we doorgaans niet geïnteresseerd om tot achter de komma de toegevoegde waarde van scholen te berekenen. In praktijk zijn we vooral geïnteresseerd in de vraag op welke scholen de leerlingen echt meer of echt minder presteren dan verwacht kon worden op grond van hun achtergrondkenmerken en de aanvangskennis en vaardigheden waarmee zij begonnen. En dat moet verantwoord en fair gebeuren. Het voorafgaande maakt inzichtelijk dat dat met een aanpak waarin een begintoets wordt gebruikt duidelijk beter gaat dan wanneer dit
13
gebeurt met een aanpak waarin uitsluitend gebruik gemaakt wordt van de achtergrondkenmerken van leerlingen. In de bijlagen wordt dit aan de hand van een rekenvoorbeeld verder toegelicht. De validiteit van toegevoegde waarde In een studie van Verhelst, Staphorsius en Kleintjes (2001) wordt een waarschuwing geuit bij de validiteit van de bepaling van toegevoegde waarde zoals die ook hier uiteengezet is. Om problemen te voorkomen, bepleiten zij daarom om naast de bovenbedoelde bepaling van toegevoegde waarde een onafhankelijke check voor de kwaliteit van scholen te hanteren. Zo’n validiteitscontrole kan gebaseerd worden op de resultaten van diverse onderzoekingen naar de effectiviteit van basisscholen. In deze onderzoekingen (zie bijvoorbeeld: Brandsma & Knuver, 1989; Bosker & Witziers, 1996; Reezigt, Houtveen & Van de Grift, 2002) en aan de hand van de door de inspectie verzamelde gegevens is geprobeerd vast te stellen wat de bijdrage van school- en klasfactoren kan zijn aan de resultaten van de leerlingen. Het blijkt dat school- en klasfactoren tot maximaal ongeveer een kwart van de verschillen in toetsresultaten van leerlingen kunnen verklaren. Bij deze schoolfactoren kan onder meer gedacht worden aan het aanbieden van een leerstofaanbod dat dekkend is voor de kerndoelen, specifieke vormen van uitleg en instructie zoals directe instructie, het differentiëren van instructie en uitleg, en het aanleren van leer- en denkstrategieën, het stellen van hoge verwachtingen aan leerlingen, het regelmatig toetsen van de prestaties van leerlingen en niet op de laatste plaats het treffen van specifieke maatregelen bij leerlingen die dreigen achter te lopen bij hun leeftijdgenoten. Dit zijn onder meer de zaken waarmee een school een toegevoegde waarde kan leveren die boven het niveau uitstijgt dat op grond van de beginmeting en andere aanvangskenmerken verwacht kan worden. Niet voor niets worden in de wet op het onderwijstoezicht niet alleen de opbrengsten, maar ook de inrichting van het onderwijsleerproces genoemd als hoofdonderdelen van het periodiek kwaliteitsonderzoek van de inspectie. Daardoor kan het kwaliteitsoordeel dat op de toegevoegde waarde gebaseerd is gevalideerd worden met het oordeel over de inrichting van het onderwijsleerproces. De stabiliteit van toegevoegde waarde Wijnstra, Ouwens en Béguin (2003) ontdekten dat de resultaten van de bepaling van de toegevoegde waarde voor dezelfde scholen tussen de jaren 2002 en 2003 aanzienlijk verschilden. Dit hoeft voor de interne evaluatie van scholen geen probleem te zijn. Anders ligt dit wanneer scholen hun resultaten naar buiten verantwoorden. Daarom is het beter om de bepaling van de toegevoegde waarde niet op één jaar te baseren, maar liever over een reeks van enkele jaren.
14
4
CONCLUSIE
Meer dan 90 procent van de door de inspectie in 2002 bezochte basisscholen was in staat om betrouwbare, landelijk genormeerde gegevens over de resultaten van hun leerlingen aan het eind van het basisonderwijs te overleggen. Ruim driekwart van de basisscholen is op dit moment zelfs goed in staat om over een reeks van jaren hun eigen bijdrage aan de eindresultaten van hun leerlingen te verantwoorden aan de hand van een eenvoudige procedure voor het bepalen van toegevoegde waarde. Deze eenvoudige procedure is gebaseerd op het relateren van gegevens over de achtergrondkenmerken van leerlingen (zoals opleiding en herkomst van ouders) aan de eindresultaten van leerlingen na acht jaar basisonderwijs. Basisscholen die naast een eindtoets ook goede en landelijk genormeerde toetsen gebruiken aan het begin van en gedurende het basisonderwijs, zijn in staat om hun opbrengsten veel adekwater te verantwoorden dan scholen die uitsluitend over een eindtoets en achtergrondgegevens van leerlingen beschikken. Uit gegevens van de inspectie blijkt dat driekwart van de basisscholen vaak al jaren een begintoets gebruikt bij de overgang van leerlingen van groep 2 naar groep 3. Bij de in 2002 door de inspectie bezochte basisscholen bleek verder dat bijna 70 procent van de scholen over toetsgegevens beschikt over de resultaten bij taal én rekenen in groep 2/3, 4 en 6. Een groot aantal basisscholen is dan ook in principe in staat om hun toegevoegde waarde te bepalen en te verantwoorden met behulp van een begintoets. Er doet zich hierbij echter een aantal praktische problemen voor, die met specifieke maatregelen heel goed opgelost kunnen worden. Een aantal scholen werkt met een of meer verouderde toetsen die niet of niet recent landelijk genormeerd zijn. Daardoor, en dat is het eerste probleem, kunnen deze toetsgegevens niet gebruikt worden voor het betrouwbaar bepalen van de toegevoegde waarde. Deze scholen zouden geholpen zijn met hulp bij het kiezen van begin- en eindtoetsen die bij hun eigen schoolconcept en hun onderwijskundige aanpak passen en die voldoen aan eisen van betrouwbaarheid, validiteit en landelijke normering. Het tweede praktische probleem is dat veel basisscholen hun toetsresultaten niet gedurende langere tijd systematisch bewaren. Basisscholen kunnen hierbij geholpen worden met hiervoor aangepaste versies van geautomatiseerde leerlingvolgsystemen. Het derde praktische probleem is dat het basisscholen aan voorzieningen en aanwijzingen ontbreekt over hoe zij de toegevoegde waarde van hun onderwijs kunnen bepalen. Het is goed mogelijk om hieraan tegemoet te komen door het treffen van aanpassingen in de toetshandleidingen en vooral ook in de geautomatiseerde leerlingvolgsystemen die steeds meer scholen zijn gaan gebruiken. Het vierde probleem betreft de mobiliteit die gedurende acht jaar basisonderwijs optreedt in de leerlingenpopulatie van een basisschool. Dit kan op sommige scholen zo omvangrijk zijn dat het aanbeveling verdient om de toegevoegde waarde stapsgewijs (bijvoorbeeld om de twee of om de vier jaar) te bepalen. Dat voorkomt niet
15
alleen dat tussentijdse leerlingeninstroom en -uitstroom een verantwoorde waardebepaling in de weg staan, maar dit biedt ook mogelijkheden voor schoolleiders en besturen om een gedifferentieerd beeld te krijgen van de toegevoegde waarde in de onder-, midden-, en bovenbouw van hun basisschool. Dit biedt vervolgens weer goede mogelijkheden voor de interne kwaliteitszorg van scholen. Het vijfde probleem betreft het feit dat de toegevoegde waarde voor dezelfde scholen per jaar kan variëren. Dat maakt het van belang dat de bepaling van de toegevoegde waarde niet op één jaar wordt gebaseerd, maar bij voorkeur over een reeks van enkele jaren wordt bepaald. Kortom op voorwaarde dat een vijftal op zich oplosbare praktische problemen opgelost wordt, is het goed mogelijk om met behulp van een begintoets die de meeste scholen die reeds gebruiken de toegevoegde waarde van scholen te bepalen. Daarbij is het wel belangrijk dat het verantwoorden van de toegevoegde waarde niet leidt tot een technologische schoolafstandelijke aanpak waarbij de scholen de grip op hun eigen resultaten verliezen. Juist in het verantwoordingsgesprek zoals dat met de inspectie plaats vindt, kan doorgevraagd worden op punten als migratie van leerlingen, uitstroom naar het speciaal (basis)onderwijs, zittenblijven, het aantal leerlingen dat aan de toets heeft deelgenomen, en de condities waaronder de toetsafnames plaatsvonden. In dat verantwoordingsgesprek kan ook rekening gehouden worden met bijzondere omstandigheden waarmee elke school nu eenmaal te maken heeft. Zo hebben bijvoorbeeld kleine scholen een grotere variabiliteit in hun gemiddelde opbrengsten. In het verantwoordingsgesprek met de inspectie kan bovendien de toegevoegde waarde van een school gerelateerd worden aan de kenmerken van de inrichting van het onderwijsleerproces. Dat is niet alleen belangrijk om het oordeel over de toegevoegde waarde te valideren, maar ook om de school te kunnen stimuleren om haar zwakke punten te verbeteren en haar sterke punten te behouden.
16
LITERATUUR Evers, A., Van Vliet-Mulder, J.C. & Groot, C.J. (2000). Documentatie van tests en testresearch in Nederland. Assen: Van Gorcum. Evers, A., Van Vliet-Mulder, J.C., Resing, W.C.M., Starren, J.C.M.G., Van Alphen de Veer, R.J. & Van Boxtel, H. (2002). COTAN testboek voor het onderwijs. Lochem: NDC Boom. Dijkstra, A.B., Karsten, S., Veenstra, R & Visscher, A. (2001). Het oog der natie: scholen op rapport. Assen: Van Gorcum . Bosker, R.J. & Witziers, B. (1996). The magnitude of school effects, or: Does it really matter which school a student attends? Paper presented at the annual meeting of the American Educational Research Association, New York. Brandsma, H.P.& Knuver, J.W.M. (1989). Effects of school and classroom characteristics on pupil progress in language and arithmetic’s. International Journal of Educational Research, 13, 777-788. Inspectie van het Onderwijs (2003). Onderwijsverslag over het jaar 2002. Utrecht: Inspectie van het onderwijs. Onderwijsraad (2003). Wat scholen toevoegen. Den Haag: Onderwijsraad. Resing, W.C.M., Evers, A., Koomen, H.M.Y., Pameijer, M.K. Bleichrodt, N. &Van Boxtel, H. (2002). Indicatiestelling: condities en instrumentarium in het kader van leerlinggebonden financiering. Lochem: NDC Boom. Reezigt, G.J., Houtveen, A.A.M. & Van de Grift, W.J.C.M. (2002). Ontwikkelingen in en effecten van adaptief onderwijs. Groningen/Utrecht: GION/ISOR. Roeleveld, J. (2003). Herkomstkenmerken en begintoets. Secundaire analyses op het PRIMA-cohortonderzoek. Amsterdam: Kohnstamminstituut. Van de Grift, W. (2000). Hoe kan ik de opbrengst van mijn school bepalen? Basisschoolmanagement, 13 (8), 12-22. Van de Grift, W. (2001). Waarom hebben sommige scholen onderprestatie? Basisschoolmanagement, 15 (1), 1-9. Wijnstra, J., Ouwens, M. & Béguin, A. (2003). De toegevoegde waarde van de basisschool. Arnhem: Citogroep. Verhelst, N., Staphorsius, G. & Kleintjes, F. (2001). Scholen langs de meetlat. De Psycholoog, 36 (12), 658-664. Zaal, J.N. (1978). Sociaal emotioneel gedrag in de klas. Groningen: Wolters-Noordhoff.
17
18
BIJLAGE
I
SAMENSTELLING PROJECTGROEP
dr. W.J.C.M. van de Grift mw. dr. J.H. Kordes dr. B.F. Milo mw. drs. M.S.L. Swanborn
19
20
BIJLAGE
II
VOORBEELD VOOR HET BEPALEN VAN TOEGEVOEGDE WAARDE
In hoofdstuk 3 is aangegeven dat diverse modellen voor het bepalen van toegevoegde waarde verschillen in adekwaatheid waarmee de toegevoegde waarde berekend kan worden. In deze bijlage wordt geprobeerd om dit met een voorbeeld inzichtelijk te maken. Onderstaande tabel bevat een overzicht van de resultaten van 29 basisscholen bij vier modellen voor het bepalen van de toegevoegde waarde. De toegevoegde waarde van basisscholen bij verschillende modellen model met: alleen milieu alleen milieu, etniciteit en en etniciteit beginmeting beginmeting school 1 -1.15 -.77 -.77 2 -.71 -.86 -.57 3 -.50 -.59 -.64 4 -.33 -.22 -.19 5 -.31 -.47 -.34 6 -.30 -.55 -.61 7 -.29 -.29 -.29 8 -.27 -.73 -.45 9 -.23 -.15 -.23 10 -.17 -.30 -.30 11 -.13 -.22 -.22 12 -.07 .07 .29 13 -.05 .05 .00 14 -.04 .08 .04 15 .14 .36 .36 16 .20 -.33 -.07 17 .25 .25 .25 18 .25 .35 .35 19 .33 .06 .00 20 .33 .22 .11 21 .33 .67 .67 22 .35 .57 .48 23 .35 .10 .25 24 .38 -.10 .05 25 .43 1.14 1.07 26 .62 .77 .77 27 .67 .67 .67 28 .83 .78 .83 29 .94 1.06 1.06
milieu, etniciteit, beginmeting, sekse en intelligentie -.77 -.57 -.68 -.19 -.31 -.55 -.29 -.45 -.15 -.30 -.22 .14 .05 .00 .43 -.07 .25 .20 .00 .11 .67 .52 .25 .05 1.14 .77 .67 .67 1.00
Dit aantal van 29 scholen is te klein om op grond hiervan conclusies te trekken over de situatie in heel Nederland. Dit voorbeeld is dan ook alleen bedoeld om de verschillen tussen deze vier modellen te verduidelijken. In hoofdstuk 2 en hoofdstuk 4 is aangegeven dat wij er de voorkeur aan geven om de toegevoegde waarde op verschillende momenten in het basisonderwijs te bepalen. Omwille van de eenvoud wordt in deze bijlage het voorbeeld alleen uitgewerkt voor een begintoets en een eindtoets en niet met tussentijdse toetsen.
21
Voor elk van de vier modellen wordt in de tabel aangegeven wat het verschil is tussen de verwachte waarde en de feitelijk aangetroffen waarde op een eindtoets. Het is verstandig om alleen aan grote verschillen, d.w.z. verschillen groter dan 1 of –1 standaardscore , waarde te hechten in termen van ‘toegevoegde waarde’, of van ‘onderprestatie’. Bij de scholen die binnen deze bandbreedte vallen, spreken we van ‘op niveau’. In het eerste model wordt de verwachte waarde op de eindtoets gespecificeerd met behulp van het milieu en de etniciteit van de leerlingen. We constateren dat in dit model op één school (nr 1) in het betreffende jaar sprake is van onderprestatie. Hier is de feitelijke toetsuitslag aan het eind meer dan een hele standaardscore lager dan wat verwacht kon worden op grond van de sociaal-economische en etnische achtergronden van de leerlingen. (Let wel: Dit is onderprestatie gedurende één jaar. Zoals opgemerkt in hoofdstuk 2, geven wij er de voorkeur aan om het eindoordeel ‘onderprestatie’ pas te gebruiken wanneer deze situatie gedurende drie jaar voortduurt.) In het tweede model wordt de verwachte waarde op de eindtoets voorspeld op grond van een begintoets. In dit voorbeeld is de toets ‘Ordenen’ van het Cito als begintoets gebruikt. We zien nu een paar opvallende zaken. We constateren allereerst dat school nr 1 nu nog maar driekwart standaardscore lager scoort, dan het niveau dat verwacht kon worden op grond van de scores op de begintoets. De school blijft ook in dit tweede model tot de zwakste scholen behoren, maar er blijkt bij dit zuiverder model geen sprake te zijn van onderprestatie. Verder zien we dat bij dit model met een begintoets nu twee scholen (nr 25 en nr 29) toegevoegde waarde blijken te hebben, terwijl op grond van de procedure op grond van milieu en etniciteit alleen maar zichtbaar werd, dat deze scholen weliswaar tot de vijf beste scholen behoren, maar niet dat hier sprake was van toegevoegde waarde. (Ook hier merken we op dat we er de voorkeur aan geven om het eindoordeel ‘toegevoegde waarde’ pas te gebruiken wanneer deze situatie gedurende drie jaar voortduurt.) Juist omdat we weten dat dit model adekwater is dan het eerste model wordt duidelijk dat met het eerste model drie scholen tekort gedaan is. School nr 1 is met het eerste model te negatief beoordeeld. Nogmaals het blijft een van de zwakste scholen in deze groep van 29, maar de school was niet zo zwak als we op grond van het eerste model dachten. Voor de scholen nr 25 en nr 29 had het oordeel positiever kunnen zijn. Ze blijken op grond van dit tweede model niet alleen tot de beste vijf te behoren. Ze hebben ook toegevoegde waarde. In het derde model wordt de verwachte waarde op de eindtoets bepaald door de combinatie van milieu, etniciteit en begintoets. We zien dat de verschillen tussen verwachte waarde en daadwerkelijke waarde op de eindtoets maar weinig veranderen ten opzichte van model 2. Scholen die op grond van model 2 ‘op niveau’ lagen, liggen dat nu nog en ook de scholen die op grond van model 2 ‘toegevoegde waarde’ of ‘onderprestatie’ hadden, hebben dat nu nog. Dat is ook in overeenstemming met de geringere extra vooruitgang die met deze combinatie geboekt kan worden.
Hier wordt het statistische begrip standaardscore bedoeld en niet de standaardscore op de Eindtoets Basisonderwijs van het CITO.
22
In het vierde model wordt de verwachte waarde op de eindtoets bepaald door milieu, etniciteit, sekse en intelligentie. Voor de bepaling van intelligentie is de ‘Analogieëntoets’ uit de SON-r gebruikt. Ook hier zien we dat er ten opzichte van het tweede model nog maar weinig veranderingen optreden. We kunnen constateren dat de vooruitgang in nauwkeurigheid die met het model waarin ook intelligentie wordt meegenomen maar klein is. Dat is erg praktisch, want het systematisch verzamelen van intelligentiegegevens brengt nogal wat problemen en bezwaren met zich mee. Het is echter voorbarig om de conclusie te trekken dat dit derde en vierde model tè weinig verbetering oplevert. Het gaat in het voorbeeld immers om slechts 29 scholen. Wanneer gewerkt wordt met de populatie van ruim 7000 basisscholen, komen er ongetwijfeld verbeteringen aan het licht die voor individuele scholen van belang zijn. Belangrijk is echter vooral dat we kunnen concluderen dat een model voor het bepalen van de toegevoegde waarde van scholen waarin gewerkt wordt met een beginmeting adekwater is, dan een model dat alleen op het milieu en de etniciteit van de leerlingen gebaseerd is.
23