Ped.Studie-1-02 28-01-2002 09:30 Page 5
Dalende leerlingprestaties op de centraal schriftelijke examens Duits, Engels en Frans in mavo, havo en vwo? E. van Schooten en K. de Glopper
Samenvatting Onlangs rapporteerde het Cito op grond van haar equivaleringsprocedure dalende trends in de prestaties voor de centraal schriftelijke examens Duits mavo-D, Frans mavo-D, Duits havo, Frans havo, Engels vwo en Frans vwo. In een studie die oorspronkelijk was bedoeld om deze dalende trends te verklaren, is een replicatie verricht van het equivaleringsonderzoek van het Cito. In het onderzoek werden de door het Cito gerapporteerde dalende trends niet gerepliceerd. De onderzoeksresultaten geven aanleiding tot twijfel aan de bruikbaarheid van de centraal schriftelijke examens moderne vreemde talen voor kwaliteitsbewaking op systeemniveau.
1 Inleiding De centraal schriftelijke eindexamens in het voortgezet onderwijs worden sinds jaar en dag door het Cito geconstrueerd. Het centraal schriftelijk is inmiddels zo ingeburgerd, dat gemakkelijk vergeten wordt hoe kort de geschiedenis ervan is en welke problemen de door het Cito geconstrueerde examens moesten oplossen. Nog in 1966 schreef A.D. de Groot in “Vijven en zessen” over permanente selectie met rekbare maatstaven als het meest fundamentele euvel in ons onderwijssysteem. Als remedie bepleitte De Groot de introductie van objectieve studietoetsen en de oprichting van een nationaal instituut voor de ontwikkeling daarvan. In 1968 werd aan de eerste 14 experimentele havo’s eindexamen afgenomen: voor de moderne vreemde talen gebeurde dat in de vorm van meerkeuzetoetsen (Wesdorp, 1979). In 1968 werd ook het Cito opgericht. Het instituut en het gebruik van objectieve studietoetsen hebben sindsdien een hoge vlucht genomen. Dat valt goed te begrijpen tegen het licht van het belang dat de eindexamens voortgezet onderwijs hebben.
Aan examens worden gebruikelijk functies onderscheiden die met de leerling, het onderwijsproces en het onderwijssysteem samenhangen. De op de leerling en diens schoolloopbaan gerichte functies betreffen selectie (het uitzeven van de “besten”), kwalificatie (het meten aan een standaard) en prognose (het voorspellen van succes in een vervolgtraject). Onder de procesgerichte functies rekent men de afsluitingsfunctie (het voltooien van een opleiding), de operationalisatiefunctie (het concretiseren van de doelstellingen) en de didactische functie (het verkrijgen van informatie ter sturing van het voorafgaande onderwijs). Tot de systeemfuncties behoren beheersfuncties, zoals bijvoorbeeld verdeling van middelen en bewaking van kwaliteit. Kwaliteitsbewaking door handhaving van het niveau van het onderwijs is een examenfunctie die voor de overheid van cruciaal belang is. Niveaubewaking vraagt om niet-rekbare maatstaven. Immers, alleen wanneer examens van jaar tot jaar geëquivaleerd zijn, kan vastgesteld worden of het niveau van opeenvolgende cohorten examenkandidaten aan verandering onderhevig is. Van equivalering is sprake, wanneer de scores op één examen omgezet worden in de scores die behaald zouden zijn op een ander examen. Over methoden voor het vaststellen van de equivalentie van examens, of toetsen in het algemeen, bestaat een omvangrijke literatuur (Engelen & Eggen, 1993). Deze betreft toepassingen van zowel de klassieke testtheorie als de itemresponstheorie. Voor de centraal schriftelijke eindexamens moderne vreemde talen gebruikt het Cito in de regel het zogenaamde Ankertoetsdesign. In haar procedures vergelijkt het Cito prestaties op een examen van een betreffend jaar ter ijking met prestaties op een referentie-examen: een examen uit het (recente) verleden voor dezelfde taal en hetzelfde schooltype. Van de uitkomsten van haar normhandhavingsprocedures doet het Cito jaarlijks ver-
5 PEDAGOGISCHE STUDIËN 2002 (79) 5-17
Ped.Studie-1-02 28-01-2002 09:30 Page 6
6 PEDAGOGISCHE STUDIËN
slag (bijv. Alberts, 1997; Robben, 1997). Deze rapportages geven aan dat de leerlingprestaties bij het centraal schriftelijk examen Duits en Frans in havo en vwo de laatste jaren dalen. Tot deze constatering komt de CEVO, de Centrale Examencommissie Vaststelling Opgaven. De dalende prestaties lijken geen eenmalig verschijnsel te zijn, maar betreffen drie verschillende leerjaren en lijken door geluiden uit het onderwijsveld bevestigd te worden (Van Schooten, 1998). De door de CEVO geconstateerde daling heeft wat betreft het havo examen Duits aanleiding gegeven tot een studiemiddag met Citomedewerkers, het examenconstructieteam, de CEVO vaksectie Duits en vertegenwoordigers van de verzorgingsstructuur en de VLLT (Vereniging van Leraren in Levende Talen) en tot een gesprek met een aantal methodologen. In de door de CEVO georganiseerde expertmeetings is een aantal mogelijke verklaringen voor de geconstateerde verschijnselen geopperd. Deze betreffen factoren die samenhangen met de samenstelling van het examen zelf (vraagtypen, tekstlengte, complexiteit van teksten en vragen), met veranderingen in de examenpopulatie (instroom, keuzegedrag van leerlingen bij scholen met goede en slechte examenresultaten, gemeten over een aantal leerjaren) en met de inrichting van het onderwijs (waaronder leer- en hulpmiddelen bij goed en slecht presterende scholen). Het Ministerie van OC&W vindt de daling, en met name de scores in 1996, dusdanig zorgwekkend dat het nader inzicht in de aard en omvang van het geconstateerde verschijnsel noodzakelijk acht. Het heeft het Nationaal Bureau Moderne Vreemde Talen verzocht onderzoek te doen uitvoeren naar factoren die de geconstateerde ontwikkeling kunnen verklaren, om zo gerichte interventies mogelijk te helpen maken. Over dit onderzoek doen wij in dit artikel verslag. Een uitvoeriger verslag van het onderzoek (Van Schooten, Hoijtink & De Glopper, 1999) is, samen met commentaren van het Cito en van onafhankelijke deskundigen, gepubliceerd als bijlage bij het advies dat het Nationaal Bureau Moderne Vreemde Talen naar aanleiding van het onderzoek aan het Ministerie van OC&W heeft uitgebracht (Nationaal Bureau Moderne Vreemde Talen, 2000).
De normhandhavingsprocedure van het Cito vormt de basis van de door de CEVO geconstateerde prestatiedaling. Bij deze procedure en bij de praktische toepassing ervan kunnen vraagtekens gezet worden. Deze worden in de volgende paragraaf nader uiteengezet. Hier is het van belang op te merken dat zij dermate gewichtig zijn, dat zij nopen tot een onderzoeksopzet die het mogelijk maakt de vermeende daling van de examenprestaties empirisch te onderzoeken. Wij zijn daarom allereerst nagegaan of de vermeende daling van leerlingprestaties op de centraal schriftelijke eindexamens moderne vreemde talen bij een onafhankelijke replicatie aangetoond kan worden. Ter verruiming van de interpretatiecontext zijn Duits, Engels en Frans in het onderzoek betrokken, en de examens van zowel mavo, havo als vwo. Hierdoor kunnen wij nagaan of eventuele dalingen specifiek zijn voor bepaalde combinaties van talen en schooltypen. In het onderzoek is de equivalentie van de examens van 1994 en 1997 bestudeerd. Bij steekproeven van leerlingen uit de mavo-, havo- en vwo-examenpopulaties 1999 zijn zowel de examens Duits, Engels en Frans van 1994 afgenomen, als de betreffende examens uit 1997. Omdat equivalering van examens alleen mogelijk is wanneer de betreffende toetsen dezelfde vaardigheid meten (Angoff, 1971), luidt de eerste specifieke onderzoeksvraag als volgt: meten, voor de verschillende combinaties van talen en schooltypen, de examens uit 1994 en 1997 één en dezelfde vaardigheidsdimensie? Of, wanneer sprake is van meerdimensionaliteit: meten, voor de verschillende combinaties van talen en schooltypen, de examens uit 1994 en 1997 hetzelfde samenstel van vaardigheden? Wanneer voor de verschillende examens één van deze vragen in bevestigende zin beantwoord kan worden, is de tweede specifieke onderzoeksvraag aan de orde: Is, voor de verschillende combinaties van talen en schooltypen, de moeilijkheid van de examens uit 1994 en 1997 dezelfde? Vervolgens wordt, ten derde, de vraag beantwoord hoe de examenprestaties voor de verschillende combinaties van talen en schooltypen van de populaties uit 1994, 1997 en 1999 zich ontwikkelen.
Ped.Studie-1-02 28-01-2002 09:30 Page 7
Indien de examenprestaties van de examenleerlingen uit de voornoemde populaties een dalende trend vertonen, is als vervolg de vraag naar de verklaring aan de orde. In hoeverre kan een eventuele daling van de leerlingprestaties van de afgelopen jaren verklaard worden door factoren die samenhangen met de samenstelling van het examen, de examenpopulatie en de inrichting van het onderwijs? Wellicht ten overvloede: vaststelling van de vermeende daling gaat in de door ons gekozen onderzoeksopzet vooraf aan verder verklarend onderzoek. Immers, eerst wanneer duidelijk is dát er daadwerkelijk sprake is van een daling, is verklarend onderzoek aan de orde.
2 Vraagtekens bij de normhandhavingsprocedure Het Cito heeft enkele jaren geleden rapporten uitgebracht (Alberts, 1997, 1998) waarin gesteld wordt dat de leerlingprestaties op de centraal schriftelijke examens in 1997 voor Duits mavo-D, Frans mavo-D, Duits havo, Frans havo, Engels vwo en Frans vwo lijken te verslechteren. Deze trends zijn bepaald door de examenresultaten van 1997 te vergelijken met de prestaties behaald door de examenleerlingen op de referentie-examens, na correctie van de resultaten middels de normhandhavingsprocedure. Als referentie-examens zijn centraal schriftelijke examens gebruikt die zijn afgenomen van 1989 tot en met 1995. Welke examens als referentieexamen gebruikt worden, wordt geheim gehouden. In een inspectierapport waarin de normering van examens wordt geëvalueerd, wordt de aanbeveling geformuleerd om uit te gaan van een “zo concreet mogelijke verantwoording ... van de kennis en vaardigheden die in het examen worden getoetst” (Inspectierapport, 1992, p. 2), oftewel de dimensionale structuur van de toets. Op een verzoek in het kader van dit onderzoek bleek het Cito echter geen taxonomie van getoetste vaardigheden voor de examens uit 1994 en 1997 te kunnen leveren. Alberts (1997, 1998) rapporteert evenmin gegevens over de dimensionaliteit van de examens, terwijl Eggen en Sanders
(1993, p. 344) stellen dat tekstbegripexamens voor de vreemde talen vrijwel altijd een beroep doen op meerdere vaardigheden, en dus meerdere dimensies bevatten. Als de examens meerdimensionaal blijken in de populatie waarvoor ze bestemd zijn, moeten eventuele trends in de examenscores eigenlijk apart per dimensie bepaald worden. Het is immers denkbaar dat de relatieve verhouding van verschillende dimensies in de examens voor één vak in verschillende examenjaren niet gelijk is. Een examen in een bepaald jaar kan bijvoorbeeld moeilijker lijken (of leerlingprestaties slechter) dan in een voorafgaand jaar, doordat het een groter beroep doet op een slechter beheerste vaardigheid en een minder groot beroep op een andere, relatief beter beheerste vaardigheid. Het Cito vergelijkt de scores op een referentie-examen en een nieuw examen door delen van beide examens af te nemen in gescheiden steekproeven uit een andere populatie dan waarvoor de examens bedoeld zijn (mavo-D en havo door respectievelijk 3 en 5 vwo) (Alberts, 1997). Dit is een variant op het eerder genoemde Ankertoetsdesign (Eggen & Sanders, 1993). De correctie van de examenscores, zodanig dat de prestaties op het referentie-examen en het nieuwe examen vergelijkbaar zijn, geschiedt op basis van gegevens die met deze afname verkregen worden. Deze procedure stoelt op de aanname dat beide examens unidimensionaal zijn (één vaardigheid meten) en ook dat zij beide dezélfde dimensie of vaardigheid betreffen en dat in zowel de doelpopulatie (bijv. examenleerlingen havo Duits), als in de referentiepopulatie, als in de populatie die voor de ijking gebruikt wordt (leerlingen in 3 of 5 vwo). Indien examens meerdimensionaal zijn, kan een dergelijke ijking alleen valide verricht worden indien zij apart per dimensie plaatsvindt bij een steekproef uit de doelgroep, want de dimensionaliteit kan afhankelijk zijn van de populatie. Om na te gaan welke dimensies de examens bevatten, zou het dus beter zijn om het referentie-examen en het nieuwe examen beide geheel bij één en dezelfde steekproef uit de doelpopulatie af te nemen. Ook Eggen en Sanders (1993) geven aan dat de dimensionaliteit problemen kan geven
7 PEDAGOGISCHE STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 8
8 PEDAGOGISCHE STUDIËN
bij de equivalering van twee examens tekstbegrip. Zij stellen voor een Raschmodel te gebruiken om de equivalentie te bepalen, daar itemresponsmodellen met meer dan één parameter in feite meerdimensionaliteit impliceren. In de door hun voorgestelde procedure passen zij alle vragen uit beide te equivaleren examens in het Raschmodel. De vragen die niet passen worden vervolgens verwijderd, zodat de resterende vragen een passend model opleveren. Vervolgens past men opnieuw het Raschmodel op de eerst niet-passende vragen. Wederom haalt men de niet passende vragen weg, zodat er een tweede Raschhomogene schaal ontstaat, enzovoorts. Het moge duidelijk zijn dat met een dergelijke procedure op kans gekapitaliseerd wordt. Bij een volgende afname bestaat de kans dat gevonden dimensies gaan verschuiven of niet meer voorkomen. Een ander bezwaar van deze procedure is dat de dimensies alleen achteraf inhoudelijk benoemd kunnen worden. Een dergelijke ‘ad hoc’ benoeming zonder theoretische sturing is riskant, omdat het risico van verkeerde inhoudelijke interpretatie groot is. Verder levert het Raschmodel geen toets van unidimensionaliteit; het model veronderstelt slechts unidimensionaliteit. Door Eggen en Sanders (1993) wordt overigens niet op deze problemen ingegaan; zij suggereren na de correctie uiteindelijk weer één score per examen op te kunnen leveren. De relatieve bijdragen van de verschillende gevonden dimensies aan de scores worden dus niet geëxpliciteerd. Onduidelijk is overigens ook hoe een procedure die uitgaat van meerdimensionaliteit, zoals beschreven door Eggen en Sanders, toegepast kan worden in een Ankertoetsdesign, waarbij respondenten slechts delen van examens maken. De moeilijkheid van beide te equivaleren examens moet apart geschieden per gevonden dimensie (of Raschhomogene schaal). Dit betekent dat de schalen over beide examens heen ‘gefit’ moeten worden. Respondenten moeten dus beide examens maken, en wel geheel, daar op voorhand niet bekend is welke schalen tevoorschijn zullen komen. De correctie in de scores moet dus ook apart per dimensie verricht worden. Het is denkbaar dat leerlingen op één dimensie
vooruitgaan en op een andere achteruit. Rapporteren van één gecorrigeerde score is bij meerdimensionaliteit onvolledig en zeker indien men de relatieve bijdragen van de verschillende dimensies aan de totaalscore niet verantwoord. De normhandhavingsprocedure voor de examens moderne vreemde talen wordt beschreven door Robben (1997). Zij haalt kritiek van de Inspectie aan, die luidt dat gelijke prestaties op examens in onvoldoende mate gelijk beloond worden. Robben stelt dat deze kritiek, gegeven de beschreven procedure, voor de moderne vreemde talen niet meer opgaat. Gezien het bovenstaande lijkt deze conclusie echter voorbarig.
3 Opzet van het onderzoek 3.1 Instrumenten
Voor het onderzoek zijn de uit 1994 en 1997 stammende centraal schriftelijke eindexamens (versie 1) moderne vreemde talen Duits (Berger & Keilson-Lauritz, 1998a, 1998b,1998c), Engels (Frieling & CookBodegom, 1998a, 1998b, 1998c) en Frans (Marin, 1998a, 1998b, 1998c) voor mavo-D, havo en vwo gebruikt. Al deze examens bestaan uit teksten in de vreemde taal waarbij vragen gesteld worden over de inhoud van de tekst. Deze vragen worden voor het merendeel in meerkeuzevorm gesteld met meestal vier antwoordalternatieven. De teksten bevatten gemiddeld ongeveer 400 woorden en gaan vergezeld van ongeveer 8 à 13 vragen, al komen kortere teksten met minder vragen ook voor. De meerkeuzevragen en de antwoordalternatieven zijn meestal eveneens gesteld in de vreemde taal. Een uitzondering zijn de mavo-D examens Engels en Frans waarbij de eerste 10 of 11 vragen en antwoordalternatieven bij zeer korte teksten in de vreemde taal staan en de vragen en antwoordalternatieven in het Nederlands zijn gesteld. In alle examens heeft een enkele tekst geen vragen, maar open plekken. Bij de antwoordalternatieven staan woorden, waarbij de leerling moet aangeven welk woord op de open plek moet worden ingevuld (Clozetoetsen). Bij de examens Frans worden bij enkele teksten de Nederlandse vertalingen
Ped.Studie-1-02 28-01-2002 09:30 Page 9
van maximaal drie moeilijke woorden gegeven. Elk examen bevat 50 vragen. 3.2 Leerlingen
Om de onderzoeksvragen te kunnen beantwoorden zijn bij steekproeven van mavo-, havo- en vwo-leerlingen uit de examenpopulaties voor de vreemde talen van 1999 de examens Duits, Frans en Engels van 1994 en 1997 afgenomen. De afnamen vonden plaats in de maanden maart en april van 1999. Dit methodologisch gezien sterkste design wordt in Eggen en Sanders (1993) het Single Group Design genoemd. Eggen en Sanders geven aan dat dit design om praktische redenen (afnameduur, vermoeidheid bij afname op één moment, volgorde-effecten, organisatieproblemen) niet uitvoerbaar is. Voor het onderhavige onderzoek gelden deze praktische bezwaren echter niet. Het examen 1994 en het examen 1997 zijn op verschillende, in tijd dicht bij elkaar liggende dagen, afgenomen. Om volgorde-effecten te neutraliseren, zijn de docenten vrijgelaten in de keus welk examen het eerst werd afgenomen. Omdat veel docenten oude examens gebruiken als oefenmateriaal, is de leerlingen gevraagd aan te geven of zij een van beide examens al eerder gemaakt hadden. In de onderstaande rapportage wordt vermeld bij welke analyses de leerlingen zijn verwijderd die aangeven een examen al eerder gemaakt te hebben. Via het Ministerie van OC&W is een bestand verkregen van alle scholen voor mavo, havo en vwo in Nederland. Dit bestand is gesplitst in drie aparte bestanden, één voor elk schooltype, waaruit drie verschillende steekproeven van ‘random’ getrokken scholen zijn getrokken, te weten 91 scholen met een mavo-afdeling, 90 scholen met een havo-afdeling en 79 scholen met een vwo-afdeling. Van al de getrokken scholen zijn de directies en de sectievoorzitters van de drie talensecties aangeschreven met het verzoek om één docent per taal met één examenklas aan het onderzoek deel te laten nemen. De responspercentages bleken laag. Op schoolniveau bedragen deze 11 tot 32 %. De aantallen deelnemende leerlingen per combinatie van taal en schooltype (zie Tabel 1) lopen van 126 (havo Frans) tot 730 (mavo Engels). De aantallen leerlingen die aange-
ven geen van beide examens (1994 en 1997) eerder gemaakt te hebben, lopen van 64 (havo Frans) tot 388 (mavo Engels). Gedetailleerde informatie over de respons is te vinden in Van Schooten, e.a. (1999). Daar ten tijde van de afname van de onderzoeksinstrumenten nog niet bekend was welke mavo-leerlingen op C- en welke op D-niveau examen zouden gaan doen, konden in de gebruikte mavo-steekproeven niet uitsluitend mavo-D-kandidaten geselecteerd worden. In deze steekproeven zijn dus C- en D-kandidaten opgenomen. De populatiegegevens die zijn gebruikt voor het onderhavige onderzoek (de scores van de examenpopulaties op de examens van 1994 en 1997, afkomstig van het Cito) betreffen alleen de mavo-D-kandidaten. 3.3 Analysemethode
Met de aldus verkregen data is apart voor de verschillende talen en schooltypen de dimensionaliteit van de examens 1994 en 1997 ineens onderzocht. Hiertoe zijn exploratieve factoranalyses en covariantiestructuuranalyses (Bollen, 1989) verricht. Om de moeilijkheid van de examens uit 1994 en 1997 te kunnen vergelijken en om te bepalen of er stijgende of dalende trends in de prestaties van examenleerlingen uit 1994, 1997 en 1999 zijn, is per combinatie van taal en schooltype de passing bepaald van Rasch- en OPL-modellen (Verhelst, Glas & Verstralen, 1995) en zijn de gemiddelde prestaties vergeleken van de examenpopulaties uit 1994 en 1997 en van de steekproeven van examenleerlingen uit 1999. De resultaten van dit deel van het onderzoek bleken verdere analyses gericht op het achterhalen van mogelijke oorzaken voor neerwaartse trends in prestaties van de verschillende examenpopulaties overbodig te maken.
4 Resultaten
9 PEDAGOGISCHE
4.1 De betrouwbaarheid van de examens
Voorafgaand aan analyses gericht op de dimensionaliteit van de examens, zijn betrouwbaarheidsanalyses verricht. Eerst is de homogeniteit van de examens bepaald, omdat een
STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 10
10 PEDAGOGISCHE STUDIËN
redelijke homogeniteit een noodzakelijke voorwaarde is voor het op valide wijze sommeren van items, zoals nu bij de examens gebeurt. Daarnaast geeft de homogeniteit een grove index van de mate van unidimensionaliteit. Vervolgens zijn equivalentiecoëfficiënten bepaald om per taal en schooltype na te gaan in hoeverre examens uit 1994 en 1997 geacht kunnen worden hetzelfde te meten. In De Groot en Van Naerssen (1969) wordt als norm voor de betrouwbaarheid (als equivalentiecoëfficiënt) van een studietoets .90 genoemd. Daar wordt echter bij gezegd dat de homogeniteit minder mag zijn (.75-.80), als we ervan uitgaan dat de te toetsen stof niet homogeen is, maar uit verschillende vaardigheden of dimensies bestaat. Wel moet dan de relatieve bijdrage van elke dimensie aan de somscore inhoudelijk verantwoord worden. De homogeniteiten (KR20) van de examens, die steeds 50 items bevatten, lopen in de steekproeven voor de examens uit 1994 van .77 tot .85 en voor de examens uit 1997 van .73 tot .87. Deze coëfficiënten zijn gebaseerd op data van leerlingen die aangaven geen van beide examens eerder gemaakt te hebben, waarbij de steekproefgrootte (N) loopt van 64 tot 388. Berekend op de populatiedata lopen de homogeniteiten van de examens uit 1994 van .76 tot .83 en de examens uit 1997 van .74 tot .84 (N loopt van 8538 tot 50638). De homogeniteiten voor de steekproeven en voor de populatiedata komen sterk overeen. Voor individuele selectie, zoals het geval is bij examens, zijn ze aan de lage kant. Dit hoeft geen bezwaar te zijn als de equivalentiecoëfficiënten van de examens hoog genoeg zijn. Om de equivalentiecoëfficiënten te schatten, zijn aan de hand van de data van de leerlingen in de steekproeven die aangaven geen van beide examens eerder gemaakt te hebben, de correlaties berekend tussen de somscores voor de examens van 1994 en 1997. Deze correlaties lopen van .35 (vwo Duits) tot .67 (mavo Frans) (Van Schooten, e.a., 1999), veel lager dus dan de norm van .90 die De Groot en Van Naerssen (1969) stellen. Nu is het denkbaar dat de in de steekproeven gevonden equivalentiecoëfficiënten lager zijn dan die in de populatie. De respons van de steekproeven is laag en de condities waaron-
der de steekproeven de examens maakten, wijken af van die van echte examens. Met name de motivatie van de leerlingen zou minder groot kunnen zijn, waardoor de raadkans een grotere rol zou gaan spelen. Om deze reden zijn ook equivalentiecoëfficiënten geschat aan de hand van de populatiedata. Hiertoe zijn per examen correlaties berekend over de somscores van respectievelijk de eerste 25 en de laatste 25 items. Met behulp van de formule voor parallelle testverlenging (Allen & Yen, 1979, p. 64) zijn vervolgens de gevonden correlaties omgerekend naar de verwachte correlaties tussen hele in plaats van halve examens. Deze omgerekende equivalentiecoëfficiënten lopen voor de 18 onderzochte examens (mavo, havo en vwo; Duits, Engels en Frans; 1994 en 1997) van .73 tot .82. Deze coëfficiënten zijn beduidend hoger dan die voor de steekproeven, maar nog steeds lager dan de norm. 4.2 De dimensionaliteit van de examens
De dimensionaliteit van de examens is onderzocht via exploratieve en toetsende factoranalyse. Omwille van het onderscheidend vermogen zijn ook de leerlingen die aangeven dat zij één of beide examens eerder gemaakt hebben in de analyses betrokken. Het gebruik van de gehele steekproeven is gerechtvaardigd, omdat de homogeniteiten van de totale steekproeven, die een grove index vormen van de mate van unidimensionaliteit, vaak hoger zijn dan die van de steekproeven waaruit de leerlingen zijn verwijderd die een examen al eerder maakten. De exploratieve factoranalyses zijn gebaseerd op de goed/fout-scores op de items van beide examens (dus 100 in totaal) en zijn verricht met het programma Mplus (Muthén & Muthén, 1998), waarbij rekening is gehouden met het categorische karakter van de data. Het aantal factoren met een eigenwaarde groter dan één is aanzienlijk: de examens 1994 en 1997 bevatten voor alle talen en schooltypen tussen 34 en 39 factoren. Omdat een aantal van 20 tot 30 factoren gezien het aantal items viel te verwachten (Tabachnick & Fidell, 1996, p. 672), is ook gekeken naar de sterkte van de eerste factor en naar het verschil tussen de door de eerste en tweede fac-
Ped.Studie-1-02 28-01-2002 09:30 Page 11
tor verklaarde variantie (Hambleton & Swaminathan, 1985, p. 157). De eigenwaarden van de eerste factoren verklaren 12 tot 18% van de variantie. Deze percentages zijn laag. Wel blijken de eerste factoren veel meer variantie te verklaren dan de tweede (en opvolgende) factoren, behalve voor vwo Engels waar het examen twee vrijwel gelijkwaardige “hoofdfactoren” kent. Opvallend is verder dat de tweede (en hogere) factoren (voor vwo Engels de derde en hogere factoren) elk zeer weinig variantie verklaren (veelal minder dan 5%). Deze factoren hebben ieder voor zich dus weinig invloed op de somscores, maar gezamenlijk wel veel meer dan de eerste factor. Er is voorts gekeken naar de ladingen van de items op de eerste factor. In navolging van Comrey en Lee (1992) beschouwen wij factorladingen onder .32 (10% verklaarde itemvariantie) als indicatie voor het (vrijwel) ontbreken van een relatie met de factor. Items met ladingen vanaf .32 karakteriseren wij als slecht, vanaf .45 als redelijk, vanaf .55 als goed, van .63 als erg goed en boven .71 als uitmuntend. Voor de verschillende soorten examens hangen 22 tot 56 van de 100 items niet betekenisvol samen met de eerste factor. Redelijk tot goed is 9 tot 22 procent van de items. De meerderheid van de items heeft ladingen tussen .32 en .55 en is slecht tot redelijk te noemen. De dimensionaliteit is ook via toetsende factoranalyses onderzocht, opnieuw met Mplus. Omdat er, gegeven de omvang van de steekproeven, bij toetsende factoranalyses over 100 items (beide examens) teveel parameters geschat moeten worden, zijn de analyses per examen tweemaal verricht: één keer over de oneven en één keer over de even items. Er is 18 keer een éénfactormodel getoetst over de geselecteerde even, danwel oneven items. Om niet teveel op kans te kapitaliseren is als grens gekozen voor een kritische ratio (gestandaardiseerde factorlading gedeeld door de standaardfout) van minstens 2.52 (Jöreskog & Sörbom, 1988). Voor de bepaling van de significantie van de factorvariantie geldt het “gewone” criterium van 1.65 als grens (5% éénzijdig). Het éénfactormodel past voor 13 van de 18 itemverzamelingen niet. Twee toetsen bleken niet te kunnen worden verricht doordat
de oplossing niet convergeert binnen 1000 iteraties. Drie toetsen wijzen op een goede passing. Het betreft de even items voor mavo Frans en de even en oneven items voor vwo Frans. Wel moet opgemerkt worden dat hier exacte fit wordt getoetst, wat een vrij streng criterium inhoudt. Toetsing van close fit (MacCallum, Browne, & Sugawara, 1996) is echter niet mogelijk met categorische data. Wanneer we, gelet op de steekproefgrootte, als criterium voor redelijke fit stellen dat de ratio van χ2 en het aantal vrijheidsgraden niet groter mag zijn dan twee, blijken de meeste itemverzamelingen redelijk in het éénfactormodel te passen. Kijken we naar de factorladingen van de items, dan wordt het beeld negatiever. Zeer veel items laden niet significant op de factor. Van de 100 items blijven er voor de verschillende soorten examens 22 tot 63 over. Alleen havo Engels levert een positieve uitzondering, waar slechts 4 van de 100 items (één even, drie oneven) niet significant op de factor blijken te laden. Na verwijdering van de items zonder significante factorlading zijn de factorvarianties van de passende itemselecties klein. De exploratieve en de confirmatieve factoranalyses geven aanleiding tot de conclusie dat de examens hoofdzakelijk unidimensionaal lijken. Bij exploratie is de eerste factor voor alle examens (op één na) duidelijk de belangrijkste factor. Bij toetsing blijkt dat de items voor elk soort examen matig tot redelijk passen binnen een éénfactormodel. Teleurstellend is dat de ladingen van veel items laag zijn. De eerste factor verklaart bovendien een beperkt deel van de totale variantie. Een zinvol onderscheid van meer dan één factor per soort examen is echter niet mogelijk. Daarvoor verklaren de tweede en volgende factoren te weinig variantie en zijn de factorladingen van de items op deze factoren te laag. 4.3 De moeilijkheid en de equivalentie van de examens
Om de moeilijkheid van de examens te vergelijken en om trends in de gemeten vaardigheid van de examenleerlingen uit 1994, 1997 en 1999 te kunnen bepalen, zijn itemresponsmodellen ‘gefit’ op de items van de verschil-
11 PEDAGOGISCHE STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 12
12 PEDAGOGISCHE STUDIËN
lende soorten examens. Voor de analyses is gebruik gemaakt van het programma OPLM (Verhelst, e.a., 1995). Na initiële analyses is de voorkeur gegeven aan het OPL-model, waarin de bijdrage van een item aan de somscore afhankelijk is van de vraagbetrouwbaarheid. Het Raschmodel, waarin elk goed antwoord één punt oplevert, blijkt alleen voor vwo Duits en havo Frans te passen (met een significantieniveau van 10%). Het OPLmodel past voor alle negen itemverzamelingen en zes keer (vrijwel) perfect. Om na te gaan of de examens uit 1994 en 1997 even moeilijk zijn, worden in Tabel 1 de prestaties van de leerlingen uit de steekproef op de examens uit beide jaren vergeleken. De vergelijking heeft betrekking op de leerlingen die aangaven geen van beide examens eerder gemaakt te hebben. Voor ieder type examen is voor beide jaren bepaald hoeveel procent van het totaal aantal punten (berekend met OPLM) de leerlingen behalen. Vervolgens is het absolute verschil tussen het gemiddelde percentage OPL-punten voor de examens 1997 en 1994 bepaald. Ook is de correlatie tussen de OPL-scores op de examens uit 1994 en 1997 berekend. De vergelijking van het percentage behaalde punten is aangevuld met een vergelijking van het percentage voldoendes. Daarbij is rekening gehouden met de in de praktijk van 1994 en 1997 gehanteerde cesuren. Bepaald is welk percentage leerlingen een 5.5 of hoger heeft behaald, met gebruikmaking van de scoring zoals gesuggereerd door het OPL-model. Voor het vertalen van de cesuur naar de OPLM-scoring is uitgegaan van een gelijk percentage behaalde punten. Vervolgens is het absolute verschil tussen het percentage voldoendes voor de examens 1997 en 1994 bepaald. Ten slotte is nagegaan welk percentage van de leerlingen in de steekproef slaagt voor één van de twee examens en zakt voor het andere examen. Het percentage leerlingen dat slechts voor één van beide examens slaagt, kan men opvatten als het percentage verkeerde classificaties. Percentages leerlingen die voor beide examens zakken, danwel slagen, kan men opvatten als terechte classificaties. Deze benadering levert een ondergrens van het werkelijke percentage foute classificaties.
Het is immers ook mogelijk dat een leerling die voldoende vaardig is voor beide examens onterecht zakt, of dat een leerling die in werkelijkheid onvoldoende vaardig is voor beide examens onterecht slaagt. Uit Tabel 1 blijkt dat er drie examens zijn (mavo Frans, havo Frans en vwo Engels) waarvan de gemiddelde percentages behaalde OPL-punten 5% of meer uit elkaar liggen. Zoals al aangegeven bij de bespreking van de betrouwbaarheid van de examens, zijn de correlaties tussen de percentages behaalde punten op de examens 1994 en 1997 aan de lage kant. Verder blijkt dat de percentages voldoendes op de examens 1994 en 1997 1 tot 20% (!) uit elkaar liggen. Kijken we ten slotte naar de percentages foute classificaties, dan blijkt éénvijfde tot ruim éénderde van de leerlingen die een voldoende halen op één van beide examens een onvoldoende te halen op het andere examen. Op basis van de verschillen in de percentages behaalde punten zou men kunnen concluderen, dat er tussen de examens uit 1994 en 1997 weinig grote verschillen in moeilijkheid zijn. Aan de lage correlaties tussen de behaalde punten is echter te zien dat de examens voor de steekproeven niet equivalent zijn. Na verdiscontering van de cesuur blijken de examens in een aantal gevallen sterk in moeilijkheidsgraad te verschillen. Ook de percentages foute classificaties geven aan, dat aan de aanname van equivalentie van de examens getwijfeld moet worden. 4.4 Trends in de vaardigheid in tekstbegrip Duits, Engels en Frans van de examenpopulaties van 1994 en 1997
De voorgaande analyses hebben laten zien dat een rechtstreekse vergelijking van de prestaties van de examenpopulaties uit 1994 en 1997 niet verantwoord is. In het onderstaande worden trends in de vaardigheid tekstbegrip Duits, Engels en Frans daarom niet rechtstreeks bepaald, maar pas na equivalering van de examens met behulp van het OPL-model. Met OPLM zijn de populatiedata uit 1994 en 1997 en de data van de steekproef van examenkandidaten van 1999 geanalyseerd. Aangezien de steekproef uit 1999 alle items van de examens uit 1994 en 1997 heeft beantwoord, is deze steekproef gebruikt
Ped.Studie-1-02 28-01-2002 09:30 Page 13
Tabel 1 Vergelijking tussen prestaties op de examens 1994 en 1997. Absoluut verschil tussen gemiddelde percentages behaalde OPL-punten (∆%OPL), correlatie tussen OPL-scores (rOPL), absoluut verschil tussen percentage voldoendes berekend met OPLM (∆%vold) en percentage fout geclassificeerde proefpersonen berekend met OPLM (%mis). (De gegevens hebben betrekking op leerlingen die de examens niet eerder maakten)
als anker om de OPLM-schalingen van de items uit 1994 en 1997 te equivaleren. Het resultaat levert per taal en schooltype een ééndimensionale schaal voor alle respondenten en beide examens. Zo kunnen de vaardigheden van de populaties uit 1994 en 1997 en de steekproef uit 1999 worden vergeleken, per examen op basis van de totale verzameling van 100 items. Met behulp van de module OPDRAW uit OPLM is gecontroleerd of er sprake is van itemdrift. Op een paar uitzonderingen na, die gezien hun geringe aantal heel goed het gevolg van toeval kunnen zijn, zijn er geen indicaties voor itemdrift gevonden. Het lijkt er dus op dat de items uit 1994 eenzelfde rangschikking naar moeilijkheidsgraad kennen voor de populatie 1994 en voor de steekproef uit 1999, en eveneens dat de items uit 1997 eenzelfde rangschikking naar moeilijkheidsgraad kennen voor de populatie uit 1997 en de steekproef uit 1999. In Tabel 2 staan voor de steekproef uit 1999 en de populaties uit 1994 en 1997 de gemiddelde vaardigheid (theta) en daarachter tussen haakjes de variantie van de vaardigheid weergegeven. In Tabel 2 valt op dat de gemiddelde vaardigheid voor de steekproef uit 1999 voor alle combinaties van talen en schooltypen lager is dan voor de populaties uit 1994 en 1997. Hierbij moet wel bedacht worden dat voor mavo in de steekproeven C- en D-kandidaten voorkomen en in de populaties alleen D-kandidaten. Verder geldt dat de respons van de steekproeven niet bijster hoog is (11 tot 32% op schoolniveau), zodat de generaliseerbaarheid naar de examenpopulatie 1999 niet ge-
garandeerd lijkt. En tot slot verschillen de afnamecondities waaronder de steekproeven uit 1999 de examens maakte van de afnamecondities waaronder de populaties examen deden. Het is zeer waarschijnlijk dat de leerlingen in de steekproeven minder hun best deden dan zij op een echt examen zouden hebben gedaan. Voor de schakeling van de populatiegegevens uit 1994 en 1997 leveren de mavo C-kandidaten, verschillen in afnamecondities en lage respons minder problemen. Als de leerlingen in de steekproeven oplossingsprocessen hanteren bij het beantwoorden van de vragen die vergelijkbaar zijn met die van de leerlingen die examen deden in 1994 en 1997, wordt de equivalering van de examens niet negatief beïnvloed door de drie voornoemde bezwaren. Gezien het ontbreken van itemdrift mogen we aannemen dat bedoelde oplossingsprocessen inderdaad vergelijkbaar zijn. Hieruit volgt dat de vergelijking van de populatiegegevens uit 1994 en 1997 de betrouwbaarste indicaties geven voor een eventuele ontwikkeling in de vaardigheid van de examenpopulaties over jaren heen. Ter vergemakkelijking van de interpretatie zijn de theta’s voor de examenpopulaties omgerekend naar het verwachte aantal goede antwoorden op de 100 items van beide examens samen. Hierbij is gebruik gemaakt van de hellingen van de itemkarakteristieke curven en de itemmoeilijkheden zoals berekend met OPLM. Uit Tabel 2 blijkt dat wij voor Duits eenmaal een vooruitgang vinden. Voor mavo Duits bedraagt deze 2.6% van de 100 items, wat vertaald kan worden in 1.3 correc-
13 PEDAGOGISCHE STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 14
te antwoorden op 50 items. Voor Duits vinden we verder tweemaal een achteruitgang (havo 1.4 en vwo 3.4 correcte antwoorden op 50 items). Voor Engels is het beeld omgekeerd: eenmaal een achteruitgang (mavo 2.6 correcte antwoorden op 50 items) en tweemaal een vooruitgang (havo 3.6 en vwo 1.3 correcte antwoorden op 50 items). Voor Frans is eenmaal sprake van achteruitgang (mavo 2.7 correcte antwoorden op 50 items), en tweemaal van vrijwel gelijkblijvende prestaties (havo en vwo). Voor geen van de drie schooltypen of talen vinden we uitsluitend stijgingen of uitsluitend dalingen. Gegeven deze resultaten is afgezien van onderzoek naar verklaringen van neergaande trends.
5 Discussie In de inleiding werd aangehaald dat uit rapporten van het Cito bleek dat de leerlingprestaties op de centraal schriftelijke examens in 1997 voor Duits mavo-D, Frans mavo-D, Duits havo, Frans havo, Engels vwo en Frans vwo lijken te verslechteren ten opzichte van de prestaties op de referentie-examens (Alberts, 1997, 1998). De resultaten van het hier gerapporteerde onderzoek wijken af van de door Alberts gerapporteerde resultaten. De verschillen zijn dat wij voor Duits mavo-D geen achteruitgang maar een vooruitgang constateren (1.3 correcte antwoorden op 50 items), Frans havo gaat niet achteruit maar blijft vrijwel gelijk (0.1 correcte antwoorden lager op 50 items), Engels vwo gaat niet achteruit, maar vooruit (1.3 correcte antwoorden
op 50 items) en Frans vwo gaat niet achteruit, maar blijft vrijwel gelijk (.03 correcte antwoorden lager op 50 items). Uit de OPLMschalingsgegevens blijkt verder dat de gemiddelde prestaties van de populaties van 1994 naar 1997 vooruit gaan voor havo Engels (3.6 correcte antwoorden op 50 items) en achteruit gaan voor havo Duits (1.2 correcte antwoorden op 50 items), vwo Duits (3.4 correcte antwoorden op 50 items), mavo Engels (2.6 correcte antwoorden op 50 items) en mavo Frans (2.7 correcte antwoorden op 50 items). We vinden dus drie keer een stijging in de prestaties van 1994 naar 1997, vier keer een daling en twee keer vrijwel gelijkblijvende resultaten. Voor geen van de drie schooltypen of talen vinden we uitsluitend stijgingen of uitsluitend dalingen. Voor onderzoek naar verklaringen van neergaande trends vinden wij derhalve onvoldoende aanleiding. Duidelijk is dat van de trendbepaling gerapporteerd door Alberts (1997, 1998) en die verricht door ons er minstens één onjuiste resultaten geeft. Hierover valt op te merken dat hoewel wij in veel opzichten eenzelfde equivaleringsprocedure hanteerden als die beschreven in Alberts, er wel enkele verschillen zijn. Ten eerste gebruiken wij een steekproef uit de doelpopulatie, namelijk examenkandidaten ten tijde van de examenafnames. Het Cito gebruikt voor de equivalering steekproeven van leerlingen uit vwo 3 en 5. Zowel in ons onderzoek als bij het Cito zijn de afnamecondities niet gelijk aan de examencondities. Ten tweede nemen wij beide examens in het geheel af in de steekproeven die als anker gebruikt worden om de populatiedata te scha-
Tabel 2 Gemiddelde vaardigheid of theta van de examenpopulaties uit 1994 en 1997 en de steekproeven uit de examenpopulatie van 1999, varianties in de theta’s (tussen haakjes) en verwachte percentages goed gemaakte vragen (E%c) op beide examens van een gemiddeld vaardige leerling uit 1994 en 1997
14 PEDAGOGISCHE STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 15
kelen, zodat de factor- en OPLM-analyses op de gehele dataset ineens verricht kunnen worden. Controle van itemdrift laat overigens zien dat de schattingen van de itemparameters voor onze steekproeven en de examenpopulaties gelijk zijn. Zowel bij ons onderzoek als bij de equivalering van het Cito wordt uitgegaan van unidimensionaliteit. Een voorbehoud bij de door ons gerapporteerde trends is echter wel op zijn plaats. De schakeling van de populatiedata van examenleerlingen uit 1994 en 1997 is verricht met behulp van het OPL-model. Dit model veronderstelt, zoals gezegd, unidimensionale data. Of daarvan sprake is, is echter de vraag. Uit de exploratieve factoranalyses bleek dat er in ieder tweetal examens veel factoren zijn met een eigenwaarde groter dan één, maar ook dat de eerste factor acht van de negen keer veel meer variantie verklaart dan de tweede of volgende factoren. Uit de toetsende factoranalyses bleek dat de eenfactormodellen over 50 even, danwel oneven items uit twee examens matig passen. Bij toetsing van exacte ‘fit’ worden de modellen verworpen, maar de ratio van de χ2 en het aantal vrijheidsgraden is in de meeste gevallen kleiner dan twee. Wij concludeerden op grond hiervan dat hoewel de examens uit zeer veel dimensies lijken te bestaan, het bij een analyse gericht op het lokaliseren van trends in de prestaties niet zinvol is meer dan de eerste factor te beschouwen, omdat de overige factoren te weinig variantie binden. Wel moet aangetekend worden dat de eerste factor zelf ook weinig variantie bindt (11.7 tot 17.7%). Gezien het lage percentage verklaarde variantie kan men zich afvragen of de examens wel in voldoende mate meten wat beoogd wordt. Laten we ervan uitgaan dat de eerste factor aspecten meet die behoren tot de leesvaardigheid in de vreemde taal, zoals bijv. woordkennis en grammaticale kennis. De vraag is dan wat de tweede en volgende factoren representeren. Het is denkbaar dat hiermee algemene intelligentie en kennis van de wereld gemeten worden. Omdat een theoretische verantwoording van de examens van 1994 en 1997 ontbreekt, de ladingen van items op factoren erg laag zijn en er geen duidelijke patronen te vinden zijn van items die hoog op één en laag op alle andere factoren
laden om zo een factor inhoudelijk te kunnen duiden, komen wij hier niet verder dan een ‘ad hoc’ interpretatie. De eerder aangehaalde opmerking van de Inspectie dat examens geconstrueerd moeten worden aan de hand van een duidelijke op theorie gestoelde taxonomie van te meten vaardigheden, lijkt ons nog steeds relevant. Het Cito en het Ministerie van OC&W gebruiken examenresultaten voor kwaliteitsbewaking op systeemniveau. Ons onderzoek roept twijfels op over de mate waarin de centraal schriftelijke examens moderne vreemde talen daarvoor bruikbaar zijn. Voor kwaliteitsbewaking op systeemniveau is nodig dat examens geëquivaleerd zijn. Wij hebben geequivaleerd, onder de betwistbare aanname van unidimensionaliteit, om tenminste een uitspraak over trends te kunnen doen. Van equivalering waarbij recht gedaan wordt aan meerdimensionaliteit hebben we afgezien, omdat bruikbare modellen en theoretische sturing ontbreken. Het Nationaal Bureau moderne vreemde talen schreef aan het Ministerie van OC&W op grond van onze studie en de commentaren daarop van Cito en onafhankelijke deskundigen het volgende advies: “De veronderstelde trend werd waargenomen in een onderwijstype dat aan het uitsterven is. In de tweede fase van het v.o. is zich een ander soort onderwijs aan het ontwikkelen. Het NaB adviseert daarom om, gelet op de complexiteit van het probleem, niet op het spoor van de vermeende niveaudaling in de inmiddels achterhaalde situatie door te gaan. Het daarvoor benodigde onderzoek zou waarschijnlijk betrekkelijk veel geld kosten, dat naar ons oordeel nu beter besteed kan worden aan zorg voor de kwaliteit van het nieuwe onderwijs. Het lijkt ons efficiënter en effectiever om uit de voorliggende rapportages zoveel mogelijk lering te trekken bij het inrichten, verzorgen en monitoren van het programma van toetsing en afsluiting in de nieuwe tweede fase. Waarschijnlijk zal de invoering van het Europees referentiekader (EFR) het in de niet al te verre toekomst makkelijker maken om de ontwikkeling van de niveaus te monitoren en te vergelijken met de resultaten in andere landen. Het thans lopende project van CITO en SLO waarbij de bestaande examens aan dit
15 PEDAGOGISCHE STUDIËN
Ped.Studie-1-02 28-01-2002 09:30 Page 16
referentiekader worden gerelateerd, kan daaraan een goede bijdrage leveren. Een dergelijk beleid spoort ook goed met de besluiten van de Europese onderwijsministers in Lissabon, voorjaar 2000, over de kwaliteitsverbetering door benchmarks.” (Nationaal Bureau Moderne Vreemde Talen, 2000, z.p.). Uit het feit dat de examens in hun huidige vorm verdwijnen, mag niet afgeleid worden dat de resultaten van ons onderzoek geen relevantie hebben voor de toekomst. Het Nationaal Bureau Moderne Vreemde Talen onderkent dit wanneer het stelt dat er uit het onderzoek en de commentaren erop lering getrokken moet worden. Welke lering blijft in het advies echter in het midden. De suggestie dat het Europees referentiekader (Common European Framework, 1996) kan dienen als taxonomie van te meten vaardigheden in examens lijkt erg optimistisch. Het European Framework is in feite geen taxonomie van (vreemde) taalvaardigheid, maar een taxonomie van taalhandelingen in specifieke taalgebruiksituaties. Bij de uitvoering van een onderdeel van deze taxonomie zijn meerdere (cognitieve) vaardigheden in het geding. Ook de claim van het framework dat aan de verschillende categorieën een moeilijkheidsgraad te koppelen is, roept allerlei vragen op. De problemen van meerdimensionaliteit die de equivalering van de huidige examens bemoeilijken, zullen bij toepassing van het European Framework alleen maar groter worden. Het valt daarom te verwachten dat binnen het vreemde-talenonderwijs de spanning tussen de doelstellingen van het onderwijs en de mogelijkheden van het examen in de nabije toekomst verder zal toenemen.
Washington, DC: American Council on Education. Berger, J., & Keilson-Lauritz, M. (1998a). Examenbundel vwo Duits 1991/1998. Leiden: Onderwijspers. Berger, J., & Keilson-Lauritz, M. (1998b). Examenbundel havo Duits 1991/1998. Leiden: Onderwijspers. Berger, J., & Keilson-Lauritz, M. (1998c). Examenbundel mavo Duits 1991/1998. Leiden: Onderwijspers. Bollen, K.A. (1989). Structural Equations with Latent Variables. New York: Wiley. Comrey, A.L., & Lee, H.B. (1992). A first course in factor analysis. (2nd Ed.) Hillsdale, NJ: Erlbaum. Eggen, T.J.H.M., & Sanders, P.F. (Eds) (1993). Psychometrie in de praktijk. Arnhem: Cito. Engelen, R.J.H., & Eggen, T.J.H.M. (1993). Equivaleren. In T.J.H.M. Eggen & P.F. Sanders (red.), Psychometrie in de praktijk (pp.309-348). Arnhem: Cito. Frieling, M.M.C., & Cook-Bodegom, G.P.H. (1998a). Examenbundel vwo Engels 1991/1998. Leiden: Onderwijspers. Frieling, M.M.C., & Cook-Bodegom, G.P.H. (1998b). Examenbundel havo Engels 1991/1998. Leiden: Onderwijspers. Frieling, M.M.C., & Cook-Bodegom, G.P.H. (1998c). Examenbundel mavo Engels 1991/1998. Leiden: Onderwijspers. Groot, A.D. de, & Naerssen, R.F. van (1969). Studietoetsen. Construeren, afnemen, analyseren. Den Haag: Mouton. Groot, A.D. de (1966). Vijfen en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: Wolters-Noordhoff. Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory. Principles and Applications. Dordrecht: Kluwer. Inspectierapport (1992). Examens op punten getoetst. Onderzoek naar de ontwikkeling van de
Literatuur
normen bij de centrale examens in het Voortgezet Onderwijs. Den Haag: MOC&W.
Alberts, R.V.J. (1997). Verslag normhandhaving examens vbo/avo/vwo 1994-1997. Arnhem: Cito.
16 PEDAGOGISCHE STUDIËN
Alberts, R.V.J. (1998). Examens vbo/mavo/havo/vwo 1998. Arnhem: Cito.
Jöreskog, K.G., & Sörbom, D. (1988). LISREL VII: A Guide to the Program and Applications. Chicago: SPSS-Inc. MacCallum, R.C., Browne, M.W., & Sugawara, H.M.
Allen, M.J., & Yen, W.M. (1979). Introduction to
(1996). Power Analysis and Determination of
Measurement Theory. Monterey, Ca: Brooks/
Sample Size for Covariance Structure Modeling.
Cole Publishing Company. Angoff, W.H. (1971). Scales, Norms, and Equivalent Scores. In R.L. Thorndike (Ed.), Educational Measurement. Second Edition (pp.508-600).
Psychological Methods, 1 (2), 130-149. Marin, C. (1998a). Examenbundel vwo Frans 1991/ 1998. Leiden: Onderwijspers. Marin, C. (1998b). Examenbundel havo Frans 1991/
Ped.Studie-1-02 28-01-2002 09:30 Page 17
1998. Leiden: Onderwijspers.
Auteurs
Marin, C. (1998c). Examenbundel mavo Frans 1991/ 1998. Leiden: Onderwijspers. Muthén, L.K., & Muthén, B.O. (1998). Mplus. The Comprehensive Modeling Program for Applied
Erik van Schooten is senior onderzoeker bij het SCO-Kohnstamm Instituut van de Universiteit van Amsterdam.
Researchers. User’s Guide. Los Angeles. Nationaal Bureau Moderne Vreemde Talen (2000).
Kees de Glopper is hoogleraar Taalbeheersing van
Conclusie en advies m.b.t. het onderzoek naar
het Nederlands aan de Rijksuniversiteit Groningen,
ogenschijnlijk dalende leerlingprestaties op de
Afdeling Taal & Communicatie van de Faculteit der
centraal schriftelijk examens Duits, Engels en
Letteren.
Frans in mavo, havo en vwo. Zonder plaats: zonCorrespondentieadres: SCO-Kohnstamm Instituut,
der uitgever. Raad van Europa, Strasbourg. (1996). Common
Afdeling Toegepast Onderzoek, E. van Schooten,
European Framework of Reference. Retrieved
Posbus 94208, 1090 GE, Amsterdam, e-mail:
1996
[email protected]
from
http://culture.coe.fr/langues/eng/
eedu2.4.html. Robben, H. (1997). Talenexamens: waar ligt de grens? Levende Talen, 524, 578-580.
Abstract
Schooten, A. van (1998). De kwestie. Luistertoetsen te moeilijk? Levende Talen, 531, 372. Schooten, E. van, Hoijtink, H., & Glopper, K. de
Decreasing student achievement scores for the Central Written Exams
(1999). Dalende leerlingprestaties op de centraal
in German, English and French in
schriftelijke examens Duits, Engels en Frans in
lower general, higher general and
mavo, havo en vwo: toetsing en verklaring van
pre-academic secondary education?
waargenomen trends. Amsterdam: SCO-Kohnstamm Instituut van de Universiteit van Amster-
Recently Cito (the Dutch National Educational Tes-
dam.
ting Service) reported declining trends in achieve-
Tabachnick, B.G., & Fidell, L.S. (1996). Using multi-
ment for the Central Written Exams in German and
variate statistics. (3rd Ed). New York: HarperCol-
French for lower and higher general education and in
lins.
English and French for pre-academic secondary
Verhelst, N.D., Glas, C.A.W., & Verstralen, H.H.F.M.
education. In a study originally intended to account
(1995). One Parameter Logistic Model. Arnhem:
for the declining trends, the procedure used by Cito
Cito.
for equating the different exams was replicated. The
Wesdorp, H. (1979). De invloed van objectieve stu-
results reported by Cito were not confirmed. We con-
dietoetsen op het onderwijs. In G.J. Mellenbergh,
clude that average student achievement on the Cen-
R.F. van Naerssen, & H. Wesdorp (red.), Rede als
tral Written Exams cannot be used as a measure of
richtsnoer. Bijdragen over methoden van denken
educational quality.
en werken in de gedragswetenschappen aangeboden aan prof. dr. A.D. de Groot bij zijn afscheid van de Universiteit van Amsterdam (p.281-297). ’s-Gravenhage: Mouton. Manuscript aanvaard: 6 september 2001
17 PEDAGOGISCHE STUDIËN