Cito | Primair en speciaal onderwijs
Cito helpt je inzicht te krijgen in je ontwikkeling en mogelijkheden. Door kennis, vaardigheden en competenties objectief meetbaar te maken en de ontwikkeling er van te volgen, kun je het beste uit jezelf halen, verantwoorde keuzes maken en beter richting geven aan je toekomst. Cito draagt daaraan bij door wereldwijd werk te maken van goed en eerlijk toetsen, vanuit de kernwaarden kundig, toonaangevend, integer, innovatief en betrokken.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 www.cito.nl
Fotografie: Ron Steemers
Wetenschappelijke verantwoording Entreetoets groep 7 Herman van Boxtel, Ronald Engelen, Servaas Frissen en Marleen van Benthem
Wetenschappelijke verantwoording Entreetoets groep 7
Herman van Boxtel Ronald Engelen Servaas Frissen Marleen van Benthem
Cito Arnhem, 2013
1
© Cito B.V. Arnhem (2014) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotokopie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.
2
Inhoud
1
Inleiding
2 2.1 2.2 2.3 2.4 2.4.1 2.4.2 2.4.2.1 2.4.2.2
Uitgangspunten van de toetsconstructie Meetpretentie 9 Doelgroep 9 Gebruiksdoel en functie 10 Theoretische inkadering 11 Inhoudelijk 11 Psychometrisch 12 Opgavenbanken en constructieprocedures De gehanteerde meetmodellen 14
3 3.1 3.2 3.2.1 3.2.2 3.2.3 3.3
Beschrijving van de toets 21 Opbouw en structuur 22 Inhoudsverantwoording 22 Taal 22 Rekenen-Wiskunde 33 Studievaardigheden 39 Kenmerken van de toets: beschrijvende gegevens
4 4.1 4.2 4.3 4.3.1 4.3.2 4.4
Kalibratie en normering 49 De Entreetoets: het specifieke karakter van de normering 49 Kenmerken van Entreetoetsgebruikers in vergelijking met de gehele doelpopulatie Kalibratie 55 De stappen in de kalibratie 55 Evaluatie van de kalibratieprocedure 56 De eigenlijke normering 62
5 5.1 5.2
Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 67 Nauwkeurigheid 69
6 6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 6.3.1 6.3.2
Validiteit 71 Inhoudsvaliditeit 71 Begripsvaliditeit 73 Passing van het meetmodel; psychometrische kwaliteit van de opgaven Structuur 74 Soortgenootvaliditeit; convergente en discriminante validiteit 76 De Entreetoets groep 7: relevante verschillen tussen subgroepen 78 Verschillen tussen subgroepen: DIF-analyses 86 Criteriumvaliditeit 89 De verwachte score op de Eindtoets Basisonderwijs: procedure 89 Analyseresultaten 91
7
Samenvatting
8
Literatuur
5 9
12
44
67
93
97
Bijlagen: normtabellen (omzetting van ruwe naar percentielscores)
3
101
73
50
4
1
Inleiding
Voor u ligt de wetenschappelijke verantwoording van de Entreetoets groep 7. De Entreetoets groep 7 (in deze wetenschappelijke verantwoording soms afgekort tot ET7 of ET7 2010) is een onderdeel van het Cito Volgsysteem primair en speciaal onderwijs. De Entreetoetsen voor groep 5, 6 en 7 vormen samen met de Cito Eindtoets Basisonderwijs en de LVS-toetsen een krachtig instrument om leerlingen in het reguliere basisonderwijs te volgen. De Entreetoets groep 7 is vernieuwd in 2010. De belangrijkste wijzigingen zijn de volgende. – Alle vragen en opdrachten zijn vervangen door nieuwe opgaven. Het type vragen en de samenstelling van de toets is wel zoveel mogelijk gelijk gebleven. Zo zijn de resultaten van leerlingen en school te vergelijken met resultaten uit voorgaande jaren. – Nieuw is ook het aparte Kennismakingsboekje groep 7. Daarin staan voorbeeldopgaven, waarmee leerlingen kunnen kennismaken met het type opgaven en oefenen met het invullen van een antwoordblad. – Ook nieuw is de uitgave van een apart opgavenboekje met optionele taken, Opgavenboekje 2: optionele taken. Dit boekje is een uitbreiding van het onderdeel Taal en betreft de inhoudsgebieden Begrijpend luisteren, Leestempo, Leestekens en Grammatica. Afname van de optionele taken geeft een (nog) completer beeld van de taalvaardigheid van de leerlingen. Alle taken die men minimaal dient af te nemen om een complete rapportage te ontvangen, zijn gebundeld in Opgavenboekje 1: reguliere taken. – De grootste veranderingen in de Entreetoets groep 7 2010 ten opzichte van haar voorganger (2003) betreffen de rapportages. Vanwege veranderingen in de regeling voor leerlinggewichten zijn de rapportages aangepast. De leerlingprofielen worden op papier toegestuurd en alle rapportages zijn digitaal op te vragen met behulp van het computerprogramma RET (Rapportage Entreetoetsen). Dit computerprogramma biedt tal van mogelijkheden voor schoolzelfevaluatie en is voor scholen gratis beschikbaar via Cito Portal. De Entreetoets groep 7 2010 geeft op deze manier nog meer informatie over het niveau van de leerlingen en de resultaten van de school. Deze verantwoording bevat alle informatie die nodig is voor een beoordeling van de kwaliteit van de Entreetoets groep 7 2010. Naast deze verantwoording dient men de volgende producten in de beschouwingen te betrekken: Voor de leerling • Kennismakingsboekje Entreetoets groep 7 • Bronnenboekje kennismakingstaken Entreetoets groep 7 • Opgavenboekje 1: reguliere taken Entreetoets groep 7 • Opgavenboekje 2: optionele taken Entreetoets groep 7 • Bronnenboekje Entreetoets groep 7 • Antwoordblad Entreetoets groep 7 • Eventueel een aangepaste versie voor één of meer leerlingen (zwart-wit, vergroot, braille, Kurzweil, cd of daisy-cd voor auditieve ondersteuning) Voor de leerkracht Een leerkrachtmap met daarin: • Handleiding, inclusief kopieerbladen voor: – Werkkalender – Antwoordblad kennismakingstaken – Kennismakingstaak Leestempo (optionele taak) – Taak 21: Leestempo (optionele taak) • Inhoudsverantwoording Entreetoets groep 7 • Cd voor Begrijpend luisteren Entreetoets groep 7
5
• • • • • •
Kennismakingsboekje Entreetoets groep 7 Bronnenboekje kennismakingstaken Entreetoets groep 7 Opgavenboekje 1: reguliere taken Entreetoets groep 7 Opgavenboekje 2: optionele taken Entreetoets groep 7 Bronnenboekje Entreetoets groep 7 Ouderfolder
Voor ouders • Ouderfolder Op Cito Portal staat: • Rapportageprogramma EntreeToetsen RET; hier zijn alle leerling-, groeps- en schooloverzichten te downloaden. Een testaccount is te vinden via: Login via: https://portal-a.secure.cito.nl/ Loginnaam: test3 Wachtwoord: vm28XX55 Kies: Entreetoets / Rapportage / Start rapportage ET (u bent nu ingelogd als Cito testschool) •
Diverse downloads; zoals: – voorbeeld afnameschema – Toelichting op rapportages – FAQ mbt rapportage – Handleiding invoeren vaardigheidsscores in Computerprogramma LOVS – Goede antwoorden Entreetoets 7 – Errata
De standaard scoringsservice bestaat uit de volgende onderdelen: • Leerlingprofiel op papier (in tweevoud) • Rapportageprogramma EntreeToetsen RET (beschikbaar via Cito Portal) Op het Leerlingprofiel worden percentielen gerapporteerd voor de totaalscore op de Entreetoets, de scores op de hoofdonderdelen Taal, Rekenen-Wiskunde en Studievaardigheden en de scores op de daarbij behorende subonderdelen. De percentielen worden grafisch weergegeven als sterretjes in een vlak. Boven het vlak staan de vijf niveaugroepen (in Romeinse cijfers) die in het Cito Volgsysteem primair en speciaal onderwijs worden gebruikt. Met het digitale Rapportageprogramma EntreeToetsen (RET) kunnen scholen zelf schoolrapporten maken op basis van alle mogelijke selecties van leerlingen. Hierop staat het gemiddeld aantal goed van de laatste drie jaar (vanaf 2010, dit in verband met de invoering nieuwe leerlinggewichten) en het gemiddeld aantal goed per onderdeel en subonderdeel (uitgezonderd de subonderdelen die in de optionele taken aan de orde gesteld worden). Er worden drie soorten schoolrapporten aangeboden; ‘Schoolrapport zonder correctie’, ‘Schoolrapport correctie LG’ (Leerlinggewicht) en ‘Schoolrapport correctie LG BL’ (Leerlinggewicht en Begrijpend lezen). Verder worden in RET verschillende soorten groepsoverzichten aangeboden en zijn in dit rapportageprogramma ook alle Leerlingprofielen digitaal beschikbaar. Het genoemde materiaal maakt een beoordeling van de Entreetoets groep 7 mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie – De kwaliteit van het toetsmateriaal – De kwaliteit van de handleiding
6
– – –
Normen Betrouwbaarheid Validiteit
Deze wetenschappelijke verantwoording heeft met name betrekking op de uitgangspunten van de toetsconstructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de validiteit (hoofdstuk 6). De uitgevoerde analyses hebben betrekking op data die in 2012 met dit instrument zijn verzameld; ook de normering voor 2013 en later is gebaseerd op deze data van 2012. De kwaliteit van het toetsmateriaal en de handleiding is vast te stellen door kennis te nemen van de inhoud van de overige opgesomde producten. Hierbij hoort de kanttekening dat de Entreetoetsen in hun oorspronkelijke opzet geen voorspellende functie hebben. Net als de specifieke LVS-toetsen hebben zij vooral een beschrijvend doel, namelijk een objectief beeld van het kind te geven en zijn voortgang te volgen (zie verder ook de handleiding en de doel- en functieomschrijving in hoofdstuk 2). Daarnaast wordt de Entreetoets groep 7 ook gebruikt als basis voor een zogenoemd Voorlopig Leerlingrapport. Daarbij wordt op basis van de totaalscore op de Entreetoets groep 7 voorspeld wat de score op de Eindtoets Basisonderwijs ongeveer zal zijn: de verwachte standaardscore. Deze werkwijze veronderstelt een empirisch onderbouwde uitstekende voorspelbaarheid van de standaardscore over tijd. Gegevens hierover zijn in hoofdstuk 6 opgenomen in een paragraaf over criteriumvaliditeit. Deze is dus met name bedoeld voor gebruikers die de Entreetoets groep 7 in voorspellende zin willen benutten.
7
8
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
De Entreetoets groep 7 is een zogenoemde school- of leervorderingentoets: de toets meet wat een kind in vergelijking met andere kinderen tot het moment van afname (eind groep 7) in het basisonderwijs geleerd heeft. De inhoud van de Entreetoets sluit daarom nauw aan bij het onderwijsprogramma voor de basisvaardigheden taal, rekenen-wiskunde en studievaardigheden. De opgaven zijn een operationalisering van doelstellingen die door het gehele basisonderwijs worden nagestreefd, zogenoemde communale doelstellingen. In vergelijking met de specfieke LVS-toetsen is de Entreetoets groep 7 een brede leervorderingentoets. De totaalscore is gebaseerd op een brede range aan vaardigheden die enerzijds een aanzienlijke overlap laten zien met de inhoud van de Eindtoets Basisonderwijs die in groep 8 kan worden afgenomen, anderzijds overeenkomen met de vaardigheden die in de specifieke LVS-toetsen worden geoperationaliseerd. Binnen de brede hoofdrubrieken Taal, Rekenen-Wiskunde en Studievaardigheden wordt onderscheid gemaakt naar een 16-tal deelvaardigheden en –taken. Voor Taal zijn dat Schrijven, Spelling (waarbij onderscheid wordt gemaakt naar Niet-werkwoorden en Werkwoorden), Begrijpend lezen en Woordenschat. Bij Rekenen-Wiskunde gaat het om Getallen en bewerkingen, Verhoudingen, breuken en procenten, Meten en meetkunde en Tijd en geld. De rubriek Studievaardigheden ten slotte omvat Studieteksten, Informatiebronnen, Kaartlezen en het Lezen van schema’s, tabellen en grafieken. Elk onderdeel afzonderlijk is zo geconstrueerd dat men op objectieve en betrouwbare wijze zicht kan krijgen op het vaardigheidsniveau dat de leerling voor dat onderdeel laat zien. Leerling, leerkracht en ouders kunnen hierdoor een gedifferentieerd beeld opbouwen van de huidige leervorderingen. Om een nog completer beeld te kunnen krijgen zijn binnen het onderdeel Taal nog een viertal optionele taken opgenomen. Deze hebben betrekking op Grammatica, Leestekens, Begrijpend luisteren en Leestempo. De prestaties op de facultatieve onderdelen worden niet meegewogen in de totaalscore. In hoofdstuk 3 treft u een uitgebreide inhoudelijke beschrijving en verantwoording van de gehele toets en alle onderscheiden taken.
2.2
Doelgroep
In principe is de Entreetoets groep 7 bedoeld voor leerlingen van dit leerjaar. Afname vindt in de regel plaats aan het eind van het schooljaar in de maanden april, mei en juni. Eventueel kan de toets ook onmiddellijk na de zomervakantie in de maand september worden afgenomen als de meeste leerlingen inmiddels in groep 8 zitten. De normering is dan nog van toepassing. Alle leerlingen van groep 7 kunnen deelnemen aan de Entreetoets. Voor leerlingen met een grote leerachterstand van een jaar of meer kan op onderdelen de Entreetoets voor groep 6 of mogelijk zelfs groep 5 worden afgenomen. Bij leerlingen bij wie over de hele linie van zo’n leerachterstand sprake is, kan desgewenst de gehele Entreetoets groep 6, dan wel de gehele Entreetoets groep 5 worden afgenomen. Op voorwaarde dat een leerling alle onderdelen van een bepaalde rubriek op zijn eigen niveau maakt (bijvoorbeeld alle onderdelen van de hoofdrubriek Taal in plaats van bijvoorbeeld alleen Begrijpend lezen), kan dan op twee niveaus worden gerapporteerd. Er wordt dan een Leerlingprofiel aangemaakt met de scores op de daadwerkelijk gemaakte Entreetoets, bijvoorbeeld de Entreetoets groep 6 en daarnaast ook een Leerlingprofiel van groep 7. Dit bevat de scores van de leerling omgezet naar scores die hij zou hebben behaald als de Entreetoets groep 7 was gemaakt. Voor enkele groepen leerlingen met beperkingen voor wie de afname van de Entreetoets problemen zou kunnen opleveren, zijn er speciale versies van de toets uitgebracht. Voor leerlingen met een visuele beperking of dyslexie zijn aangepaste versies beschikbaar in braille, zwart-wit, op vergroot A3-formaat en met auditieve ondersteuning op (Kurzweil-)cd of daisy-cd.
9
2.3
Gebruiksdoel en functie
De Entreetoets groep 7 is een onderdeel van het Cito Volgsysteem primair en speciaal onderwijs. De Entreetoetsen voor groep 5, 6 en 7 vormen samen met de Cito Eindtoets Basisonderwijs en de LVStoetsen een krachtig instrument om de leerlingen van een school voor basisonderwijs te volgen. De belangrijkste functie van de Entreetoets is daarmee op objectieve wijze antwoord te geven op de vraag hoe elke leerling afzonderlijk ervoor staat. Door middel van het Leerlingprofiel is in één oogopslag te zien waar de leerling goed in is en waar ondersteuning nodig is. Daarmee kan de leerkracht hiaten op het spoor komen op een moment dat deze nog kunnen worden ‘bijgespijkerd’ zo lang het kind nog op de basisschool zit (en vóór de afname van de Eindtoets Basisonderwijs). In de communicatie met de ouders is het van belang een objectief beeld van de leerling te kunnen schetsen. Door middel van de reeks Entreetoetsen groep 5, 6 en 7 kan een doorgaande lijn worden gecreëerd die het mogelijk maakt om de leerlingen ook echt te volgen in hun leervorderingen. Een bijzonder kenmerk van de Entreetoetsen is, dat op basis van een aantal taken uit de Entreetoets vaardigheidsniveaus kunnen worden geschat ten behoeve van het computerprogramma LOVS als de school dit leerlingvolgsysteem in gebruik heeft. Voordeel is dan dat men een aantal LVS-toetsen niet hoeft af te nemen. Eerder is al aangegeven dat de Entreetoets groep 7 een aantal optionele taken heeft binnen de hoofdrubriek Taal. Met de onderdelen Grammatica, Leestekens, Begrijpend luisteren en Leestempo kan men een nog completer beeld krijgen van de taalvaardigheden. Door de uitgebreide rapportages op groepsniveau (zie voor een uitgebreid overzicht de handleiding, hoofdstuk 5) is het mogelijk het eigen onderwijs te evalueren. Er zijn groepsoverzichten in percentielen en niveaus (A tot en met E; I tot en met V), in vaardigheidsscores (die het mogelijk maken de uitkomsten van de toets te relateren aan eerdere resultaten van Entreetoetsen groep 5 en 6 en de LVS-toetsen) en naar zo genoemde functioneringsniveaus. Deze functie komt het sterkst tot zijn recht in de schoolrapportages die via het digitale Rapportageprogramma EntreeToets (RET) zijn uit te draaien. Deze schoolrapporten zijn een belangrijk hulpmiddel bij schoolzelfevaluatie. Af te lezen is hoe de school presteert ten opzichte van voorgaande jaren. Ook kan men de eigen prestaties vergelijken met die van andere scholen. In de schoolrapporten worden gemiddelden van de school vergeleken met gemiddelden van andere scholen. Omdat rechtstreekse vergelijking niet altijd zonder meer zinvol is, kan men ook kiezen voor gecorrigeerde schoolrapporten. Er zijn schoolrapporten die gecorrigeerd zijn voor leerlinggewicht (sociaal-culturele achtergrond van de leerlingpopulatie) en voor de intelligentie van de individuele leerlingen op school. Daarbij wordt Begrijpend lezen gebruikt als een proxy (een zo goed mogelijke benadering of indicator) voor intelligentie. Door op deze manier te corrigeren voor systematische factoren die het onderwijsprestatieniveau van een school sterk beïnvloeden zonder dat de school daar zelf veel aan kan doen, wordt een meer realistische vergelijkingsbasis gecreëerd. Alle bovengenoemde functies, zoals deze ook in de handleiding worden aangegeven, zijn hoofdzakelijk beschrijvend van aard. Dit maakt dat criteriumvaliditeit bij uitsluitend dit gebruik van de Entreetoets niet van toepassing is, zoals dat in principe het geval is bij alle Cito LVS-toetsen. Sinds 2002 is er echter ook voorspellend gebruik van de Entreetoets mogelijk. Aanvankelijk was dit in de vorm van een pilotproject en sinds 2003 in een meer definitieve vorm. Scholen kunnen bij inschrijving voor de Eindtoets Basisonderwijs kiezen voor een Voorlopig Leerlingrapport, waarvoor afname van de Entreetoets groep 7 uiteraard wel een vereiste is. Op basis van de totaalscore op de Entreetoets groep 7 wordt een verwachte standaardscore op de Eindtoets Basisonderwijs berekend inclusief een onder- en bovengrens waarbinnen de Eindtoetsscore naar hoge waarschijnlijkheid zal liggen. De onder- en bovengrens geven de onzekerheid in de voorspelling aan: ongeveer 90% van de leerlingen met een bepaalde (specifieke) standaardscore zal op de Eindtoets basisonderwijs een standaardscore halen die ligt tussen deze grenzen. Daarnaast wordt een ‘poppetjesgrafiek’ gegeven die dezelfde opbouw kent als de ‘poppetjesgrafiek’ op het definitieve Leerlingrapport bij de Eindtoets Basisonderwijs. Daarin wordt aangegeven wat de betekenis is van de behaalde standaardscore voor de keuze van een brugklastype. Om de Entreetoets op deze manier voorspellend te gebruiken zijn gegevens over de criteriumvaliditeit van de toets noodzakelijk. In hoofdstuk 6 komen we hierop terug.
10
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
Historische achtergrond: van regionale toets tot landelijk volginstrument In de wetenschappelijke verantwoording van de Eindtoets Basisonderwijs 2010 (Van Boxtel, Engelen & De Wijs, 2011) is te lezen hoe deze toets zijn oorsprong vond in de Amsterdamse Schooltoets, hoe Cito de ontwikkeling van de Amsterdamse Schooltoets in 1970 op zich heeft genomen en hoe in de jaren zeventig een aantal wijzigingen in de opzet van deze toets werden aangebracht. Op het moment dat in 1978 een verzoek van de Schoolbegeleidingsdienst Midden-Holland en Rijnstreek binnenkwam om een soortgelijke toets te construeren voor – toen nog – het zesde leerjaar, had Cito dus al de nodige ervaring opgedaan in het construeren van brede leervorderingentoetsen. In december 1978 vond de eerste afname plaats in Gouda en ook in 1979 werd het nieuwe instrument nog alleen in Gouda afgenomen. Het kreeg de naam Entreetoets mee. In 1980 vond de eerste ‘landelijke afname’ plaats: 32 klassen, verspreid over Nederland, namen deel. In 1981 kwamen daar scholen uit Amsterdam bij. In 1982 werd de definitieve landelijke Entreetoets uitgebracht in een versie die jarenlang (tot in 1998) werd uitgegeven. In 1998 bracht Cito een nieuwe Entreetoets voor groep 7 uit, waarna in 2000 een nieuwe Entreetoets groep 6 volgde en in 2002 een Entreetoets voor groep 5. De Entreetoets groep 7 werd in 2003 vernieuwd. De laatste grote vernieuwing, waarop deze wetenschappelijke verantwoording betrekking heeft, dateert uit 2010. Begripsmatige achtergrond Men zou kunnen stellen dat de Entreetoets waarschijnlijk inhoudelijk zijn oorsprong vond in de Cito Eindtoets Basisonderwijs, een toets waarvan het primaire doel was om toekomstig schoolsucces adequaat te voorspellen. Daarbij werd vertrokken vanuit het uitgangspunt dat leerprestaties uit het verleden bij uitstek geschikt zijn om leerprestaties in de toekomst te voorspellen. Predictieve valideringsgegevens, die over een reeks van jaren verzameld werden, maken duidelijk dat deze veronderstelling gerechtvaardigd is (zie Van Boxtel et al., 2011). De samenhang met de door de leerkracht uitgebrachte doorstroomadviezen enerzijds en de feitelijke doorstroomgegevens anderzijds is substantieel en nog aanzienlijk hoger dan de samenhangen die intelligentietests met soortgelijke doorstroomgegevens laten zien. Voorwaarde is wel dat de betreffende leervorderingentoets een deugdelijke afspiegeling vormt van de onderwijsdoelstellingen. Cito heeft zich er daarom bij de constructie van opgaven voor de Eindtoets Basisonderwijs altijd sterk voor gemaakt dat de afstemming op de communale onderwijsinhouden geborgd was. Dit geschiedt door middel van de analyse van doelstellingen en methoden die gehanteerd worden in het basisonderwijs, door het publiceren van inhoudelijke verantwoordingen (zie bijvoorbeeld het Doelenboek bij de Eindtoets (Staphorsius, 2009) en de afzonderlijk verschenen inhoudsverantwoording bij de hier verantwoorde Entreetoets) en door het betrekken van ervaren leerkrachten in de commissies waarin de constructie van de opgaven plaatsvindt. Deze focus op representativiteit zorgt ervoor dat de toetsinhoud een adequate afspiegeling vormt van de communale onderwijsinhouden en -doelen. Bovengenoemde toetsinhoud is gestructureerd in de vorm van opgavenbanken voor de onderscheiden basisvaardigheden en – voor zover nodig – voor de daarbinnen onderscheiden deelvaardigheden. De opgavenbanken hebben door de toegepaste technologie in de vorm van itemresponse modellen zoals OPLM een sterk unidimensioneel karakter (zie hierover verderop in dit hoofdstuk meer). Deze opgavenbanken zijn in de loop van de tijd bij de ontwikkeling van de onderscheiden LVS-toetsen sterk ‘naar beneden toe’ uitgebreid, waarbij steeds gebruik werd gemaakt van de meest recente theorievorming binnen een vakgebied, analyse van de op dat vakgebied meest gebruikte onderwijsmethoden en het inzetten van ervaren leerkrachten bij de constructie van opgaven. Voor uitgebreidere verantwoordingen met betrekking tot de inhoud van de opgebouwde opgavenbanken zij verwezen naar de vele wetenschappelijke verantwoordingen die in de loop der jaren zijn verschenen bij de LVS-toetsen. In hoofdstuk 3 volgt een uitgebreide inhoudsverantwoording van de samenstelling van de Entreetoets groep 7. Voor nu kunnen we volstaan met de conclusie dat zowel de onderdelen van de Entreetoetsen als de onderdelen van de Eindtoets Basisonderwijs en de LVS-toetsen gebruikmaken van dezelfde, naar inhoud en meetmodel, zorgvuldig samengestelde opgavenbanken. Dit heeft gezorgd voor een sterke inhoudelijke afstemming tussen de verschillende instrumenten die van het Cito Volgsysteem primair en
11
speciaal onderwijs een zeer consistent geheel hebben gemaakt. Het feit dat de LVS-toetsen en de Entreetoetsen een vooral beschrijvende en volgende functie hebben, terwijl de Eindtoets vooral gekenmerkt wordt door zijn voorspellende functie, doet daar niets aan af. Voor alle functies is het immers even noodzakelijk dat representativiteit ten aanzien van communale onderwijsdoelen en –inhouden gewaarborgd is en dat de onderscheiden scores en onderdelen verwijzen naar unidimensionele vaardigheidsdimensies. Voor een beschrijving van de hoofdrubrieken en onderdelen verwijzen we naar hoofdstuk 3.
2.4.2
Psychometrisch
In deze paragraaf gaan we allereerst in op de zorgvuldige procedures die Cito bij de constructie van de Entreetoets hanteert; zij komen in paragraaf 2.4.2.1 uitvoerig aan de orde. In deze paragraaf zal ook duidelijk worden dat de gehanteerde IRT-meetmodel in deze procedures een cruciale rol spelen. In paragraaf 2.4.2.2 wordt uitvoerig op deze meetmodellen ingegaan. 2.4.2.1 Opgavenbanken en constructieprocedures Bij de constructie van opgaven wordt in de regel een veelvoud geproeftoetst van het aantal dat uiteindelijk in de toets moet worden ingezet. Er moet immers rekening worden gehouden met uitval, bijvoorbeeld wegens meer of minder triviale fouten in de constructie of extreme moeilijkheid of gemakkelijkheid. Tezelfdertijd ontstaat er op deze manier een overschot aan kwalitatief goede opgaven, die aan de opgavenbank worden toegevoegd. Een nieuwe toets (in dit geval een onderdeel van de Entreetoets groep 7) wordt samengesteld uit een aantal nieuw geproeftoetste opgaven en uit opgaven die al eerder in de opgavenbank waren opgenomen. Een belangrijk kenmerk van deze opgavenbanken is dat ze gekalibreerd zijn met een unidimensionaal IRTmodel (meestal OPLM; Verhelst en Eggen, 1989; zie verder paragraaf 2.4.2.2), waardoor niet alleen de psychometrische kenmerken (parameters) van de opgaven worden geschat, maar waarbij tevens wordt nagegaan of de opgaven van een onderdeel kunnen worden beschreven met een unidimensionale onderliggende vaardigheid. Een gedetailleerde verantwoording van deze werkwijze voor bijvoorbeeld het onderdeel Taal is te vinden in Staphorsius, Verhelst en Kleintjes (2001) en in Staphorsius, Krom, Kleintjes en Verhelst (2001). Ook Staphorsius en Verhelst (2001) geven een uitvoerige beschrijving van de gevolgde werkwijze, in dit geval voor de onderdelen van de Toelatingstoets, die op dezelfde manier zijn gekalibreerd. Opgavenbanken Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken, die zoals gezegd ten grondslag liggen aan onder meer de toetsen in het Cito Volgsysteem primair en speciaal onderwijs (de LVS-toetsen, de Entreetoetsen en de Eindtoets Basisonderwijs). Een opgavenbank is nadrukkelijk niet eenvoudigweg een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. Hieronder wordt beschreven wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. – Unidimensionaal continuüm en latente vaardigheid Het algemene uitgangspunt is dat de vaardigheden die in de onderdelen van de Entreetoets worden gemeten kunnen worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van vaardigheid uit, waarbij een groter getal wijst op een grotere vaardigheid. Het doel van de meetprocedure – het afnemen van de toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden: de eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. De antwoorden van een leerling op de items worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items
12
in de bank deze zelfde vaardigheid meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. – ‘Moeilijkheid’ in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt de moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken wordt gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item in groep 7 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige verwijzing naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. – Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een leerling die mate van vaardigheid niet, dan is hij niet in staat het item juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk(er) item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half, een juist antwoord te kunnen produceren (zie verder ook de volgende paragraaf over meetmodellen). – Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; er moet aangetoond worden dat al die veronderstellingen deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop later nog dieper in wordt gegaan. Maar vóór de items in een toets gebruikt kunnen worden, moet ook geprobeerd worden de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd. De steekproef van leerlingen (in de boven al aangeduide proeftoets) die hiervoor wordt gebruikt heet kalibratiesteekproef. – Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Er is dan sprake van een zogenoemd onvolledig design. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. Voor meer informatie over afnamedesigns dat voor de kalibratie kunnen worden gebruikt, wordt de geïnteresseerde lezer verwezen naar Eggen (1993).
13
– Implicaties van gekalibreerde opgavenverzameling Als de kalibratie met succes uitgevoerd is, is het resultaat een zogenoemde gekalibreerde itembank. In het kalibratieproces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Meer over de kalibreringsprocedure en een bespreking van de resultaten daarvan voor de Entreetoets groep 7 is te vinden in hoofdstuk 4 over de normering van de toets. 2.4.2.2 De gehanteerde meetmodellen In de Entreetoets groep 7 is hoofdzakelijk gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is, namelijk van het One Parameter Logistic Model (OPLM). Het onderdeel Leestempo, respectievelijk de daarin geoperationaliseerde vaardigheid, vormt hierop een uitzondering. Het karakter van dit onderdeel maakt een ander meetmodel noodzakelijk, namelijk het Rasch-Poisson-model en ook een ander model om de populatieparameters voor dit onderdeel te schatten, namelijk de Gamma-verdeling. Wij zullen deze modellen hieronder achtereenvolgens bespreken. OPLM: het One Parameter Logistic Model IRT-modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst & Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenoemde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. In de IRT staat het te meten begrip of de te meten eigenschap centraal. IRT-modellen hebben belangrijke voordelen boven de klassieke testtheorie. Zo is het bijvoorbeeld mogelijk in de toetsconstructie te werken met een onvolledig design en kunnen item- en populatieparameters onafhankelijk van elkaar worden geschat (voor een overzicht van de voordelen van IRT-modellen boven de klassieke testtheorie verwijzen we naar Hambleton, Swaminathan en Rogers, 1991). De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid wordt θ (theta) gekozen. De vaardigheid θ is niet rechtstreeks observeerbaar. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd1. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans:
f i ( ) = P ( X i = 1 | )
(2.1)
Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door
f i ( )=
exp ( - i ) 1 + exp ( - i )
(2.2)
waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.2 voor twee items, i en j, die in moeilijkheid
1
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT, ook wel aanduidt met 'latente trek'-modellen.
14
verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, volgt
f i ( i )=
exp ( i - i ) 1 1 = = 1 + exp ( i - i ) 1 + 1 2
(2.3)
Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. De parameter βi kan dus terecht omschreven worden als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen.
Figuur 2.2
Twee itemresponscurven in het Raschmodel
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo’n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.2. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Hieruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in bijvoorbeeld twee deelsteekproeven, een ‘laaggroep’, met de vijftig procent laagste scores, en een ‘hooggroep’, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet beschreven te kunnen worden met het Raschmodel. Daarom is bij de Entreetoets groep 7 gekozen voor een ander IRT-model. Alvorens dit bij de Entreetoets groep 7 voornamelijk gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de
15
itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ2. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen ‘omwisseling’ van ‘proporties juist’ in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door
f i ( )=
exp [ ai ( - i ) ] 1 + exp [ ai ( - i )]
,
(2.4)
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.3 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren.
Figuur 2.3
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie-index
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert ook statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatieindices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van
2
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
16
statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuzeopgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hiermee rekening gehouden. Voor de schatting van parameters van de populatieverdeling wordt gebruik gemaakt van de ‘marginale grootste aannemelijkheidsmethode’ (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Het meetmodel voor Leestempo: het Rasch-Poisson-model Het karakter van het onderdeel Leestempo is zodanig dat OPLM niet toepasbaar is. Bij dit onderdeel speelt (lees)snelheid immers een belangrijke rol, het betreft een tempotoets. De toetsscore is nu het aantal (goed) gelezen woorden of zinnen binnen een vooraf bepaalde toegestane tijd. Een veel gebruikt model om variabiliteit in frequenties (aantallen) te beschrijven is het Poisson-model. In zijn meest elementaire vorm beschrijft dit model de kans op een score s als
P( s)
s s!
e
(1)
waarin λ (> 0) de parameter van de verdeling is en de uitdrukking s! (lees: s-faculteit of s-factorieel) het product aanduidt s x (s - 1) x (s - 2) x ... x 2 x 1. Als s = 0, wordt 0! gedefinieerd als gelijk aan 1. Rasch (1960) heeft dit model uitgebreid door aan te nemen dat de waarde van de parameter λ afhankelijk is van de persoon en van de taak. Toegepast op Leestempo leidt dit tot het volgende model:
vj j jv
(2)
waarin λvj de waarde van de Poisson-parameter voorstelt wanneer leerling v taak j maakt. Deze parameter is multiplicatief samengesteld, en bestaat uit drie componenten. De grootheid τj is geen parameter maar een bekende constante die de omvang van de taak uitdrukt. Bij Leestempo is dit de toegestane tijd (voor de leestempotoets “De traumahelicopter”: 8 minuten). De parameter σj drukt de moeilijkheid van de taak uit: hoe groter deze parameter hoe makkelijker de taak, en de grootheid θv is de technische leesvaardigheid van de leerling v. De drie componenten van de Poisson-parameter zijn continue variabelen die alleen positieve waarden of de waarde nul kunnen aannemen. De doelstelling van het gebruik van dit meetmodel is een inferentie te maken omtrent de vaardigheid van de leerling (θv) die gebaseerd is op de observatie die we van deze leerling hebben wanneer hij tekst j leest: de score svj. Als de drie componenten van λvj gegeven zijn ligt hun product vast, maar als het product gegeven is liggen de drie componenten niet uniek vast; we kunnen namelijk altijd een component delen door een positieve
17
constante c en een van de twee andere vermenigvuldigen met c, en een dergelijke operatie laat het product onveranderd. Om zinvol over de waarde van de componenten te kunnen spreken moeten we twee normalisaties invoeren. Voor Leestempo hebben we dit als volgt gedaan: We kiezen een eenheid van tijd. Voor Leestempo is deze eenheid de minuut. Omdat de toegestane leestijd voor de leestempotaak in de Entrreetoets acht minuten is, geldt in deze toepassing dus dat τj = 8 . In het kalibratie- en normeringsonderzoek van de LVS-toets Leestempo, waarin het onderdeel uit de Entreetoets is meegenomen, zijn zeventig verschillende taken betrokken (zie verantwoording Leestempo) en voor elke taak moest een σ-parameter worden geschat. Hierbij is de restrictie opgelegd dat het product van deze zeventig parameters gelijk moet zijn aan 1. Voor de taak “De traumahelicopter” is de σ-parameter: .891. Een echte of denkbeeldige tekst waarvan de σ-parameter gelijk is aan 1, noemen we een standaardtekst. De interpretatie van de vaardigheid θv in dit model is zeer elegant. Als een variabele Poisson-verdeeld is (formule (1)), dan is het gemiddelde of de verwachte waarde van de verdeling gelijk aan de Poissonparameter λ. Als leerling v taak j leest, dan is zijn score Svj een toevalsvariabele, en door (1) en (2) te combineren krijgen we dus
E ( Svj ) vj j jv
(3)
Als we nu alle grootheden nader benoemen, zien we het volgende: – Svj is een aantal correct gelezen opgaven; zijn verwachte waarde is dus ook een aantal correct gelezen opgaven. – τj is de toegestane leestijd uitgedrukt in minuten. – σj vatten we op als een onbenoemd getal, bedoeld als correctiefactor die controleert voor de verschillende moeilijkheid van teksten op basis waarvan een taak gemaakt wordt. De standaardtekst heeft per definitie een σ-waarde gelijk aan 1. Om het product van de rechterzijde in (3) in dezelfde eenheid uit te drukken als de linkerzijde, moeten we θv benoemen als het aantal correct gelezen opgaven per tijdseenheid (minuut) op een standaardtekst. Score op meerdere teksten Wat tot hiertoe beschreven is, is de modellering van de uitkomsten wanneer een leerling één enkele tekst leest. Maar er moet ook iets gezegd worden over de verdeling van de uitkomsten wanneer een leerling twee of meer teksten leest. Daarom moet er een extra veronderstelling aan het model worden toegevoegd en deze veronderstelling wordt meestal aangeduid als lokale stochastische of conditionele onafhankelijkheid. De veronderstelling bestaat eigenlijk uit twee delen: – De vaardigheid van de leerling θv blijft onveranderd bij het lezen van meerdere teksten op één en hetzelfde afnamemoment. – Bij elke tekst is de (Poisson-)verdeling van de score alleen afhankelijk van de eigenschappen van de tekst en de leestijd (de σ- en de τ-parameter) en van de vaardigheid (θv). En niet van de score die de leerling op een van de andere teksten heeft behaald. Als we deze veronderstelling aannemen, kunnen we gebruikmaken van een andere eigenschap van de Poisson-verdeling: als een (eindig) aantal toevalsvariabelen S1, S2,…,Sk onafhankelijk Poisson-verdeeld is met parameters λ1, λ2,…,λk, dan is hun som S = S1+ S2+…+Sk Poisson-verdeeld met parameter λ = λ1+ λ2+…+λk. Hier is een voorbeeld: veronderstel dat leerling v drie teksten leest, waarna voor elke tekst zijn score wordt bepaald. De som van deze drie scores Sv = Sv1+Sv2+Sv3 is Poisson-verdeeld met parameter
1 1 v 2 2 v 3 3 v v ( 1 1 2 2 3 3 )
18
Dit voorbeeld veralgemeniseren we nu als volgt. Stel dat er in het normeringsonderzoek in totaal k teksten zijn gebruikt, en dat elke leerling een aantal van deze teksten heeft gelezen (volgens een vooraf vastgesteld design), dan definiëren we voor elke leerling de grootheid k
v d vj j j
(4)
j 1
waarin dvj een designvariabele is, die de waarde 1 aanneemt als leerling v tekst j heeft gelezen, en 0 als dit niet het geval is. In het voorbeeld hierboven is dvj = 1 voor j = 1, 2, 3 en 0 voor alle andere teksten. Met deze notatie kunnen we het model specificeren wanneer een leerling meerdere teksten leest: de somscore is Poisson-verdeeld met parameter
v v v
(5)
Hoewel formule (5) er heel eenvoudig uitziet, dient men te bedenken dat de parameter δv een behoorlijk complexe structuur heeft: hij is afhankelijk van het dataverzamelingsdesign (de specifieke teksten die de leerling heeft gelezen), van de toegestane leestijd op deze teksten (die in het algemeen kan variëren over de taken) en van de onbekende moeilijkheidsparameters σ (zie formule (4)). Schatting van de individuele vaardigheid θv De eerste stap in de analyse van de normeringsdata is het schatten van de taakparameters σi. De procedure waarmee dit gebeurt, staat gedetailleerd beschreven in Verhelst & Kamphuis (2009) en wordt hier verder niet uiteengezet. Belangrijk is dat deze moeilijkheidsparameters op een consistente manier kunnen worden geschat zonder dat men een aanname hoeft te maken over de verdeling van de technische leesvaardigheid in de populatie. Omdat de normeringssteekproef zeer groot is in vergelijking met het aantal te schatten parameters, is de schattingsfout van deze parameters vrij klein en kan ze voor praktische doeleinden worden verwaarloosd. Dit wil zeggen dat we de schattingen van deze parameters verder kunnen behandelen als de echte waarden en dus ook dat we voor elke leerling de parameter δv met behulp van formule (4) kunnen uitrekenen. De schatting van de vaardigheid van leerling v wordt gegeven door
v
sv
v
(6)
en de standaardfout (SE) door
SE ( v )
sv
v
(7)
In beide formules betekent sv de geobserveerde somscore die door leerling v is behaald. Merk op dat in dit model de standaardfout toeneemt met de behaalde score. Het populatiemodel voor Leestempo: de gamma-verdeling Een groot voordeel van het gebruik van een latente-variabele-model zoals hierboven is beschreven, is dat men de prestaties van leerlingen zinvol kan vergelijken als de leerlingen verschillende teksten hebben gelezen of zelfs een verschillend aantal teksten. Voor het opstellen van normeringstabellen echter, dient men voorzichtig te werk te gaan: gebruikmakend van formule (6) hierboven kan men voor elke leerling een schatting maken van zijn vaardigheid en kan men vervolgens de verdeling van deze schattingen bestuderen om er normtabellen uit te distilleren. De verdeling is idealiter – en zie in dit verband hoofdstuk 4 van de verantwoording – gebaseerd op een (redelijk) grote en representatieve steekproef uit de populatie. Op zichzelf is hier niets tegen in te brengen, zolang men zich maar realiseert dat men de verdeling van de vaardigheidsschattingen bestudeert en niet de verdeling van de vaardigheid. Omdat alle schattingen behept
19
zijn met een schattingsfout (de meetfout) zal de variantie van de verdeling van de schattingen onvermijdelijk groter zijn dan de variantie van de verdeling van de vaardigheden zelf. In deze sectie gaan we in op het schatten van de vaardigheidsverdeling, en daarin spelen de schattingen van de individuele vaardigheden geen enkele rol. Het basismodel dat wordt gebruikt is oorspronkelijk geïntroduceerd door Owen (1969) en verder uitgewerkt in Jansen (1986) en Jansen & Van Duijn (1992). Het model stelt dat de latente leesvaardigheid in de populatie een gamma-verdeling volgt. Een gamma-verdeling is een verdeling voor niet-negatieve continue variabelen. De kansdichtheidsfunctie (pdf) wordt gegeven door
g ( )
1 e ( )
(8)
waarin α en β (beide positief) de parameters zijn van de verdeling, en Γ(.) de gammafunctie is. (Indien het argument α een geheel getal is, geldt dat Γ(α) = (α-1)!; de gammafunctie kan worden opgevat als een uitbreiding van de faculteitfunctie tot gebroken getallen.) De gamma- en de Poisson-verdeling gaan goed samen. Om dit te laten zien, herhalen we formule (1), maar we schrijven deze nu wat nauwkeuriger op
P( s | )
( ) s e s!
(9)
waarin het linkerlid duidelijk aangeeft dat het om een conditionele kans gaat gegeven de waarde van de latente variabele θ en waarbij de parameter δ moet worden begrepen zoals aangegeven door formule (4). De marginale likelihood, d.i. de kans dat we score s observeren bij een random trekking uit de populatie, is dan gegeven door
P( s ) P( s | ) g ( ) d
(10)
0
Als we het rechterlid van (8) en (9) substitueren in het rechterlid van (10) en uitwerken, dan krijgen we als resultaat
P( s)
( s ) s p (1 p) s !( )
(11)
waarin
p
De verdeling met formule (11) als kansfunctie staat in de statistiek bekend als de negatief binomiale verdeling. Deze formule is gebruikt om in de tweede stap van de schattingsprocedure de parameters α en β te schatten, en waarin de schattingen van de δ-parameters uit de eerste stap als bekende constanten worden meegenomen. De schattingen voor de Entreetoetspopulatie voor α en β zijn respectievelijk 16.245 en 1.272.
20
3
Beschrijving van de toets
3.1
Opbouw en structuur
Inhoud en samenstelling De Entreetoets bestaat uit zestien verplichte en vier optionele taken. In de taken staan opgaven op het gebied van Taal, Rekenen-Wiskunde en Studievaardigheden. Hieronder treft u een overzicht aan van de onderdelen per vakgebied met het aantal opgaven. De optionele taken zijn in italics weergegeven en tellen niet mee bij het bepalen van de score op Taal, respectievelijk de totaalscore op de Entreetoets. Daardoor is de totaalscore voor Taal altijd gebaseerd op 220 opgaven, de totaalscore voor Rekenen-Wiskunde op 120 opgaven en die voor Studievaardigheden op 80 opgaven. In totaal telt de Entreetoets groep 7 420 opgaven.
Onderdeel Entreetoets groep 7
Aantal opgaven
Taal Schrijven Grammatica* Spelling Niet-werkwoorden Werkwoorden Leestekens* Begrijpend luisteren* Begrijpend lezen Leestempo* Woordenschat
220
Rekenen-Wiskunde Getallen en bewerkingen Verhoudingen, breuken en procenten Meten, meetkunde, tijd en geld Meten en meetkunde Tijd en geld
120
50 25 60 30 30 30 50 50 130 60
45 25 50 30 20
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen (van) schema’s, tabellen, grafieken
80 20 20 20 20
Totaal (exclusief optionele taken)
420
* De cursief gedrukte onderdelen zijn optioneel; de optionele onderdelen tellen niet mee bij de berekening van de totaalscore Taal en de totaalscore Entreetoets
Alle 420 verplichte opgaven staan in één opgavenboekje (Opgavenboekje 1: reguliere taken), de facultatieve opgaven in een ander boekje (Opgavenboekje 2: optionele taken). Men laat de afname voorafgaan door de kennismakingstaken die in een afzonderlijk Kennismakingsboekje zijn opgenomen. Afname van de Entreetoets vraagt vijf tot zes dagdelen (ochtenden). Het wordt afgeraden om de leerlingen meer dan vier taken per dag te laten maken. De onderdelen worden binnen een periode van maximaal vijf
21
weken afgenomen. In de handleiding zijn richttijden per taak aangegeven, maar leerlingen worden in principe in de gelegenheid gesteld om de gehele taak af te maken. In de handleiding is ook een voorbeeld van een afnamerooster opgenomen.
3.2
Inhoudsverantwoording
In deze paragraaf wordt de inhoud van de Entreetoets op hoofdlijnen besproken en verantwoord. Voor een uitgebreidere inhoudsverantwoording wordt verwezen naar de desbetreffende afzonderlijke publicatie (Cito, 2010), die op zijn beurt – met de nodige aanpassingen en aanvullingen - gebaseerd is op de inhoudsverantwoording van de Entreetoets editie 2003 (Staphorsius, Krom, Janssen, Scheltens, Notté, & Wagenaar, 2003). Deze inhoudsverantwoording kent, hoe uitgebreid ook, zijn beperkingen. Op de eerste plaats zou het te ver voeren om hier voorbeelden van toetsopgaven op te nemen voor alle onderscheiden rubrieken. Daarvoor verwijzen we naar genoemde publicaties en natuurlijk naar de opgavenboekjes zelf. Verder hebben we ervoor gekozen om de verantwoording vooral toe te spitsen op de operationalisatie van specifieke leerdoelen en vaardigheden. De lezer die geïnteresseerd is in een theoretische beschrijving van de wijze waarop de verschillende onderscheiden vaardigheden zich in het onderwijsleerproces ontwikkelen, verwijzen we naar de specfieke wetenschappelijke verantwoordingen zoals die zijn verschenen bij de LVStoetsen voor het reguliere basisonderwijs en dan met name de toetsen die betrekking hebben op leerjaar 73. Omdat de onderdelen van de Entreetoets zijn gebaseerd op de itembanken voor deze LVS-toetsen zijn de betreffende inhoudsverantwoordingen ook van toepassing op deze onderdelen. Dat geldt in het algemeen ook voor de verantwoording van de verschillende opgavenvormen waarvoor is gekozen. In 3.2.1 geven we allereerst een beschrijving van de inhoud van de taken Taal. Per inhoudsgebied geven we een overzicht van de overwegingen die aan de toetsconstructie ten grondslag lagen en welke opgaventypen er zijn gebruikt. In 3.2.2 komt de inhoud van de taken Rekenen-Wiskunde aan de orde. We beschrijven de leerdoelen die ten grondslag hebben gelegen aan de constructie van de opgaven. In 3.2.3 ten slotte bespreken we welke aspecten van Studievaardigheden in de taken van de Entreetoets groep 7 getoetst worden.
3.2.1
Taal
Het doel van het moedertaalonderwijs is het optimaliseren van de mogelijkheden van leerlingen om door gebruik van taal met anderen te communiceren. De hoofdstructuur van het taalonderwijs in het primair onderwijs sluit in grote lijnen aan bij de indeling van kerndoelen basisonderwijs (Ministerie van OCW, 1998). In onderstaand schema is deze hoofdstructuur weergegeven.
3
We verwijzen hier naar de Cito-website (www.cito.nl) waarop een overzicht van alle LVS-toetsen is te vinden. Via de website zijn ook de wetenschappelijke verantwoordingen te downloaden.
22
Figuur 3.1
Indeling van het taalonderwijs in deelgebieden
Produceren van teksten – Spreken – Schrijven Begrijpen van teksten – Luisteren – Lezen Specifieke ondersteunende vaardigheden – Spreken – Schrijven – Luisteren – Lezen Algemene ondersteunende vaardigheden
We maken in de eerste plaats onderscheid tussen het produceren van teksten en het begrijpen van teksten. We zouden het produceren van teksten kunnen omschrijven als het selecteren van inhouden en het kiezen van formuleringen met het oog op het doel van de producent. De laatste kan een spreker en schrijver zijn. Het begrijpen van teksten, zowel van geschreven als gesproken teksten, bepalen we nader met: vaststellen wat de schrijver of spreker van de tekst waarover, met welk doel, voor wie zegt. Het onderwijs besteedt ook tijd aan leeractiviteiten die het functionele gebruik van de spreek-, schrijf-, luister- en leesvaardigheid ondersteunen. Sommige van die activiteiten zijn op de taalvaardigheid in het algemeen gericht. Dat is het geval als het doel van de activiteiten uitbreiding van de woordenschat is of het verschaffen van inzicht in de structuur van zinnen. Voorbeelden van specifieke ondersteunende vaardigheden zijn: het zuiver schrijven van woorden (‘ondersteunend’ voor het schrijven van teksten) en het verklanken van woorden (‘ondersteunend’ voor het lezen van teksten). Niet alle onderdelen van dit taalonderwijs lenen zich ertoe om opgenomen te worden in een schriftelijke meerkeuzetoets. In het vervolg van deze paragraaf werken we alleen de elementen in de globale structuur uit voor zover die vertegenwoordigd zijn door opgaven in de Entreetoets. Hieronder volgt het schema dat aan deze uitwerking ten grondslag ligt. De schuingedrukte onderdelen in het schema zijn optioneel. De gebruiker kan deze in de rapportage van de Entreetoets betrekken door de betreffende taken uit Opgavenboekje 2: optionele taken van de Entreetoets groep 7 af te nemen.
23
Figuur 3.2
Indeling van de taalopgaven in de Entreetoets groep 7
Produceren van teksten Schrijven (1) – Inhoud – Juistheid van in de tekst opgenomen informatie – Afstemming van de informatie op het doel en de lezer – Taalgebruik – Correct taalgebruik – Interpreteerbaar taalgebruik – Passend taalgebruik Ondersteunende vaardigheden ‘Schrijven’ – Grammatica (2) – Spelling (3) – Niet-werkwoorden – Werkwoorden – Leestekengebruik (4) Begrijpen van teksten Luisteren – Begrijpend luisteren (5) Lezen – Begrijpend lezen (6) Ondersteunende vaardigheden ‘Lezen’ – Leestechniek en leestempo (7) Algemene ondersteunende vaardigheden – Woordenschat (8) NB. De nummers tussen haakjes verwijzen naar de beschrijvingen van de betreffende onderdelen in de toelichtende tekst
Schrijven van teksten (1) De schrijfvaardigheidstaken in de Entreetoets bestaan uit teksten met opgaven. De teksten zijn geschreven door ervaren constructeurs die lesgeven of les hebben gegeven in groep 7 en 8 van het basisonderwijs. Zij laten zich bij het schrijven inspireren door verhaaltjes en opstellen van leerlingen uit die groepen, waarbij zij een aantal vaak gemaakte ‘fouten’ van leerlingen in de teksten verwerken. En om die fouten draait het in de opgaven. Welke fouten zijn dat precies? Voordat we op die vraag een duidelijk antwoord kunnen geven, gaan we na op welke punten ervaren en onervaren schrijvers bij het schrijven van teksten kunnen ontsporen. We geven eerst een beknopte definitie van schrijven. Die luidt: schrijven is het overdragen van informatie met een bepaald doel; overeenkomstig dat doel selecteert de schrijver informatie en formuleringen (zie ook Staphorsius, 1995). Wat bedoelen we met het selecteren van informatie en van formuleringen? Met een tekst heeft een schrijver een doel. Hij wil iets bereiken met zijn tekst. Daarnaast wil een schrijver altijd iets zeggen over een onderwerp, wat zijn doel ook is. Een tekst heeft dus altijd een doel en een onderwerp. Over het onderwerp kan een schrijver meestal veel meer schrijven dan uiteindelijk in zijn tekst terechtkomt. Overeenkomstig zijn doel kiest hij de inhoud: uit alles wat er over het onderwerp te zeggen valt, kiest hij wat hij wel en wat hij niet zal schrijven. Dat geldt zowel voor verhaaltjes op grond van verzonnen informatie als voor zakelijke teksten. Als de schrijver wil dat zijn boodschap overkomt, moet hij die in ’taal’ uitdrukken. Dat kan hij op allerlei manieren doen. Bepaalde woorden of formuleringen vallen af omdat ze niet doeltreffend zijn. Schrijven is dus in zekere zin kiezen, ook al vereisen veel van de te maken keuzes bij ervaren schrijvers vrijwel geen aandacht meer.
24
Concluderend kunnen we zeggen dat het bij het schrijven van teksten steeds om twee vragen gaat: ‘wat zal ik zeggen’ (inhoud van de tekst) en ‘hoe zal ik het zeggen’ (taalgebruik in de tekst). Twee hoofdrubrieken: inhoud en taalgebruik Nu we het begrip schrijven hebben gedefinieerd keren we terug naar de vraag die we aan het begin van deze paragraaf stelden: om wat voor fouten gaat het precies in de opgaven van de Entreetoets? We onderscheiden de soorten fouten in twee hoofdrubrieken. De eerste heeft te maken met de inhoud van de tekst, met ‘wat zal ik zeggen’. Dat is de rubriek Inhoud. Opgaven in de rubriek Inhoud gaan over ontsporingen die de keuze van informatie betreffen. De tweede soort fouten heeft te maken met het taalgebruik, met ‘hoe zal ik het zeggen’. Taalgebruik is de tweede hoofdrubriek die we bij de constructie van opgaven onderscheiden. Inhoud: waarheid, logica en doel- en lezergerichte keuzes Welke fouten maken schrijvers als het om de keuze van informatie gaat? Soms houden schrijvers zich niet aan de feiten of zijn ze onnauwkeurig. Veel misverstanden bij lezers ontstaan doordat onvoldoende of vage informatie verstrekt wordt. Soms spreken schrijvers zichzelf tegen. Dan zit de tekst niet logisch in elkaar. Vaak is ook hiervan onnauwkeurigheid de oorzaak. Bij het afstemmen van de tekst op het doel en het publiek is de keuzevrijheid van de schrijver wat ruimer dan bij de ‘logica’ van zijn boodschap. Om te kunnen vaststellen wat wel of niet effectief is, zijn geen scherpe en in alle gevallen geldende criteria voorhanden. Toch is het ook als het om de efficiëntie gaat soms heel duidelijk dat door de schrijver gemaakte keuzes gelet op het doel onhandig zijn. Het komt nogal eens voor dat jonge en dus minder ervaren schrijvers meer informatie verstrekken dan voor het bereiken van hun doel noodzakelijk is. Bij de selectie van informatie houden ze bovendien vaak onvoldoende rekening met de voorkennis van hun lezers. Voorbeelden van opgaven in de Entreetoets die behoren tot de rubriek Inhoud zijn: In Taak 1 (Schrijven 1): 17, 19 In Taak 10 (Schrijven 2): 9, 21 Taalgebruik: correct, interpreteerbaar en passend schrijven Correct taalgebruik We spraken hierboven van schrijven als keuzeproces, maar zeker als het om de correctheid van het taalgebruik gaat, behoeft het beeld van het schrijven van teksten als keuzeproces enige relativering. Meestal zondigen taalgebruikers namelijk ongewild tegen de regels die uitmaken of woorden of zinnen correct zijn. Veel van de inspanningen van het onderwijs zijn gericht op het correct leren gebruiken van taal. Schrijven we ‘het’ zoals het hoort? En met ‘het’ bedoelen we dan: de vorm van het woord, van de zin of van de tekst. Hoe kunnen we bij het schrijven van woorden tegen de juiste vorm zondigen? In de eerste plaats door onzuiver te spellen. In de schrijfvaardigheidstaken zijn echter geen spellingopgaven opgenomen. Voor spelling zijn er twee aparte taken. Wel komen er in de schrijfvaardigheidsopgaven ontsporingen aan de orde zoals het gebruik van helemaal in plaats van allemaal. Wij vatten dit soort ‘ontsporingen’ op als het zondigen tegen de regels die met conventies over de vorm van de taal te maken hebben (‘ik begrijp wel wat je bedoelt, maar dat zeggen we niet zo‘). En als het om fouten in de formulering van een zin gaat? In de opgaven over ontsporingen in zinnen komen onder meer aan de orde: onjuiste samentrekkingen, kromme zinnen, onjuiste werkwoordstijden, incongruentie van persoonsvorm en onderwerp (Wij liep ...). Ook het correct gebruiken van leestekens komt in de schrijfvaardigheidstaken in de Entreetoets aan de orde. In Opgavenboekje 2: optionele taken is bovendien een afzonderlijke taak ‘Leestekens’ opgenomen. Als we correctheid beschouwen op het niveau van de tekst, dan denken we onder meer aan conventies met betrekking tot de indeling van brieven en dergelijke. Voorbeelden van opgaven in de Entreetoets die behoren tot de rubriek Correct taalgebruik zijn: In Taak 1 (Schrijven 1): 3, 10 In Taak 10 (Schrijven 2): 6, 18
25
Interpreteerbaar taalgebruik Woorden, zinnen en teksten als geheel moeten begrijpelijk zijn. Als we molen bedoelen, kunnen we niet zeggen mast zonder te worden misverstaan. Of wat subtieler: voor inbreker kunnen we niet zonder meer overvaller gebruiken. Dubbelzinnige formuleringen, overbodige woorden en onduidelijk of verkeerd uitgedrukte relaties tussen en binnen zinnen zijn voorbeelden van ontsporingen die op zinsniveau tot misverstanden kunnen leiden. In de opgaven in de Entreetoets vragen we leerlingen de inhoudelijke structuur van een gegeven tekst(fragment) te beoordelen en eventueel te verbeteren. Staat de informatie op de juiste plaats? En zo niet, waar kan die dan beter in de tekst geplaatst worden? Is de alinea-indeling in orde? Voorbeelden van opgaven in de Entreetoets die behoren tot de rubriek Interpreteerbaar taalgebruik zijn: In Taak 1 (Schrijven 1): 14, 21 In Taak 10 (Schrijven 2): 2, 8 Passend taalgebruik Bij keuzes met betrekking tot het taalgebruik spelen het doel van de schrijver en zijn relatie met de lezers een belangrijke rol. Aan teksten die correct en interpreteerbaar zijn, kan nog wel het een en ander mankeren als we letten op de afstemming op het doel en op het publiek. Bijvoorbeeld doordat de woordkeus niet aansluit bij de kennis van de lezer, doordat de zinnen te gecompliceerd zijn of doordat de toon van de tekst door een onhandige woordkeus een andere is dan bedoeld. Of een gegeven woord of zin in een tekst passend is, kan ook beoordeeld worden vanuit het taalgebruik in de tekst als geheel. In een tekst die gelet op de woordkeus heel informeel is, valt een deftige of formele uitdrukking op (en vice versa). Voorbeelden van opgaven in de Entreetoets die behoren tot de rubriek Passend taalgebruik zijn: In Taak 1 (Schrijven 1): 8, 25 Grammatica (2) In grammaticaal opzicht is voor het correct spellen van werkwoorden het identificeren van de persoonsvorm een belangrijke taak; immers de regels voor het spellen van werkwoorden gelden alleen voor de persoonsvorm. Voor de andere werkwoordsvormen gelden de regels die van toepassing zijn op de nietwerkwoorden. Alle opgaven in Taak 17 behoren tot deze rubriek. Spelling (3) Het onderdeel spelling valt uiteen in twee taken: – Spellen van niet-werkwoorden (Taak 8: Spelling 1) – Spellen van werkwoorden (Taak 14: Spelling 2) De opgaven in beide taken vragen van de leerlingen na te gaan of gegeven woorden al dan niet zuiver geschreven zijn. De woorden worden aangeboden in de vorm van meerkeuze-opgaven. Vier zinnen bevatten elk een dikgedrukt woord, waarbij één van de vier dikgedrukte woorden fout geschreven is. De leerlingen moeten de zin kiezen waar het fout geschreven woord in staat. De spelfouten die in de gegeven woorden gemaakt zijn, kunnen ingedeeld worden in categorieën. Categorieën bij het spellen van niet-werkwoorden zijn bijvoorbeeld: woorden met -ei- of -ij-, woorden met -ig of -lijk, woorden eindigend op 's. Bij het spellen van werkwoorden gaat het om problemen als: ik word/wordt, het is gebeurd/gebeurt, wij wilden met hem praten/praatten. In de toetsen Spelling van het Cito Volgsysteem primair en speciaal onderwijs zijn de verschillende spellingcategorieën voorzien van een nummer en opgenomen in een overzicht ('Overzicht spellingcategorieën in de LOVS-toetsen Spelling'). In onderstaande opsomming van de spellingproblemen in de Entreetoets is gebruikgemaakt van dezelfde categorienummers en -omschrijvingen als bij de LVS-toetsen Spelling. In de taak Spellen van niet-werkwoorden (Taak 8) zijn de volgende spellingproblemen opgenomen: – woorden met -ng- of -nk- (categorie 7+) – woorden met -f-, -v-, -s- of -z- (categorie 8+) – woorden met -ei- of -ij- (categorie 11++) – samengestelde woorden met meer dan twee medeklinkers na elkaar (categorie 13+)
26
– – – – – – – – – – – – –
woorden met -d (categorie 18+) woorden met -lijk of -ig (categorie 24+) woorden waarin /s/ geschreven wordt als c (categorie 26+) woorden waarin /k/ geschreven wordt als c (categorie 27+) woorden eindigend op 's (categorie 29b+) tussenletters -n- en -s- in samenstellingen (categorie 34) woorden met een trema (categorie 36) Franse leenwoorden (categorie 38) Engelse leenwoorden (categorie 39) stoffelijke bijvoeglijke naamwoorden (categorie 45) verkleinwoorden met -aatje, -ootje, -uutje en met de uitgang -nkje (categorie 46) woorden met open en/of gesloten lettergreep (categorie 47) restwoorden (categorie 48)
In de taak Spellen van werkwoorden (Taak 14) gaat het om een adequate toepassing van de regels van de werkwoordspelling. Strikt genomen zijn de regels van de werkwoordspelling van toepassing op de persoonsvorm. De andere werkwoordsvormen zijn didactisch gezien een probleem omdat leerlingen de regels generaliseren naar de niet-persoonsvormen. De volgende spellingproblemen komen in de opgaven aan de orde: – tijd van nu: wel of geen -t achter een stam op -d (categorie 1.1) – tijd van nu: -t achter stam van ww dat in de o.v.t. de uitgang -de(n) krijgt (categorie 1.2) – tijd van nu: inversie pv/onderwerp: wel of geen -t achter een stam op -d (categorie 1.3) – tijd van toen: verdubbeling d of t bij zwak ww met stam op -d of -t (categorie 2.1) – tijd van toen: geen -t bij sterk ww dat in 2e en 3e persoon eindigt op -d (categorie 2.2) – voltooid deelwoord: keuze voor eind-d of -t bij een stam die niet eindigt op -d of -t (categorie 3.1) – voltooid deelwoord bijvoeglijk gebruikt: wel of geen -n aan het eind (categorie 4.1) Leestekengebruik (4) Het gebruik van leestekens komt ook in de taken Schrijven aan de orde. In Opgavenboekje 2: optionele taken is het onderdeel Leestekens (Taak 19) afzonderlijk opgenomen. In deze taak komt het gebruik van de volgende leestekens aan de orde: – punt; – komma; – aanhalingstekens (directe rede); – uitroepteken en – vraagteken. Begrijpend luisteren (5) Met de taken Begrijpend luisteren 1, 2 en 3 (Taak 18, 20 en 22 in Opgavenboekje 2: optionele taken) kan de luistervaardigheid van leerlingen bepaald worden. De taken meten de vaardigheid in het (begrijpend) luisteren naar gesproken taal. Luisteren wordt in dit kader opgevat als het proces waardoor aan gesproken taal betekenis wordt verleend. Elke opgave in de taken bestaat uit een gesproken tekst (monoloog, dialoog of poliloog) – of een fragment uit een gesproken tekst – waarover een vraag wordt gesteld. Per tekst wordt meestal als eerste een vraag over de gehele tekst gesteld, gevolgd door enkele vragen over fragmenten uit de tekst. Alvorens een vraag over een fragment wordt gesteld, wordt het betreffende fragment herhaald. Het tekst-materiaal en de vragen erover staan op cd. Deze cd bevat ook de herhalingen van de fragmenten. Elke tekst wordt ingeleid. De inleidster stelt ook de vragen. De vraag over de tekst als geheel wordt niet alleen na afloop van de tekst, maar ook voorafgaand aan de tekst gesteld. Dit om de leerling in de gelegenheid te stellen gericht te luisteren: het luisterdoel te bepalen en de meest geschikte luisterstrategie te selecteren. De opgaven in de luistertaken zijn meerkeuze-opgaven. De leerling kiest steeds uit vier geschreven antwoordmogelijkheden het juiste antwoord op de vraag.
27
Deze antwoordalternatieven staan in het opgavenboekje dat de leerlingen tijdens de toetsafname voor zich hebben. In het opgavenboekje staan steeds alleen de antwoordalternatieven, niet ook de bijbehorende vragen. Met andere woorden, in onze opzet maken de vragen ‘deel van het (luister)probleem uit’. De antwoord-alternatieven worden, in tegenstelling tot de vragen, niet mondeling aangeboden. Het zou het geheugen van de leerlingen te zwaar belasten wanneer zij, na het aanhoren van tekst(fragment) plus vraag, ook nog eens zouden moeten luisteren naar een aantal antwoordalternatieven. Bovendien zou een mondelinge aanbieding van de alternatieven het zelfstandig werken belemmeren. Immers, als de leerlingen het juiste antwoordalternatief eenmaal gehoord hebben, zullen zij de overige antwoordalternatieven wellicht niet afwachten, maar onmiddellijk op de voorgeschreven wijze responderen. Dit geeft zoveel ‘gerucht’ in de klas dat leerlingen die het antwoord uit zich zelf niet weten, op een idee gebracht zouden kunnen worden. De opgaven in de taken Begrijpend luisteren 1, 2 en 3 kunnen onderscheiden worden naar de verwerkingsprocessen waarop de opgaven een beroep doen en de aspecten van teksten die de opgaven bevragen. De taken bevatten in de eerste plaats opgaven die betrekking hebben op de verwerking van de tekst als zodanig, van de informatie die de spreker expliciet geeft. Het gaat daarbij met andere woorden om tekstgestuurde verwerking: om de verwerking van expliciete inhoud, expliciete relaties tussen tekstelementen, expliciete tekststructuur en spreektaal-verschijnselen zoals klemtoon en intonatie. Binnen dit type opgaven kan nader onderscheid gemaakt worden tussen opgaven die gericht zijn op aspecten van de betekenis en inhoud van teksten enerzijds en opgaven die de opbouw en structuur van teksten tot onderwerp hebben anderzijds. Op het onderscheid tussen tekstgestuurde verwerking enerzijds en kennisgestuurde verwerking anderzijds komen we in de volgende paragraaf onder ’ Begrijpend lezen’ nog uitgebreider terug. Tekstgestuurde opgaven met betrekking tot de betekenis en inhoud van gesproken teksten vragen bijvoorbeeld naar: – de kennis van woorden, woordgroepen en begrippen; – expliciete inhoudselementen in de tekst: o.a. door middel van opgaven die vragen naar de tijd en plaats van handeling of naar de hoofdpersonen in een verhaal; – betekenis en inhoud die specifiek gegeven wordt door klemtoon en intonatie. Tekstgestuurde opgaven met betrekking tot de opbouw en structuur van gesproken teksten vragen bijvoorbeeld naar: – eenvoudige expliciete verbanden binnen of tussen uitingen: o.a. door middel van opgaven over verbanden die te maken hebben met signaalwoorden, met een voorbeeld, met een vergelijking of met een tegenstelling; – de volgorde van eenvoudige gesproken instructies; – complexe expliciete relaties: o.a. door middel van opgaven over verbanden die grotere tekstdelen omvatten (reden-verklaring, oorzaak-gevolg, middel-doel); – expliciete overkoepelende relaties: o.a. door middel van opgaven over een algemene uitspraak die meerdere andere uitspraken omvat (geheel-delen, argument-conclusie, generalisaties-voorbeelden). Bij de opgaven die hierboven beschreven zijn, gaat het om het tekstgestuurd luisteren. Maar van een werkelijk en diepgaand begrip is pas sprake wanneer tekst- én kennisgestuurde verwerking in samenhang en gelijktijdig ingezet worden. Een luisteraar is niet blanco, hij neemt al zijn eerdere luisterervaringen mee tijdens het luisteren naar een nieuwe tekst en zet tevens al zijn achtergrondkennis in bij de verwerking van die tekst. Impliciete informatie speelt een belangrijke rol bij het luisteren. In een tekst wordt niet altijd alles expliciet gezegd. De spreker kan en mag bepaalde kennis bij zijn luisteraars bekend veronderstellen. Die kennis hoeft niet steeds geëxpliciteerd te worden. Het is vervolgens wel aan de luisteraar om zich te realiseren welke kennis impliciet bekend wordt verondersteld en om deze en andere kennis zo nodig te activeren. De luisteraar vult als het ware de informatie in de tekst verder in en aan met kennis uit andere bronnen. Het onderkennen en afleiden van impliciete informatie in een tekst, met andere woorden, het maken van inferenties, is dus een belangrijk aspect van de luistervaardigheid. Het resultaat van dit interpretatieproces vormt een diepgaand begrip van de tekst. De luisteraar doorgrondt de tekst en verbindt de informatie in de tekst tot een geheel in
28
relatie tot de eigen kennis en ervaring. Ook binnen dit type opgaven onderscheiden we opgaven die de betekenis en inhoud betreffen en opgaven met betrekking tot de opbouw en structuur. Tekst- én kennisgestuurde opgaven met betrekking tot de betekenis en inhoud van gesproken teksten betreffen bijvoorbeeld: – het afleiden van de betekenis van woorden en begrippen uit de omringende tekst; – de globale inhoud van de tekst, door expliciete en/of impliciete informatie, verspreid over de tekst, te verbinden: o.a. in opgaven die vragen naar onderwerp, thema of hoofdgedachte; in opgaven waarin meningen onderscheiden moeten worden van feiten en in opgaven die vragen naar een samenvatting van de inhoud van de tekst. – het combineren van voorkennis en expliciete en/of impliciete informatie uit de tekst: o.a. in opgaven die vragen om ontbrekende informatie aan te vullen of de afloop van een verhaal te voorspellen; in opgaven die vragen naar de functionele betekenis van de tekst, naar de bedoelingen van de spreker of zijn gevoelens of houding ten opzichte van een gebeurtenis en in opgaven die vragen naar figuurlijk taalgebruik; – vragen over de tekst in relatie met de eigen kennis: o.a. in opgaven die vragen naar een passende manier van handelen, bijvoorbeeld naar aanleiding van instructies, en in opgaven over manieren van spreken, af te leiden uit aspecten zoals klemtoon, intonatie, volume, tempo, toon, accent, register, sociale en culturele conventies. Tekst- én kennisgestuurde opgaven met betrekking tot de opbouw en structuur van gesproken teksten vragen bijvoorbeeld naar: – de organisatie van de tekst: o.a. in opgaven die vragen naar de impliciete (niet-) chronologische volgorde van de handelingen en gebeurtenissen in een verhaal of verslag en in opgaven die vragen naar de plotontwikkeling in een verhaal; – de samenhang in de tekst: o.a. in opgaven die vragen naar causale verbanden in de tekst; in opgaven die vragen naar de (niet-)logische lijn in de tekst en in opgaven over de opbouw van de argumentatiestructuur in een betoog. Begrijpend lezen (6) Leesvaardigheid Met de taken Begrijpend lezen in de Entreetoets (Taak 4 en Taak 16) kan de leesvaardigheid van leerlingen bepaald worden. Lezen is het geheel van processen waarin een tekst betekenis krijgt. Vroeger ging men ervan uit dat de betekenis vooral in de tekst zelf besloten lag. Tegenwoordig nemen we aan dat de betekenis in ieder geval deels in het hoofd van de lezer wordt gevormd. De lezer construeert de betekenis van een tekst dus op basis van de tekst zelf (tekstgestuurde betekenis) én op basis van eigen kennis (kennisgestuurde betekenis). Zie ook figuur 3.3:
Figuur 3.3
Het leesproces
Tekstgestuurde betekenis Gebaseerd op de expliciete inhoud van teksten: woorden, zinnen, verwijzingen, structuren
Tekstbegrip
Kennisgestuurde betekenis Gebaseerd op de impliciete inhoud van teksten: de eigen kennis van de wereld
De taken Begrijpend lezen bestaan uit meerkeuzeopgaven die in alle gevallen betrekking hebben op teksten. Er worden verschillende teksttypen en -genres gebruikt en er worden meerdere opgavenvormen en -typen gehanteerd. Zo staat in een deel van de opgaven de inhoud van de tekst centraal: de feiten en
29
gebeurtenissen – al dan niet verzonnen – waarover de tekst gaat. Maar ook heel belangrijk voor de betekenis van een tekst zijn de kenmerken van de taalgebruiksituatie waarin gecommuniceerd wordt. Van leerlingen wordt verwacht dat ze iets kunnen zeggen over de schrijver, zijn doelen en zijn publiek (de lezers). Ook hieraan is daarom een deel van de opgaven gewijd. Teksttypen en -genres in de taken Begrijpend lezen De opgaven in de taken Begrijpend lezen hebben in alle gevallen betrekking op teksten of delen van teksten. Deze teksten kunnen ondergebracht worden in een aantal teksttypen. We onderscheiden de volgende typen teksten: – Informatief-rapporterend De schrijver geeft feitelijke informatie over de werkelijkheid. Voorbeeld: De tekst ‘Babykrokodillen roepen “umph …’ (zonder titel), Taak 4 (Begrijpend lezen 1) – Informatief-beschouwend De schrijver geeft niet alleen feitelijke informatie over de werkelijkheid, maar voegt er ter verduidelijking ook zijn meningen, opvattingen en standpunten aan toe. Voorbeeld: De tekst ‘Er zijn ontzettend veel spullen …’ (zonder titel), Taak 16 (Begrijpend lezen 2) – Regulerend-directief De schrijver wil het gedrag, het handelen van de lezer richten en sturen. Voorbeeld: De tekst ‘Zelf ijs maken’, Taak 4 (Begrijpend lezen 1) – Regulerend-argumentatief De schrijver wil vooral het denken van de lezer beïnvloeden. Voorbeeld: De tekst ‘Mijn lievelingskoe Saartje’, Taak 16 (Begrijpend lezen 2) – Fictioneel De schrijver beschrijft een verbeelde werkelijkheid. Voorbeeld: De tekst ‘Meester Gelder kijkt …’ (zonder titel), Taak 16 (Begrijpend lezen 2) In de paragraaf hiervoor onderscheidden we een vijftal teksttypen. Bij dat onderscheid gaat het om doelen van teksten: met bijvoorbeeld een argumentatieve tekst wil de schrijver de lezer ergens van overtuigen, met een fictionele tekst wil de schrijver lezers vermaken of boeien, enzovoort. Teksten kunnen ook op grond van vorm onderscheiden worden. Een tekst kan een brief zijn, maar ook een verslag, een recept enzovoort. Dit onderscheid omschrijven we als het tekstgenre. Enkele tekstgenres waar basisschoolleerlingen mee te maken kunnen krijgen zijn: – Verhaal Voorbeeld: De tekst ‘Meester Gelder kijkt …’ (zonder titel), Taak 16 (Begrijpend lezen 2) – Brief Voorbeeld: De tekst ‘Mijn lievelingskoe Saartje’, Taak 16 (Begrijpend lezen 2) – Recept Voorbeeld: De tekst ‘Zelf ijs maken’, Taak 4 (Begrijpend lezen 1) – Artikel Voorbeeld: De tekst ’Babykrokodillen roepen “umph …’ (zonder titel), Taak 4 (Begrijpend lezen 1) Opgavenvormen en -typen in de taken Begrijpend lezen De opgaven in de taken Begrijpend lezen kunnen allereerst ingedeeld worden naar de vorm van de opgaven. De volgende opgavenvormen komen voor in de Entreetoets: – Vragen over teksten De meest gehanteerde vorm van leesopgaven. Binnen deze opgavenvorm worden vragen gesteld naar aanleiding van (een deel van) de tekst. Voorbeeld: De opgaven bij de tekst ‘Babykrokodillen roepen “umph ...’ (zonder titel), Taak 4 (Begrijpend lezen 1) – Opgaven bij een invultekst Leerlingen selecteren welk(e) woord(en) het best passen op de open plaats in de tekst. Voorbeeld: De opgaven bij de tekst ‘Zelf ijs maken’, Taak 4 (Begrijpend lezen 1)
30
Naast de verdeling in opgavenvormen kunnen de opgaven in de taken Begrijpend lezen ook ingedeeld worden naar de verwerkingsprocessen waarop de opgaven een beroep doen en de aspecten van teksten die de opgaven afvragen: de opgaven-typen. De taken bevatten in de eerste plaats opgaven die betrekking hebben op de verwerking van de informatie die expliciet in de tekst staat. Het gaat daarbij met andere woorden om tekstgestuurde verwerking. Binnen dit type opgaven wordt onderscheid gemaakt tussen opgaven die gericht zijn op aspecten van de betekenis en inhoud van teksten enerzijds en opgaven die de opbouw en structuur van teksten tot onderwerp hebben anderzijds. Tekstgestuurde opgaven Betekenis en Inhoud Opgaven waarin gevraagd wordt naar: – de kennis van woorden, woordgroepen en begrippen; – expliciete inhoudselementen in de tekst: o.a. door middel van opgaven die vragen naar de tijd en plaats van handeling of naar de hoofdpersonen in een verhaal. Voorbeeld: De opgaven 10 en 11 bij de tekst ‘Is het Jeugdjournaal altijd waar?’, Taak 4 (Begrijpend lezen 1) Tekstgestuurde opgaven Opbouw en Structuur Opgaven waarin gevraagd wordt naar: – eenvoudige expliciete verbanden binnen of tussen uitingen: o.a. door middel van opgaven over verbanden die te maken hebben met een signaalwoord, verwijzing, voorbeeld, vergelijking of met een tegenstelling. Voorbeeld: Opgave 9 bij de tekst ‘Goed kinderen, ik had …’ (zonder titel), Taak 16 (Begrijpend lezen 2) De opgaven die hierboven beschreven zijn, zijn gebaseerd op tekstgestuurde leesprocessen. Maar van een werkelijk en diepgaand begrip is pas sprake wanneer tekstgestuurde en kennisgestuurde verwerking in samenhang en gelijktijdig ingezet worden. Een lezer neemt al zijn eerdere leeservaringen mee tijdens het lezen van een nieuwe tekst en zet tevens al zijn achtergrondkennis in bij de verwerking van die tekst. Impliciete informatie speelt daarom een belangrijke rol bij het lezen. In een tekst wordt niet altijd alles expliciet vermeld. De schrijver kan en mag bepaalde kennis bij zijn lezers bekend veronderstellen. Het is vervolgens aan de lezer om zich te realiseren welke kennis impliciet bekend wordt verondersteld en om deze en andere kennis zo nodig te activeren. De lezer vult als het ware de informatie in de tekst verder in en aan met kennis uit andere bronnen. Het resultaat hiervan is een diepgaand begrip van de tekst. De lezer doorgrondt de tekst en verbindt de informatie in de tekst tot een geheel in relatie tot de eigen kennis en ervaring. De tekst- en kennisgestuurde opgaven in de taken Begrijpend lezen toetsen dit diepgaande begrip van de tekst. Ook binnen dit type opgaven onderscheiden we opgaven die de betekenis en inhoud betreffen en opgaven met betrekking tot de opbouw en structuur. Tekst- en kennisgestuurde opgaven Betekenis en Inhoud Opgaven waarin gevraagd wordt naar: – het afleiden van de betekenis van woorden en begrippen uit de omringende tekst; – het doorgronden van de globale inhoud van de tekst door expliciete en/of impliciete informatie verspreid over de tekst te verbinden: o.a. in opgaven die vragen naar onderwerp, titel of lezersdoel. Voorbeeld: De opgaven 24 en 25 bij de tekst ‘Babykrokodillen roepen “umph ...’ (zonder titel), Taak 4 (Begrijpend lezen 1) Tekst- en kennisgestuurde opgaven Opbouw en Structuur Opgaven waarin gevraagd wordt naar: – de organisatie van de tekst op basis van expliciete en impliciete informatie, tussenkopjes en lay-out. Voorbeeld: De opgaven 5 en 6 bij de tekst ‘Zelf ijs maken’, Taak 4 (Begrijpend lezen 1)
31
Leestechniek en Leestempo (7) Binnen het leesonderwijs op de basisschool wordt onderscheid gemaakt tussen technisch lezen en begrijpend lezen. Het technisch lezen is geen doel op zich maar kan worden gezien als een voorwaardelijke activiteit voor het leren begrijpen van teksten. Om een tekst te kunnen begrijpen, dat wil zeggen de betekenis of betekenissen van de tekst te kunnen achterhalen, is het van belang dat de woorden in die tekst nauwkeurig en vlot ontsleuteld worden (zie ook Jongen, Krom en Roumans, 2009a, 2009b). Nauwkeurig ontsleutelen is dé doelstelling in het aanvankelijk leesonderwijs; daarna wordt vlot lezen een even belangrijke doelstelling. Vanaf het moment dat leerlingen de letter-klankkoppelingen kennen en de klanken tot woorden weten te synthetiseren, vanaf het moment met andere woorden dat van accuraat ontsleutelen sprake is, dient dit gekoppeld te zijn aan een zekere leessnelheid die gestaag toeneemt over de tijd. Leerkrachten zullen daarom willen nagaan hoe snel hun leerlingen kunnen lezen zonder dat zij daarbij de nauwkeurigheid uit het oog verliezen.In deze Entreetoets is in de optionele taken dan ook een taak opgenomen die dit aspect van de leesvaardigheid evalueert: de taak Leestempo (Taak 21). De taak Leestempo meet leessnelheid bij leerlingen in het primair onderwijs. Het gaat in Leestempo echter niet om een pure snelheidsmeting. De toets Leestempo stelt niet vast hoeveel woorden een leerling in een bepaalde tijd kan lezen, maar stelt vast of een leerling dat wat hij in een bepaalde tijd gelezen heeft, ook goed gelezen heeft; althans zó goed dat hij uit kan maken dat bepaalde woorden wél in het gelezene thuishoren en andere niet. In de taak Leestempo kan een leerling dus laten zien hoe vlot en nauwkeurig hij leest. Nog weer anders gezegd: de toets Leestempo is een meetinstrument waarin de variabele ‘leessnelheid’ gebruikt wordt om gegevens over de technische leesvaardigheid van leerlingen te verzamelen. De leestempotoets meet de technische leesvaardigheid onder tijdsdruk. De taak Leestempo is een groepsgewijs afneembare toets die de leerlingen stil lezen en niet, zoals gebruikelijk bij de meeste ‘soortgenoot’-instrumenten, hardop. Daarnaast verschilt Leestempo van het merendeel van de ‘soortgenoot‘-instrumenten waar het de aard van het te lezen materiaal betreft. Tijdens de afname van een leestempotoets krijgen leerlingen geen rijtjes woorden, pseudowoorden of geïsoleerde zinnen voorgelegd, maar moeten zij een lopende tekst lezen; woorden in een samenhangende context (zie ook Krom & Kamphuis, 2001). De taak waar leerlingen in een toets Leestempo voor staan, is dus het stil lezen van teksten. Deze werkvorm is gekozen om zo dicht mogelijk bij het alledaagse lezen te blijven. De toetsvorm van Leestempo kan in het kort omschreven worden als een tekst waarin leerlingen, al lezende, om gemiddeld het tiende woord met een keuzeprobleem worden geconfronteerd. De leerlingen krijgen acht minuten de tijd om deze tekst te lezen. In het algemeen gesproken zullen snelle lezers na de gegeven leestijd verder gevorderd zijn in de tekst dan langzame lezers.Om achteraf te kunnen vaststellen tot wáár in de tekst een leerling gevorderd is, laten we hem woorden in de tekst onderstrepen. Alle geplaatste streepjes samen geven aan hoe ver hij gekomen is. Ieder streepje geeft een keuze aan die de leerling maakte tussen drie, wat hun schrijfwijze betreft, minimaal verschillende alternatieven: het woord dat in de tekst hoort (het goede antwoord) en twee daarvan afgeleide (foute) woorden. Beide afleiders staan voor door zwakke lezers min of meer frequent gemaakte technisch-leesfouten. Leerlingen zouden, om snelle lezers te lijken, lukraak woorden aan kunnen strepen. Deze leerlingen moeten achteraf onderscheiden kunnen worden van werkelijk snelle lezers. Iedere keuze voor een van de drie antwoordalternatieven moet dan ook ondubbelzinnig als een juiste of als een onjuiste keuze bestempeld kunnen worden. Het criterium daarvoor ligt in de tekst. De onjuiste alternatieven passen niet en het te kiezen woord past wél in de tekst. Op deze manier is in de toets een vorm van controle ingebouwd. Ook geldt er een percentage opgaven dat maximaal fout mag worden gemaakt. Lezers maken bij het lezen van een tekst in een natuurlijke setting namelijk ook af en toe een foutje, zonder dat dit het lezen van de tekst verstoort. Bij de taak Leestempo mogen leerlingen maximaal 15% van de opgaven fout maken. Met andere woorden, zij mogen in maximaal 15% van de gevallen een foute keuze maken bij de drie gegeven antwoordmogelijkheden. Indien zij meer fouten maken, wordt hun score als ‘niet acceptabel’ gezien: zij hebben wellicht sneller gelezen dan zij gezien hun vaardigheid zouden moeten doen en hebben zich aldus niet gehouden aan de opdracht om ‘zo vlug mogelijk te lezen, maar niet zo vlug dat je fouten
32
maakt.’ De toets bevat 130 items en is gebaseerd op een tekst van 1345 woorden. Er wordt niet verwacht dat een leerling de tekst in de gegeven leestijd helemaal zal kunnen lezen. De in de toets gebruikte tekst heeft een technische leesmoeilijkheid die hem geschikt maakt voor de gemiddelde leerling halverwege groep 7. Begripsmatig is de tekst geschikt voor de gemiddelde leerling in groep 6. Omdat de technische en niet de begrijpende leesvaardigheid gemeten wordt, verdient het ook de voorkeur om een tekst te gebruiken die begripsmatig iets onder de jaargroep van de doelgroep van de toets ligt. Deze gegevens zijn nagegaan met behulp van door Cito ontwikkelde leesbaarheidsformules (zie voor achtergrondinformatie: Staphorsius, 1994). De taak Leestempo rapporteert één score: de vaardigheidsscore Leestempo.Op basis van deze vaardigheidsscore kan ook het functioneringsniveau van de leerling bepaald worden. Een leerling met functioneringsniveau E6 functioneert zoals leerlingen in Nederland gemiddeld eind groep 6 functioneren. Met betrekking tot technisch lezen spreken we dan van AVI-E6. Zoals de vaardigheidsscores van leerlingen op Leestempo omgezet kunnen worden in een AVI-niveau, kan ook de moeilijkheid die een tekst leestechnisch gesproken heeft, uitgedrukt worden in een AVI-niveau (zie ook Staphorsius & Verhelst, 1997). Met behulp van het AVI-niveau worden aldus leesvaardigheid en leesbaarheid op één schaal gebracht. Dit maakt het mogelijk om voor een leerling leesteksten te selecteren met een moeilijkheid die afgestemd is op de technische leesvaardigheid waarover hij of zij beschikt. Woordenschat (8) Woordenschat is een ‘algemene ondersteunende taalvaardigheid’. Algemeen omdat de woordenschat bij het produceren en begrijpen van teksten een rol speelt. Verschillen in taalvaardigheid blijken zeer hoog samen te hangen met verschillen in woordenschat. In het onderwijs streeft men bij leerlingen indirect en direct zowel de verbreding als de verdieping van de woordenschat na. De taken Woordenschat proberen dan ook zowel de breedte als de diepte van de woordenschat te meten. De woorden in de opgaven in de taken Woordenschat 1 (Taak 6) en Woordenschat 2 (Taak 12) zijn meer en minder bekende woorden uit een grote verzameling woorden die in (steekproeven uit) de jeugdlectuur aangetroffen zijn.
3.2.2
Rekenen-Wiskunde
In de kerndoelen basisonderwijs (Ministerie van OCW, 1998) wordt Rekenen-Wiskunde als volgt getypeerd: Het onderwijs in Rekenen-Wiskunde is erop gericht dat de leerlingen: – verbindingen kunnen leggen tussen het onderwijs in Rekenen-Wiskunde en hun dagelijkse leefwereld; – basisvaardigheden verwerven, eenvoudige wiskundetaal begrijpen en toepassen in praktische situaties; – reflecteren op eigen wiskundige activiteiten en resultaten daarvan op juistheid controleren; – eenvoudige verbanden, regels, patronen en structuren opsporen; – onderzoeks- en redeneerstrategieën in eigen woorden kunnen beschrijven en gebruiken. In de bestaande methoden op het gebied van Rekenen-Wiskunde worden deze kerndoelen uitgewerkt in leerlijnen, leerinhouden en leerdoelen. De leerdoelen zijn in de volgende drie domeinen in te delen: – Getallen en bewerkingen – Verhoudingen, breuken en procenten – Meten, meetkunde, tijd en geld. Ook aan de constructie van de taken voor Rekenen-Wiskunde in de Entreetoets ligt deze indeling in leerdoelen ten grondslag. De rubriek ‘Meten, meetkunde, tijd en geld’ is onderverdeeld in ‘Meten en meetkunde’ en ‘Tijd en geld’. In het overzicht hieronder werken we deze indeling uit. We concretiseren de leerdoelen per hoofdrubriek door te verwijzen naar opgaven in de Entreetoets. Ook bij een aantal specifieke leerdoelen binnen een rubriek treft u ter illustratie zo’n verwijzing aan.
33
Getallen en bewerkingen In de Entreetoets zijn de volgende opgaven van dit onderdeel van het reken-wiskundeonderwijs een uitwerking: Rekenen 1 (Taak 3): 15, 18, 20, 24, 27, 30; Rekenen 2 (Taak 5): 1-30; Rekenen 3 (Taak 9): 2, 18, 19, 25; Rekenen 4 (Taak 13): 17, 21, 22, 26, 27. Getallen Structuur van de telrij – Verdertellen en terugtellen met sprongen van 0.01, 0.1, 10, 100, 1000 en met sprongen van 25, 50, 250 en 500 (vanaf een veelvoud van deze getallen); – Globaal en precies plaatsen van natuurlijke getallen en kommagetallen op de getallenlijn. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 24 Vergelijken en ordenen – Getallen in volgorde zetten van klein naar groot en omgekeerd; – Kleinste en/of grootste getal bepalen; – Aangeven welk getal het dichtst in de buurt van een gegeven getal ligt. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 2 Structuur van getallen – Splitsen en samenvoegen van getallen, aantallen of hoeveelheden, gebruikmakend van de decimale structuur (duizendtallen, honderdtallen, tientallen, eenheden, tienden, honderdsten, duizendsten); – Bepalen van de waarde van cijfers in getallen; – Kommagetallen omzetten in decimale breuken en omgekeerd. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 3 Uitspraak en schrijfwijze van natuurlijke getallen en decimale getallen – Grote getallen en kommagetallen in spreektaalaanduidingen (bijvoorbeeld 320 duizend, een miljoen, twee duizendste) omzetten naar getallen met cijfers. Zie bijvoorbeeld Rekenen 4 (Taak 13) opgave 22 Afronden – Getallen afronden op een tiende, een honderdste, een geheel getal, een tiental, honderdtal, duizendtal, tienduizendtal, honderdduizendtal, miljoen. Zie bijvoorbeeld Rekenen 4 (Taak 13) opgave 27 Hoofdrekenen Optellen, aftrekken, vermenigvuldigen en delen met getallen sec en in toepassings-situaties, waarbij gebruik wordt gemaakt van basiskennis van getallen en van inzicht in relaties tussen getallen en eigenschappen van bewerkingen. Bij deze opgaven mag geen uitrekenpapier gebruikt worden. De getallenkeuze is zodanig dat de berekeningen zonder veel geheugenbelasting gemaakt kunnen worden. Optellen – Optellen met natuurlijke getallen en kommagetallen, waarbij werkwijzen gebruikt kunnen worden als hergroeperen, splitsen, samenvoegen, toevoegen en compenseren (één of meer getallen veranderen en eventueel een correctie toepassen). Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 17 Aftrekken – Aftrekken met natuurlijke getallen en kommagetallen, waarbij werkwijzen gebruikt kunnen worden zoals hergroeperen, aanvullen, terugtellen met sprongen, splitsen, compenseren. Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 22 Vermenigvuldigen – Vermenigvuldigen met natuurlijke getallen en kommagetallen, waarbij werkwijzen gebruikt kunnen worden zoals herhaald optellen, splitsen, verwisselen, verdubbelen of halveren, hergroeperen en compenseren; – Vermenigvuldigen naar analogie (met getallen met nullen: 80 x 600).
34
Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 5 Delen – Delen met natuurlijke getallen en kommagetallen waarbij werkwijzen gebruikt kunnen worden zoals splitsen, herhaald optellen, herhaald aftrekken, omkeren (delen zien als het omgekeerde van vermenigvuldigen), compenseren, toepassen van verhoudingen; – Delen naar analogie (met getallen met nullen: 2400 : 60); – Delen in toepassingssituaties met restproblematiek. Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 3 Combinaties van bewerkingen – Oplossen van opgaven waarbij verschillende operaties uitgevoerd moeten worden. Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 7 Schattend rekenen Optellen, aftrekken, vermenigvuldigen en delen met afgeronde getallen sec en in toepassingssituaties. Bij deze opgaven mag geen uitrekenpapier gebruikt worden. De getallenkeuze is zodanig dat de berekeningen met afgeronde getallen zonder veel geheugenbelasting gemaakt kunnen worden. Optellen – Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 13 Aftrekken – Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 6 Vermenigvuldigen – Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 16 Delen – Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 18 Combinaties van bewerkingen – Zie bijvoorbeeld Rekenen 2 (Taak 5) opgave 4 Bewerkingen op papier Optellen, aftrekken, vermenigvuldigen en delen met getallen sec en in toepassingssituaties, waarbij gebruikgemaakt kan worden van uitrekenpapier, waarop cijfernotaties en tussenuitkomsten van berekeningen ter ondersteuning van het geheugen geschreven kunnen worden. Optellen – Optellen met natuurlijke getallen en decimale getallen sec en in toepassingssituaties waarbij sprake is van samenvoegen en toevoegen. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 19 Aftrekken – Aftrekken met natuurlijke getallen en decimale getallen sec en in toepassingssituaties waarbij sprake is van eraf halen, splitsen, aanvullen, verschil bepalen. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 30 Vermenigvuldigen – Vermenigvuldigen met natuurlijke getallen en decimale getallen sec en in toepassingssituaties. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 25 Delen – Delen met natuurlijke getallen en decimale getallen sec en in toepassingssituaties, waarbij sprake is van verdelen of opdelen en waarbij ook de rest geïnterpreteerd moet worden. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 18 Combinaties van bewerkingen – Oplossen van opgaven waarbij verschillende operaties uitgevoerd moeten worden. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 15
35
Verhoudingen, breuken en procenten In de Entreetoets zijn de volgende opgaven van dit onderdeel van het reken-wiskundeonderwijs een uitwerking: Rekenen 1 (Taak 3): 1, 4, 7, 10, 13, 16, 19, 28; Rekenen 2 (Taak 5): –; Rekenen 3 (Taak 9): 5, 6, 9, 12, 20, 23, 24, 27, 28; Rekenen 4 (Taak 13): 1, 3, 5, 11, 13, 16, 19, 25. Verhoudingen Basiskennis, begrip en toepassingen – Beoordelen of figuren in eenzelfde verhouding zijn weergegeven; – Omzetten van beschrijvingen met verhoudingsgetallen in beschrijvingen met een breuk of percentage en omgekeerd; – Relatief vergelijken van gegevens met behulp van verhoudingsgetallen; – Oplossen van elementaire verhoudingsproblemen, waarbij of de verhouding, of een deel, of het geheel moet worden bepaald; – Werkelijke afstand bepalen met behulp van een schaallijn en een liniaal; – Vergelijken op basis van verhoudingsrelaties (bijvoorbeeld prijs/aantal, afstand/tijd). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 19 Breuken Basiskennis, begrip en toepassingen – Deel van een geheel, van een hoeveelheid en resultaat van een verdeling benoemen met een breuk; – Gegeven breuk interpreteren als deel van een geheel of van een hoeveelheid; – Deel van een hoeveelheid berekenen of op basis van een gegeven deel het totaal berekenen; – Breuken op een getallenlijn plaatsen; – Breuken omzetten in een kommagetal of in een verhouding en omgekeerd; – Benoemde breuken omzetten in een percentage en omgekeerd; – Vergelijken en ordenen van breuken en gemengde getallen; – Elementaire operaties met eenvoudige breuken of gemengde getallen uitvoeren (optellen, aftrekken, vermenigvuldigen, delen, vereenvoudigen, herleiden, voornamelijk in contextsituaties). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 13 Procenten Basiskennis, begrip en toepassingen – Beschrijven van een deel van een geheel of aantal met een percentage; – Percentages aflezen in een grafiek (cirkeldiagram, strook, staafgrafiek); – Omzetten van verhoudingen of breuken in een percentage en omgekeerd; – Berekenen van een deel van een aantal of van het totaal op basis van een gegeven percentage; – Uitvoeren van elementaire bewerkingen met eenvoudige percentages, waarbij sprake is van korting, afname, winst, stijging, daling, enzovoort. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 28
36
Meten, meetkunde, tijd en geld In de Entreetoets zijn de volgende opgaven van dit onderdeel van het reken-wiskundeonderwijs een uitwerking: Rekenen 1 (Taak 3): 2, 3, 5, 6, 8, 9, 11, 12, 14, 17, 21-23, 25, 26, 29; Rekenen 2 (Taak 5): –; Rekenen 3 (Taak 9): 1, 3, 4, 7, 8, 10, 11, 13-17, 21, 22, 26, 29, 30; Rekenen 4 (Taak 13): 2, 4, 6-10, 12, 14, 15, 18, 20, 23, 24, 28-30. Meten en meetkunde Lengte en omtrek – Lengte meten met de liniaal en aflezen in cm en mm; – Omtrek berekenen van rechthoeken, rechthoekige figuren en benaderen van grillige figuren; – Oplossen van vraagstukjes door gebruik te maken van notie van de lengtematen bij bijvoorbeeld het kiezen van de juiste maat in de gegeven context en bij schatten van hoogte of lengte door een beroep te doen op kennis ontleend aan referentiepunten uit het dagelijks leven; – Uitvoeren van herleidingen met veel voorkomende lengtematen. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 4 Oppervlakte – Precies en schattend berekenen van de oppervlakte van rechthoeken en rechthoekige figuren en van driehoek of parallellogram via omvormen, met behulp van natuurlijke maten en standaardmaten in contexten en via de formule lengte x breedte; – Oplossen van vraagstukjes door gebruik te maken van notie van de oppervlakte-maten bij bijvoorbeeld het kiezen van de juiste maat in de gegeven context door een beroep te doen op kennis ontleend aan referentiepunten uit het dagelijks leven; – Uitvoeren van herleidingen met veel voorkomende oppervlaktematen. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 3 en 6 Inhoud – Globaal en precies aflezen van inhoudsmaten (maatbeker); – Berekeningen uitvoeren (globaal en schattend) met inhoudsmaten via tellen (blokken) en via rekenen (inhoud van een balk, bak, kamer); – Berekenen van de inhoud met behulp van de formule lengte x breedte x hoogte; – Oplossen van vraagstukjes door gebruik te maken van notie van de inhoudsmaten bij bijvoorbeeld het kiezen van de juiste maat in de gegeven context door een beroep te doen op kennis ontleend aan referentiepunten uit het dagelijks leven; – Uitvoeren van herleidingen met veel voorkomende inhoudsmaten (ml, cl, dl, l, cm3, dm3, m3). Zie bijvoorbeeld Rekenen 4 (Taak 13) opgave 15 en 30 Gewicht – Globaal en precies aflezen van resultaten van wegingen met weeginstrumenten; – Oplossen van vraagstukjes door gebruik te maken van notie van de weegmaten bij bijvoorbeeld het kiezen van de juiste maat in de gegeven context door een beroep te doen op kennis ontleend aan referentiepunten uit het dagelijks leven; – Uitvoeren van herleidingen met veel voorkomende weegmaten (kg, g, mg). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 29
37
Toepassingen – Toepassingsopgaven waarbij twee of meer inhoudelijke gebieden betrokken zijn, bijvoorbeeld omtrek en oppervlakte, oppervlakte en inhoud; – Bepalen of in een situatie een omtrek-, oppervlakte- of inhoudsberekening nodig is; – Schatten van o.a. oppervlakte, inhoud, lengte of gewicht op basis van ervaringsfeiten; – Bepalen welke gegevens nodig of overbodig zijn in een bepaalde situatie. Zie bijvoorbeeld Rekenen 3 (Taak 9) opgave 22 Meetkunde – Oriënteren en lokaliseren o lezen van plattegronden en oriënteren op een kaart; o lokaliseren met behulp van coördinaten (zowel punten – (2,3) – als vakken – (A3) –); o viseren en projecteren; o interpreteren van schaduwen en viseerlijnen. – Ruimtelijk redeneren of construeren o interpreteren van aanzichten van (blokken)bouwsels (voor, zij, achter), hoogtegetallen bepalen of aflezen bij blokkenbouwsels; o bouwplaten en objecten bij elkaar zoeken (kubussen, piramide, doosjes); o standpunt bepalen aan de hand van foto’s en objecten; o samenstellen van figuren door in gedachten te vouwen en/of ruimtelijk te redeneren; o mentaal reconstrueren van een figuur of bouwwerk. – Transformeren o gelijkvormigheid interpreteren (vergrotingen en verkleiningen); o interpreteren van spiegelbeelden en spiegellijnen; o gegeven patronen voortzetten. Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 21 Zie bijvoorbeeld Rekenen 4 (Taak 13) opgave 14 Tijd en geld Tijd Klok – Aflezen van analoge tijden en digitale tijden; – Omzetten van digitale tijdsaanduidingen in analoge tijden en omgekeerd; – Bepalen van tijdsduur en tijdstip; – Herleidingen uitvoeren met tijdmaten (uur, kwartier, minuut, seconde). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 14 Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 17 Kalender – Aflezen en interpreteren van gegevens van de kalender (dagen, weken, maanden, jaren, kwartalen, weeknummers), rekenen met gegevens van de kalender; – Aflezen en interpreteren van datumaanduiding en kwartaalaanduiding; – Herleidingen uitvoeren met tijdmaten (dag, week, maand, kwartaal, jaar, eeuw). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 8 Geld Basiskennis, begrip en toepassingen – Totale waarde bepalen van afgebeelde (of beschreven) munten of biljetten; – Omwisselen van biljetten of munten in andere munten of biljetten; – Gepast samenstellen van bedragen met munten of biljetten; – Bepalen wat men terugkrijgt (eventueel ook via bijbetalen om terugkrijgen te vergemakkelijken); – Schattend rekenen met geldbedragen door af te ronden; – Omwisselen van euro naar vreemde valuta en omgekeerd;
38
–
Rekenen met geld in combinatie met andere maten (tijd, afstand, gewicht). Zie bijvoorbeeld Rekenen 1 (Taak 3) opgave 2
3.2.3
Studievaardigheden
De opgaven in het onderdeel Studievaardigheden hebben betrekking op de volgende rubrieken: – Hanteren van informatiebronnen (1) Taak 11 (Studievaardigheden 3) – Kaartlezen (2) Taak 2 (Studievaardigheden 1) – Lezen van schema’s, tabellen en grafieken (3) Taak 7 (Studievaardigheden 2) – Hanteren van studieteksten (4) Taak 15 (Studievaardigheden 4) Bij het hanteren van informatiebronnen staan de selectie van de bron en de zoekstrategie binnen de bron centraal. Het gaat hierbij om zowel papieren als digitale informatiebronnen. Bij het lezen van kaarten en schema’s, tabellen en grafieken gaat het om de interpretatie van de informatie, waarbij gebruikgemaakt wordt van de specifieke kenmerken van de informatiedrager. Het hanteren van studieteksten ten slotte draait om de omzetting van informatie in de teksten in een vorm die gemakkelijk toegankelijk is en die als geheugensteun kan dienen. Hieronder worden per rubriek de leerdoelen besproken die in de Entreetoets bevraagd worden. Hanteren van informatiebronnen (1) Deze rubriek omvat algemene vaardigheden die nodig zijn voor het opzoeken van informatie, zoals het kiezen van de juiste informatiebron en het kunnen kiezen en gebruiken van ingangen bij informatiebronnen. Daarnaast omvat deze rubriek vaardigheden die nodig zijn bij het gebruik van specifieke informatiebronnen, zoals woordenboeken, encyclopedieën en telefoongidsen. De leerdoelen in deze rubriek worden bevraagd in Taak 11 (Studievaardigheden 3). Algemene vaardigheden bij het hanteren van informatiebronnen Alfabetiseren en de toepassing ervan in allerlei contexten zoals: woordenboek, encyclopedie, telefoongids en internet. Voorbeeld: Kennismakingsboekje Taak 7, opgave 4 Kiezen van een geschikte informatiebron en van een geschikte ingang tot die bron. Het gaat hierbij om informatiebronnen zoals boeken, tijdschriften, kranten, folders, radio- en tv-gidsen, reisgidsen, telefoongidsen, woordenboeken en internet. Bij ingangen tot een bron valt te denken aan inhoudsopgaven, zaak- en personenregisters, lijsten van afbeeldingen, zoekmachines op internet en bibliografische gegevens, zoals de naam van de schrijver, illustrator en uitgever. Voorbeeld: Kennismakingsboekje Taak 7, opgave 3 Kiezen van adequate trefwoorden en omschrijvingen bij het zoeken naar informatie. Bij het kiezen van trefwoorden of omschrijvingen die geschikt zijn om gevraagde informatie te vinden, gaat het om de volgende vaardigheden: – uit een zoekvraag de juiste kernbegrippen kunnen halen die als trefwoord kunnen dienen; – trefwoorden kunnen ‘vertalen’ in synonieme aanduidingen of boven- of ondergeschikte begrippen.
39
Als context voor het kiezen van trefwoorden of omschrijvingen valt te denken aan boektitels, inhoudsopgaven, registers en internet (webpagina’s en zoekmachines). Voorbeeld: Kennismakingsboekje Taak 7, opgave 2 Specifieke informatiebronnen Woordenboek Bij opgaven uit deze categorie gaat het om het kunnen opzoeken van: – de betekenis van woorden, spreekwoorden, zegswijzen en afkortingen; – de uitspraak van woorden: de lettergreep waarop de klemtoon valt; – de verbuigingsvormen van woorden: meervoudsvormen en verkleinwoorden; – de spelling van woorden. Daarbij zijn de volgende regels van belang: – verbuigingen van het werkwoord (persoonsvorm, voltooid en onvoltooid deelwoord) staan bij de infinitief; – verbuigingen van bijvoeglijke naamwoorden staan bij het grondwoord (bijvoorbeeld: forse staat bij fors); – meervoudsvormen staan bij het enkelvoudige grondwoord; – woordvormen ontstaan door afleiding staan bij het grondwoord (bijvoorbeeld mooier staat bij mooi, huisje staat bij huis); – afkortingen gaan vooraf aan de lijst van woorden met eenzelfde beginletter (bijvoorbeeld t.a.v. staat aan het begin van de letter T). Voorbeeld: Kennismakingsboekje Taak 7, opgave 5 Encyclopedie Bij deze opgaven moeten leerlingen aangeven onder welk trefwoord of in welk deel van de encyclopedie de gevraagde informatie het meest waarschijnlijk te vinden is. Voorbeeld: Taak 11, opgave 16 Telefoongids De opgaven uit deze categorie behandelen de volgende vaardigheden: – het kunnen hanteren van de alfabetische ordening van abonnees op achtereenvolgens woonplaats, achternaam, straatnaam; – het kunnen opzoeken van abonnee-, netnummer en/of postcode als voldoende andere gegevens bekend zijn, (bijvoorbeeld: woonplaats, adres en/of beroep); – het kunnen opzoeken van bijzondere telefoonnummers (bijvoorbeeld: 06-nummers en internationale toegangsnummers). Voorbeeld: Taak 11, opgave 18 Overige naslagwerken Deze opgaven bevragen het gebruiken van andere dan bovengenoemde informatiebronnen, zoals internet, bedrijvengidsen, gemeentegidsen, reisgidsen, folders en brochures. Wat betreft internet gaat het om het gebruiken van de voornaamste besturingselementen op webpagina’s, zoals zoekvensters, menubalk en hyperlinks. Voorbeeld: Kennismakingsboekje Taak 7, opgave 1
40
Kaartlezen (2) Bij kaartlezen wordt onderscheid gemaakt tussen: – Kiezen: De leerlingen kunnen de juiste kaart kiezen; – Lokaliseren: De leerlingen kunnen de plaats van een verschijnsel op de kaart opzoeken; – Inventariseren: De leerlingen kunnen verschijnselen op de kaart met behulp van de legenda beschrijven; – Analyseren: De leerlingen kunnen verbanden leggen tussen gegevens op de kaart; – Interpreteren: De leerlingen kunnen verbanden leggen tussen kaart en werkelijkheid door gebruik te maken van algemene kennis van de wereld. Deze vaardigheden worden toegepast op verschillende kaarten. De kaarten verschillen in: – Schaalniveau In de toets worden bijvoorbeeld vragen gesteld bij de plattegrond van New York en de veel kleinschaligere kaarten van Spanje. – Inhoud We onderscheiden overzichtskaarten – met informatie over de ligging van plaatsen, rivieren, wegen e.d. in een gebied – en thematische kaarten met informatie over een bepaald onderwerp. De kaart van New York in het bronnenboekje is een voorbeeld van een overzichtskaart. De kaart ‘Toeristengebieden in Spanje’ in het bronnenboekje is een voorbeeld van een thematische kaart. De leerdoelen in deze rubriek worden bevraagd in Taak 2 (Studievaardigheden 1). Selecteren De leerlingen kunnen de kaart kiezen die de gewenste informatie bevat. Voorbeeld: Bij opgave 16 moet de leerling de overzichtskaart van Spanje raadplegen, maar ook de kaart waarop de bevolkingsdichtheid in dit land is weergegeven. Lokaliseren Binnen deze categorie worden verschillende manieren van lokaliseren bevraagd. – Lokaliseren met behulp van de richting: Leerlingen kunnen de ligging op een kaart met windroos of noordpijl bepalen door gebruik te maken van de hoofdwindrichtingen (noord, zuid, west, oost) en de tussenwindrichtingen (noordoosten, zuidoosten, noordwesten, zuidwesten). – Lokaliseren met behulp van afstanden: Leerlingen kunnen de werkelijke afstand tussen twee punten op de kaart bepalen met behulp van een afstandslijn. – Lokaliseren met behulp van een vakkenstelsel: Leerlingen kunnen de ligging bepalen met behulp van een register en een vakkenstelsel. Voorbeeld: Bij opgave 2 bij de kaart van New York moet de leerling kennis van de tussenwindrichtingen toepassen. Inventariseren Deze categorie behandelt het inventariseren van verschijnselen op de kaart. Leerlingen kunnen: – de betekenis van kaartsymbolen met behulp van een legenda aangeven; – een abstract kaartbeeld naar een meer concreet beeld van de werkelijkheid vertalen. Voorbeeld: Bij vrijwel alle opgaven in Taak 2 moet de leerling de betekenis van kaartsymbolen achterhalen. In opgave 12 bijvoorbeeld gaat het om de betekenis van de kleuren op de overzichtskaart.
41
Analyseren Leerlingen kunnen conclusies trekken door gegevens op één of meerdere kaarten van een bepaald gebied te combineren. Voorbeeld: In opgave 14 bij de kaarten van Spanje moet de leerling vier toeristengebieden in Spanje vergelijken om tot een juiste keuze te komen. Interpreteren Deze categorie behandelt het combineren van kaartgegevens en werkelijkheid. Leerlingen kunnen verschijnselen verklaren door gegevens op een kaart te combineren met algemene kennis van de wereld. Voorbeeld: In opgave 3 bij de kaart van New York kunnen leerlingen uit de weergave van de wegen op de kaart afleiden over welke brug waarschijnlijk het minste verkeer zal rijden. Lezen van schema’s, tabellen en grafieken (3) Binnen deze rubriek gaat om het kunnen lezen van verschillende soorten schema’s, tabellen en grafieken. We onderscheiden structuurschema’s, stroomdiagrammen, enkelvoudige tabellen, kruistabellen, beeld-, staaf-, lijn- en cirkelgrafieken. Bij het lezen van schema’s, tabellen en grafieken onderscheiden we de volgende deelvaardigheden: identificeren, analyseren, en interpreteren. De leerdoelen in deze rubriek worden bevraagd in Taak 7 (Studievaardigheden 2). Selecteren De leerlingen kunnen beoordelen of een gegeven grafiek geschikt is als informatiebron bij een bepaalde vraag. Voorbeeld: Taak 7, opgave 1 Identificeren Deze categorie behandelt het kunnen opzoeken van gegevens in een schema, tabel of grafiek, door gebruik te maken van de titel, symboolverklaringen, celgegevens, rij-opschriften, as-opschriften, schaalverdelingen, meetpunten, relatieve verdelingen en totalen. – Identificeren van gegevens in een schema Het identificeren in deze categorie kan betrekking hebben op de titel, elementen of cellen in het schema en relaties tussen elementen of cellen. Voorbeeld: Kennismakingsboekje Taak 2, opgave 9 – Identificeren van gegevens in een tabel In deze categorie kan het identificeren betrekking hebben op de titel, celgegevens en vergelijkingen tussen celgegevens, zoals verschillen en totalen en relatieve verhoudingen Voorbeeld: Taak 7, opgave 5 – Identificeren van gegevens in een beeldgrafiek Het identificeren kan hier betrekking hebben op de titel, rij-opschriften, symboolverklaring en vergelijkingen tussen gegevens, zoals verschillen, totalen en relatieve verhoudingen. Voorbeeld: Taak 7, opgave 7 Identificeren van gegevens in een staafgrafiek Het identificeren kan hier betrekking hebben op de titel, staafopschriften, schaalverdeling, symboolverklaring, frequenties, vergelijkingen tussen gegevens, zoals verschillen, totalen en relatieve verhoudingen. Voorbeeld: Kennismakingsboekje Taak 2, opgave 10
42
–
–
Identificeren van gegevens in een lijngrafiek In deze categorie kan het identificeren betrekking hebben op de titel; as-opschriften, schaalverdeling, symboolverklaring, frequenties, vergelijkingen tussen gegevens, zoals verschillen, totalen en relatieve verhoudingen. Voorbeeld: Taak 7, opgave 15 Identificeren van gegevens in een cirkelgrafiek Het identificeren kan betrekking hebben op de titel, de symboolverklaring, relatieve aandelen, en combinaties tussen gegevens, zoals verschillen, totalen en relatieve verhoudingen. Voorbeeld: Kennismakingsboekje Taak 2, opgave 6
Analyseren De opgaven in deze categorie behandelen het ontdekken van een patroon in de gegevens van één of meer tabellen of grafieken. Een patroon kan bestaan uit een trend, of uit een bepaalde combinatie van gegevens die optimaal voldoet aan een bepaald criterium. – Onderkennen van een trend Voorbeeld: Taak 7, opgave 12 – Onderkennen van een combinatie van gegevens die voldoet aan een bepaald criterium Voorbeeld: Kennismakingsboekje Taak 2, opgave 7 Interpreteren Binnen deze categorie moeten leerlingen een patroon in de tabel of de grafiek verklaren met behulp van algemene kennis van de wereld. Voorbeeld: Kennismakingsboekje Taak 2, opgave 8 Hanteren van studieteksten (4) Het hanteren van studieteksten kan het best worden beschouwd als een aspect van het leesonderwijs. In de opgaven staan het structureren en het interpreteren van studieteksten centraal. Onder structureren verstaan we het omzetten van een tekst door die samen te vatten in tekst (titel, kopje) of een overzichtelijke vorm (schema, tabel). Een bijzondere vorm van transformatie is de verbeelding van de tekst door middel van een illustratie. Onder interpreteren verstaan we het vaststellen van de bruikbaarheid van de tekst. Bijvoorbeeld door de informatieve waarde en de betrouwbaarheid van de tekst af te zetten tegen de achtergrond van een praktisch doel. De leerdoelen in deze rubriek worden bevraagd in Taak 15 (Studievaardigheden 4). Samenvatten van een tekst of alinea in tekst – Samenvatten van een tekst in een verkorte lopende tekst Voorbeeld: Taak 15, opgave 1 – Samenvatten van een tekst of alinea in een passende titel of tussenkop Voorbeeld: Kennismakingsboekje Taak 7, opgave 7 en 8 Samenvatten van een tekst of alinea in een schema – Selecteren van het meest adequate schema voor het structureren van een bepaalde tekst Voorbeeld: Taak 15, opgave 2 – Samenvatten van een tekst in een lineair schema Het gaat hierbij om enkelvoudige tabellen, zoals tijdlijnen, routebeschrijvingen, procedures met opeenvolgende handelingen, zoals bij recepten voor bakken en koken. Voorbeeld: Taak 15, opgave 15 – Samenvatten van een tekst in een schema met een boomstructuur Hierbij gaat het om een begrippenstructuur van onder- boven- en nevenschikkende begrippen, zoals een stamboom, een indeling van het dieren- of plantenrijk, enzovoort. Voorbeeld: Taak 15, opgave 18
43
–
Samenvatten van een tekst in een matrixstructuur Voorbeeld: Kennismakingsboekje Taak 7, opgave 6
Samenvatten van een tekst of alinea in een concreet beeld, zoals een passende illustratie Voorbeeld: Kennismakingsboekje Taak 7, opgave 10 Interpreteren van de bruikbaarheid van een tekst met het oog op een concreet doel Voorbeeld: Kennismakingsboekje Taak 7, opgave 9
3.3
Kenmerken van de toets: beschrijvende gegevens
Itemkenmerken: moeilijkheidsgraad en interne consistentie Wat de moeilijkheid van de opgaven betreft: voor de opgavenselectie geldt het uitgangspunt dat de p-waarden bij voorkeur tussen .40 - .90 moeten liggen en dat de opgaven in de Entreetoets gemiddeld een p-waarde hebben van rond .70. In tabel 3.1 rapporteren we de range van p-waarden en de gemiddelde p-waarde van de opgaven voor de Entreetoets groep 7. De waarden zijn berekend op 129166 afnames van deze toets in 2012. De cijfers hebben betrekking op de toetsonderdelen zoals deze worden gepresenteerd in het leerlingrapport. Er is gekozen voor een rapportagevorm met sterk gedifferentieerde resultaten (ook al hangen sommige onderdelen, zoals de verschillende rubrieken van Rekenen-Wiskunde, onderling soms sterk samen). Op deze manier is het voor de leerkracht mogelijk maximaal te differentiëren naar zwakke en sterke kanten van de leerlingen. Het onderdeel Taal is opgesplitst in Schrijven, Spelling (respectievelijk nietwerkwoorden en werkwoorden), Begrijpend lezen en Woordenschat. Het onderdeel Rekenen-Wiskunde, is opgesplitst in Getallen en bewerkingen, Verhoudingen, breuken en procenten en Meten, meetkunde, tijd en geld (respectievelijk Meten en meetkunde en Tijd en geld). Het onderdeel Studievaardigheden is opgesplitst naar Studieteksten, Informatiebronnen, Kaartlezen en Lezen (van) schema’s, tabellen en grafieken. Ook worden gegevens gepresenteerd voor de facultatieve onderdelen van Taal (Grammatica, Leestekens en Begrijpend luisteren). De (130) opgaven van Leestempo passen vanwege hun aard niet in deze tabel. Het gaat bij deze deeltoets immers om het oplezen van zoveel mogelijk woorden, waarbij de individuele woorden niet beschouwd kunnen worden als opgaven met eigen itemkarakteristieken. De afname van de facultatieve onderdelen betreft per definitie minder leerlingen dan de ruim 129000 leerlingen die de reguliere onderdelen van de toets hebben gemaakt, namelijk N = 48780 voor Grammatica, N = 34940 voor Leestekens en N = 33984 voor Begrijpend luisteren. Daarnaast zijn ook gegevens opgenomen over de Rit-waarden van de opgaven, waarbij de toetsscore over het betreffende onderdeel het uitgangspunt was voor de berekening van de coëfficiënt. Rir-waarden zijn wellicht te prefereren omdat zij een realistischer beeld geven van de correlatie met de schaalscore, maar helaas zijn ons geen normgegevens bekend voor Rir. Voor Rit-waarden kent het COTANbeoordelingssysteem (Evers, Lucassen, Meijer & Sijtsma, 2010) wél kwaliteitscriteria. Voor alle toetsonderdelen blijken de p-waarden goed in de buurt te komen van de gekozen uitgangspunten. De gemiddelden variëren tussen .64 en .77, waarbij Spelling van werkwoorden het moeilijkste onderdeel blijkt en Schrijven het gemakkelijkste. Voor de minima per onderdeel geldt dat slechts voor enkele onderdelen de p-waarde onder de .40 uitkomt (in feite gaat het hier om slechts enkele opgaven). De maximale p-waarden per onderdeel komen bij nogal wat onderdelen boven de .90 uit, maar het betreft uitzonderingen (ook hier weer slechts één of enkele items per onderdeel).
44
Tabel 3.1
Range en gemiddelde van p- en Rit-waarden naar toetsonderdeel
Toetsonderdeel
Entreetoets 7 afname 2012 P-waarden Rit-waarden Range Gem. Range Gem.
N items
Taal Schrijven Spelling niet-werkwoorden Spelling werkwoorden Begrijpend lezen Woordenschat
.41 - .98 .40 - .95 .42 - .92 .44 - .91 .32 - .88
.77 .71 .64 .72 .67
.20 - .49 .30 - .50 .27 - .57 .21 - .48 .21 - .50
.36 .39 .42 .38 .35
50 30 30 50 60
Rekenen-Wiskunde Getallen en bewerkingen Verhoudingen, breuken en procenten Meten en meetkunde Tijd en geld
.36 - .94 .41 - .91 .39 - .88 .40 - .89
.69 .68 .67 .70
.33 - .53 .34 - .59 .27 - .51 .36 - .53
.43 .48 .41 .44
45 25 30 20
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen schema’s, tabellen, grafieken
.57 - .94 .53 - .92 .39 - .85 .55 - .90
.74 .73 .66 .69
.24 - .50 .32 - .46 .28 - .55 .32 - .54
.42 .39 .43 .43
20 20 20 20
.60 - .92 .54 - .87 .32 - .93
.81 .71 .71
.38 - .64 .35 - .62 .15 - .48
.58 .50 .30
25 30 50
4
Facultatief Grammatica Leestekens Begrijpend luisteren
Het COTAN-beoordelingssysteem geeft voor Rit-waarden als kwaliteitscriterium aan, dat waarden boven de .30 als goed beoordeeld worden. De gemiddelde Rit-waarden liggen tussen de .36 en .45, voldoen dus ruim aan deze norm en pleiten voor de zorgvuldigheid van de itemselectie. Rit-waarden onder de .20 worden volgens dezelfde criteria als onvoldoende beoordeeld. Van alle 420 reguliere opgaven is er geen die op deze manier onder de maat is gebleven. Waarden van laag in de .20 zijn bovendien uitzonderingen. Bij de optionele Taal-onderdelen valt op dat Grammatica een hoge gemiddelde p-waarde kent van .81. Ook de gemiddelde Rit-waarde is zeer hoog (.58). Bij deze vaardigheid lijkt het om een ‘alles-of-niets’ vaardigheid te gaan: als het kind één opgave goed kan beantwoorden, is de kans groot dat het ook de andere opgaven goed beantwoordt. Ook bij Leestekens is de gemiddelde Rit-waarde hoog (.50). De gemiddelde moeilijkheidsgraad van dit onderdeel ligt, net als die van Begrijpend luisteren op .71. Voor Begrijpend luisteren is de homogeniteit van de opgaven met .30 wat lager dan bij de andere onderdelen. Bij deze taak vinden we ook de enige twee opgaven waarvan de Rit-waarde niet aan de ondergrens van .20 voor het oordeel ‘voldoende’ voldoet (waarden van .15 en .16). Verdeling van de ruwe scores In tabel 3.2 zijn de verdelingskaraktersitieken gegeven van de ruwe scores op de onderscheiden toetsonderdelen, zowel de reguliere als de optionele. De gemiddelden komen uiteraard overeen met wat men bij een gegeven aantal items mag verwachten bij de gekozen (gemiddelde) moeilijkheidsgraad. Omdat deze gemiddelde moeilijkheidsgraad voor alle onderdelen rond de .70 ligt, zijn alle verdelingen linksscheef (vergelijk de negatieve waarden in de kolom ‘skewness’), de ene wat meer dan de andere. Qua scheefheid ontlopen de verdelingen elkaar niet veel, de parameters variëren tussen -.228 en -.963. Een uitzondering is de schaal Grammatica, die sterk linksscheef verdeeld is. Dit past bij de eerder gegeven interpretatie dat het hier gaat om een ‘alles-of-niets’ vaardigheid lijkt te gaan. Alle verdelingen zijn ééntoppig en lijken onderling vrij sterk op elkaar.
4
Exclusief Leestempo; bij deze taak zijn itemkarakteristieken niet relevant.
45
Voor de belangrijkste ruwe scores (Totaalscore, score op Taal, Rekenen-Wiskunde en Studievaardigheden) zijn de verdelingen ook grafisch weergegeven in figuur 3.4 (a tot en met d). De verdelingen van de verschillende toetsonderdelen op ‘lagere’ aggregatieniveaus zijn niet afgebeeld, maar vertonen een sterke gelijkenis met de wél afgebeelde verdelingen.
Tabel 3.2
Verdelingskenmerken van alle onderdelen van de Entreetoets groep 7 (afname 2012 N=129166); inclusief optionele onderdelen (N=48780 (Grammatica); N=34940 (Leestekens) ; N= 33984 (Begrijpend luisteren))
Onderdeel
Aantal opgaven
M
SD
Skewness
Kurtosis
Totaal
420
295.7
56.39
-.519
-.243
Taal Rekenen-Wiskunde Studievaardigheden
220 120 80
155.7 83.0 56.6
28.59 20.45 12.41
-.551 -.454 -.605
-.052 -.602 -.220
Taal Schrijven Spelling Niet-werkwoorden Werkwoorden Begrijpend lezen Woordenschat
50 60 30 30 50 60
38.4 40.8 21.4 19.4 36.0 40.4
6.99 9.79 4.81 5.75 8.03 9.11
-.963 -.356 -.520 -.261 -.725 -.506
.791 -.455 -.107 -.662 .012 -.244
Rekenen Getallen en bewerkingen Verhoudingen, breuken en procenten Meten, meetkunde, tijd en geld Meten en meetkunde Tijd en geld
45 25 50 30 20
31.3 17.1 34.5 20.4 14.1
8.17 5.17 8.29 5.24 3.60
-.487 -.492 -.454 -.407 -.553
-.561 -.628 -.421 -.433 -.260
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen van schema’s, tabellen, grafieken
20 20 20 20
14.8 14.7 13.2 13.9
3.49 3.30 3.93 3.86
-.862 -.733 -.370 -.628
.456 .271 -.653 -.265
25 30 50 130
20.1 21.3 35.3 90.1
5.53 6.66 6.44 23.28
-1.514 -.599 -.726 -.228
1.806 -.646 .535 -.346
Optionele onderdelen Grammatica Leestekens Begrijpend luisteren Leestempo
46
Figuur 3.4
Verdeling van de ruwe scores op de Entreetoets groep 7 – afname 2012 – voor de Totaalscore en voor de scores op Taal, Rekenen-Wiskunde en Studievaardigheden
Figuur 3.4a Totaalscore
Figuur 3.4b Taal
Figuur 3.4c Rekenen-Wiskunde
Figuur 3.4d Studievaardigheden
47
48
4
Kalibratie en normering
In dit hoofdstuk gaan we in op de kalibratie en normering van de Entreetoets. In paragraaf 4.1 behandelen we het specifieke karakter van de normering van dit instrument. Hett instrument is immers op dermate grote schaal afgenomen dat men zich, als antwoord op de vraag naar representativiteit van de normeringssteekproef, kan afvragen of de groep gebruikers (scholen, leerlingen) in feite niet min of meer ‘samenvalt’ met de populatie. In paragraaf 4.2 gaan we nader in op deze representativiteit en vergelijken we de kenmerken van de Entreetoetsgebruikers met die van de populatie. In dit hoofdstuk besteden we ook aandacht aan de kalibratie van het instrument, of beter gezegd, de onderdelen ervan. Kalibreren is immers in de toetsconstructie nauw verwant aan normeren. Aan de hand van bepaalde itemparameters worden in eerste instantie opgaven toegelaten tot de itembank voor een specifieke vaardigheid en vervolgens worden op grond van dezelfde itemparameters toetsen samengesteld. Uiteindelijk bestaat de normering van deze toetsen uit het vaststellen van de populatieparameters voor de onderliggende vaardigheidsdimensies. In het hele proces van kalibreren en normeren is het uitermate belangrijk dat kan worden onderbouwd dat de kalibratieprocedures het gewenst resultaat hebben opgeleverd. In paragraaf 4.3 proberen we het welslagen van de kalibratie aan te tonen, nadat we eerst de verschillende stappen in de kalibratie hebben beschreven. In paragraaf 4.4, ten slotte, gaan we in op de normering zelf en beschrijven we het resultaat ervan.
4.1
De Entreetoets: het specifieke karakter van de normering
Gebruiksdoelen in relatie tot normering In paragraaf 2.3 zijn de gebruiksdoelen van de Entreetoets beschreven. De belangrijkste functie van de Entreetoets is aan het eind van leerjaar 7, respectievelijk bij entree in leerjaar 8, op objectieve en gedifferentieerde wijze aan te geven hoe een specifieke leerling ervoor staat. Dit gebeurt aan de hand van een gedetailleerd Leerlingprofiel. Dit profiel veronderstelt dat de ruwe scores op de toetsonderdelen onderling vergelijkbaar zijn gemaakt. Dit maakt het mogelijk om vast te stellen waar de leerling goed in is en op welke fronten hij bijvoorbeeld nog extra ondersteuning kan gebruiken. In de normering is gekozen voor percentielscores en een niveau-indeling in quintielen als de meest geëigende vorm om het leerlingprofiel weer te geven. In paragraaf 4.4 gaan we in op deze normering en de bijbehorende omzettingstabellen. In aanvulling op de leerlingnormering zijn er ook rapportages op groepsniveau en op schoolniveau mogelijk. Met deze rapportages kan men groepsscores relateren aan eerdere resultaten (bijvoorbeeld van de Entreetoets leerjaar 5 en 6). Daarnaast kan men ook de prestatie van de school vergelijken met die van andere scholen, waarbij men al dan niet corrigeert voor leerlinggewicht en intelligentie (in termen van de score op Begrijpend lezen als proxy voor intelligentie). De aan deze rapportages ten grondslag liggende normering op schoolniveau is rechtstreeks afgeleid van de normering op individueel niveau (zie hierboven en paragraaf 4.4) Ten slotte kent de Entreetoets ook voorspellend gebruik waarbij de verwachte standaardscore op de – in groep 8 – nog af te nemen Eindtoets wordt voorspeld, inclusief de daarop gebaseerde indicatie voor de keuze van het best passende brugklastype. Er is in dit kader geen sprake van een echte normering, in die zin dat de score van de leerling wordt vergeleken met de scores van andere leerlingen. We gaan hier verder op in hoofdstuk 6 bij de behandeling van de criteriumvaliditeit van de Entreetoets 7. Voor normeringen zoals hierboven bedoeld is het noodzakelijk dat de onderzoeksgroep waarop de normeringstabellen zijn gebaseerd een representatieve afspiegeling vormt van de populatie. De populatie kan daarbij omschreven worden als de verzameling leerlingen van leerjaar 7 bij het afsluiten van dat leerjaar, of anders gezegd, bij intrede in leerjaar 8. In het geval van de Entreetoets groep 7 is de normering
49
gebaseerd op de afname van de toets in 20125, dus bij leerlingen die in het schooljaar 2011-2012 deel uitmaakten van groep 7. In dat schooljaar werd de Entreetoets afgenomen bij 129166 leerlingen. Dat is een zeer groot deel van de totale populatie van kinderen in groep 7 van het reguliere basisonderwijs. Hoeveel het er exact zijn, is niet te zeggen omdat noch het CBS, noch het CFI gegevens verschaft over aantallen leerlingen per leerjaar. Voor een schatting zou men kunnen uitgaan van het totale aantal leerlingen in een leeftijdscohort, bijvoorbeeld alle elfjarigen. CBS gegevens (verworven via Statline) leren ons dat op de peildatum van 1 okober 2011 198004 elfjarigen in het primair onderwijs verbleven, van wie 188902 in het reguliere basisonderwijs. Afhankelijk van het gekozen uitgangsaantal en aannemende dat de omvang van een leerjaarcohort ongeveer gelijk is aan de omvang van een leeftijdscohort, zou men kunnen stellen dat zo’n 65 tot 68% van de leerlingenpopulatie aan de Entreetoets deelneemt. Het heeft weinig zin om exactere aantallen te schatten; de cijfers komen er op neer dat, net als bij de Eindtoets, een ruime meerderheid, namelijk ongeveer tweederde van de leerlingen in de doelgroep meedoet. De groep van Entreetoetsgebruikers is te beschouwen als een steekproef uit de totale doelgroep (doelpopulatie). Het is zeker dat dit in ieder geval geen aselecte steekproef is. Voor alle kinderen uit de doelgroep geldt immers dat zij niet per definitie dezelfde kans hadden om in deze steekproef terecht te komen. Alleen kinderen die op scholen zitten die deelnemen aan de Entreetoets hebben een kans, waarbij de scholen zichzelf hebben geselecteerd als gebruiker. De vraag is dan of in deze zelfselectie factoren een rol spelen die ervoor zorgen dat de groep van Entreetoetsgebruikers op een systematisch andere wijze is samengesteld als de totale doelgroeppopulatie. Daarom is het interessant en belangrijk om inzicht te hebben in de verdelingskenmerken van de groep Cito Entreetoetsgebruikers en die van de totale doelgroep. Men kan dit nagaan op het niveau van de scholen en op het niveau van de leerlingen zelf. In de volgende paragraaf zullen we daarom proberen antwoord te geven op de vraag of de deelpopulatie (dan wel steekproef) van kinderen bij wie de Entreetoetstoets is afgenomen in het schooljaar 2011-2012 op een aantal belangrijke kenmerken op dezelfde wijze is verdeeld als de gehele doelgroeppopulatie (van kinderen in leerjaar 7 van het reguliere basisonderwijs in 2012).
4.2
Kenmerken van Entreetoetsgebruikers in vergelijking met de gehele doelpopulatie
In deze paragraaf besteden we aandacht aan de kenmerken die normaliter relevant worden geacht om de relatie tussen normeringssteekproef en populatie in kaart te brengen. Het COTAN-beoordelingssysteem (Evers et al., 2010) geeft in dit opzicht aan dat de normeringssteekproef in ieder geval moet worden beschreven in termen van leeftijd, sekse, etniciteit en regio. Van de variabelen die daaraan volgens het beoordelingssysteem zouden kunnen worden toegevoegd, lijken urbanisatiegraad, sociaal-economische status en opleidingsniveau (in dit geval van de ouders) het meest in aanmerking te komen. De verdeling naar regio gaat uit van vier regioniveaus die overeenkomen met de volgende indeling naar provincies (CBS-indeling naar landsdeel): o Noord: Groningen, Friesland en Drenthe; o Oost: Gelderland, Overijssel en Flevoland; o West: Utrecht, Noord- en Zuid-Holland, Zeeland; o Zuid: Noord-Brabant en Limburg. De verdeling naar urbanisatiegraad of mate van verstedelijking is terug te voeren op de bij het CBS gebruikelijke indeling naar vijf niveaus, namelijk zeer sterk, sterk, matig, weinig en niet verstedelijkt. Verder kan er in dit verband ook gekeken worden naar schoolgrootte. Daarbij wordt onderscheid gemaakt tussen grote scholen (≥ 200 leerlingen) en kleine scholen (< 200 leerlingen). De verdeling naar sekse levert geen probleem op.
5
Vanaf schooljaar 2013-2014 is – vanwege de geringe verschillen tussen de afnamejaren – gekozen voor vaste normtabellen (in eerdere afnamejaren was de normering steeds gebaseerd op de meest recente afnamedata). Wel zullen de normtabellen jaarlijks worden gemonitord en zonodig aangepast.
50
Wat betreft leeftijd gaat het hier natuurlijk om een betrekkelijk homogene groep leerlingen die op een bepaald moment in groep 7 collectief (dat wil zeggen, per klas) de Entreetoets maakt. Daarbij is er sprake van de gebruikelijke spreiding van leeftijden over een schooljaar, met dien verstande dat sommige leerlingen voorlijk genoemd kunnen worden (bijvoorbeeld omdat ze ooit een klas hebben overgeslagen) en andere vertraagd (omdat ze bijvoorbeeld een of meerdere malen hebben gedoubleerd). Deze verdeling naar leeftijd zal worden beschreven zonder dat vergelijking met de totale doelgroeppopulatie goed mogelijk is (omdat gegevens daarover niet beschikbaar zijn). Uit andere gegevens die we konden ontlenen aan data die jaarlijks met de Eindtoets worden verzameld is te verwachten dat omstreeks 18 tot 20% van de leerlingen als ‘vertraagd’ zal worden aangemerkt. Wat betreft etniciteit is het voor de vergelijking een probleem dat geen eenduidige vergelijkingsgegevens voor steekproef, noch populatie bekend zijn. Voorheen kon er gewerkt worden met een bij Cito gebruikelijke indeling van scholen in groepen of strata op basis van een weging van de formatiegewichten van hun leerlingen op schoolniveau. Het formatiegewicht van de leerlingen werd gebruikt voor de bepaling van de formatieomvang van een school. Daarbij werden de leerlingen gecategoriseerd in vijf formatiegewichten die een combinatie vormden van opleidingsniveau, sociaal-economische status en etnische herkomst van de ouders. Inmiddels is echter de categorisering naar leerlinggewichten vervangen door een andere regeling waarbij nog slechts drie niveaus worden onderscheiden en waarbij etniciteit geen rol meer speelt. De definities van de categorieën zijn aangescherpt en geheel gebaseerd op het opleidingsniveau van de ouders. Gewicht 0.0 0.30 1.20
Categorie 1 2 3
Omschrijving één van de ouders of beide ouders heeft of hebben een opleiding gehad uit categorie 3 (zie voor de categorieomschrijving hieronder) beide ouders of de ouder die belast is met de dagelijkse verzorging heeft of hebben een opleiding uit categorie 2 gehad één van de ouders heeft een opleiding gehad uit categorie 1 en de ander een opleiding uit categorie 1 óf 2 Omschrijving maximaal basisonderwijs of (v)so-zmlk maximaal lbo/vbo, praktijkonderwijs of vmbo basis- of kaderberoepsgerichte leerweg overig vo en hoger
Dit betekent dat we nog wel gebruik kunnen maken van gegevens over de achterstandsituatie van leerlingen in termen van het opleidingsniveau van de ouders (als indicator voor sociaal-economische status), maar dat een verwijzing naar ethnische herkomst ontbreekt. In het navolgende worden regio, mate van verstedelijking en schoolgrootte op schoolniveau besproken. Daarnaast worden de scholen gekarakteriseerd en vergeleken in termen van het percentage achterstandsleerlingen (dat wil zeggen, het percentage leerlingen met een afwijkend leerlinggewicht). De kenmerken, sekse, leeftijd (leertijd), en achterstandsituatie (leerlinggewicht)worden op leerlingniveau aan de orde gesteld. Wij gaan er van uit dat de verdelingsgegevens met betrekking tot regio, mate van verstedelijking en achterstandsituatie voldoende compenseren voor het ontbreken van meer directe informatie over de etnische herkomst van de leerlingen. Schoolkenmerken In tabel 4.1 is de verdeling gegeven van de Nederlandse populatie van basisscholen. De gegevens zijn gebaseerd op cijfers van CFI DUO (het centrale informatie- uitvoeringsorgaan van het ministerie van OCW) en op de postcoderelatietabel van Cendris. Voor een aantal scholen ontbraken CFI-gegevens en/of gegevens over provincie en mate van verstedelijking. Deze scholen zijn verwijderd zodat een bestand van 6742 scholen overbleef. Van deze 6742 scholen namen er in 2012 4699 (69.7%) deel aan Entreetoets leerjaar 7. Alle gegevens hebben betrekking op het schooljaar 2011-2012.
51
In de tabel zijn de verdelingen gegeven naar regio, schoolgrootte, mate van verstedelijking en percentage achterstandsleerlingen, voor zowel de populatie van basisscholen als voor de subgroep van scholen die aan de Entreetoets (aangeduid als ET7) deelnemen. Buitenlandse scholen en enkele scholen voor speciaal onderwijs werden uit het bestand verwijderd (in totaal 20 scholen). Voor 51 scholen kon de BRIN-code niet gekoppeld worden aan de informatie van CFI DUO en voor 6 scholen kon er ten aanzien van de variabele regio geen postcodekoppeling tot stand worden gebracht. Het is duidelijk dat de subgroep van scholen die in 2012 de Entreetoets groep 7 hebben afgenomen bij hun leerlingen een vrij nauwkeurige afspiegeling vormt van de totale populatie van basisscholen in Nederland. Dat geldt voor alle besproken achtergrondkenmerken. Er is weliswaar sprake van lichte afwijkingen van de populatieverdelingen, die bij toetsing met behulp van de Chi-kwadraattoets significant zijn, maar significantie zegt bij deze grote aantallen niet al te veel. Wanneer we ons baseren op effectgroottes in termen van Phi, dan blijken deze nergens groter dan .10, wat geldt als een klein en verwaarloosbaar effect. De Phi-waarden voor regio en mate van verstedelijking komen met .090 en .094 nog het dichtst in de buurt van deze ondergrens.
Tabel 4.1
Verdeling van basisscholen naar regio, mate van verstedelijking, schoolgrootte en percentage achterstandsleerlingen voor de Nederlandse populatie en voor de subgroep van Eindtoetsgebruikers. Regio Populatie (%)
noord oost west zuid
15.6 24.5 41.2 18.7
609 1072 2051 941
13.0 22.9 43.9 20.3
totaal
100
4673
100
2
Chi = 37.8 Phi = .090
14.4 30.5 10.3 13.6 31.2
801 1441 476 582 1328
17.3 31.1 10.3 12.6 28.7
totaal
100
4628
100
2
50.5 49.5
2191 2437
47.3 52.7
totaal
100
4628
100
Chi2 = 18.5 Phi = .063
df = 1; p<.001
Percentage achterstandsleerlingen Populatie (%) ET7 (%)
ET7 (%)
zeer sterk sterk matig weinig geen
ET7 (%)
klein groot
df = 3; p<.001
Mate van verstedelijking Populatie (%)
Chi = 40.7 Phi = .094
Schoolgrootte Populatie (%)
ET7 (%)
0 – 10% 10 – 25% 25 – 50% >50%
58.7 27.8 6.9 6.6
2653 1278 328 369
57.3 27.6 7.1 8.0
totaal
100
4628
100
Chi2 = 15.0 Phi = .057
df = 4; p<.001
df = 3; p<.005
Leerlingkenmerken In aanvulling op de evaluatie van de representativiteit van de steekproef op schoolniveau werd deze ook op leerlingniveau geëvalueerd, namelijk voor sekse, leertijd (leeftijd), thuistaal en leerlinggewicht. De populatieverdeling werd zo goed mogelijk beschreven of geschat op basis van beschikbare gegevens van CBS Statline en CFI DUO. De bron daarvan was niet in alle gevallen dezelfde omdat dergelijke gegevens niet altijd systematisch voor alle variabelen beschikbaar zijn. Voor de schatting van de populatieverdeling werden steeds de referentiegegevens gebruikt die het meest van toepassing waren. Voor sommige variabelen (leertijd, thuistaal) is de verdeling in de populatie niet bekend.
52
Sekse Volgens CBS-tellingen voor het schooljaar 2011-2012 (CBS Statline) bestaat 49.7% van de populatie 11-jarigen in het reguliere basisonderwijs uit jongens en 50.3% uit meisjes. De lichte oververtegenwoordiging van meisjes is grotendeels te wijten aan het feit dat meer jongens dan meisjes op scholen voor speciaal onderwijs en speciaal basisonderwijs verblijven. Voor de groep deelnemers aan de Entreetoets 7 (die niet samenvalt met de groep van elfjarigen) treffen we een soortgelijke verdeling aan: 64170 (49.8%) jongens en 64627 (50.2%) meisjes. Bij toetsing blijkt Chi-kwadraat (.77) niet significant met Phi = .002. Leeftijd/leertijd Op basis van de leeftijd van de kinderen is nagegaan welke kinderen op de peildatum van 1 oktober 2011 11 jaar of ouder waren. Van deze kinderen mag worden aangenomen dat zij langer dan op basis van hun leeftijd noodzakelijk was in de kleutergroep zijn gehouden en/of dat zij in het verdere verloop van hun schoolloopbaan zijn blijven zitten. De gegevens met betrekking tot de ET-afname in 2012 laten zien dat 22180 leerlingen vertraging hebben opgelopen (17.2%). Uit de CFI-DUO gegevens blijkt dat in de populatie 17.4% van de leerlingen op deze manier als ‘vertraagd’ kan worden aangemerkt. Deze cijfers zijn vergelijkbaar met de resultaten uit het periodieke peilingsonderzoek (PPON) dat met regelmaat door Cito wordt uitgevoerd (zie bijvoorbeeld Heesters, Van Berkel, Van der Schoot & Hemker, 2007). Dit type peilingsonderzoek, dat landelijk representatief is, laat een stabiel beeld zien voor groep 8, namelijk dat ongeveer 20% van de leerlingen als vertraagd kan worden aangemerkt volgens het hierboven beschreven criterium. Bij de ijking van de Cito Intelligentietest (Van Boxtel & Hemker, 2009) vonden we een percentage van 20.2 in leerjaar 8 en voor de Eindtoetsgegevens van 2010 een percentage van 18.4% (Van Boxtel et al., 2011). Bij toetsing blijkt Chi-kwadraat (2.29) niet significant met Phi = .004. Leerlinggewicht Voor de deelnemers aan de Entreetoets heeft de school in 88.4% van de gevallen aangegeven wat hun leerlinggewicht is. Van deze ruim 114232 leerlingen had 86.7% (88.3%) geen afwijkend leerlinggewicht, of, met andere woorden, een leerlinggewicht van 0. 7.2% (6.5%) had een leerlingewicht van 0.3 en nog eens 6.0% een leerlinggewicht van 1.2 (5.2%). Deze percentages zijn vergelijkbaar met populatiegegevens die CFI DUO verstrekt (deze staan tussen haakjes vermeld), zeker als men het grote aantal ontbrekende waarden in de dataset in aanmerking neemt, evenals het feit dat de CFI-data betrekking hebben op alle leerlingen die het basisonderwijs bevolken (dus niet alleen leerlingen van leerjaar 8). Bij toetsing blijkt Chi-kwadraat (287.9) significant (p<.001), maar Phi = .050, wat duidt op een klein en verwaarloosbaar effect. Zwakke leerlingen en leerlingen met een beperking In het bovenstaande is de representativiteit besproken in relatie tot een aantal (potentieel) relevante achtergrondvariabelen. Het feit dat de steekproefverdelingen in hoge mate de populatieverdelingen benaderen, sluit echter nog niet uit dat bepaalde subgroepen leerlingen systematisch over- of ondervertegenwoordigd zijn. In dit opzicht is het onderstaande relevant. Op de eerste plaats is er bij de samenstelling van de normeringssteekproef voor gezorgd dat schoolklassen die voor minder dan 20% van het (op basis van DUO gegevens verwachte) aantal leerlingen in de afnamedata voorkwamen, buiten de normering zijn gehouden. Hetzelfde geldt voor klassen en leerlingen afkomstig van scholen voor speciaal onderwijs en speciaal basisonderwijs: het streven was om een adequate normering te bewerkstellingen voor het reguliere basisonderwijs. Daarnaast is bij de Entreetoets de mogelijkheid gecreëerd voor het afnemen van gemakkelijkere versies van de toets bij leerlingen die zo zwak zijn dat leerkrachten ze bij ontbreken van deze mogelijkheid waarschijnlijk niet zouden hebben laten deelnemen aan de Entreetoets 7 of aan specifieke onderdelen daarvan. Bij wijze van alternatief kunnen zij leerlingen met een grote leerachterstand (van naar schatting een jaar of meer) de gehele Entreetoets voor groep 6 of groep 5 laten maken. Dit is ook mogelijk voor onderdelen van de toets, mits de betreffende leerling alle onderdelen van een bepaalde rubriek (taal,
53
rekenen-wiskunde, studievaardigheden) op datzelfde niveau maakt. Omdat alle Entreetoetsen bestaan uit onderdelen en opgaven die steeds op één schaal zijn gebracht, kunnen de behaalde scores op een gemakkelijker alternatief worden omgezet in scores die de leerling zou hebben behaald wanneer deze de Entreetoets 7 zou hebben gemaakt (zie paragraaf 2.2). Deze getransformeerde scores zijn in het normeringsbestand meegenomen. In tabel 4.2 is af te lezen om welke aantallen leerlingen het gaat. Leerkrachten achten het bij RekenenWiskunde vaker noodzakelijk om een onderdeel van een lager leerjaar af te nemen dan bij andere onderdelen, namelijk bij 1.4% van de leerlingen, tegen .7 à .8% bij onderdelen van Taal, respectievelijk Studievaardigheden. Afname van de Entreetoets 5 in leerjaar 7 komt slechts sporadisch voor. Bij 920 leerlingen (.7%) is de gehele toets op een lager niveau afgenomen; bij 822 leerlingen was dit de Entreetoets 6, bij 98 leerlingen de Entreetoets 5. Ondanks de relatief lage aantallen is het van belang geweest voor de normering dat deze leerlingen in de afnames konden worden meegenomen. Want de gemiddelde scores die zij behaald zouden hebben als de Entreetoets 7 wél zou zijn afgenomen, zijn erg laag en steken schril af tegen de overall gemiddelden (zie ook tabel 3.2), die ter vergelijking opnieuw zijn opgenomen in tabel 4.2. Voor de totaalscore geldt bijvoorbeeld dat het gemiddelde voor deze zwakke groep leerlingen ongeveer twee standaarddeviaties onder het overall gemiddelde ligt. De allerzwakste groep scoort zelfs 3.3 standaarddeviaties lager. Ten slotte merken we in dit verband nogmaals op dat er voor enkele groepen leerlingen met beperkingen voor wie de afname van de Entreetoets problemen zou kunnen opleveren, speciale versies van de toets zijn uitgebracht. Voor leerlingen met een visuele beperking of dyslexie zijn aangepaste versies beschikbaar in braille, zwart-wit, op vergroot A3-formaat en met auditieve ondersteuning op cd of daisy-cd.
Tabel 4.2
Aantallen leerlingen in het normeringsbestand bij wie de gehele Entreetoets 6 of 5 is afgenomen met hun gemiddelde scores (of onderdelen van deze versie; exclusief optionele onderdelen)
Onderdeel
ET 6
ET 5
totaal
%
Gemiddelde ET6 en ET5
Gemiddelde overall
822
98
920
.7
177.5
295.7
866 1566 857
123 206 109
989 1772 966
.8 1.4 .7
105.9 34.0 34.9
155.7 83.0 56.6
Taal Schrijven Spelling Niet-werkwoorden Werkwoorden Begrijpend lezen Woordenschat
1012 1089 1089 -1119 1008
.8 .8 .8 .9 .8
22.2 29.3 16.0 -25.0 29.0
38.4 40.8 21.4 19.4 36.0 40.4
Rekenen Getallen en bewerkingen Verhoudingen, breuken en procenten Meten, meetkunde, tijd en geld Meten en meetkunde Tijd en geld
1773 1567 1772 1566 1567
1.4 1.2 1.4 1.2 1.2
13.1 6.3 15.3 9.6 6.4
31.3 17.1 34.5 20.4 14.1
865 970 978 971
.07 .08 .08 .08
10.2 8.8 8.5 8.3
14.8 14.7 13.2 13.9
Totaal Taal Rekenen-Wiskunde Studievaardigheden
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen van schema’s, tabellen, grafieken
54
Conclusie Op basis van de hierboven gepresenteerde gegevens is de conclusie gerechtvaardigd dat de totale groep leerlingen die in 2012 heeft deelgenomen aan de Entreetoets groep 7 sterk lijkt op de totale populatie leerlingen die leerjaar 7 van het reguliere basisonderwijs bevolkt. Dat is af te leiden uit gegevens op leerlingniveau (sekse, leeftijd-leertijd en leerlinggewicht) en gegevens op schoolniveau (regio, mate van verstedelijking, schoolgrootte en percentage achterstandsleerlingen). Dit maakt de kans klein, dat zelfselectie van scholen de populatie van Entreetoetsgebruikers heeft gemaakt tot een specifieke subpopulatie die op relevante factoren afwijkt. Het feit dat de deelpopulatie van Entreetoetsgebruikers zo’n grote omvang heeft in verhouding tot de gehele populatie draagt sterk aan deze conclusie bij. Daarnaast is de kans klein dat de normering is beïnvloed door het ontbreken van zwakke tot zeer zwakke leerlingen. Zoals beschreven zijn immers ook deze leerlingen meegenomen in de normgroep door gebruik te maken van hun geëquivaleerde score. Ook leerlingen met specifieke beperkingen, zoals een visuele beperking of dyslexie, hebben door afname van aangepaste versies van de toets kunnen deelnemen. Anders gezegd: de groep Entreetoetsgebruikers kan worden beschouwd als een (zeer grote) representatieve steekproef uit de totale populatie van leerlingen in groep 7 van het reguliere basisonderwijs.
4.3
Kalibratie
In hoofdstuk 2 zijn in algemene zin de procedures beschreven die in eerste instantie hebben geleid tot gekalibreerde opgavenbanken per getoetste vaardigheid en in tweede instantie tot de inhoud van de Entreetoets. Tevens is daar ingegaan op de meetmodellen die ten grondslag liggen aan de onderdelen van de toets. In deze paragraaf gaan we nog wat nauwkeuriger in op de stappen die in het kader van de kalibratie zijn genomen (4.3.1) en geven we resultaten van analyses die duidelijk maken dat de kalibratie geslaagd genoemd kan worden (4.3.2).
4.3.1
De stappen in de kalibratie
Met kalibratie wordt bedoeld dat we kengetallen zoeken bij de items die de antwoorden van de leerlingen goed representeren. Hoe de kengetallen gezocht worden ligt deels vast door het gekozen model (zie paragraaf 2.4.2.2) en hoe succesvol deze operatie is kan statistisch getoetst worden. Eenvoudig gezegd, schatten we in OPLM met de CML-methode de itemparameters en controleren we of deze de data goed voorspellen. Voor een exacte beschrijving van de statistische toetsen die in OPLM gebruikt worden, hun eigenschappen en feitelijke implementatie in OPLM verwijzen we naar Verhelst (1993). Hier beperken we ons tot een korte beschrijving van de principes van de statistische toetsen die gebruikt zijn in de kalibratieprocedure. Daarbij geldt dat de kalibratieprocedure in principe per onderscheiden vaardigheid (schaal, opgavenbank) wordt toegepast. De statistische toetsen in OPLM hebben goede statistische en asymptotische eigenschappen daar OPLM behoort tot de exponentiële familie, met de gewogen somscore, k
s ai xi ,
(4.1)
i 1
als een ‘afdoende statistiek’ voor de vaardigheid . Dit betekent dat alle informatie in de data met betrekking tot de vaardigheid in deze statistiek aanwezig is. Hiervan wordt gebruik gemaakt bij de statistische toetsen in OPLM. Het basisprincipe van de statistische toetsen in OPLM is dat op grond van de afdoende statistiek s de personen in de data kunnen worden gegroepeerd. En binnen deze groepen kan de verwachte proportie goede antwoorden op een item onder het model, p( | s) , vergeleken worden met de feitelijk geobserveerde proportie goede antwoorden, prop( | s) . In het polytome geval worden de items gedichotomiseerd, de proportie goede antwoorden verwijst dan naar de hoge itemscore (zie Verhelst, 1993, hoofdstuk 7). Via de basisvergelijking van OPLM kunnen we eenvoudig de conditionele kans op het goed beantwoorden van de items afleiden en daarmee kunnen we p( | s )
55
evalueren, prop( | s) volgt uit de data. Discrepanties tussen p( | s) en prop( | s) duiden op schendingen van het model. Deze discrepanties vormen de basis voor de diverse statistische toetsen in OPLM. De toetsingsgrootheid voor de veronderstelde discriminatie-indices is gegeven door
M f sH ( p( | s) prop( | s)) f sL ( prop( | s) p( | s)).
(4.2)
Deze zogenaamde M-toetsen verdelen de scoregroepen in een laag deel ( L ) en een hoog deel ( H ) en f is een monotone functie. M-toetsen hebben een duidelijke interpretatie: is M significant positief dan is de veronderstelde steilheid van de ICC (item karakteristieke curve) overschat in het model, is M daarentegen erg laag dan is de index te klein. Verhelst laat zien voor welke functie, f , M N (0,1) . In OPLM zijn drie verschillende M-toetsen geïmplementeerd die verschillen in de definitie van de hoge en lage scoregroepen. Naast deze M-toetsen is er een algemene itemtoets die de volgende vorm heeft
S f ( p( | s) prop( | s)) . Deze zogenaamde S-toets heeft een verdeling onder het model. Analoog hieraan is er ook een toets om vormen van vraagonzuiverheid (in het Engels ‘item bias’ of ‘differential item functioning’, afgekort DIF) op te sporen: 2
S h( p I ( | s ) prop I ( | s ), ( p II ( | s ) prop II ( | s )) , waarbij I en II de twee niveaus van de variabele indiceren waarvoor we de bias onderzoeken. Als globale model toets is de R1c-toets (Glas, 1988) geschikt. Ook de distributie van alle afzonderlijke S-toetsen komt hiervoor in aanmerking. Als we deze S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn, dan zouden de overschrijdingskansen uniform verdeeld moeten zijn op het (0,1) interval. Kortom, als we afzien van de formeel-statistische achtergrond van de gehanteerde toetsen, kan de kalibratieprocedure als volgt worden samengevat: – Met behulp van het programma OPCAT stellen we de discriminatie-indices in OPLM in en hercoderen we indien noodzakelijk de antwoordcategorieën in de data. – Vervolgens schatten we de itemparameters met behulp van de CML-methode. – Met behulp van de M-toetsen controleren we of de discriminatie-indices goed zijn ingesteld. – Een volgende controle betreft de overschrijdingskansen van de S-toetsen en een grafische modelcontrole door middel van het programma OPDRAW (grafische inspectie van de ICC’s). – Vervolgens vindt een globale modelcontrole plaats in de vorm van een R1c-toets en de verdeling van de overschrijdingskansen van de S-toetsen. – Daarna toetsen we nadrukkelijk op vormen van itembias. Bovenstaande stappen worden een aantal malen doorlopen tot het resultaat bevredigend is. Afhankelijk van de uitkomsten kunnen items worden verwijderd. Ook inhoudelijke overwegingen (zie hiervoor hoofdstuk 2 over de achtergronden van de toetsinhoud) spelen een rol in dit beslissingsproces. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank, waarbij de opgaven per onderscheiden vaardigheidsdimensie een beroep doen op hetzelfde complex aan vaardigheden of ‘latente trek’.
4.3.2
Evaluatie van de kalibratieprocedure
Het is niet eenvoudig om de kwaliteit van de kalibratie aan te tonen. De belangrijkste statistische instrumenten om de passing van een opgave in het IRT-model te bewerkstellingen en uiteindelijk te documenteren betreffen de hierboven al besproken S-toetsen. Het lastige daarvan is, dat de toetsing voor een groot deel visueel gebeurt. Dit kunnen we illustreren aan de hand van figuur 4.1 (zie Staphorsius, 1994, blz. 239). Figuur 4.1 beeldt voor een opgave de gegevens af waarop de betreffende S -toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal acht)
56
scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn daarentegen verbindt de proporties die op grond van de parameterschattingen voorspeld kunnen worden. De twee buitenste lijnen geven het 95%betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. Uit de figuur blijkt heel duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%- betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen, en dit komt in grote lijnen overeen met een niet-significante S-toetsingsgrootheid (Verhelst, et al., 1995). Overigens zijn dit soort toetsingen op significantie bij zeer grote steekproeven weinig zinvol. Vanwege de grote statistische power zijn S-waarden in zo’n geval ook bij geringe, weinig zeggende afwijkingen al gauw significant.
Figuur 4.1
Grafische voorstelling van een S -toets
57
Figuur 4.2
Voorbeelden van S-toetsen voor de Entreetoets groep 7 (afname 2012) met per onderdeel de best passende, de slechtst passende en een qua passing representatieve opgave
Taal
Best passend
Slechtst passend
Representatieve passing
Slechtst passend
Representatieve passing
Slechtst passend
Representatieve passing
Rekenen-Wiskunde
Best passend
Studievaardigheden
Best passend
Het is ondoenlijk om voor alle 420 opgaven van de Entreetoets (en dan tellen we de 235 optionele opgaven niet eens mee) dergelijke grafische voorstellingen in deze verantwoording op te nemen. Daarom beperken we ons steeds per toetsonderdeel (i.e. Taal, Rekenen-Wiskunde en Studievaardigheden) tot het item met de slechtste en de beste S-passing, aangevuld met een qua S-toetsingsresultaat gemiddelde (dat wil zeggen, meest representatieve) passing. De voorbeelden in figuur 4.2 illustreren dat zelfs bij de slechtst passende opgaven sprake is van een zeer aanvaardbaar beeld. Er wordt in deze gevallen voor een deel (van de onderscheiden scoregroepen) niet beantwoord aan de eis dat de geobserveerde proportie binnen het 95%- betrouwbaarheidsinterval van de geschatte proporties ligt. Dit beeld doet zich per toetsonderdeel slechts bij enkele opgaven voor die dan ook een uitzondering vormen. De overige opgaven voldoen voor alle scoregroepen wel aan die eis. De afbeeldingen voor de representatieve en best passende opgaven illustreren dit. Dit leidt tot de conclusie dat bij vrijwel alle opgaven in de Entreetoets een grafische voorstelling van de S –toetsing hoort die in grote lijnen met figuur 4.1 overeenkomt; andere opgaven zijn bij
58
de kalibratie niet in de itembank opgenomen. Dit is, zeker gezien de relatief grote aantallen observaties die in het geding zijn, een zeer sterke aanwijzing dat het meetinstrument en het meetmodel dat ontwikkeld, respectievelijk gebruikt is, adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen per onderscheiden vaardigheid te verklaren zijn door één unidimensionaal concept. In feite zijn het bij de kalibratie juist deze grafische weergaven waar men het beste op kan varen, beter dan op toetsingsresultaten in termen van exacte getallen (toetsingsgrootheden) en de vraag of deze al dan niet significant zijn. Vanwege de zeer grote aantallen (voor een controle op de kalibratie op basis van de 2012afnamedata werd een representatieve aselecte steekproef gebruikt van N=4920 getoetste leerlingen) leidt immers zelfs de minste afwijking van de gewenste situatie (zelfs als de lijn die de geobserveerde proporties representeert geheel binnen het 95%-betrouwbaarheidsinterval ligt) tot significante toetsingsresultaten. Het heeft dus weinig zin om daaraan conclusies te verbinden. Om toch zinvolle resultaten op de S-toetsen te kunnen laten zien, is een aantal representatieve steekproeven van omstreeks N=490 uit de genoemde data getrokken; bij deze steekproefomvang is de power van de statistische toetsingen optimaal. Dit betreft steeds ongeveer 10% van het genoemde databestand; alle leerlingen in dit bestand zijn in één van de substeekproeven opgenomen. Voor deze steekproeven zijn de S-toetsen opnieuw uitgevoerd waarbij we vooral geïnteresseerd zijn in de distributie van de overschrijdingskansen van deze verzameling toetsingsresultaten. Als we de S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn, dan zouden de overschrijdingskansen uniform verdeeld moeten zijn binnen het (0,1) interval, uiteraard met zo weinig mogelijk significante resultaten. Tabel 4.3, waarin het (0,1) interval is opgedeeld in tien gelijke stukken, geeft een beeld van de uitkomsten voor tien verschillende steekproeven bij een kalibratie alsof alle opgaven van de Entreetoets op drie vaardigheidsdimensies zouden liggen, namelijk taal, rekenen-wiskunde en studievaardigheden. Daarnaast is aangegeven in hoeveel gevallen de overschrijdingskans kleiner was dan .01, respectievelijk .05. Het is duidelijk dat in alle steekproeven en voor alle drie de onderdelen de verdeling redelijk gelijkmatig is over het gehele interval van overschrijdingskansen. Deze resulaten geven een bevestiging van het eerder geschetste beeld, dat met uitzondering van enkele opgaven, sprake is van niet-significante S-toetsen. Zij vormen een kwantitatieve ondersteuning van de conclusie dat de opgaven een unidimensionaal construct representeren. Hierbij moet worden aangetekend dat in werkelijkheid veel nauwkeuriger is gekalibreerd. De opgaven van bijvoorbeeld Begrijpend lezen zijn immers niet gekalibreerd op de vaardigheidsdimensie taal, maar op de aanzienlijk specifiekere vaardigheidsdimensie begrijpend lezen (respectievelijk geselecteerd uit de dienovereenkomstig specifieke opgavenbank voor begrijpend lezen). In werkelijkheid is de passing van het model dus nog heel wat beter dan aangegeven in de tabellen.
59
Tabel 4.3
Entreetoets groep 7: verdeling van overschrijdingskansen bij S-toetsen bij 10 aselecte steekproeven (N tussen 490 en 493) uit de 2012-afnamedata (representatief bestand met N=4920)
Taal: 220 opgaven 0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1. N 491 492 492 491 490 492 493 493 493 493
4 0 7 1 2 2 3 3 2 3
5 5 6 10 8 8 9 9 8 13
15 7 13 6 6 7 13 7 14 11
23 15 23 20 18 26 19 22 14 20
13 20 22 13 20 31 16 21 18 23
17 23 18 18 20 16 20 24 25 22
19 24 13 24 17 22 23 19 26 21
29 22 13 21 24 15 14 19 20 24
23 29 19 29 30 15 29 27 26 24
19 27 26 24 20 30 23 19 20 23
18 20 35 31 20 26 26 23 22 13
34 27 24 22 34 22 24 27 24 22
Rekenen-Wiskunde: 120 opgaven 0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1. N 491 492 492 491 490 492 493 493 493 493
2 6 2 3 3 2 1 2 3 2
3 5 5 4 5 8 4 7 4 5
10 9 7 9 6 8 6 7 3 3
8 7 8 11 10 7 9 13 13 12
4 10 8 8 14 11 11 15 15 14
7 12 11 7 5 6 14 6 15 15
14 5 10 13 12 13 9 17 10 13
6 18 12 9 7 8 17 9 9 11
18 4 12 16 5 10 12 11 13 10
21 17 11 9 19 16 7 9 5 13
9 18 17 16 18 14 15 12 20 10
18 9 17 15 16 17 15 12 10 12
Studievaardigheden: 80 opgaven 0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1. N 491 492 492 491 490 492 493 493 493 493
2 0 1 1 2 1 2 0 1 0
3 3 2 3 6 4 1 3 1 3
3 3 3 2 1 2 8 4 5 3
9 10 10 4 6 7 10 9 6 4
8 10 10 10 8 7 7 4 9 11
2 1 6 10 7 10 11 6 8 6
8 13 10 7 12 11 12 11 5 9
11 9 5 5 4 12 10 2 11 6
6 4 8 8 7 9 7 13 7 12
7 5 7 8 7 7 2 9 7 10
5 12 9 10 11 3 4 12 12 6
16 10 9 12 9 7 6 7 8 10
Hoe het is gesteld met de modelpassing voor de toets als geheel, is te zien in tabel 4.4. In deze tabel zijn de R1c-waarden weergegeven voor dezelfde tien steekproeven waarvoor in tabel 4.3 de resultaten van de S-toetsen zijn weergegeven. R1c is een statistiek die zicht geeft op de modelpassing van de toets (of een toetsonderdeel) als geheel. Ook voor deze statistiek is het nodig om ons te baseren op kleinere steekproeven (met adequate statistische power) om zinnige resultaten te verkrijgen. Voor een acceptabele modelfit geldt als vuistregel dat R1c bij voorkeur niet significant zou moeten zijn en niet groter dan ongeveer anderhalf maal het aantal vrijheidsgraden.
60
Tabel 4.4
Entreetoets groep 7: R1c-waarden bij 10 aselecte steekproeven (N tussen 490 en 493) uit de 2012-afnamedata ( representatief bestand met N=4920)
Taal Steekproef #
N
R1c
df
p
1 2 3 4 5 6 7 8 9 10
491 492 492 491 490 492 493 493 493 493
546.8 514.9 590.0 529.9 538.5 583.7 656.9 572.7 532.4 609.5
657 657 657 657 657 657 657 657 657 657
1.00 1.00 .97 1.00 1.00 .98 .50 .99 1.00 .91
Steekproef #
N
R1c
df
p
1 2 3 4 5 6 7 8 9 10
491 492 492 491 490 492 493 493 493 493
323.3 328.4 312.9 316.6 333.3 286.7 322.3 366.5 367.4 304.4
357 357 357 357 357 357 357 357 357 357
.90 .86 .95 .94 .81 1.00 .91 .35 .34 .98
Steekproef #
N
R1c
df
p
1 2 3 4 5 6 7 8 9 10
491 492 492 491 490 492 493 493 493 493
199.0 200.8 207.6 200.5 210.3 194.3 247.7 186.9 198.1 190.4
237 237 237 237 237 237 237 237 237 237
.96 .96 .92 .96 .89 .98 .31 .99 .97 .99
Rekenen-Wiskunde
Studievaardigheden
Het is duidelijk dat de modelpassing van de toets vrijwel optimaal is. In alle tien steekproeven bij Taal is R1c kleiner dan het aantal vrijheidsgraden, terwijl de p-waarde nergens significant is. Sterker nog, bij vier van de tien steekproeven is deze p-waarde zelfs gelijk aan 1. Daarbij dient men ook hier te bedenken dat ter berekening van de R1c een virtuele kalibratie is uitgevoerd waarbij is gesimuleerd dat alle opgaven één vaardigheidsdimensie taal representeren. De eigenlijke kalibratie is uitgevoerd op één of meer vaardigheidsdimensies per toetsonderdeel. Dit houdt in dat de modelpassing per vaardigheidsdimensie in feite nog optimaler is dan de resultaten in tabel 4.4 al suggereren. Ook voor Rekenen-Wiskunde is de waarde van R1c meestal lager dan het aantal vrijheidsgraden (in acht van de tien gevallen) en niet significant (laagste p-waarde is .34). Een soortgelijke conclusie is van toepassing op Studievaardigheden.
61
Ten slotte bespreken we nog een methode om de modelpassing te verantwoorden die wordt besproken in het COTAN Beoordelingssysteem (Evers et al., 2010). Het betreft hier een poging om de nauwkeurigheid van de itemparameterschattingen te beoordelen op basis van een constante (in het COTAN Beoordelingssysteem met ‘c’ aangeduid) die weergeeft hoe de relatie is tussen de standaardfout van de moeilijkheidsparameter van een item en de standaarddeviatie van de vaardigheidsverdeling van de kalibratiepopulatie. Het beoordelingssysteem geeft ook richtlijnen voor het beoordelen van de grootte van deze ‘c’. Deze dient te worden beoordeeld als goed als de waarde lager is dan of gelijk aan .20. Waarden tussen .30 en .40 kunnen nog als voldoende worden beschouwd. De waarden voor deze constante zijn weergegeven in tabel 4.5 voor de hoofdonderdelen (exclusief optionele onderdelen). De gemiddelde waarden van de constante zijn uitstekend te noemen. Ze zijn alle lager dan .20 en variëren tussen .037 en .049. Voor geen enkele opgave is c groter dan .20. De conclusie mag luiden dat we ook op basis van deze analyse de kalibratie geslaagd kunnen noemen.
Tabel 4.5
Nauwkeurigheid van de itemparameterschattingen (constante ‘c’) voor de hoofdonderdelen van de Entreetoets groep 7
Toets(onderdeel)
Taal Rekenen-Wiskunde Studievaardigheden
Constante ‘c’ Range Gemiddelde .026 - .162 .023 - .072 .022 - .134
.049 .037 .040
Wat betreft de laatste stap in de kalibratieprocedure: er zijn DIF-analyses uitgevoerd voor alle opgaven van de Entreetoets en wel voor sekse en leerlingewicht. De uitkomsten van deze analyses worden afzonderlijk besproken in hoofdstuk 6 onder de noemer begripsvaliditeit. Conclusie Op basis van de hierboven beschreven resultaten kan de conclusie luiden dat voor de Entreetoets en de onderdelen daarvan de kalibratie geslaagd is. Hiermee is het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het per onderscheiden vaardigheid reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse, als puur formeel proces, kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat de latente vaardigheden die de items in de toetsonderdelen meten dekkend zijn voor en samenvallen met de verschillende constructen die we in de Entreetoets proberen te meten (zoals deze in het didactisch en het wetenschappelijk forum worden bedoeld)? In hoofdstuk 6 over validiteit zal worden nagegaan of de gemeten concepten inderdaad overeenkomen met het begrip zoals bedoeld. Een geslaagde kalibratie op een unidimensionaal construct beschouwen we als een noodzakelijke voorwaarde voor begripsvaliditeit.
4.4
De eigenlijke normering
De rapportage van de Entreetoets vindt plaats in de vorm van een Leerlingprofiel (zie figuur 4.3). Op dit leerlingprofiel worden voor Taal, Rekenen-Wiskunde en Studievaardigheden en het Totaal voor de Entreetoets het aantal opgaven, het aantal goed gemaakte opgaven en de bijbehorende percentielscore afgedrukt. Dit gebeurt ook voor de onderdelen binnen de onderscheiden rubrieken, aangevuld met de scores voor de facultatieve onderdelen voor zover deze zijn gemaakt. Daarnaast worden alle percentielscores ook visueel weergegeven. Door middel van asterisken is af te lezen in welke van de vijf
62
niveaugroepen I tot en met V de score is onder te brengen. Deze – in het Cito Volgsysteem primair en speciaal onderwijs gebruikelijke – symmetrische indeling in niveaugroepen gaat uit van quintielen overeenkomend met de volgende grenswaarden in de percentielscores: Niveau
%
Grenswaarden
Interpretatie
I
20
81-100
Ver boven het gemiddelde
II
20
61-80
Boven het gemiddelde
III
20
41-60
De gemiddelde groep leerlingen
IV
20
21-40
Onder het gemiddelde
V
20
1-20
Ver onder het gemiddelde
De eigenlijke normering komt er op neer dat in de referentiegroep (de leerlingen die in 2012 deelnamen aan de Entreetoets) gemiddelden en SD werden bepaald voor alle onderscheiden onderdelen, alsmede de ruwe scores die horen bij de percentielgrenswaarden (P20, P40, P60, P80).
63
Figuur 4.3
Entreetoets groep 7 Leerlingprofiel (de afbeelding kan enigszins afwijken van het in werkelijkheid gehanteerde rapportageformulier
In tabel 4.6 is aangegeven welke ruwe scores op grond hiervan in de vijf niveaugroepen vallen. De volledige omzettingstabellen van ruwe scores naar percentielscores zijn te vinden in de bijlage.
64
Tabel 4.6
Normering Entreetoets groep 7: niveau-indeling van ruwe scores
Onderdeel
Score-intervallen voor de onderscheiden niveaus V
IV
III
II
I
Totaal
0-247
248-286
287-317
318-347
348-420
Taal Rekenen-Wiskunde Studievaardigheden
0-131 0-64 0-45
132-151 65-79 46-54
152-166 80-91 55-61
167-181 92-102 62-67
182-220 103-120 68-80
Taal Schrijven Spelling Niet-werkwoorden Werkwoorden Begrijpend lezen Woordenschat
1-32 1-31 1-17 1-13 1-29 1-32
33-37 32-38 18-20 14-17 30-34 33-38
38-41 39-43 21-22 18-20 35-39 39-43
42-44 44-49 23-25 21-24 40-42 44-48
45-50 50-60 26-30 25-30 43-50 49-60
Rekenen Getallen en bewerkingen Verhoudingen, breuken en procenten Meten, meetkunde, tijd en geld Meten en meetkunde Tijd en geld
1-23 1-11 1-26 1-15 1-10
24-29 12-15 27-32 16-18 11-13
30-34 16-18 33-37 19-21 14-15
35-38 19-21 38-41 22-24 16-16
39-45 22-25 42-50 25-30 17-20
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen van schema’s, tabellen, grafieken
1-11 1-11 1-9 1-10
12-14 12-13 10-11 11-13
15-15 14-15 12-14 14-15
16-17 16-17 15-16 16-16
18-20 18-20 17-20 17-20
Optionele onderdelen Grammatica Leestekens Begrijpend luisteren Leestempo
1-16 1-14 1-29 1-69
17-20 15-20 30-34 70-83
21-22 21-24 35-37 84-96
23-24 25-27 38-40 91-113
25-25 28-30 41-50 113-130
65
66
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
Voor het schatten van de betrouwbaarheid van de Entreetoets en de onderdelen daarvan is gebruik gemaakt van methoden uit zowel de klassieke testtheorie als de item respons theorie. We rapporteren betrouwbaarheden met betrekking tot de toetsonderdelen die ook daadwerkelijk worden gerapporteerd op het leerlingrapport (zie figuur 4.3). Dat zijn – naast de totaalscore – de scores op de onderdelen Taal, Rekenen-Wiskunde en Studievaardigheden. Ook voor de taken binnen elk onderdeel worden gegevens verstrekt.
Tabel 5.1
Betrouwbaarheden en betrouwbaarheidsintervallen Entreetoets groep 7
Onderdeel
Aantal opgaven
*)
GLB
Totaal
420
.98*)
Taal Rekenen-Wiskunde Studievaardigheden
220 120 80
.96*) .96*) *) .91
Taal Schrijven Spelling Niet-werkwoorden Werkwoorden Begrijpend lezen Woordenschat
50 60 30 30 50 60
Rekenen Getallen en bewerkingen Verhoudingen, breuken en procenten Meten, meetkunde, tijd en geld Meten en meetkunde Tijd en geld
45 25 50 30 20
Studievaardigheden Studieteksten Informatiebronnen Kaartlezen Lezen van schema’s, tabellen, grafieken Optionele onderdelen Grammatica***) Leestekens***) Begrijpend luisteren Leestempo
TestHertest
**)
SE
90%- en 95%betrouwbaarheids interval op basis van GLB 90% 95%
7.97
±13.1
±15.6
5.72 4.09 3.72
±9.4 ±6.7 ±6.1
±11.2 ±8.0 ±7.3
.88 .89*) .83 .87 .89 .89
2.42 3.24 1.98 2.07 2.66 3.02
±4.0 ±5.3 ±3.3 ±3.4 ±4.4 ±5.0
±4.7 ±6.4 ±3.9 ±4.1 ±5.2 ±5.9
.90 .86*) *) .89 .83*) *) .77
*)
2.58 1.93 2.75 2.16 1.73
±4.2 ±3.2 ±4.5 ±3.5 ±2.8
±5.1 ±3.8 ±5.4 ±4.2 ±3.4
20 20 20 20
.74*) .73 .79 .79
1.78 1.71 1.80 1.77
±2.9 ±2.8 ±3.0 ±2.9
±3.5 ±3.4 ±3.5 ±3.5
25 30 50 130
.93 .92 .81 .88
1.46 1.88 2.81 8.06
±2.4 ±3.1 ±4.6 ±13.2
±2.9 ±3.7 ±5.5 ±15.8
.96 .95 .91
*)
Waar de GLB om technische redenen niet berekend kon worden, is alfa gegeven bij de met een asterisk aangeduide scores
**)
Op basis van een simulatiestudie
***)
De aantallen opgaven in deze deeltaken zullen binnen afzienbare termijn licht worden aangepast; het betrof hier de in 2012 gehanteerde versie
67
Tabel 5.1 geeft de betrouwbaarheden in termen van de GLB en de daarop gebaseerde 95%betrouwbaarheidsintervallen. In een aantal gevallen kon om technische redenen de GLB niet worden uitgerekend. In plaats daarvan is alfa berekend (in de tabel is dit aangegeven met een asterisk). In deze gevallen is er sprake van enige onderschatting van de betrouwbaarheid. De mate van onderschatting hangt af van de hoogte van de coëfficiënt. In de gevallen waarin zowel alfa als GLB konden worden berekend, was de GLB bij waarden boven de .80 .01 à .02 hoger dan alfa, bij waarden tussen .70 en .80 bedroeg de onderschatting .02 à .03. De betrouwbaarheid in termen van interne consistentie is voor de totaalscore en de drie somscores Taal, Rekenen-Wiskunde en Studievaardigheden zeer hoog (aanmerkelijk hoger dan .90), zeker wanneer men bedenkt dat de Entreetoets niet bedoeld is om er belangrijke beslissingen op te baseren. Voor zover het zou kunnen gaan om een advies ten aanzien van het best passende brugklastype is hier de Eindtoets Basisonderwijs (die in groep 8 wordt afgenomen) voor bedoeld. Wél is het zo dat de totaalscore op de Entreetoets wordt gebruikt om een indicatie te geven van de (te verwachten) score op deze Eindtoets. Om zo’n voorspelling voldoende grond te geven is een hoge betrouwbaarheid uiteraard wel van belang. De interne consistentie van de totaalscore voldoet met een waarde vam .98 in dit opzicht ruimschoots aan de eisen. De verschillende toetsonderdelen (deelvaardigheden) binnen de domeinen Taal, Rekenen-Wiskunde en Studievaardigheden zijn vooral bedoeld om de sterke en zwakke punten van een leerling in kaart te brengen. Voor deze toetsonderdelen geldt dat een betrouwbaarheidscoëfficient ten minste .80 moet bedragen om als goed te kunnen worden aangeduid. Voor de meeste onderdelen is dit het geval: alle taalonderdelen en alle onderdelen van Rekenen-Wiskunde met uitzondering van de korte toets ‘Tijd en geld’ (20 opgaven; alfa = .77). In het domein Studievaardigheden is sprake van relatief korte toetsen (20 opgaven) met een GLB of alfa tussen .73 en .79. Samenvattend kan geconcludeerd worden dat de gemiddelde betrouwbaarheid van de toetsonderdelen met .84 als ‘goed’ kan worden beoordeeld. De betrouwbaarheid van de onderdelen van Studievaardigheden is wat lager en moet als voldoende worden beoordeeld. Er heeft geen test-hertest onderzoek plaatsgevonden. De afnamecontext van de Entreetoets leent zich hier niet goed voor, zoals dat eigenlijk geldt voor elke leervorderingentoets. Het feit dat alle items echter OPLMgekalibreerd zijn (met uitzondering van de items voor het optionele onderdeel Leestempo), maakt het mogelijk een hertest te simuleren. We hebben een dubbele afname gesimuleerd voor een groep van 150 000 leerlingen. Daarbij hebben we enerzijds de vaardigheidsverdeling van alle leerlingen in de Entreetoets afname 2012, anderzijds alle itemparameters als uitgangspunt genomen. Steeds is een bepaalde vaardigheid aselect uit de verdeling genomen en zijn twee bij deze vaardigheid horende toetsafnames gesimuleerd. Uiteindelijk is de correlatie tussen deze 150000 dubbele (virtuele) afnames berekend. Men kan deze simulatie beschouwen als een test-hertestonderzoek onder ideale condities. De tweede toetsafname is immers volledig onafhankelijk van de eerste en wordt niet beïnvloed door de kennis die de leerling mogelijk verworven heeft via de eerste toetsafname. Daarnaast is er geen sprake van invloed van een test-hertest-interval: beide afnames worden gesimuleerd alsof zij op hetzelfde moment plaats zouden vinden. We hebben ons beperkt tot de hoofdonderdelen Taal, Rekenen-Wiskunde en Studievaardigheden. Een soortgelijke simulatie voor de Entreetoets als geheel bleek technisch onuitvoerbaar: de betreffende software laat een dermate groot aantal opgaven niet toe. De resultaten zijn weergegeven in tabel 5.1. De uitkomsten komen wederom vrijwel exact overeen met eerder berekende coëfficiënten en leiden dan ook tot dezelfde conclusies met betrekking tot de betrouwbaarheid van de Entreetoets 7. Tenslotte is in tabel 5.1 informatie opgenomen over de 90%- en 95%-betrouwbaarheidsintervallen die horen bij de onderscheiden toetsscores. Ze zijn berekend op basis van alfa of GLB (waarden in tabel).
68
5.2
Nauwkeurigheid
De in tabel 5.1 vermelde betrouwbaarheidscoëfficiënten en betrouwbaarheidsintervallen hebben alleen betrekking op de globale meetnauwkeurigheid van de toetsen. De figuren 5.1 tot en met 5.3 geven grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verzamelscores over de domeinen Taal, Rekenen-Wiskunde en Studievaardigheid6. In deze figuren waarin ook kansdichtheidfuncties zijn opgenomen, staat voor de score op de toets, c.q. ieder afzonderlijk toetsonderdeel de grootte van de meetfout afgebeeld. Hierbij past de kanttekening dat de standaardmeetfout onder meer afhankelijk is van het aantal items in een onderdeel. Omdat de aantallen items per onderdeel verschillen zijn de standaardmeetfouten in de figuren dus onderling niet direct vergelijkbaar. Daarnaast is de schaal waarop de kansdichtheid is aangegeven bij elke figuur steeds aangepast aan de gevonden waarden. Ook dit zorgt ervoor dat de figuren onderling niet overal rechtstreeks vergelijkbaar zijn.
Figuur 5.1
Grootte van de meetfout voor de score op het onderdeel Taal van de Entreetoets groep 7 (inclusief de kansdichtheidfunctie voor deze score) Taal Entreetoets 7 2.5
0.10
2.0
1.5
0.06
1.0
kansdichtheid
standaardmeetfout
0.08
0.5 0.04
0.0 -0.2
0.0
0.2
0.4
0.6
0.8
schaalscore
6
We hadden ook graag informatie verschaft over de lokale meetnauwkeurigheid van de totaalscore, maar ook hier was de software niet op het grote aantal items berekend.
69
Figuur 5.2
Grootte van de meetfout voor de score op het onderdeel Rekenen-Wiskunde van de Entreetoets groep 7 (inclusief de kansdichtheidfunctie voor deze score) Rekenen Entreetoets 7
12.5 0.015
0.010
7.5
kansdichtheid
standaardmeetfout
10.0
5.0 0.005 2.5
0.0
0.000 50
90
130
170
schaalscore
Figuur 5.3
Grootte van de meetfout voor de score op het onderdeel Studievaardigheden van de Entreetoets groep 7 (inclusief de kansdichtheidfunctie voor deze score) Studievaardigheden Entreetoets 7
0.020 12.5
standaardmeetfout
7.5 0.010
kansdichtheid
0.015
10.0
5.0 0.005 2.5
0.0
0.000 60
100
140
180
schaalscore
De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. Dit wordt vooral bepaald door de gemiddelde moeilijkheidsgraad van de toetsen en komt overeen met de bedoelingen van de toetsconstructeurs.
70
6
Validiteit
De primaire functie van de Entreetoets 7 is het geven van onafhankelijke informatie als antwoord op de vraag wat elk individueel kind bij wie de toets wordt afgenomen in vergelijking met andere kinderen tot het moment van afname (eind groep 7) in het basisonderwijs geleerd heeft. De inhoud van de Entreetoets sluit daarom nauw aan bij het onderwijsprogramma voor de basisvaardigheden taal, rekenen-wiskunde en studievaardigheden. De opgaven zijn een operationalisering van communale doelstellingen die door het gehele basisonderwijs worden nagestreefd. In vergelijking met de specfieke LVS-toetsen is de Entreetoets groep 7 een brede leervorderingentoets. De totaalscore is gebaseerd op een brede range aan vaardigheden die enerzijds een aanzienlijke overlap laten zien met de inhoud van de Eindtoets Basisonderwijs die in groep 8 kan worden afgenomen, anderzijds overeenkomen met de vaardigheden die in de specifieke LVS-toetsen worden geoperationaliseerd. Binnen de brede hoofdrubrieken Taal, Rekenen-Wiskunde en Studievaardigheden wordt onderscheid gemaakt naar een 16-tal deelvaardigheden en –taken. Elk onderdeel afzonderlijk is zo geconstrueerd dat men op objectieve en betrouwbare wijze zicht kan krijgen op het vaardigheidsniveau dat de leerling voor dat onderdeel laat zien. De toets maakt het daardoor mogelijk een gedifferentieerd beeld op te bouwen van de huidige leervorderingen. Om een nog completer beeld te kunnen krijgen zijn binnen het onderdeel Taal nog een viertal optionele taken opgenomen. Door middel van het Leerlingprofiel is in één oogopslag te zien waar de leerling goed in is en waar ondersteuning nodig is. Daarmee kan de leerkracht hiaten op het spoor komen op een moment dat deze nog kunnen worden ‘bijgespijkerd’ zo lang het kind nog op de basisschool zit (en vóór de afname van de Eindtoets Basisonderwijs). Alle bovengenoemde functies, zoals deze ook in de handleiding worden aangegeven, zijn hoofdzakelijk beschrijvend van aard. Dit maakt dat criteriumvaliditeit bij uitsluitend dit gebruik van de Entreetoets niet van toepassing is, zoals dat in principe het geval is bij alle Cito LVS-toetsen. Sinds 2002 is er echter ook voorspellend gebruik van de Entreetoets mogelijk. Op basis van de totaalscore op de Entreetoets groep 7 wordt een verwachte standaardscore op de Eindtoets Basisonderwijs berekend inclusief een onder- en bovengrens waarbinnen de Eindtoetsscore naar hoge waarschijnlijkheid zal liggen. Om de Entreetoets op deze manier voorspellend te gebruiken zijn gegevens over de criteriumvaliditeit van de toets noodzakelijk. In dit hoofdstuk besteden we aandacht aan zowel de begripsvaliditeit (paragraaf 6.2) als de criteriumvaliditeit (paragraaf 6.3) van de Entreetoets 7. Een leervorderingentoets ontleent zijn validiteit echter vooral aan de vraag hoe de toets is samengesteld, de vraag naar inhoudsvaliditeit dus. In paragraaf 6.1 vatten we daarom nog eens samen wat er in hoofdstuk 3 is geschreven over de wijze waarop de communale onderwijsdoelen in de toets zijn geoperationaliseerd.
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De opgaven in de Entreetoets groep 7 sluiten nauw aan bij het doel en de inhoud van het onderwijs op de basisschool. Dat moet ook, want zij dienen een goede afspiegeling te vormen van wat leerlingen in het basisonderwijs tot aan die afnamedatum geleerd hebben. Daarbij moeten het opgaven zijn waarin leerstof behandeld wordt die elke basisschoolleerling zou kunnen beheersen, uitgaande van de communale onderwijsdoelen en -inhouden. Een uitgebreide inhoudelijke analyse van de inhoud van de Entreetoets groep 7 staat in hoofdstuk 3 van deze verantwoording. Hier vatten we nog eens samen hoe ervoor gezorgd is dat de toetsinhoud representatief is voor de communale onderwijsdoelen en –inhouden. Er is gekozen voor een verantwoording op basis van te realiseren onderwijsdoelen. Daarbij moeten we niet uit het oog verliezen dat de toetsonderdelen betrekking hebben op vaardigheden en deelvaardigheden. Deze – veronderstelde – deelvaardigheden (‘latente trekken’), zoals spellingvaardigheid, begrijpend lezen,
71
vormen de basis voor de toetsonderdelen en zijn te beschrijven in termen van de ontwikkeling die het kind gedurende de basisschool doormaakt. We hebben er in deze verantwoording niet voor gekozen om uitgebreid in te gaan op de theorie rondom deze vaardigheden en vaardigheidsontwikkeling. Dat zou deze wetenschappelijke verantwoording onleesbaar gemaakt hebben. De geïnteresseerde lezer wordt op dit punt daarom voor meer informatie verwezen naar de wetenschappelijke verantwoordingen van de toetsen die deel uitmaken van het LVS, met name de verantwoordingen die betrekking hebben op de leerjaren 6 tot en met 8. Uiteraard blijft het wel zaak om te laten zien dat alle opgaven van een deeltoets, ook al representeren zij verschillende categorieën van doelstellingen, desondanks één en dezelfde vaardigheid representeren. We komen hierop in paragraaf 6.2.1 nog terug. De Entreetoets 7 is dus vooral geconstrueerd vanuit een omschrijving van communale leerdoelen waarover in het onderwijs een zekere consensus bestaaat. Deze doelen hebben betrekking op Taal, RekenenWiskunde en Studievaardigheden. Het doel van het moedertaalonderwijs is het optimaliseren van de mogelijkheden van leerlingen om door gebruik van taal met anderen te communiceren. Bij het construeren van de Entreetoets werd aangesloten bij de hoofdstructuur van het taalonderwijs in het primair onderwijs die in grote lijnen aansluit bij de indeling van kerndoelen basisonderwijs (Ministerie van OCW, 1998). Ook voor Rekenen-Wiskunde lag de basis van de toets in de kerndoelen basisonderwijs waarin RekenenWiskunde als volgt wordt getypeerd: Het onderwijs in Rekenen-Wiskunde is erop gericht dat de leerlingen: – verbindingen kunnen leggen tussen het onderwijs in Rekenen-Wiskunde en hun dagelijkse leefwereld; – basisvaardigheden verwerven, eenvoudige wiskundetaal begrijpen en toepassen in praktische situaties; – reflecteren op eigen wiskundige activiteiten en resultaten daarvan op juistheid controleren; – eenvoudige verbanden, regels, patronen en structuren opsporen; – onderzoeks- en redeneerstrategieën in eigen woorden kunnen beschrijven en gebruiken. De leerdoelen zijn in de volgende drie domeinen in te delen: – Getallen en bewerkingen – Verhoudingen, breuken en procenten – Meten, meetkunde, tijd en geld. De rubriek ‘Meten, meetkunde, tijd en geld’ is onderverdeeld in ‘Meten en meetkunde’ en ‘Tijd en geld’. Ten aanzien van Studievaardigheden werd vertrokken vanuit het onderscheid tussen de volgende deelvaardigheden: – Hanteren van informatiebronnen – Kaartlezen – Lezen van schema’s, tabellen en grafieken – Hanteren van studieteksten Cito analyseert bij het maken van zijn toetsen voortdurend doelstellingen en methoden en gaat voortdurend na of de inhoud ervan nog voldoende aansluit bij de inhoud van het onderwijs. Daarom worden bij het LVS steeds nieuwe generaties toetsen gebouwd die qua inhoud up to date zijn. Ook publiceert Cito inhoudsverantwoordingen, zoals het zogeheten Doelenboek bij de Eindtoets Basisonderwijs (Staphorsius, 2003, 2009) en de inhoudsverantwoording van de Entreetoets 7 (Cito, 2010), en stelt deze zonodig bij. Daardoor wordt de toetsinhoud transparant gemaakt voor ieder die daarin is geïnteressseerd. Ook krijgen leerkrachten bij de proeftoetsen het verzoek om de gehanteerde onderwijsdoelen en de van daaruit geconstrueerde opgaven van commentaar te voorzien. Op grond van de catalogus van (communale) onderwijsdoelen die is beschreven in de genoemde publicaties en samengevat in hoofdstuk 3 is de toetsinhoud minutieus voorgeschreven aan de toetsconstructeurs. De opgaven werden opgesteld in commissies waarvan de leden (leerkrachten) ruime ervaring hebben in het basisonderwijs. Deze commissies werden aangestuurd door Cito toetsdeskundigen.
72
Alle items werden zorgvuldig geproeftoetst en becommentarieerd. Opgaven die in de praktijk niet bleken te voldoen, zoals bleek uit de empirische gegevens, werden niet opgenomen in de toetsen. Hierbij werd de inhoud bewaakt vanuit de omschreven doelstellingencategorieën: de toetsen dienen representatief te zijn ten aanzien van de geformuleerde specificatietabel (toetsmatrijs). Op deze manier werd de inhoudsvaliditeit zowel inhoudelijk als procedureel veilig gesteld.
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan de concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hoewel het gebruik van de termen concepten en constructen in het kader van leervorderingentoetsen misschien wat lastig is, zijn er ook bij instrumenten als Entreetoets 7 verschillende manieren om empirische evidentie te verzamelen die kan worden opgevat als onderbouwend voor de begripsvaliditeit ervan. We zullen deze hieronder achtereenvolgens bespreken. 6.2.1
Passing van het meetmodel; psychometrische kwaliteit van de opgaven
De opgaven die geconstrueerd worden met als doel te worden opgenomen in de Entreetoets, vormen na proeftoetsing en kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven wordt nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden (zie paragraaf 4.3.1). Items die niet voldoen aan de beschreven passingscriteria worden uit de verzameling verwijderd. Dit impliceert dat items die op basis van inhoudsanalyse zijn geconstrueerd vanuit de veronderstelling dat de leerling over een bepaalde specifieke vaardigheid dient te beschikken om de opgave te kunnen oplossen worden onderworpen aan een check of deze vaardigheid samenvalt met de unidimensionele latente trek waarvan men aanneemt dat deze de basis vormt van de (deel)toets. Op deze manier grijpen inhoudsvaliditeit en begripsvaliditeit in elkaar. In paragraaf 4.3.2 is beschreven hoe het gehanteerde meetmodel is getoetst en zijn gegevens gepresenteerd waaruit af te leiden valt of en in welke mate de kalibratie geslaagd genoemd kan worden. Wij vatten hier de conclusies samen. Uit de S-toetsen en grafische weergaven daarvan bij een toetsonderdeel blijkt dat de afzonderlijke opgaven steeds één onderliggende vaardigheidsdimensie representeren. Dit wordt bevestigd door de uitstekende R1c-waarden en de nauwkeurigheid van de itemparameterschattingen. Voor elk van de toetsonderdelen waarvoor de assumptie van unidimensionaliteit geldt, kan dus worden geconcludeerd dat er sprake is van een unidimensionaal concept (respectievelijk latente trek of vaardigheidsscore) onder de opgaven in het desbetreffende toetsonderdeel. In termen van klassieke testtheorie sluiten de uitkomsten van de itemanalyses (de Rit-waarden) en hoge interne consistentie (GLB, respectievelijk Cronbachs alfa) hierbij aan. Ten aanzien van het bovenstaande is het belangrijk om nog eens te accentueren dat we in hoofdstuk 4 slechts een globale evaluatie van de kalibratieprocedures hebben gepresenteerd. Omwille van een effciënte presentatie hebben we de procedures namelijk uitgevoerd alsof het om slechts drie deelvaardigheden ging: Taal, Rekenen-Wiskunde en Studievaardigheden. We weten echter dat de binnen de hoofdrubrieken onderscheiden deelvaardigheden lang niet altijd perfect correleren (zie de volgende paragraaf 6.2.2). De opgaven van deeltoetsen als Spelling Werkwoorden en Begrijpend luisteren worden daarom altijd geconstrueerd op basis van de assumptie dat het om verschillende deelvaardigheden gaat: de items worden in opgavenbanken per deeltoets gekalibreerd. Dit impliceert dat de eigenlijke kalibratie per deeltoets, zoals deze feitelijk heeft plaatsgevonden, tot nog betere item- en toetskarakteristieken leidt dan de in hoofdstuk 4 gepresenteerde resultaten laten zien. Dit geldt overigens niet voor Rekenen-Wiskunde: de onderdelen van deze toets hangen onderling zo sterk samen dat alle items op dezelfde vaardigheidsschaal konden worden gekalibreerd.
73
De gunstige uitkomsten zijn op zichzelf nog geen bewijs voor begripsvaliditeit (meet de toets en elke deeltoets wat hij geacht wordt te meten?), maar vormen daarvoor wel een noodzakelijke voorwaarde als eerste stap in de bewijsvoering.
6.2.2
Structuur
Leervorderingen (i.e. scores op leervorderingentoetsen) zijn op te vatten als een complex van vaardigheden die onderling relatief sterk samenhangen. Elk van de veronderstelde vaardigheden is daarbij op te vatten als een onderliggende latente trek. De op basis van IRT per vaardigheid geconstrueerde toetsen hebben een sterk unidimensioneel karakter. De intercorrelaties tussen de latente trekken enerzijds en de intercorrelaties tussen de geobserveerde toetsscores anderzijds variëren in sterkte, afhankelijk van de aard van de vaardigheid. Deze intercorrelaties vertonen een vrij stabiel patroon, zoals we bijvoorbeeld weten van de deelscores op de Eindtoets Basisonderwijs. Ieder afnamejaar treffen we bij deze leervorderingentoets vrijwel exact dezelfde intercorrelatiematrix aan (Van Boxtel et al., 2011). Dit betekent echter niet dat er sprake is van een duidelijk herkenbare factorstructuur (met bijvoorbeeld taal, rekenen-wiskunde en studievaardigheden als factoren). Pogingen om zo’n structuur terug te vinden in het patroon van intercorrelaties voor de Eindtoets hebben steeds schipbreuk geleden. De oorzaak is dat er verschillende zaken door elkaar lopen. Zo is bijvoorbeeld binnen het domein ‘taal’ sprake van sterk semantisch gekleurde taken zoals begrijpend lezen en woordenschat en niet-semantische taken zoals spellingvaardigheid. Terwijl tegelijkertijd een aantal rekenopgaven van een context voorzien zijn (‘ingeklede opgaven’) die de nodige vaardigheid in begrijpend lezen veronderstellen. Om inzicht te krijgen in dit patroon presenteren we in tabel 6.1 eerst de intercorrelaties tussen de drie hoofdrubrieken Taal, Rekenen-Wiskunde en Studievaardigheden.
Rekenen-Wiskunde
Studievaardigheden
Latente (boven de diagnonaal) en geobserveerde correlaties (onder de diagnonaal) tussen onderdelen en met de totaalscore van de Entreetoets 7
Taal
Tabel 6.1
Taal
--
.73
.90
Rekenen-Wiskunde
.70
--
.85
Studievaardigheden
.84
.79
--
We kunnen vaststellen dat de samenhang tussen Taal en Rekenen-Wiskunde met .70 het laagste is. Daarnaast laat Studievaardigheden sterke samenhangen zien met zowel Taal als Rekenen-Wiskunde. Dit komt omdat ervoor gekozen is bij Studievaardigheden taken op te nemen die zowel (semantische) taalvaardigheid (vergelijk het onderdeel Lezen van studieteksten) als aspecten van rekenvaardigheid veronderstellen (vergelijk het onderdeel Lezen van schema’s, tabellen en grafieken). Vervolgens bezien we de samenhangen tussen onderdelen die zijn ondergebracht in dezelfde hoofdrubriek. Het betreft de gearceerde cellen in tabel 6.2.
74
Binnen de taalvaardigheden is onderscheid te maken tussen semantische taken (Schrijven, Begrijpend luisteren, Begrijpend lezen en Woordenschat) en andere taken (waarvan alleen Spelling – van werkwoorden en niet-werkwoorden – verplicht is, de andere taken zijn optioneel). Aan de latente correlaties is duidelijk te zien dat de semantische taken een speciale positie innemen; we hebben de betreffende cellen daarom wat donkerder gearceerd. De gemiddelde (latente) correlatie tussen deze onderdelen is met .82 aanzienlijk hoger dan de gemiddelde waarde voor de overige latente correlaties binnen deze hoofdrubriek (deze bedraagt .44). Wél is het zo dat het onderdeel Leestekens zowel met semantische taken samenhangt (Schrijven, Begrijpend Lezen) als met Spelling. Verder valt op dat de samenhangen tussen sommige optionele taalvaardigheidstaken (zoals Grammatica en vooral Leestempo) en andere scores tot de laagste in de tabel horen. Juist om deze reden is ervoor gekozen om deze onderdelen optioneel te maken en ze niet te laten bijdragen aan de somscore (op Taal en de overall somscore). Leestempo correleert wel volgens verwachting het hoogst met Spelling. Aan de latente correlaties tussen de rekenonderdelen is te zien dat rekenvaardigheid een zeer homogeen construct is. De latente correlaties liggen tussen .93 en .95. Dit is voor de Cito rekentoetsen (LVS, Eindtoets Basisonderwijs) een bekend gegeven dat hier nog eens wordt bevestigd. De rekenonderdelen worden om inhoudelijke redenen weliswaar onderscheiden, maar bij de kalibratie worden de opgaven voor deze onderdelen op één en dezelfde vaardigheidsschaal gekalibreerd.
Latente (boven de diagonaal) en geobserveerde (onder de diagonaal) correlaties tussen de onderdelen van de Entreetoets 7
Tijd, geld
Informatiebronnen
Kaartlezen
Tabellen, grafieken
Studieteksten
.76 .46 .64 .51 .68 .30 .49
Meten, meetkunde
Leestekens
.52 .32 .44 .37 .39 .20
Studievaardigheden
Verhoudingen, breuken, procenten
Grammatica
Leestempo
Spelling
Woordenschat
Begrijpend lezen
Rekenen-Wiskunde
Begrijpend luisteren
Schrijven
Taal
Getallen, bewerkingen
Tabel 6.2
.67 .55 .68 .62 .57 .30 .44 .59
.66 .58 .69 .66 .53 .27 .42 .58
.67 .59 .69 .66 .53 .26 .42 .58
.68 .56 .69 .64 .57 .28 .43 .59
.83 .78 .88 .82 .62 .32 .47 .70
.74 .69 .78 .74 .55 .26 .44 .64
.80 .70 .81 .75 .56 .26 .47 .75
.86 .75 .91 .78 .62 .31 .49 .73
.93
.95
.95
.72
.78
.83
.72
.95
.95 .94
.74 .76 .74
.78 .81 .78
.85 .85 .85
.71 .73 .72
.84
.86 .87
.89 .80 .84
Taal Schrijven Begrijpend luisteren Begrijpend lezen Woordenschat Spelling Leestempo Grammatica Leestekens
.72
.89 .83
.76 .86 .86
.66 .33 .54 .45
.34 .24 .35 .24 .53
.60 .78 .66 .58 .30 .47 .68
.69 .71 .40 .20 .39 .55
.75 .62 .31 .50 .72
.50 .27 .41 .58
.47 .43 .61
.22 .34
.44
.60
.46
.60
.55
.51
.26
.40
.53
.57 .57 .56
.48 .48 .43
.59 .59 .56
.58 .57 .52
.47 .46 .47
.23 .22 .23
.37 .36 .36
.51 .50 .49
.82 .81 .79
.80 .77
.75
.65 .61 .66 .69
.58 .54 .54 .58
.69 .64 .66 .73
.65 .61 .62 .63
.49 .46 .46 .51
.25 .22 .22 .25
.37 .37 .40 .40
.55 .54 .57 .60
.58 .65 .69 .58
.57 .64 .69 .57
.58 .65 .68 .57
Rekenen-Wiskunde Getallen, bewerkingen Verh, breuken, proc. Meten, meetkunde Tijd, geld Studievaardigheden Informatiebronnen Kaartlezen Tabellen, grafieken Studieteksten
75
.54 .60 .65 .54
.61 .63 .64
.67 .60
.63
De latente correlaties binnen de rubriek Studievaardigheden zijn aanmerkelijk lager. De taken binnen deze rubriek zijn dan ook tamelijk divers. Sommige deeltaken (Gebruik van informatiebronnen, Lezen van studieteksten) hebben een vrij sterke (semantische) taalvaardigheidscomponent (vergelijk de correlaties met – vooral - Begrijpend lezen), andere (Kaartlezen, Lezen van schema’s, tabellen en grafieken) hangen wat sterker samen met de onderdelen van Rekenen-Wiskunde (vergelijk de omkaderde cellen).
6.2.3
Soortgenootvaliditeit; convergente en discriminante validiteit
Wanneer het er op aankomt bij leerlingen gegevens te verzamelen in het kader van de vaststelling van de convergente en discriminante validiteit, is dit in het geval van de Entreetoets 7 een lastige onderneming. Afname van de toets vergt immers een fors aantal dagdelen7. Het ligt niet voor de hand om school en leerlingen dan nog verder te belasten met de afname van aanvullende toetsen. Dit betekent echter niet dat we geen informatie hebben over deze vormen van validiteit. Op de eerste plaats is bij een groot aantal leerlingen bij wie de Entreetoets is afgenomen in 2012 een jaar later ook de Eindtoets Basisonderwijs afgenomen. We zullen de samenhangen tussen beide toetsscores in paragraaf 6.3 behandelen onder de noemer criteriumvaliditeit. De Eindtoets bevat voor een deel toetsen die pretenderen hetzelfde te meten als de toetsen van de Entreetoets. Ook al worden zij niet gelijktijdig afgenomen, ze zijn daarmee te beschouwen als soortgenoten. We kunnen de samenhangen tussen de deeltoetsen van de Eindtoets en de Entreetoets dus analyseren in termen van convergente en discriminante validiteit. Een andere vorm van soortgenootvaliditeit denken we te kunnen vinden in termen van het doorstroomadvies dat de leerkracht voor de leerling afgeeft met betrekking tot het best passende brugklastype. We mogen aannemen dat dit advies grotendeels gebaseerd is op de kennis die de school heeft verzameld over de leervorderingen van zijn leerlingen. Samenhangen met onderdelen van de Eindtoets Basisonderwijs In tabel 6.3 zijn de correlaties opgenomen tussen onderdelen van de Entreetoets 7 enerzijds en gelijksoortige onderdelen van de Eindtoets Basisonderwijs. Zoals gezegd wordt de interpretatie enigszins bemoeilijkt door het feit dat de toetsen niet gelijktijdig zijn afgenomen; dit heeft een nadelig effect op de hoogte van de correlaties. Dit is extra lastig omdat de correlaties tussen leervorderingentoetsen met een verschillende meetpretentie toch al relatief hoog uitvallen; er is sprake van een grote gemeenschappelijke variantie in de scores op leervorderingentoetsen (vergelijk de correlaties in tabel 6.2). In de tabel hebben we ons moeten beperken tot de onderdelen die zowel in de Entreetoets als in de Eindtoets zijn opgenomen. We hebbben in de tabel vier clusters van onderdelen onderscheiden, namelijk Taal (Lexicaal)-semantisch, Taal Spelling (twee onderdelen, namelijk spelling van werkwoorden en spelling van niet-werkwoorden), Rekenen-Wiskunde (drie onderdelen; in de Eindtoets is de score op Meten en meetkunde, respectievelijk Tijd en geld samengevoegd) en Studievaardigheden. In de bespreking van de tabel laten we de correlaties met de onderdelen van Studievaardigheden in eerste instantie buiten beschouwing Voor de semantische taalonderdelen geldt dat de drie soortgenootcorrelaties steeds het hoogst zijn, met uitzondering van de correlaties tussen de onderdelen Begrijpend lezen en Woordenschat van de Entreetoets (.70). Beide onderdelen behoren tot hetzelfde cluster. Aan de intercorrelaties binnen het cluster is te zien dat de vaardigheden qua meetpretentie dicht bij elkaar liggen. Correlaties met onderdelen van andere clusters zijn steeds lager, in het geval van Taal Spelling aanzienlijk lager. Bij Taal Spelling is te zien dat de onderdelen een grote discriminante validiteit hebben in relatie tot de onderdelen van Rekenen-Wiskunde en de semantische taalonderdelen. Tussen de spellingonderdelen onderling is er nauwelijks sprake van discriminante validiteit: alle correlaties binnen dit cluster zijn ongeveer even hoog.
7
Zie de handleiding voor een ‘Voorbeeld afnamerooster’; hierin is sprake van 10 dagdelen verspreid over zeven schooldagen voor afname van de complete toets (inclusief optionele onderdelen).
76
Ook voor Rekenen-Wiskunde is er sprake van een grote discriminante validiteit ten opzichte van (onderdelen van) de andere clusters. Binnen de clusters is er weer nauwelijks sprake van discriminante validiteit. Gegeven de hoge (latente) correlaties tussen de onderdelen van dit cluster (tussen .93 en .95, vergelijk tabel 6.2; de onderdelen zijn op dezelfde vaardigheidsschaal gekalibreerd) was dit ook te verwachten. De conclusie is dat er sprake is van een grote discriminante validiteit tussen onderdelen van Taal Lexicaalsemantisch, Taal Spelling en Rekenen-Wiskunde.
Tabel 6.3
Correlaties tussen onderdelen van de Entreetoets 7 (afname 2012) en gelijksoortige onderdelen van de Eindtoets 2013 ET7 2012
Studie Vaardig
Rek Wisk
Taal spel
Taal semant
STV STT
STV STG
STV KL
Studievaardigheden
STV INF
RW MMTG
RW VBP
Rekenen-Wiskunde
RW GB
SPEL NW
Taal Spelling
SPEL WW
WS
BL
EB2013
Schrijven
Taal Semantisch
Schrijven
.70
.67
.60
.46
.48
.50
.48
.51
.55
.51
.55
.59
BL
.65
.72
.70
.40
.43
.52
.53
.54
.60
.56
.57
.60
WS
.48
.57
.69
.28
.33
.39
.42
.43
.49
.46
.45
.46
SP WW
.46
.43
.36
.60
.56
.44
.41
.43
.38
.38
.39
.40
SP NW
.33
.31
.27
.51
.54
.28
.26
.28
.29
.27
.25
.28
RW GB
.49
.48
.44
.41
.41
.73
.69
.72
.46
.53
.57
.47
RW VBP
.49
.52
.51
.37
.38
.74
.76
.75
.50
.57
.61
.50
RW MMTG
.48
.51
.50
.36
.37
.70
.71
.73
.50
.57
.59
.49
STV INF
.50
.55
.53
.36
.40
.43
.44
.45
.49
.46
.46
.48
STV KL
.48
.49
.46
.33
.35
.53
.52
.54
.47
.54
.52
.47
STV STG
.53
.56
.52
.35
.38
.56
.57
.58
.51
.53
.57
.51
STV STT
.50
.55
.53
.31
.33
.45
.46
.47
.49
.49
.48
.50
Licht gearceerde correlaties op de diagonaal zijn correlaties tussen (veronderstelde) soortgenoten. Donker gearceerde correlaties buiten de diagonaal betreffen waarden die hoger zijn dan de diagonaal weergegeven correlaties.
Maar de onderdelen binnen deze clusters lijken inhoudelijk dicht bij elkaar te liggen. Het onderscheiden van afzonderlijk somscores voor de domeinen Taal en Rekenen-Wiskunde is daarmee gelegitimeerd. Men zou er voor kunnen pleiten om een aparte score te berekenen voor lexicaal-semantische taalvaardigheid. De samenhangen maken immers duidelijk dat deze vorm van taalvaardigheid aanzienlijk verschilt van meer leestechnische vaardigheden zoals spelling. Er is hier echter aangesloten bij het traditionele gebruik om taalvaardigheden in de vorm van één score te rapporteren. Het daarnaast rapporteren van de resultaten op de onderscheiden onderdelen vormt hiervoor voldoende tegenwicht. Tot nu toe lieten we de intercorrelaties voor de onderdelen van Studievaardigheden buiten beschouwing. Voor deze onderdelen blijkt er alleen sprake van voldoende discriminante validiteit ten opzichte van de beide spellingonderdelen. Men kan zich afvragen of studievaardigheden als cluster voldoende af te grenzen zijn van semantische taalvaardigheden en rekenen-wiskunde. Voor de vier onderdelen van Studievaardigheden geldt immers dat twee tot vijf correlaties met andere onderdelen (ook onderdelen buiten het cluster) hoger zijn dan de betreffende soortgenootcorrelatie. De conclusie kan luiden dat de
77
onderdelen die nu zijn samengebracht onder de noemer Studievaardigheden in feite beter passen bij Taal en Rekenen-Wiskunde en dat er weinig reden is om dit cluster te handhaven. Dat dit toch gebeurd is, is vooral ingegeven door een historisch zo gegroeide situatie (in de Eindtoets Basisonderwijs zijn de onderdelen ook op deze manier geordend). Binnen afzienbare tijd zal de rapportage op dit punt worden aangepast en zullen de onderdelen worden ondergebracht bij Taal (Gebruik van informatiebronnen, Hanteren van leesteksten) of Rekenen-Wiskunde (Kaartlezen, Lezen van schema’s, tabellen en grafieken). Op dat moment zal de rapportage in overeenstemming zijn gebracht met nieuwe indelingen van einddoelen en referentieniveaus op basis van onder meer adviezen van de Commissie Meijerink. Doorstroomadvies van de leerkracht Het doorstroomadvies wordt door de leerkracht in februari aangegeven op het antwoordblad van de Eindtoets. In het advies brengt hij – zonder nog weet te hebben van de uitslag op de Eindtoets – tot uitdrukking wat volgens hem het best passende brugklastype is voor de leerling wanneer deze straks de basisschool verlaat. In tabel 6.4 is aangegeven in welke mate deze adviezen overeenkomen met het voorlopig advies over het best passende schooltype zoals dat af te leiden is uit de totaalscore op de Entreetoets 7. Tabel 6.4
Overeenkomst van doorstroomadvies leerkracht en het voorlopig Cito-advies op basis van de Entreetoets ?
BB BB/KB
KB
GT
GT/H GT/H/V HAVO
H/V
VWO
Totaal
4 59 3365 8731
9989 14921 27190 37635 15513
BB KB GT HAVO VWO
2535 3970 7592 10580 4367
3314 796 107 7
1720 1534 362 16 3
1699 4008 1800 88 4
639 3877 9350 1763 21
61 566 5023 3931 32
6 41 320 456 23
12 110 2199 9630 391
3 15 378 7799 1941
Totaal
29044
4224
3635
7599
15650
9613
846
12342
10136
12159 105248
De indelingen voor doorstroomadvies en Entreetoets-advies lopen niet helemaal parallel. Toch kunnen we globaal concluderen dat beide adviezen in 75.8% van de gevallen (vergelijk de gearceerde cellen in de tabel) overeenkomen. Door middel van CatReg (SPSS), een analyse het mogelijk maakt multiple regressie toe te passen op categorische data, is nagegaan in welke mate het doorstroomadvies samenhangt met de score op de Entreetoetstoets. Daarbij is de categorie ‘?’ buiten beschouwing gelaten. De correlatie tussen de totaalscore op de Entreetoets en het doorstroomadvies van de leerkracht bedraagt .70. Dit is weliswaar lager dan de correlatie van .84 tussen de standaardscore op de Eindtoets en het doorstroomadvies, maar daarbij moeten we uiteraad wel verdisconteren dat er bijna een vol schooljaar zit tussen de afname van de Entreetoets en het uitbrengen van het leerkrachtadvies.
6.2.4
De Entreetoets groep 7: relevante verschillen tussen subgroepen
In deze paragraaf wordt een aantal uitkomsten van analyses gepresenteerd waarbij steeds onderscheid is gemaakt naar een aantal subgroepen. We hebben ons daarbij beperkt tot (achtergrond)variabelen waarvoor op grond van theoretische overwegingen verwachtingen zijn te formuleren over verschillen en / of overeenkomsten in score en die daarmee interessant zijn voor de begripsvaliditeit van de Entreetoets 7. We besteden aandacht aan verschillen tussen groepen met een verschillend leerlinggewicht, aan speciale leerlingcategorieën (allochtone leerlingen die pas kort in Nederland verblijven en het Nederlands onvoldoende beheersen, kinderen die naar verwachting naar het speciaal onderwijs of het praktijkonderwijs gaan en kinderen die naar verwachting naar het leerwegondersteunend onderwijs gaan), aan sekse en aan
78
leeftijd (binnen leerjaar 7). Soms besteden we ook aandacht aan verschillen tussen de landelijke situatie en de situatie in de vier grote steden (de zogeheten G4). Informatie over enkele van de betreffende (achtergrond)variabelen is niet standaard beschikbaar voor de Entreetoets 7, maar kon verkregen worden door het Entreetoetsbestand te koppelen aan het bestand voor de (later in 2013) afgenomen Eindtoets basisonderwijs (meer hierover in paragraaf 6.3). Leerlinggewicht Op het antwoordblad van de Entreetoets kan het leerlinggewicht worden aangestreept. Leerlinggewichten worden toegekend in het kader van het Formatiebesluit WPO (Wet Primair Onderwijs). Dat besluit regelt de formatie voor bestrijding van onderwijsachterstanden. Voor een toelichting op het begrip leerlinggewicht verwijzen we naar hoofdstuk 4. Informatie over de plaats van vestiging van de school (al dan niet G4) is gebaseerd op de postcode van de scholen in kwestie. In figuur 6.1 zijn de gemiddelde ruwe totaalcores van de naar leerlinggewicht onderscheiden groepen afgebeeld. In tabel 6.5 geven we de grootte van de onderscheiden groepen weer in aantallen en percentages samen met de gemiddelde ruwe totaalscore per categorie. Leerlingen bij wie geen leerlinggewicht is aangestreept of bij wie meer dan één leerlinggewicht is aangestreept, zijn in de tabel opgenomen in de kolom met het vraagteken. Deze leerlingen zijn niet opgenomen in figuur 6.1.
Figuur 6.1
Gemiddelde ruwe scores Entreetoets 7 (afname 2012) naar leerlinggewicht landelijk en voor de G4
Gemiddelde ruwe scores naar leerlinggewicht (2012) 350 300 250 200
2012 ‐ Landelijk
150
2012 ‐ Grote steden
100 50 0 Totaal
0,00
0,30
1,20
In tabel 6.5 zien we dat de vier grote steden in vergelijking met het landelijk beeld relatief meer leerlingen met een hoger leerlinggewicht herbergen. Voor de vier grote steden geldt dat dat 27.4% van het deelbestand bestaat uit leerlingen met een afwijkend gewicht, terwijl dat percentage landelijk 12.2 is. De totale groep 1.20 leerlingen bestaat voor ruim een kwart uit leerlingen van de vier grote steden. Verder zien we dat leerlingen met een leerlinggewicht van 1.20 zoals verwacht gemiddeld een lagere score (250.6) behalen op de Entreetoets dan leerlingen zonder afwijkend leerlinggewicht (301.5). Hetzelfde, maar in mindere mate geldt voor de leerlingen met een gewicht van 0.30 (259.8).
79
Tabel 6.5
Aantal, percentage leerlingen en gemiddelde totaalscore landelijk en voor de G4 uitgesplitst naar leerlinggewicht (? = leerlinggewicht onbekend)
Landelijk Aantallen Percentages Ruwe totaalscore ET7 Grote steden Aantallen Percentages Ruwe totaalscore ET7
Totaal
0.0
0.30
1.20
?
127805 100 295.7
105059 82.2 301.5
8540 6.7 259.8
7083 5.5 250.6
7123 5.6 --
Totaal
0.0
0.30
1.20
?
13961 100 286.5
9691 69.4 298.8
1140 8.2 253.7
2677 19.2 251.6
453 3,2 --
Voor de leerlinggroepen in de G4 zien we hetzelfde beeld. Leerlingen zonder afwijkend leerlinggewicht (0.0) scoren gemiddeld weer het hoogst (298.8), gevolgd door de groep met een leerlingewicht van 0.30 (gemiddelde score 253.7 en de groep met een leerlingewicht van 1.20 (gemiddelde score (251.6). In figuur 6.1 is te zien dat kinderen in de vier grote steden gemiddeld duidelijk lager presteren (286.5) dan het landelijk gemiddelde (295.7). De oorzaak daarvan is te zoeken in de boven beschreven afwijkende samenstelling van de leerlinggroepen naar leerlinggewicht in de G4 in vergelijking met de landelijke situatie. Speciale deelnemersgroepen Op het antwoordblad van de Eindtoets kan een speciale code worden aangestreept (de ‘leerlingcategorie’) met behulp waarvan leerlingen kunnen worden ingedeeld in speciale deelnemersgroepen8. We herhalen hier de omschrijving van deze codes zoals deze ook op bladzijde 18 en 19 van de Handleiding voor de Eindtoets 2010 staat. - Code I (Allochtone) leerlingen die aan het begin van groep 8 vier jaar of korter in Nederland zijn en die het Nederlands onvoldoende beheersen om de opgaven in de Eindtoets Basisonderwijs goed te kunnen lezen; - Code J Leerlingen die naar verwachting naar het (voortgezet) speciaal onderwijs of naar het praktijkonderwijs (pro) gaan; - Code K Leerlingen die naar verwachting in aanmerking komen voor het leerwegondersteunend onderwijs (lwoo).
Het is ook mogelijk dat er twee codes bij eenzelfde leerling worden aangestreept (I en J of I en K). Omdat er zeer weinig leerlingen met zo’n dubbele code zijn, zijn deze leerlingen in de totalen opgenomen als leerlingen met code I. Door koppeling van het Eindtoetsbestand 2013 aan het Entreetoetsbestand 2012 konden de prestaties voor deze speciale groepen op de Entreetoets worden geanalyseerd. Met betrekking tot de deelname van deze speciale groepen aan de Eindtoets geldt dat leerlingen met een code I of J eigenlijk buiten de doelgroep vallen waarvoor de Eindtoets is bedoeld. Voor leerlingen met een code K wordt aangegeven dat de toets in principe geschikt is, maar dat deze voor een deel van de leerlingen aan de moeilijke kant zal zijn. Voor de Entreetoets kan men voor deze leerlingen, zoals eerder aangegeven, uitwijken naar de Entreetoetsversie voor leerjaar 6 of 5.
8
Niet voor alle leerlingen is er op het antwoordblad een code aangestreept. Ook de juistheid van de aangestreepte codes is door Cito niet of slechts beperkt controleerbaar. Cito beschikt niet over andere middelen om deze achtergrondkenmerken in kaart te brengen. Vandaar dat wij ons in deze wetenschappelijke verantwoording en in alle andere wetenschappelijke verslagen van Cito, op de op het antwoordblad ingevulde gegevens baseren.
80
De aantallen leerlingen met een code-aanduiding (voor de Eindtoets) in het Entreetoetsbestand zijn betrekkelijk gering. In dit bestand heeft 3% van de leerlingen een I-code, 0.5% een J-code en 5.7% een Kcode; 93.5% had geen code. Leerlingen met een speciale code vallen relatief vaak in de groep leerlingen met een afwijkend leerlinggewicht (0.30 en 1.20). In figuur 6.2 zijn de gemiddelde ruwe totaalscores op de Entreetoets (grafisch) weergegeven, voor de landelijke situatie (links) en de G4 (rechts) afzonderlijk. In de meest linkse kolom is het gemiddelde gebaseerd op het totaalbestand van alle leerlingen. In de middelste en rechtse kolom zijn de gemiddelden herberekend exclusief de leerlingen met een I- of J-code, respectievelijk exclusief de leerlingen met een I-, J- of K-code (dus voor alle leerlingen waarvoor geen code werd aangestreept). Het buiten beschouwing laten van deze leerlingcategorieën heeft een duidelijk positief effect op het gemiddelde. Dit is overeenkomstig de verwachting dat leerlingen met een speciale code, waarvan mag worden aangenomen dat zij problemen hebben ervaren in het volgen van het reguliere basisonderwijs, de gemiddelden in negatieve zin zullen beïnvloeden. Dit effect is voor de G4 (verschil met het overall gemiddelde is 9.4) groter dan landelijk (verschil is 4.5), wat toe te schrijven is aan het grotere aantal leerlingen met een afwijkend leerlinggewicht in de G4 en de overrepresentatie van de leerlingen met een speciale code in deze subgroepen.
Figuur 6.2
Gemiddelde ruwe totaalscores Entreetoets 7, gebaseerd op alle leerlingen, alle leerlingen exclusief I of J en alle leerlingen exclusief I,J of K
Sekse In de Eindtoetsgegevens werden voor 2008, 2009 en 2010 kleine scoreverschillen, variërend van .4 tot .9 standaardscorepunt gerapporteerd in het voordeel van de jongens. Deze verschillen vinden we ook terug voor de Entreetoets 7, zoals figuur 6.3 laat zien, en wel voor alle onderscheiden groepen naar leerlinggewicht, zowel landelijk als in de vier grote steden.
Figuur 6.3
Gemiddelde ruwe totaalscores, uitgesplitst naar sekse en naar leerlinggewicht, landelijk (links) en voor de G4 (rechts)
81
De bijbehorende gemiddelden op de totaalscore zijn opgenomen in tabel 6.6. In deze tabel zijn ook de gemiddelde scores opgenomen voor de onderdelen Taal, Rekenen-Wiskunde en Studievaardigheden. De groep met het hoogste gemiddelde is steeds gearceerd. De jongens behalen in alle gewichtscategorieën gemiddeld nét iets hogere scores dan de meisjes. Wanneer we deze uitkomsten differentiëren naar toetsonderdeel (Taal, Rekenen-Wiskunde en Studievaardigheden) blijkt dat de meisjes gemiddeld hogere taalscores behalen dan de jongens en dat verschil is er in alle gewichtscategorieën. Het gemiddelde verschil (voor alle leerlingen) is 5.8 scorepunten. Het is een bekend gegeven dat meisjes op taalvaardigheden net iets hoger scoren. We vinden een soortgelijk verschil bij de Eindtoets Basisonderwijs, maar ook bij de normering van de ISI-Reeks (Van Boxtel, Snijders & Welten, 1982) eind jaren ’70 werd een dergelijk verschil al vastgesteld. Het omgekeerde geldt voor Rekenen-Wiskunde: hier zijn het de jongens die traditioneel iets hoger scoren, gemiddeld 7.1 punten hoger. Dat is relatief een groot verschil, want de rekentoetsen bestaan uit slechts 120 opgaven, terwijl de (verplichte) taalonderdelen 220 opgaven omvatten. Bij het onderdeel Studievaardigheden doen de jongens het eveneens beter dan de meisjes en ook hier is dit verschil in alle gewichtscategorieën aanwezig. Het verschil (5 bij 80 opgaven) is echter zeer gering en vergelijkbaar met verschillen die we vinden bij de Eindtoets (Van Boxtel et al., 2011).
Tabel 6.6
Gemiddelde scores voor jongens en meisjes, voor Totaal, Taal, Rekenen-Wiskunde en Studievaardigheden, landelijk en voor de G4, uitgesplitst naar leerlinggewicht Landelijk Totaal
0.0
0.30
G4 1.20
?
Totaal
0.0
0.30
1.20
?
Totaalscore jongens
296.6
302.3
261.0
252.0
298.1
288.2
300.5
255.6
253.3
312.9
meisjes
294.8
300.7
258.6
249.3
298.0
284.9
297.0
252.0
250.1
314.2
Taal jongens
153.1
156.0
135.3
128.9
153.9
148.5
155.2
132.7
129.0
161.3
meisjes
158.9
161.8
141.8
135.0
160.6
153.9
160.3
138.9
134.8
168.6
RekenenWiskunde jongens
86.5
88.0
76.1
76.4
86.8
85.1
87.9
75.0
77.8
91.6
meisjes
79.4
81.1
68.1
68.1
80.3
77.2
80.3
66.2
69.4
86.2
Studievaardigheden jongens
57.0
58.3
49.6
46.7
57.4
54.7
57.5
47.8
46.5
60.0
meisjes
56.5
57.8
48.6
46.1
57.1
53.8
56.5
46.7
46.0
59.4
82
In figuur 6.4 zijn de gemiddelden voor jongens en meisjes op de hoofdonderdelen grafisch weergegeven naar leerlinggewicht, landelijk en voor de G4 afzonderlijk.
Figuur 6.4
Verschillen tussen jongens en meisjes voor de onderdelen Taal, Rekenen-Wiskunde en Studievaardigheden, landelijk en voor de G4, uitgesplitst naar leerlinggewicht
In figuur 6.5 hebben we alle verschillen nog eens samengevat. In de figuur zijn de gemiddelde verschilscores tussen jongens en meisjes grafisch weergegeven: jongens scoren hoger op rekenenwiskunde en laten een iets hogere score zien op studievaardigheden, meisjes weten dit te compenseren door een hogere score op taal. De verschillen tussen jongens en meisjes op de totaalscore zijn daardoor klein en verwaarloosbaar: gemiddeld 1.8 punten op 420 opgaven. Wel lijken de verschillen naar sekse in de categorieën met afwijkende leerlingewichten (0.30 en 1.20) iets groter, met name omdat meisjes in deze categorieën het op rekenen-wiskunde relatief slecht doen.
83
Figuur 6.5
Verschillen tussen jongens en meisjes: aandeel van de scores op de onderdelen in de totaalscore
Verschillen naar leeftijd Niet alle leerlingen in groep 7 zijn even oud. Zijn er effecten van de verschillen in leeftijd op de hoogte van de scores op de Entreetoets? In figuur 6.6 staat de verdeling naar leeftijd van de leerlingen die in 2012 hebben deelgenomen aan de toets, voor jongens en meisjes afzonderlijk. De leeftijd op de horizontale as is uitgedrukt in eenheden van 10 dagen (een punt komt overeen met een periode van 10 dagen). Volgens de regelgeving die gold voor de invoering van het Basisonderwijs (begin jaren '80) werden leerlingen pas tot de eerste klas toegelaten als ze zes jaar werden vóór 1 oktober van het lopende jaar. Als die regel nu nog zou worden toegepast, zou dit betekenen dat leerlingen die zonder vertraging hun schoolloopbaan volbrengen en omstreeks juni 2012 in groep 7 zitten, geboren zijn tussen 1 oktober 2000 en 30 september 2001. De twee verticale stippellijnen in de figuur komen met deze data overeen en bakenen dus een periode van exact één jaar af. Uit de scherpe stijging en de scherpe daling van de twee curves rond die plaatsen kunnen we concluderen dat deze regel in de praktijk nog steeds wordt toegepast. Leerlingen in de grafiek rechts van de rechtse stippellijn zijn leerlingen die om een of andere reden vertraging hebben opgelopen, ze zijn bijvoorbeeld later begonnen in groep 3 of zijn gedoubleerd. Leerlingen links van de linkse stippellijn zijn ‘voorlijke’ leerlingen die waarschijnlijk eerder aan groep 3 begonnen zijn dan volgens de oude regelgeving toegestaan was of die een klas hebben overgeslagen.
Figuur 6. 6
Verdeling van aan de Entreetoets 2012 deelnemende leerlingen naar leeftijd
84
Er zijn opmerkelijke zaken op te merken aan de hand van figuur 6.6. Ten eerste: er zijn meer voorlijke meisjes dan jongens. Ten tweede zijn er bij de vertraagde leerlingen meer jongens dan meisjes. Tot slot zijn bij de reguliere leerlingen de jongens gemiddeld ouder dan de meisjes, want bij de jongsten onder de regulieren zijn de meisjes in de meerderheid. In de figuren 6.7 tot en met 6.9 zijn per leeftijdsgroep de verschillen tussen jongens en meisjes weergegeven op het gebied van achtereenvolgens Taal, Rekenen-Wiskunde en Studievaardigheden. Het ‘uitwaaier’-effect aan de uiteinden van de plotlijnen heeft te maken met het aantal observaties: dat is daar tamelijk gering. In alle figuren kunnen we zien dat de groep vertraagde leerlingen gemiddeld duidelijk lager scoort dan de leerlingen die normaal zijn doorgestroomd. En op alle onderdelen scoren de ‘voorlijke’ leerlingen hoger dan de overige leerlingen. Uiteraard komen de eerder geconstateerde verschillen tussen jongens en meisjes ook in deze grafieken naar voren.
Figuur 6.7
Scores Entreetoets groep 7 Taal naar leeftijd en geslacht
Figuur 6.8
Scores Entreetoets groep 7 Rekenen-Wiskunde naar leeftijd en geslacht
85
Figuur 6.9
6.2.5
Scores Entreetoets groep 7 Studievaardigheden naar leeftijd en geslacht
Verschillen tussen subgroepen: DIF-analyses
De bruikbaarheid van een leervorderingentoets zoals de Entreetoets 7 voor verschillende doelgroepen heeft grote implicaties voor de (onderwijs)toekomst van grote groepen leerlingen. Uiterwijk (1994) en Van Schilt-Mol (2007) hebben dit probleem geformuleerd in termen van ‘Differential Item Functioning’ (DIF). Daarmee doelen zij op het verschijnsel dat toetsen opgaven kunnen bevatten die verschillend ‘functioneren’ voor verschillende subgroepen leerlingen, zelfs wanneer deze leerlingen een vergelijkbaar prestatieniveau laten zien. In de IRT houdt dit concreet in dat leerlingen die behoren tot verschillende categorieën (bijvoorbeeld jongens versus meisjes, leerlingen behorend tot groepen met een verschillend leerlinggewicht) dezelfde kans moeten hebben om op een item met een bepaalde respons te reageren. Er is sprake van DIF (ook wel aangeduid als ‘onbedoelde moeilijkheden’) als leerlingen uit verschillende subgroepen met een vergelijkbaar prestatieniveau een ongelijke kans hebben om een toetsopgave juist te beantwoorden. Wanneer de oorzaak daarvan niet behoort tot het construct dat de opgave beoogt te meten, is er sprake van itembias. Uit eerder onderzoek naar de Eindtoets Basisonderwijs (Uiterwijk, 1994; Uiterwijk & Vallen, 1997, 2005) is gebleken dat de Eindtoets (in jaren voorafgaand aan de genoemde publicatiejaren) opgaven bevatte waarbij sprake is van DIF en dus mogelijk sprake is van itembias. Van Schilt-Mol (2007) heeft nauwkeurig onderzoek verricht naar DIF en itembias voor Turkse en Marokkaanse leerlingen in de Eindtoets van 1997. De analyses leidden tot de conclusie dat de Cito Eindtoets Basisonderwijs leerlingen van allochtone afkomst niet benadeelt en ook niet bevoordeelt, althans voor zover het de onderzochte versie betreft. Ondanks deze (voor de versie van 1997) gunstige uitkomsten heeft Cito inmiddels een aantal opgaventypen aangepast, ook in de Entreetoets. Het onderzoek van Van Schilt-Mol bevatte daartoe een aantal bruikbare aanwijzingen en aanbevelingen. Ook werd het onderzoek waarop de selectie van opgaven is gebaseerd zodanig uitgebreid dat het nog beter mogelijk is de selectie van opgaven met onbedoelde moeilijkheden te voorkomen. Dit laatste geldt ook voor de opgaven die voor de Entreetoets 7 werden geconstrueerd. Ondanks de zorgvuldige itemconstructie werd besloten om DIF-analyses uit te voeren voor sekse en leerlinggewicht. Helaas was geen informatie beschikbaar over de etnische herkomst of thuistaal van de leerlingen. Maar omdat de groepen met afwijkende leerlinggewichten (0.30 en 1.20) relatief veel leerlingen van allochtone herkomst herbergen, met name in de vier grote steden, kunnen we de analyse naar leerlingewicht beschouwen als een bruikbaar alternatief. Op alle 420 verplichte opgaven van de Entreetoets groep 7 zijn DIF-analyses uitgevoerd die vergelijkbaar zijn met de analyses van Van Schilt-Mol (2007) (zie hierboven). Dit gebeurde zowel op ‘klassieke’ wijze als
86
door toepassing van IRT. Bij de klassieke analyses wordt per item en per vergelijking tussen subgroepen de Mantel Haenszel DIF-statistiek berekend en op significantie getoetst door middel van de bijbehorende z-waarde. Bij de IRT-analyses wordt het OPLM als meetmodel aangehouden en wordt aan de hand van S-toetsen én door inspectie van de grafische weergaven van de itemkarakteristieke curven (zie hiervoor hoofdstuk 4) bepaald of er sprake is van DIF. De analyses werden uitgevoerd in de steekproef van N=4920 die ook is gebruikt om de kalibratiekwaliteit en de modelpassing te onderzoeken (zie paragraaf 4.3.2). Voor 574 leerlingen ontbrak informatie over de sekse en / of het leerlinggewicht (met name omdat voor deze leerlingen de koppeling met het Eindtoetsbestand – vanwege de variabele leerlinggewicht – niet tot stand te brengen was). Er resulteerde een steekproef (N=4346) die een goede afspiegeling vormde van het totale afnamebestand voor de Entreetoets. De verhouding jongens : meisjes in deze steekproef was 50.5 : 49.5, de verhoudingen met betrekking tot de leerlinggewichten 0.0 : 0.30 : 1.20 waren 85.6 : 7.4 : 6.0. Ook de gemiddelde scores voor de onderscheiden onderdelen en subgroepen kwamen globaal overeen met de informatie die hierover eerder in dit hoofdstuk is verschaft. Voor elk van de vele honderden vergelijkingen werd de Mantel Haenszel (MH) DIF-statistiek berekend en op significantie getoetst door middel van de bijbehorende z-waarde. De resultaten zijn opgenomen in tabel 6.7. Bezien we de resultaten voor leerlinggewicht, dan blijkt er voor Rekenen-Wiskunde bij geen enkel item sprake van DIF. Voor Taal en Studievaardigheden is er bij zes items (van de 300) sprake van DIF wanneer de 0.0-catgeorie wordt vergeleken met de 1.20-categorie. Het aantal significante toetsingsresulaten is daarmee aanzienlijk lager dan wat men op basis van het gehanteerde kansniveau (.05) zou mogen verwachten.
Tabel 6.7
Resultaten van DIF-analyses voor sekse en leerlinggewicht voor 420 opgaven van de Entreetoets 7: aantal significante MH-toetsingen Sekse
Onderdeel
Aantal items
Taal
Leerlinggewicht
J-M
0.0 vs. 0.30
0.0 vs. 1.20
0.30 vs 1.20
220
17
0
5
0
Rekenen-Wiskunde
120
12
0
0
0
Studievaardigheden
80
9
0
1
0
Voor sekse is het aantal items met significante MH-waarden voor alle onderdelen wat groter dan men op grond van kanskapitalisatie zou mogen verwachten, namelijk bij 7.7% van de taalopgaven (17 van de 220), 10% van de opgaven Rekenen-Wiskunde (12 van de 120) en 11.3% van de opgaven voor studievaardigheden (9 van de 80). Bij twee items was er zowel sprake van DIF voor sekse als voor leerlinggewicht. Tabel 6.8
Resultaten van DIF-analyses voor sekse en leerlinggewicht voor 420 opgaven van de Entreetoets 7 op basis van S-toetsen en inspectie van itemkaraktersitieke curven Sekse
Leerlinggewicht
Onderdeel
Aantal items
Taal
220
11
7
Rekenen-Wiskunde
120
10
6
Studievaardigheden
80
6
2
J-M
87
De vraag is of we aan deze resultaten betekenis moeten hechten. We moeten immers in aanmerking nemen dat de steekproef een behoorlijke omvang kent, zodat de toetsingen relatief ‘snel’ als significant uitpakken. Bezien we de DIF-analyses op basis van IRT (de resultaten staan in tabel 6.8), dan kunnen we vaststellen dat voor sekse het aantal items met DIF lager is dan op basis van de klassieke analyses, namelijk 27 (in plaats van 38) van de 420 opgaven. Ten aanzien van leerlinggewicht ligt het aantal opgaven met DIF nu wat hoger (13 opgaven in plaats van 6), waarbij het verschil vooral optreedt bij RekenenWiskunde. Daar laten nu zes items DIF zien, terwijl we met klassieke analyses geen DIF constateerden voor deze hoofdrubriek. Nadere inspectie van de S-curven per leerlingcategorie en van de opgaven zelf in het geval van een significant toetsingsresultaat leverde geen inhoudelijk interpreteerbare inzichten op, hetgeen onderstreept dat het hier zeer waarschijnlijk om ‘toevalligheden’ gaat. Ook is er geen sprake van systematische effecten. Bijvoorbeeld ten aanzien van sekse valt het ene item in het voordeel uit van de jongens, het andere in het voordeel van de meisjes. We geven hiervan een voorbeeld in figuur 6.10, waarin voor twee items van Rekenen-Wiskunde met DIF de itemkarakteristieke curves voor zowel de jongens als de meisjes is weergegeven. Duidelijk is te zien dat jongens (bovenste afbeelding) en meisjes (onderste afbeelding) in deze opgaven verschillende itemkaraktersitieke curves laten zien, op grond waarvan DIF is vastgesteld. Even duidelijk is te zien dat in het ene geval de jongens in het voordeel zijn en in het andere geval de meisjes. Ten slotte is zowel voor sekse als voor leerlinggewicht via inspectie van gemiddelde moeilijkheidsgraden per categorie nagegaan hoe groot het effect is van de vastgestelde verschillen op de uiteindelijke toetsscore. Dit effect is in alle gevallen zeer minimaal. Kortom, het aantal significante resultaten is klein (sekse) of verwaarloosbaar (leerlinggewicht) te noemen en inhoudelijk niet interpeteerbaar. Het effect op de scores is vrijwel nihil.
Figuur 6.10 Itemkarakteristieke curves voor meisjes (boven) en jongens (onder) voor twee opgaven van Rekenen-Wiskunde met DIF
88
De DIF-analyses (achteraf) gaven geen aanleiding om items te verwijderen of buiten beschouwing te laten in de scoring. Leerlingen die van elkaar verschillen in leerlinggewicht of geslacht worden immers in de Entreetoets 7 niet op oneigenlijke wijze benadeeld door de opgaven, dat wil zeggen door itemkenmerken die met de te meten vaardigheid zelf niets van doen hebben.
6.3
Criteriumvaliditeit
In aanvulling op het beschrijvende gebruik van de Entreetoets wordt de totaalscore op de Entreetoets ook gebruikt om een voorspelling te doen ten aanzien van de (te verwachten) score op de Eindtoets Basisonderwijs in groep 8 (zie paragraaf 4.1). Dat gebeurt op het Voorlopig Leerlingrapport Eindtoets Basisonderwijs (zie figuur 6.11).
6.3.1
De verwachte score op de Eindtoets Basisonderwijs: procedure
Figuur 6.11
Voorbeeld van een Voorlopig Leerlingrapport Eindtoets Basisonderwijs
NB. Dit betreft een voorbeeld; in werkelijkheid kunnen de gegevens die behoren bij een standaardscore van ‘536’ afwijken van de hier vermelde resultaten.
In tegenstelling met de voor de Eindtoetsrapportage gebruikelijke gedetailleerdheid wordt in deze rapportage alleen de verwachte standaardscore gerapporteerd (overigens op basis van de ongecorrigeerde ruwe score op de Entreetoets) alsmede de aan deze verwachting gekoppelde boven- en ondergrens. We gaan zo dadelijk nog wat verder in op de wijze waarop de predictorscore wordt berekend. Eerst geven
89
we hier een toelichting op de Eindtoetsrapportage. Deze is ontleend aan de wetenschappelijke verantwoording van de Eindtoets Basisonderwijs (Van Boxtel, Engelen & De Wijs, 2011). De standaardscores op de Eindtoets zijn op zichzelf tamelijk betekenisloos (ook al heeft het jarenlang omgaan met deze Eindtoetsscores in het onderwijs voor een duidelijk omschreven betekenistoekenning gezorgd). Hun werkelijke betekenis ontlenen de getallen aan de adviescategorieën die eraan verbonden worden met betrekking tot de school- of brugklastypen die voor de betreffende leerling als het meest geschikt worden beschouwd. In de zogenoemde ‘poppetjesgrafiek’ wordt per brugklastype immers aangegeven hoeveel procent van de leerlingen met eenzelfde score in het betreffende brugklastype is geplaatst. Deze en andere gegevens, die ouders, leerkrachten en kinderen steun moeten bieden bij het maken van een keuze, zijn ontleend aan de zogenoemde Toelatings- en doorstroomonderzoeken (T&DO) die Cito jaarlijks in samenwerking met het CBS organiseert. Op basis van dit T&DO zijn grenzen vastgesteld voor de adviescategorieën, waarbij is uitgegaan van het interval tussen het 20e en 80e percentiel per brugklastype. Voor meer details en informatie over de exacte grenzen verwijzen we naar Van Boxtel, et al. (2011). De concrete procedure op grond waarvan de verwachte standaardscore op de nog af te nemen Eindtoets wordt voorspeld is als volgt te beschrijven. De procedure is gebaseerd op de herhaalde waarneming van een zeer hoge correlatie tussen Entreetoets (ET in de nu volgende formules) en Eindtoets Basisonderwijs (EB in de formules). In de procedure wordt een lineair model toegepast. Dit houdt in dat
EBi a b ETi i waarin i het residu is dat we niet (kunnen) kennen. Hierbij is ETi de (nog niet afgeronde) Entreetoets-score van leerling i en EBi de te voorspellen standaardscorescore van dezelfde leerling (een jaar later) op de Eindtoets. Op basis van de verzamelde data van een jaar tevoren worden de coefficiënten a en b in bovenstaande formule geschat. Met behulp van deze coefficienten wordt een voorspelling gemaakt van de Eindtoets standaardscore op basis van de Entreetoetsscore:
EB i a b ETi Deze voorspelling bevat natuurlijk een fout. Daarom wordt een 90% betrouwbaarheidsinterval afgebakend rond de voorspelde score. De bovengrens Bi is gegeven door
Bi EB i 1.645 SDEB 1 2 waarin SDEB de standaarddeviatie is van de Eindtoets, en de berekende correlatie op de al genoemde data. De ondergrens Oi wordt gegeven door
Oi EB i 1.645 SDEB 1 2 Alle geschatte waarden, inclusief de ondergrens en de bovengrens worden na berekening op de normale manier afgerond. De berekende waarden voor a, b en ρ2 verschillen van jaar tot jaar enigszins, al blijken deze verschillen in de regel erg klein te zijn. We komen erop terug bij de presentatie van analyseresultaten hieronder.
90
6.3.2
Analyseresultaten
Zoals eerder aangegeven hangt de score op de Entreetoets zeer sterk samen met de score op de Eindtoets. De correlatie tussen de Entreetoets 7, afgenomen in 2011 en de Eindtoets die een jaar later werd afgenomen bedraagt .873. De correlatie tussen de in 2012 afgenomen Entreetoets 7 en de Eindtoetsafname van 2013 was vergelijkbaar hoog, namelijk .8769. Daarmee kan de voorspellende waarde van de Entreetoets als zeer goed worden aangemerkt. Wat betekent dit nu voor de voorspelling van het advies over het brugklastype dat het best bij elke leerling past? Op basis van de gekoppelde data voor de afname van de Entreetoets in 2011 en de Eindtoets van 2012 konden de waarden voor de parameters a en b in de boven beschreven regressieformule worden ingevuld. Deze bedragen respectievelijk .1426 en 493.5284. Ter bepaling van het betrouwbaarheidsinterval werden de standaarddeviatie van de Eindtoets en de berekende betrouwbaarheid (.873) ingevuld in de formules voor de boven- en ondergrens. Op basis hiervan werden voor alle leerlingen bij wie in 2012 de Entreetoets 7 werd afgenomen voorspellingen gemaakt van de score op de Eindtoets (afname 2013) met bijbehorende grenswaarden zoals deze worden afgdrukt op het formulier (zie figuur 6.11). Omdat we inmiddels ook de uitkomsten van de Eindtoets 2013 kennen, is het mogelijk om na te gaan hoe goed deze voorspellingen waren. Voor N=105253 leerlingen kon een koppeling tot stand worden gebracht tussen het resultaat op de Entreetoets 7 in 2012 en de Eindtoets in 2013. Dat zijn niet alle leerlingen, want er kon alleen op geboortedatum en niet exact op naam worden gekoppeld, waardoor een gedeelte van de dataset niet bruikbaar was. Op basis van een betrouwbaaheidsinterval van ±8 punten (afgerond op hele getallen), bleek 90.5% van de Eindtoetsresultaten binnen dit interval terecht te komen. Bij elke uitkomst op de Eindtoets hoort een vaste adviescategorie met betrekking tot het best passende brugklas- en onderwijstype. In tabel 6.9 beperken we ons tot de grenswaarden voor de adviescategorieën met betrekking tot schooltype.
Tabel 6.9
Interval dat het uitgangspunt vormt voor de interpretatie van de standaardscore per schooltype (Eindtoets Basisonderwijs)
Schooltype basisberoepsgerichte leerweg (BB) kaderberoepsgerichte leerweg (KB) gemengde / theoretische leerweg (GT) HAVO VWO
Interval 501-523 524-528 529-536 537-544 545-550
In tabel 6.10 is weergegeven hoe de op basis van de Entreetoets geschatte adviezen en de uiteindelijk op basis van de Eindtoets uitgebrachte adviezen zich tot elkaar verhouden.
9
We geven de correlatie hier in op drie decimalen nauwkeurig om te laten zien hoe stabiel deze samenhang over tijd is.
91
Tabel 6.10
Kruistabel van (geschatte) adviezen op basis van ET7 (2012) en de uiteindelijk afgegeven adviezen op basis van de Eindtoets Basisonderwijs (2013)
Advies ET7 (2012)
Advies op basis van Eindtoets Basisonderwijs (2013)
BB
KB %
GT
HAVO
%
%
VWO %
totaal %
BB
6075
47.5
1216
10.3
653
2.4
87
.3
3
.0
8034
KB
4325
33.8
3613
30.6
2712
9.8
314
1.0
11
.1
10975
GT
2318
18.1
6484
55.0
16660
60.4
5990
18.6
228
1.1
31680
HAVO
63
.5
471
4.0
7501
27.2
23613
73.3
7999
38.3
39647
VWO
5
.0
14
.1
55
.2
2203
6.8
12640
60.5
14917
totaal
12786
100.0
11798
100.0
27581
100.0
32207
100.0
20881
100.0
105253
In bijna 60% (59.5) van de gevallen komen het geschatte en het uiteindelijk afgegeven advies exact met elkaar overeen (diagonale percentages). In nog eens 36.5% van de gevallen wijken de adviezen niet meer dan één adviescategorie van elkaar af. De voorspellende waarde van de Entreetoets 7 is hiermee als zeer goed te beoordelen. We merken hier graag bij op dat deze voorspellende functie en waarde niet verder reikt dan het voorspellen van de score op de Eindtoets en het op basis daarvan verstrekte advies. De gegevens zeggen op zichzelf niets over de correctheid van dit Eindtoetsadvies. Voor gegevens hierover (i.e. de criteriumvaliditeit van de Eindtoets Basisonderwijs) verwijzen we de geïnteresseerde lezer graag naar de wetenschappelijke verantwoording van de Eindtoets Basisonderwijs (Van Boxtel et al., 2011). De criteriumvaliditeit van de Eindtoets is door de COTAN als ‘goed’ beoordeeld.
92
7
Samenvatting
Deze wetenschappelijke verantwoording betreft de Cito Entreetoets groep 7; de analyses zijn uitgevoerd op de gegevens van de afname van deze toets in 2012. De Entreetoets groep 7 is een brede school- of leervorderingentoets waarvan de inhoud nauw aansluit bij het onderwijsprogramma voor de basisvaardigheden op het gebied van taal, rekenen-wiskunde en studievaardigheden. De opgaven zijn een operationalisering van doelstellingen die door het gehele basisonderwijs worden nagestreefd, zogenoemde communale doelstellingen. Er wordt onderscheid gemaakt naar een 16-tal deelvaardigheden en –taken. Om een nog completer beeld te kunnen krijgen zijn binnen het onderdeel Taal nog een viertal optionele taken opgenomen. Elk onderdeel afzonderlijk is zo geconstrueerd dat men op objectieve en betrouwbare wijze zicht kan krijgen op het vaardigheidsniveau dat de leerling voor dat onderdeel laat zien. Leerling, leerkracht en ouders kunnen hierdoor een gedifferentieerd beeld opbouwen van de huidige leervorderingen. De belangrijkste functie van de Entreetoets is daarmee op objectieve wijze antwoord te geven op de vraag hoe elke leerling afzonderlijk ervoor staat. Zo kan de leerkracht hiaten op het spoor komen op een moment dat deze nog kunnen worden ‘bijgespijkerd’ zo lang het kind nog op de basisschool zit (en vóór de afname van de Eindtoets Basisonderwijs). Naast deze beschrijvende functie kent de Entreetoets de afgelopen jaren toenemende mate ook een voorspellend gebruik. Op basis van de totaalscore op de Entreetoets groep 7 kan een verwachte standaardscore op de Eindtoets Basisonderwijs berekend worden, inclusief een onder- en bovengrens waarbinnen de Eindtoetsscore naar hoge waarschijnlijkheid zal liggen. Deze verwachte standaardscore kan op de voor de Eindtoets Basisonderwijs gebruikelijke wijze worden vertaald in een advies met betrekking tot het best passende school- en brugklastype. In hoofdstuk 2 en 3 is de toets uitgebreid beschreven en inhoudelijk verantwoord. Daarbij is veel aandacht besteed aan inhoudelijke samenstelling van de onderdelen van de toets. Het uitgangspunt voor de constructie van de Entreetoets 7 was, dat deze de communale onderwijsdoelstellingen voor het einde van leerjaar 7 zou moeten representeren. Op grond van een gedetailleerde analyse van communale onderwijsdoelstellingen wordt de toetsinhoud minutieus voorgeschreven aan de opgavenconstructeurs. Dit gebeurt in een uitgebreide samenvatting van de inhoudsverantwoording (die ook als afzonderlijke publicatie is uitgegeven) in hoofdstuk 3. Ook zijn de meetmodellen beschreven die aan de toets ten grondslag liggen (het OPLM-model en het Poisson-Gamma model voor het onderdeel Leestempo). Daarnaast is ruim aandacht geschonken aan de constructieprocedures waarmee Cito de opgavenbanken voor alle onderdelen tot stand brengt. Andere maatregelen die bijdragen aan de hoge kwaliteit van de toetsinhoud zijn: Voortdurende analyse van onderwijsdoelstellingen en lesmethoden met de bedoeling om optimaal aan te sluiten bij de inhoud van het onderwijs. Constructie van opgaven vindt plaats in commissies waarvan de leden ervaring hebben in het basisonderwijs. Er vindt proeftoetsing plaats van alle opgaven waarbij leerkrachten om commentaar wordt gevraagd op de opgaven. De beschrijvende gegevens op itemniveau laten zien dat alle deeltoetsen zorgvuldig geconstrueerd zijn. Gemiddelde p-waarden liggen tussen .64 en .77 en benaderen een streefwaarde van .70. P-waarden van individuele items liggen alleen in uitzonderingsgevallen niet in de nagestreefde range van .40 - .90. De gemiddelde Rit-waarden voor de deeltoetsen liggen tussen .36 en .45. Als onvoldoende te beoordelen Ritwaarden komen in de 420 verplichte opgaven niet voor en waarden van in de .20 zijn uitzonderingen. Twee items met onvoldoende Rit-waarden zijn te vinden bij het onderdeel Begrijpend luisteren. De beschrijvende gegevens op het niveau van de toets en de toetsonderdelen laten zien dat er in de regel sprake is van een licht links scheve verdeling. Deze hangt uiteraard samen met de gekozen moeilijkheidsgraad. In hoofdstuk 4 werd de kalibratie en normering van de Entreetoets 7 besproken.
93
De normering van de Entreetoets is vanaf 2013 gebaseerd op de afnamedata van het schooljaar 20112012 (i.e. het kalenderjaar 2012). In het betreffende schooljaar namen 6999 scholen deel aan de Entreetoets 7 met in totaal 129166 leerlingen. Het betreft een ruime meerderheid (65 – 68%) van de gehele populatie. Deze subgroep van scholen vormt een vrij nauwkeurige afspiegeling vormt van de totale populatie van basisscholen in Nederland. Dat geldt voor alle besproken achtergrondkenmerken (regio, schoolgrootte, mate van verstedelijking en percentage achterstandsleerlingen). Ook op het niveau van de leerlingen is er sprake van representativiteit ten aanzien van sekse, leeftijd en leerlinggewicht. Voor zover er afwijkingen zijn van de populatieverdeling is er sprake van verwaarloosbare effecten. Men zou zich kunnen afvragen of leerlingen met een beperking of zwakke en zeer zwakke kinderen voldoende kans hebben gekregen om aan de toetsafname deel te nemen. Voor leerlingen met een visuele beperking of dyslexie zijn aangepaste versies beschikbaar in braille, zwart-wit, op vergroot A3-formaat en met auditieve ondersteuning op cd of daisy-cd. Leerlingen met een geschatte leerachterstand van een jaar of meer konden deelnemen door de Entreetoets voor leerjaar 6 of 5 te maken. Hun scores konden naar het niveau van leerjaar 7 worden geconverteerd. Dit alles maakt de kans klein, dat zelfselectie van scholen de groep van Entreetoetsgebruikers heeft gemaakt tot een specifieke subpopulatie die op relevante factoren afwijkt. Het feit dat de groep Entreetoetsgebruikers zo’n grote omvang heeft in verhouding tot de gehele populatie draagt sterk aan deze conclusie bij. Anders gezegd: de groep Entreetoetsgebruikers kan worden beschouwd als een (zeer grote) representatieve steekproef uit de totale populatie van leerlingen in groep 7 van het reguliere basisonderwijs. Eveneens in hoofdstuk 4 werden de stappen in de kalibratieprocedure besproken. Het welslagen van de kalibratie werd geëvalueerd aan de hand van de vorm van itemkarakteristieke curven en de rechteroverschrijdingkansen van de daarbij behorende S-toetsen. De modelpassing werd verantwoord aan de hand van R1c-waarden en de door de Cotan in zijn beoordelingssysteem besproken methode om de nauwkeurigheid van de itemparameters te schatten (aan de hand van de zogeheten “constante ‘c’”. De resultaten van alle analyses wijzen op een geslaagde kalibratie, waarmee voldaan wordt aan een van de basisvoorwaarden voor begripsvaliditeit: kalibratie van de deeltoetsen op een unidimensionaal construct. De eigenlijke normering van de Entreetoets heeft de vorm van percentielscores en de op deze percentielscores gebaseerde indeling in niveaus I tot en met V. In hoofdstuk 5 kan men de ruwe scores vinden die met deze quintielen overeenkomen; de omzettingstabellen van ruwe scores naar percentielscores zijn voor alle toetsscores (de totaalscore, de scores op de hoofdrubrieken en de scores op de deeltoetsen, inclusief de optionele onderdelen) opgenomen in de bijlage. In hoofdstuk 5 werd de betrouwbaarheid van de Entreetoets 7 geëvalueerd. Dit gebeurde op klassieke wijze in de vorm van Cronbachs alfa en waar deze berekend kon worden de GLB. De betrouwbaarheid van de totaalscore bedraagt .98. Voor Taal, Rekenen-Wiskunde en Studievaardigheden bedragen deze waarden .96, .98 en .95. Voor deze drie verzamelscores werd daarnaast ook test-hertestonderzoek gesimuleerd op basis van IRT-procedures. Dit leidde met waarden van .96. .95 en .91 tot vrijwel gelijke schattingen van de betrouwbaarheid. De interne consistentiematen voor de toetsonderdelen (inclusief de optionele onderdelen) liggen met waarden tussen .81 en .93 op een hoog niveau. Voor vijf onderdelen met een relatief klein aantal opgaven (namelijk ‘Tijd en geld’ en de deeltoetsen van Studievaardigheden met elk 20 opgaven) is de betrouwbaarheid wat lager (tussen .73 en .79). Ook deze waarden volstaan in het licht van de functie van deze onderdelen: het geven van inzicht in de sterke en zwakke punten van elke leerling. Op basis van deze waarden werd de standaardmeetfout bepaald en de op deze meetfout gebaseerde 90%en 95%-betrouwbaarheidsintervallen. Voorts gaven de ingezette IRT-methoden de mogelijkheid om inzicht te geven in de lokale betrouwbaarheid en nauwkeurigheid van de toets opde hoofdonderdelen. De meetfouten daarvan werden grafisch weergegeven en bleken het kleinst in de lagere en gemiddelde vaardigheidsregionen. Dit gegeven vloeit voort uit de keuze van de constructeurs voor relatief gemakkelijke toetsen met een links scheve verdeling. In hoofdstuk 6 is uitgebreid ingegaan op zowel de begripsvaliditeit als de criteriumvaliditeit.
94
Een basisvoorwaarde voor begripsvaliditeit is de geslaagde kalibratie van de toetsonderdelen. Deze kalibratie zorgt ervoor dat de opgaven kunnen worden opgevat als representanten van unidimensionale vaardigheidsdimensies (‘latente trekken’). Hierboven is de geslaagdheid van de kalibratie al besproken. De homogeniteit van de toetsopgaven in termen van gemiddelde rit-waarden en Cronbachs alfa (of GLB) sluit aan bij de aangegeven uitstekende modelfit. Ook in termen van moeilijkheidsgraad is de kwaliteit van de itemparameters goed. Daarnaast is de gestreefd naar inhoudsvaliditeit door de geoperationaliseerde communale onderwijsdoelen te analyseren en op basis daarvan de toetsinhoud nauwkeurig voor te schrijven aan ervaren toetsconstructeurs. Alle opgaven werden in constructieonderzoek uitgetest, van commentaar voorzien door leerkrachten en geselecteerd op basis van psychometrische kwaliteit waarbij ervoor werd gezorgd dat de uiteindelijk gerealiseerde toetsinhoud in overeenstemming bleef met de nagestreefde inhoud. Daarmee werd aan basisvoorwaarden voor toetsconstructie voldaan. In aanvulling hierop werden gegevens gepresenteerd met betrekking tot de intercorrelaties tussen de toetsonderdelen. De samenhang tussen Taal en Rekenen-Wiskunde bleek met .70 relatief laag terwijl Studievaardigheden sterk samenhangt met zowel Taal (semantische taalvaardigheid) als RekenenWiskunde. Binnen de hoofdrubriek is een duidelijk cluster van deeltoetsen op het gebied van lexiaalsemantische taalvaardigheden te onderscheiden (Schrijven, Begrijpend lezen, Begrijpend luisteren en Woordenschat). Andere taalvaardigheden, op het gebied van Spelling, Leestempo en andere optionele deeltoetsen, laten soms betrekkelijk lage samenhangen zien met andere deeltoetsen, wat de keuze rechtvaardigt om deze deeltoetsen, met uitzondering van de spellingtoetsen, als optioneel te beschouwen. De onderdelen van Rekenen-Wiskunde blijken onderling zeer sterk samen te hangen; ze blijken op dezelfde vaardigheidsschaal te kalibreren. De onderdelen van Studievaardigheden hebben een meer divers karakter en laten samenhangen zien met onderdelen van zowel Taal (op het gebied van lexicaalsemantische taalvaardigheid) als Rekenen-Wiskunde. De convergente en divergente validiteit is onderzocht door samenhangen te analyseren tussen scores op deeltoetsen van de Entreetoets 7 met soortgelijke onderdelen van de Eindtoets die een jaar later is afgenomen. Daarbij zijn vier clusters onderscheiden: semantische taalvaardigheden, overige taalvaardigheden (spelling), rekenen-wiskunde en studievaardigheden. Binnen de eerste drie clusters zijn – in overeenstemming met de verwachtingen – de correlaties tussen soortgenoten onderling en met andere deeltoetsen binnen een cluster duidelijk hoger dan correlaties met toetsonderdelen buiten het betreffende cluster. Voor studievaardigheden is dit niet het geval. Het lijkt daarom beter de onderdelen van dit cluster onder te brengen bij hetzij Taal, hetzij Rekenen-Wiskunde (conform de aard van het onderdeel). Op dit punt zal de rapportage binnenkort worden aangepast. In meer globale zin is het doorstroomadvies van de leerkracht met betrekking tot de keuze van het best passende school- en brugklastype in groep 8 opgevat als een soortgenoot, in de veronderstelling dat ook dit advies in hoge mate bepaald zal zijn door wat de leerkracht weet over de leerprestaties van zijn leerlingen. Doorstroomadvies en advies op basis van de Entreetoets 7 laten een samenhang zien van .70. Het doorstroomadvies komt in 75.8% van de gevallen overeen met het voorlopig advies dat op de totaalscore op de Entreetoets is gebaseerd. Analyses van verschillen tussen diverse groepen leidden tot een aantal bevindingen die aansluiten bij theoretische verwachtingen vooraf ten aanzien van deze verschillen:
Leerlingen met afwijkende leerlinggewichten (0.30 en 1.20) scoren aanzienlijk lager dan leerlingen zonder afwijkend leerlinggewicht (0.0). De vier grote steden (G4) herbergen relatief veel kinderen met een afwijkend leerlinggewicht; gemiddeld scoren leerlingen in de grote steden dan ook lager dan landelijk het geval is. Allochtone leerlingen die aan het begin van leerjaar 8 korter dan vier jaar in Nederland verblijven, leerlingen die naar verwachting uitstromen naar speciaal onderwijs of praktijkonderwijs en leerlingen die naar verwachting in aanmerking komen voor leerwegondersteunend onderwijs scoren laag. Jongens scoren wat hoger dan meisjes op Rekenen-Wiskunde en op Studievaardigheden, meisjes daarentegen wat hoger op Taal. De totaalscore op de Entreetoets laat nauwelijks een verschil naar sekse zien. Vertraagde leerlingen scoren lager dan normaal doorgestroomde leerlingen, ‘voorlijke’ leerlingen scoren gemiddeld hoger. Dit is het geval voor alle hoofdonderdelen van de Entreetoets 7.
95
Er zijn DIF-analyses uitgevoerd met betrekking tot sekse en groepen met een verschillend leerlinggewicht door zowel klassieke als op IRT gebaseerde technieken toe te passen. Voor leerlinggewicht was er bij een gering aantal items (6 tot 15 van de 420 opgaven, afhankelijk van de toegepaste analyse) sprake van DIF). Voor sekse was dit aantal wat groter (27 tot 38 opgaven), maar de effecten vielen soms in het voordeel van de jongens, soms in het voordeel van de meisjes uit. Bovendien waren ze inhoudelijk nauwelijks interpreteerbaar. De conclusie is gerechtvaardigd dat leerlingen die van elkaar verschillen in leerlinggewicht of geslacht op de Entreetoets 7 niet op oneigenlijke wijze worden benadeeld door de opgaven, dat wil zeggen door itemkenmerken die met de te meten vaardigheid zelf niets van doen hebben. Ten slotte is er onderzoek gepresenteerd naar de criteriumvaliditeit. De Entreetoets 7 wordt immers in toenemende mate gebruikt om de score op de later af te nemen Eindtoets Basisonderwijs te voorspellen en daarmee een voorlopig advies af te geven met betrekking tot het best passende school- en brugklastype. De voorspellende pretenties van de Entreetoets reiken daarmee niet verder dan het voorspellen van die score en hebben geen betrekking op de correctheid van dit advies in termen van feitelijke plaatsing. Onderzoek onder meer dan 100000 leerlingen voor wie de resultaten op Entreetoets en Eindtoets konden worden gekoppeld laten een samenhang zien van .88. De betrouwbaarheid van de totaalscore (.98) is dermate groot dat bij toepassing van een daarop gebaseerd 90%-betrouwbaarheidsinterval van ±8) het resultaat in 90.5% van de gevallen correct wordt geclassificeerd. Dit impliceert dat het uiteindelijke, op de Eindtoets gebaseerde advies in bijna 60% van de gevallen overeenkomt met het voorlopige advies op basis van de Entreetoets en dat het definitieve advies bij minder dan 3.5% van de leerlingen meer dan één adviescategorie afwijkt van het voorlopige advies.
96
8
Literatuur
Boxtel, H.W. van, & Hemker, B.T. (2009). Wetenschappelijke verantwoording van de Intelligentietest Eindtoets Basisonderwijs. Arnhem: Cito. Boxtel, H.W. van, Engelen, R., & Wijs, A. de (2011). Wetenschappelijke verantwoording van de Eindtoets 2010. Arnhem: Cito. Boxtel, H.W. van, Snijders, J.Th. & Welten, V.J. (1982). ISI: Interesse, Schoolvorderingen, Intelligentie. Verantwoording van het prestatiegedeelte & Handleiding voor de gehele testreeks. Vorm III, publikatie 7. Groningen: Wolters-Noordhoff. Cito (2010). Inhoudsverantwoording Entreetoets groep 7. Basisvaardigheden Taal, Rekenen-Wiskunde en Studievaardigheden. Arnhem: Cito. Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Geheel herziene versie met gewijzigde herdruk. Amsterdam: NIP/COTAN Eggen, T.J.H.M. (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Glas, C. A. W. (1988). The derivation of some tests for the Rasch model from the multinomial distribution. Psychometrika 53. pp. 525–546 Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Heesters, K., Van Berkel, S., Van der Schoot, F. & Hemker, B. (2007). Balans van het leesonderwijs aan het einde van de basisschool 4. PPON-reeks nummer 33. Arnhem: Cito. Jansen, M. (1997). Rasch’s model for reading speed with manifest explanatory variables. Psychometrika, 62, pp. 393-309. Jansen, M., & Duijn, M. van (1992). Extensions of Rasch’s multiplicative Poisson model. Psychometrika, 57, pp. 305-313. Jongen, I., R. Krom en P. Roumans (2009a). LOVS Technisch lezen groep 3. Arnhem, Cito. Jongen, I., R. Krom en P. Roumans (2009b). LOVS Technisch lezen groep 4. Arnhem, Cito. Krom, R.S.H. en F.H. Kamphuis (2001). Wetenschappelijke verantwoording van de toetsserie Leestempo. Arnhem, Citogroep. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Ministerie van OCW. (1998). Kerndoelen Basisonderwijs. Zoetermeer: Ministerie van OCW.
97
Owen, R.J. (1969). A Bayesian analysis of Rasch’s multiplicative Poisson model for misreadings. Research Bulletin ETS. Princeton: ETS. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Schilt-Mol, T.M.M.L. van (2007). Differential Item Functioning en itembias in de Cito-Eindtoets Basisonderwijs. Amsterdam: Aksant. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente. Staphorsius, G. (1995). Didactische Toetsen Schrijfvaardigheid. Arnhem, Citogroep. Staphorsius, G. (red.) (2003). Doelenboek. Arnhem: Cito. Staphorsius, G. (red.) (2009). Doelenboek. Inhoudsverantwoording van de Eindtoets Basisonderwijs vanaf 2003. Arnhem: Cito. Staphorsius, G., R. Krom, J. Janssen, F. Scheltens, H. Notté en H. Wagenaar (2003). Entreetoets groep 7. Inhoudsverantwoording. Basisvaardigheden Taal, Rekenen-Wiskunde en Studievaardigheden. Arnhem, Citogroep. Staphorsius, G., Krom, R.S.H., Kleintjes, F.G.M. & Verhelst, N. (2001). Begrijpend Lezen. Verslag van het kalibratie-, validerings- en normeringsonderzoek (wetenschappelijke verantwoording). Arnhem: Cito. Staphorsius, G., Verhelst, N. & Kleintjes, F.G.M. (2001). Didactische Toetsen Schrijfvaardigheid. Verslag van het kalibratie-, validerings- en normeringsonderzoek (wetenschappelijke verantwoording). Arnhem: Cito. Staphorsius, G., & Verhelst, N.D. (1997). Indexering van de leestechniek. Pedagogische Studiën, 74, pp. 154 - 164. Staphorsius, G., & Verhelst, N.D. (2001). Achtergronden. In: Verantwoording Toelatingstoets LWOO en PROO. Volg- en adviessysteem, Eerste Fase VO. Cito: Arnhem. Uiterwijk, H. (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Arnhem: Cito [proefschrift KUB] Uiterwijk, H., & Vallen, T. (1997). Onderzoek naar bias voor allochtone leerlingen in de Cito-Eindtoets Basisonderwijs. Pedagogische Studiën, 74, pp. 21-32. Uiterwijk, H., & Vallen, T. (2005). Linguistic sources of item bias for second generation immigrants in Dutch tests. Language Testing, 22 (2), pp. 211-234. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D. & Eggen T.J.M.M. (1989). Psychometrische en statistische aspecten van Peilingsonderzoek (PPON-rapport, nr. 4). Arnhem: Cito.
98
Verhelst, N.D., & Glas, C.A.W. (1995) The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., Glas, C.A.W. & Verstralen, H.H.F.M. (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D., & Kamphuis, F.H. (2009). A Poisson-Gamma model for speed tests. Measurement and Research Department Reports 2009-2. Arnhem: Cito. Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito.
99
100
Bijlagen: normtabellen (omzetting van ruwe naar percentielscores) Omzettingstabel van ruwe scores naar percentielscores voor de totaalscore (TOT), Taal (TA), Rekenen-Wiskunde (RW) en Studievaardigheden (STV) Perc 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
TOT 1-159 160-171 172-180 181-187 188-193 194-199 200-204 205-209 210-213 214-217 218-221 222-225 226-228 229-231 232-234 235-237 238-240 241-242 243-245 246-247 248-250 251-252 253-254 255-256 257-259 260-261 262-263 264-265 266-267 268-269 270 271-272 273-274 275-276 277-278 279-280 281 282-283 284-285 286 287-288 289-290 291 292-293 294 295-296 297-298 299 300-301 302
Ruwe scores TA RW 1-84 1-36 85-92 37-39 93-96 40-41 97-100 42-44 101-104 45-46 105-107 47 108-109 48-49 110-112 50 113-114 51-52 115-116 53 117-118 54 119-120 55-56 121-122 57 123 58 124-125 59 126 60 127-128 61 129 62 130 63 131 64 132-133 134 65 135 66 136 67 137 68 138 69 139 140 70 141 71 142 72 143 144 73 145 74 146 75 147 76 148 77 149 150 78 151 79 152 80 153 81 154 155 82 156 83 157 84 158 85
Perc STV 1-25 26-28 29-30 31 32-33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
101
TOT 303-304 305 306-307 308 309-310 311 312-313 314 315-316 317 318-319 320 321 322-323 324 325-326 327 328-329 330 331-332 333 334-335 336 337 338-339 340-341 342 343-344 345 346-347 348 349-350 351-352 353 354-355 356-357 358 359-360 361-362 363-364 365-366 367-368 369-371 372-373 374-376 377-379 380-383 384-388 389-419 420
Ruwe scores TA RW 159 160 86 161 87 162 88 163 89 164 90 165 166 91 167 92 168 169 93 94 170 171 95 172 96 173 174 97 175 98 176 177 99 178 100 179 101 180 181 102 182 103 183 184 104 185 186 105 187 188 106 189 107 190 191 108 192 109 193 194-195 110 196 111 197-198 112 199-200 113 201-203 114 204-219 115-119 220 120
STV 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76-79 80
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Taal Percentielscores
102
1 1 2 2 3 4 5 6 7 8 10 11 13 15 17 20 23 27 32 38 45 54 64 80 100
1 1 1 1 1 2 3 5 6 8 11 13 16 19 22 25 29 32 36 40 45 49 54 60 66 72 79 86 94 100
Leestempo
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 3 3 4 5 6 7 8 10 12 13 15 18 20 22 25 28 31 35 38 42 46
Leestekens
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 3 4 5 6 7 9 10 12 14 16 18 20 23 26 30 33 37 41 46 50 55 60 66
Grammatica
1 1 1 1 1 1 2 3 5 8 10 14 17 22 26 31 37 43 49 55 61 67 73 78 84 89 93 96 99 100
Woordenschat
1 1 1 1 1 1 1 1 1 2 3 5 7 9 12 16 20 26 32 39 47 54 62 70 78 85 91 95 98 100
Taal: optionele onderdelen
Begrijpend lezen
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 3 3 4 5 6 7 9 10 12 14 16 18 21 23 26 29 32 35 39 42 46
Spelling WW
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 3 3 4 5 6 7 8 10 12 14 16 18 21 25 28 33 37 42 48 54
Spelling NW
Spelling
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Schrijven
Taal: verplichte onderdelen
Begrijpend luisteren
Ruwe score
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 3 4 5 7 8 10 12 15 18 21 25 30 34 40 46 52 58 65 72 78
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Taal (vervolg) Percentielscores
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
60 67 74 80 87 92 96 98 99 100
50 53 57 61 65 68 72 75 79 82 85 88 91 93 95 97 98 99 99 100
71 77 82 87 91 95 97 99 99 100
103
50 54 58 63 67 71 75 80 83 87 90 93 95 97 98 99 99 99 99 100
84 89 93 96 98 99 99 99 99 100
Leestempo
Begrijpend luisteren
Grammatica
Woordenschat
Taal: optionele onderdelen
Begrijpend lezen
Spelling WW
Spelling NW
Spelling
Schrijven
Taal: verplichte onderdelen
Leestekens
Ruwe score
2 2 2 2 3 3 3 4 4 4 5 5 5 6 7 7 8 9 9 10 11 12 13 14 15 16 17 19 20 22 23 24 25 27 28 30 31 33 34 36
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Taal (vervolg) Percentielscores
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Leestempo
Begrijpend luisteren
Grammatica
Woordenschat
Taal: optionele onderdelen
Begrijpend lezen
Spelling WW
Spelling NW
Spelling
Schrijven
Taal: verplichte onderdelen
Leestekens
Ruwe score
37 38 40 41 43 45 46 48 49 51 53 54 55 57 59 60 62 63 65 66 67 68 69 71 72 73 74 75 76 77 78 79 80 81 82 84 85 86 87 88
104
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Taal (vervolg) Percentielscores
121 122 123 124 125 126 127 128 129 130
Leestempo
Begrijpend luisteren
Grammatica
Woordenschat
Taal: optionele onderdelen
Begrijpend lezen
Spelling WW
Spelling NW
Spelling
Schrijven
Taal: verplichte onderdelen
Leestekens
Ruwe score
89 90 91 92 93 94 96 97 99 100
105
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Rekenen-Wiskunde Ruwe score
Percentielscores
1 1 1 1 1 3 5 7 10 13 17 21 26 30 36 41 47 54 61 68 76 84 91 97 100
Meten, meetkunde, tijd en geld 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 3 4 5 6 8 10 11 13 16 18 21 24 27 31 34 38 42 46 50 55 59 64 68 73
Tijd en geld
1 1 1 1 1 1 1 1 1 1 1 1 2 3 4 5 7 8 10 12 14 17 19 22 25 28 31 35 38 42 46 50 54 59 63 68 73 77 82 87
Meten en meetkunde
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Verhoudingen, breuken en procenten
Getallen en bewerkingen
Rekenen-Wiskunde: verplichte onderdelen
1 1 1 1 1 1 1 2 3 4 6 8 11 15 19 24 29 35 41 47 54 61 68 75 82 88 93 97 99 100
1 1 1 1 2 3 5 8 12 17 23 31 39 49 59 70 81 91 97 100
106
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Rekenen-Wiskunde (vervolg) Ruwe score
Percentielscores
41 42 43 44 45 46 47 48 49 50
91 95 98 99 100
Tijd en geld
Meten en meetkunde
Meten, meetkunde, tijd en geld
Verhoudingen, breuken en procenten
Getallen en bewerkingen
Rekenen-Wiskunde: verplichte onderdelen
77 81 85 89 93 95 97 99 99 100
107
Omzettingstabel van ruwe scores naar percentielscores voor de onderdelen van Studievaardigheden Ruwe score
Percentielscores
Informatie bronnen
Kaartlezen
Lezen schema’s, tabellen en grafieken
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
Studieteksten
Studievaardigheden: verplichte onderdelen
1 1 1 1 2 3 4 6 9 12 17 23 30 39 50 63 75 87 96 100
1 1 1 1 1 2 3 5 8 12 17 23 32 42 54 66 79 90 97 100
1 1 1 1 3 6 10 14 20 26 33 41 49 58 67 76 85 93 98 100
1 1 1 1 3 5 8 11 15 20 26 32 40 50 60 71 82 91 97 100
108
Cito | Primair en speciaal onderwijs
Cito helpt je inzicht te krijgen in je ontwikkeling en mogelijkheden. Door kennis, vaardigheden en competenties objectief meetbaar te maken en de ontwikkeling er van te volgen, kun je het beste uit jezelf halen, verantwoorde keuzes maken en beter richting geven aan je toekomst. Cito draagt daaraan bij door wereldwijd werk te maken van goed en eerlijk toetsen, vanuit de kernwaarden kundig, toonaangevend, integer, innovatief en betrokken.
Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 www.cito.nl
Fotografie: Ron Steemers
Wetenschappelijke verantwoording Entreetoets groep 7 Herman van Boxtel, Ronald Engelen, Servaas Frissen en Marleen van Benthem