SALTO Screeningsinstrument Aanvang Lager Onderwijs Taalvaardigheid
Achtergronden
Griet Ramaut Shalini Roppe Machteld Verhelst Robin Heymans Methodologische ondersteuning: Robin Heymans & Sara Gysen Promotor: Kris van den Branden Co-promotor: Machteld Verhelst Illustraties: Helga Bontinck Lay-out: Riet Theys
Leuven: K.U.L., Centrum voor Taal & Onderwijs, 2007
Voorwoord SALTO is ontwikkeld in opdracht van het Vlaams Ministerie van Onderwijs en Vorming. De ontwikkeling van deze toets kwam tot stand dankzij de hulp en ondersteuning van vele mensen. Allereerst danken wij de vele scholen en leerlingen die aan het kalibratieonderzoek hebben deelgenomen, en de drie pilootscholen: Stedelijke Basisschool Klavertjevier Berchem, GVB Angelusinstituut en VBS Sint-Martinus Lubbeek. We konden voor de toetsafnames rekenen op de hulp van vele toetsassistenten. Jobstudenten stonden in voor de verwerking van de data. Voor de praktische organisatie werden we ondersteund door de secretariaatsmedewerkers van het Centrum voor Taal en Onderwijs. Een aantal van onze CTO-collega’s gaven zinvolle input en feedback (Marijke Ceunen, Marleen Colpin, Mieke Devlieger, Sigrid François, Martien Geerts, Greet Goossens, Sara Gysen, Koen Jaspaert, Saskia Timmermans en Tom Verheyen). We danken de wetenschappelijke stuurgroep en de medewerkers van het Departement Onderwijs voor hun begeleiding. Een groep van experten nam deel aan de cesuurbepaling en onze resonansgroep gaf erg gewaardeerde suggesties en feedback gedurende de ontwikkeling van de toets. Volgende mensen willen we daarvoor van harte danken: Ides Callebaut, Kristien Coussement, Philippe Decruynaere, Rudi Hendrickx, Henri Janssens, Ann Knapen, José Libens, Marieke Lijnen, Marleen Lombaert, Bart Masquillier, Piet Mariën, Sandra Martens, Katrin Mertens, Lizi Reweghs, Bruno Sagaert, Marc Smolenaers, Magda Raes, Karina Roothans, Bénédicte Sténier, Robert Van Borm, Linda Van Herck, Silvie Vanoosthuyze en Lut Vranken. Dank ook aan Helga Bontinck die de vele tekeningen bij de toets maakte en collega Riet Theys die de toets lay-outte. Het ontwikkelteam, Leuven, november 2007
2
Inhoudsopgave 1 Inleiding 1.1 Achtergrond 1.2 Opdracht 2 Toetsontwikkeling 2.1 Opzet van het instrument 2.2 Eerste fase ontwikkeling toetstaken 2.2.1 Toetseisen 2.2.2 Toetsmatrijs 2.2.3 Moeilijkheidsgraad van de toetstaken 2.3 Verdere ontwikkeling toetstaken 3 Voorstudies 3.1 Pilootafname bij leerlingen 3.1.1 Doel 3.1.2 Afname 3.1.3 Resultaten 3.1.3.1 Betrouwbaarheid 3.1.3.2 Moeilijkheidsgraad 3.1.3.3 Itemanalyse 3.1.3.4 Andere gegevens 3.2 Bijkomend commentaar 4 Kalibratieonderzoek 4.1 Afnamedesign 4.2 Steekproefdesign 4.2.1 Steekproeftrekking 4.2.2 Werving en respons 4.2.3 Definitieve onderzoeksgroep 4.3 Bijkomende dataverzameling 4.3.1 Taalvaardigheidstoets Aanvang Lager Onderwijs (TAL) 4.3.2 Achtergrondgegevens van de leerlingen 4.4 Toetsassistenten 4.4.1 Taakomschrijving 4.4.2 Rekrutering en toewijzing aan scholen 4.4.3 Training toetsassistenten 4.5 Verloop toetsafnames 4.6 Eerste verwerking van de gegevens 4.6.1 Beoordeling en invoer van de data 4.7 Psychometrische analyses 4.7.1 De keuze van een model uit de itemresponstheorie 4.7.1.1 Itemresponstheorie versus klassieke testtheorie 4.7.1.2 Een meetschaal gebaseerd op twee aannames 4.7.2 Modeltoetsing en –selectie 4.7.3 Resultaat van de analyses 4.8 Achtergrondgegevens
1 2 3 5
7 8 9
10
11 14 16 17 18 19 20 21
22 25 30
3
4.8.1 Welke achtergrondgegevens? 4.8.2 Verdeling leerlingen op basis van achtergrondgegevens 4.8.3 Analyses 4.9 Controle op mogelijke scheeftrekkingen 4.9.1 Mogelijke vertekening door selectie van leerlingen 4.9.2 Geboortejaar 4.10 Extra analyses: Fits van de schaal voor de subgroepen 4.10.1 Constructie van de schaal op basis van subgroepen 4.10.2 Vergelijking van de schaal van de totale steekproef met de schalen van de subgroepen 4.11 Differential Item Functioning (DIF) 4.12 Opmaak toetsinstrumenten 5 Cesuurbepaling 5.1 Cesuurbepaling met beoordelaars 5.1.1 De Bookmarkmethode 5.1.2 Twee cesuren: richtlijnen voor de beoordelaars 5.1.3 Concreet verloop van de cesuurbepaling 5.1.3.1 Beoordelingsrondes 5.1.4 Analyse van de oordelen 5.1.4.1 Het effect van de beoordelingsrondes 5.1.4.2 Impactdata 5.1.4.3 Het effect van beroepsachtergrond 5.1.5 De cesuren van de verschillende versies 5.2 De ankering met de TAL 5.2.1 De TAL 5.2.2 Analyses 5.2.3 Besluit 5.3 Risico- en probleemleerlingen in de verschillende leerlingengroepen 5.3.1 Percentages 5.3.2 Conclusie: de inzetbaarheid van SALTO in de Vlaamse basisscholen 6 Interpretatie en gebruik van SALTO 6.1 Toetsresultaten interpreteren 6.2 Toetsresultaten aanvullen met andere informatie 6.3 Communicatie over toetsresultaten met ouders 7 Wat na SALTO? 7.1 Acties op klasniveau 7.1.1 Actie 1: creëren van een taalrijke en krachtige leeromgeving 7.1.1.1 Een positief en veilig klasklimaat 7.1.1.2 Betekenisvolle taken 7.1.1.3 Ondersteuning door interactie 7.1.2 Actie 2: initiatieven nemen om de zwak scorende leerlingen extra te ondersteunen 7.2 Acties op schoolniveau 7.2.1 Actie 1: bespreek de SALTO-resultaten in het team 7.2.2 Actie 2: optimaliseren van overleg over evalueren
31 32 34 35 37 38 40 46 49 50 51 52 54 55 62
64
66 68
69 70 74 75 78 79
4
7.3 Verder lezen Referenties
81 83
Bijlagen Bijlage 1: Resultaten van de items in het vooronderzoek Bijlage 2: Toetsgroepjes per school Bijlage 3: Brief naar de scholen Bijlage 4: Resultaten per item in het kalibratieonderzoek Bijlage 5: Niet-passende toetsitems Bijlage 6: Betrouwbaarheidsanalyses Bijlage 7: Definitieve toetsmatrijs per versie Bijlage 8: Resultaten OPLM-kalibratie Bijlage 9: Itemlogits afkomstig uit RUMM- en OPLM-analyse Bijlage 10: DIF-analyse voor Thuistaal en Opleiding Moeder Bijlage 11: Overzicht parameters moeilijkheid bij versie A Bijlage 12: Leidraad voor het optimaliseren van teamoverleg over evaluatie
5
1 Inleiding 1.1 Achtergrond We verwachten van leerlingen die in het eerste leerjaar starten dat zij voldoende taalvaardig zijn om eenvoudige instructies en mededelingen met betrekking tot het schoolgebeuren te begrijpen, om op adequate wijze te communiceren met hun leerkracht en om de aangeboden leerstof te kunnen verwerken. Voor sommige leerlingen is dat echter geen evidente opgave. Vooral kinderen die in een achterstandssituatie opgroeien, beschikken vaak niet over de taalvaardigheid die nodig is om te functioneren zoals de school dat van hen verwacht. Dat komt doordat de thuistaal vaak heel ver af staat van de schooltaal. Op school wordt op een andere manier gecommuniceerd en komen er andere onderwerpen aan bod dan thuis; op school maakt men meer gebruik van abstracte woordenschat en vakjargon; de verhoudingen tussen de gesprekspartners zijn anders en de communicatie verloopt op een minder natuurlijke wijze. Omdat de school zulke talige eisen stelt, zowel op receptief als op productief vlak, moeten alle leerlingen als het ware een nieuwe taal verwerven. Ook leerlingen die thuis in het Nederlands worden opgevoed, zullen het Nederlands als instructietaal moeten verwerven. Nederlands als instructietaal kan met andere woorden niet alleen voor anderstalig opgevoede leerlingen een ‘struikelblok’ vormen (Colpin et al., 2006, p.17), maar ook voor leerlingen met het Nederlands als moedertaal. Leerlingen die het lager onderwijs instromen met een onvoldoende schoolse taalvaardigheid Nederlands lopen een verhoogd risico op leerproblemen. Uit onderzoek blijkt dat leerlingen die thuis in een andere taal dan het Nederlands worden opgevoed, en leerlingen met een lagere SES, meer kans lopen om in het lager onderwijs achterstand op te lopen. Toch blijkt een voorspelling van schoolsucces louter op basis van leerlingachtergrondkenmerken op 6-jarige leeftijd heel wat valse positieven en valse negatieven op te leveren (Colpin et al., 2006). Valse positieven zijn leerlingen die aangeduid worden als leerlingen met achterstand, maar die dat in feite niet blijken te zijn. Valse negatieven zijn leerlingen die beschouwd worden als leerlingen zonder achterstand, maar die in feite wel een achterstand blijken te hebben. Voor scholen kan het daarom bij de aanvang van het lager onderwijs van groot belang zijn om, zowel op groeps- als op individueel leerlingniveau, de schoolse taalvaardigheid van haar leerlingen in te schatten, om zich een beeld te vormen van de kloof tussen de vereiste schooltaalvaardigheid en de taalvaardigheid van de instromende leerlingen. Resultaten op een schooltaalvaardigheidstoets kunnen voor de school een indicatie, en een motivatie, vormen om gericht aandacht te besteden aan de stimulering van schooltaalvaardigheid van de leerlingen die extra aandacht op dit vlak behoeven, en om een reflectie op te zetten rond een krachtig schooltaalbeleid.
1
Directe, integratieve toetsen, en met name toetsen die rechtstreeks het begrip van schooltaal meten, blijken voor deze doeleinden het meest geschikt te zijn. Met 'direct' wordt bedoeld dat de opdracht die de leerling in de taak moet uitvoeren in grote mate aansluit bij wat hij of zij in dezelfde reële taalgebruikssituatie zou moeten doen. De vaardigheid die we willen meten wordt op een directe manier en dus zonder een omweg getoetst. Met ‘integratief’ wordt bedoeld dat leerlingen verschillende vaardigheden en kennis moeten combineren om tot een goed begrip van de schoolse taalvaardigheid te komen. De predictieve validiteit van directe en integratieve toetsen met betrekking tot de link tussen toetsscore en schoolsucces blijkt hoger te zijn dan toetsen waarbij deelaspecten van taalvaardigheid of metalinguïstische kennis in kaart worden gebracht (Colpin et al., 2006; Verhoeven & Vermeer, 2003). 1.2 Opdracht Het Centrum voor Taal en Onderwijs heeft eind 2006 van onderwijsminister Vandenbroucke de opdracht gekregen om een criteriumgerelateerd screeningsinstrument taalvaardigheid lager onderwijs te ontwikkelen dat door scholen op een belangrijk scharniermoment in de schoolloopbaan kan worden ingezet. Volgens het onderzoeksvoorstel zou het instrument voorzien moeten zijn van twee cesuren. Het instrument moet scholen toelaten om het aanvangsniveau in schoolse taalvaardigheid van alle leerlingen aan het begin van het lager onderwijs in kaart te brengen. Deze informatie is voor een school noodzakelijk voor het ontwikkelen en voeren van een gericht taalbeleid. De screeningsresultaten moeten niet alleen bruikbaar zijn op schoolniveau, maar moeten ook informatie bieden voor de leerkrachten die werken met leerlingen die starten in het lager onderwijs. Op basis van het screeningsinstrument krijgen de leerkrachten een zicht op het aanvangsniveau van een klas of een leerlingengroep en op het taalvaardigheidsniveau van individuele leerlingen. Die informatie biedt de leerkracht aangrijpingspunten om het leer- en onderwijsproces af te stemmen op de specifieke noden van de leerlingengroep(en). Bovendien geeft de screening de leerkracht het signaal om bij leerlingen met een laag aanvangsniveau de nodige acties te ondernemen en over te gaan tot diagnosticering en eventueel remediëring (voor meer informatie over acties, zie hoofdstuk 7, Wat na SALTO?).
2
2 Toetsontwikkeling 2.1 Opzet van het instrument Er is gekozen voor een luistertoets die het begrip van schoolse taalvaardigheid op een directe en integratieve manier meet. De keuze voor luisteren lag voor de hand als te meten vaardigheid aan het begin van het eerste leerjaar, aangezien lezen en schrijven nog niet getoetst kunnen worden, en ook omdat luistervaardigheid een goede voorspeller is van schoolsucces (Colpin et al., 2006). De centrale vraag die aan de basis lag van de ontwikkeling van deze toets, luidde: Wat moeten leerlingen bij hun intrede in de lagere school kunnen doen met Nederlands om zich op school voluit te (kunnen) ontwikkelen? Om deze centrale vraag te beantwoorden, zijn de volgende documenten richtinggevend en inspirerend geweest: het Referentiekader vroege tweede taalverwerving (Van den Branden et al., 2001), en de Vlaamse Ontwikkelingsdoelen en eindtermen voor het gewoon basisonderwijs (Departement Onderwijs, 1997). In deze documenten wordt de nadruk gelegd op het belang van functionele luistervaardigheid. Een toets die afgestemd is op deze luisterdoelen, moet taalvaardigheid meten en niet taalkennis van losse elementen. Taal begrijpen en gebruiken is precies wat leerlingen moeten kunnen in schoolse communicatieve contexten: boodschappen, instructies, opdrachten en verhalen begrijpen. In die boodschappen, instructies, opdrachten en verhalen komen natuurlijk woordenschat en regels voor, maar we moeten ervoor zorgen dat we die woorden en regels kiezen die leerlingen in een schoolse context vaak zullen tegenkomen en nodig hebben, en dat we die woorden en regels niet in geïsoleerde contexten aanbieden. Op de volgende bladzijde (tabel 1) vindt u een beschrijving van de doeltaken luisteren, die tot stand is gekomen op basis van bovenbeschreven documenten. De beschrijving in tabel 1 is als uitgangspunt gebruikt voor het opstellen van de toetsmatrijs. In de beschrijving is ook aangegeven met welke ontwikkelingsdoelen Nederlands van het kleuteronderwijs en eindtermen Nederlands van het lager onderwijs de doeltaken overeenstemmen.
3
Beschrijving doeltaken luisteren 1. Een voor de leerling bestemde mondelinge opdracht of instructie, begrijpen op beschrijvend niveau (en dat laten zien door er adequaat op te reageren) [OD 1.4, ET 1.1, (ET 1.3), (ET 1.5), (ET 1.6)] 1.1. voor een concrete fysieke handeling in het hier-en-nu (en dat laten zien door de handeling uit te voeren) 1.2. voor een relevante mentale of verbale handeling (en daar blijk van geven) 2. Een voor de leerling bestemde mondelinge vraag begrijpen op beschrijvend niveau (en dat laten zien door er adequaat op te reageren/ te antwoorden) [OD 1.2] 2.1. over zijn intenties, interesses of voorkeuren, eventueel ondersteund door beeld en/of geluid (en dat laten zien in een reactie of door er antwoord op te geven) 2.2. over zijn persoonlijke ervaringen en belevingen (en dat laten merken in een reactie of antwoord) 2.3. over zijn gevoelens of die van relevante partners in de omgeving (en dat laten merken in een reactie of antwoord) 2.4. over situaties, handelingen of voorwerpen in de concrete omgeving (en dat laten merken in een reactie of antwoord) 3. Een gesproken verhaal, voor leeftijdgenoten bestemd, begrijpen (en dat laten zien) [OD 1.5] 4. Informatieve mededelingen, voor hemzelf of voor zijn leeftijdgenoten bestemd, begrijpen (en dat laten zien door er adequaat op te reageren/ te antwoorden) [O.D. 1.1, 1.3, ET 1.1, (ET 1.3)] 4.1. over concrete, voor de leerling relevante gebeurtenissen en feiten in de context van het hier-en-nu (en daar blijk van geven in zijn manier van reageren) 4.2. over concrete, voor de leerling relevante gebeurtenissen en feiten buiten de context van het hier-en-nu (en daar blijk van geven in zijn manier van reageren) 4.3. over voor de leerling relevante regels en voorschriften in concrete situaties (en daar blijk van geven in zijn gedrag)
Tabel 1: Beschrijving doeltaken luisteren
4
2.2 Eerste fase ontwikkeling toetstaken 2.2.1 Toetseisen Bij het ontwikkelen van het instrument is rekening gehouden met diverse criteria: Validiteit In de eerste plaats mag er enkel taalvaardigheid gemeten worden. De test moet zoveel mogelijk uitsluiten dat leerlingen ‘slecht’ scoren om redenen die niets met hun taalvaardigheid te maken hebben. Zo is erover gewaakt dat er niet teveel een beroep wordt gedaan op de kennis van de wereld van de leerlingen. Leerlingen die minder rijke en gevarieerde ervaringen hebben opgedaan, mogen niet benadeeld worden. Er is ook aandacht besteed aan de lengte van de luisterteksten, zodat de leerlingen niet meer dan in natuurlijke situaties een beroep moeten doen op hun geheugen. Betrouwbaarheid De toets wordt afgenomen aan het begin van het eerste leerjaar. Onderzoek (cf. Colpin et al., 2006) heeft uitgewezen dat een taaltoets slechts een betrouwbare indicator kan zijn voor taalvaardigheid vanaf de derde kleuterklas. Toetsafnames vroeger dan de 3e kleuterklas blijken niet altijd betrouwbaar te zijn. Verder is het instrument aangepast aan jonge leerders. De opdrachten zijn herkenbaar, motiverend en gevarieerd en afhankelijkheid tussen toetsvragen is vermeden. Er is ook over gewaakt dat de toets niet te lang duurt omdat de concentratie van leerlingen in het eerste leerjaar snel afneemt. Zo ook wordt er tijdens de toetsafname een pauze voorzien. Efficiëntie Het instrument moet gemakkelijk hanteerbaar zijn voor de leerkrachten. Zij moeten het instrument kunnen inzetten voor groepjes van maximaal 10 leerlingen. Ook is ervoor gezorgd dat de beoordeling van de prestatie van de leerlingen vlot kan gebeuren. Het overgrote deel van de toetsvragen zijn gesloten vragen en zijn daardoor efficiënt te verbeteren. 2.2.2 Toetsmatrijs Op de volgende bladzijde (tabel 2) is de toetsmatrijs opgenomen die is opgesteld op basis van de beschrijving in tabel 1. In de toetsmatrijs wordt aangegeven welk soort luistertaken ontwikkeld zijn. Daarbij worden het teksttype en de handeling weergegeven. In de toetsmatrijs staat ook informatie over de soort opdracht en het aantal toetsitems. Op basis van de referentiedocumenten genoemd in 2.1 zijn 21 luistertaken ontwikkeld. Er is getracht om in de mate van het mogelijke het referentiekader zoveel mogelijk te dekken, al is deze dekking geen noodzakelijkheid (het instrument dient niet om een diagnose te stellen op het gebied van de verschillende doelstellingen). Een aantal doelstellingen bleken niet operationaliseerbaar in de vorm van toetstaken. Met name ‘1.2 instructies voor een mentale of talige handeling begrijpen’ en ‘2.2 open vraag over eigen ervaringen en belevingen begrijpen’ vragen een directe link tussen zender en ontvanger, wat in een klassikale toets onmogelijk is.
5
Omschrijving taaltaak Mondelinge instructie of opdracht begrijpen (en adequaat reageren) concrete fysieke handeling
Titel Taak
Toetsvorm
Toetsitems
Verjaardagsfeest Speeltijd! Juf is jarig Hoepel Dansje Een vingerpop knutselen Fruitsla maken Papieren vis Pizza maken
Instructies: grote tekening vervolledigen Instructies: grote tekening inkleuren Instructies: kruisje onder juiste tekening Instructies: kruisje onder juiste tekening Instructies: kruisje onder juiste tekening Instructies: kruisje onder juiste tekening Instructies: kruisje onder juiste tekening Instructies: kruisje onder juiste tekening instructies: kruisje onder juiste tekening
7 6 6 7 6 5 5 5 6
Lievelingsboeken
Vraag voorkeuren: kruisje onder juiste tekening
6
Varken en Rups
Lang verhaal: kruisje onder juiste tekening Vraag plaats: voorwerpen verbinden op grote tekening Vraag plaats: voorwerpen verbinden op grote tekening Vraag taken klas: kruisje onder juiste tekening
6
Lang verhaal: kruisje onder juiste tekening Lang verhaal: kruisje onder juiste tekening
6 6
Lang verhaal: kruisje onder juiste tekening Lang verhaal: kruisje onder juiste tekening Kort verhaal: kruisje onder juiste tekening
6 5 6
Beschrijving pers: kruisje op grote tekening Beschrijving voorwerpen kruisje onder juiste tekening Regels: kruisje onder juiste tekening
5
mentale handeling verbale handeling Mondelinge vraag begrijpen en adequaat reageren over intenties, voorkeuren over persoonlijke ervaringen over gevoelens van ll. of anderen over situaties, hand, voorwerpen
Rommel in de eetzaal Rommel in de klas Juf Maaike
7 7 8
Een gesproken verhaal begrijpen Mug en Olifant Varken en Rups Op uitstap naar de dierentuin De gekke hoed Verhaaltjes Een informatieve mededeling begrijpen over concrete gebeurtenissen, feiten, hier-en-nu over concrete gebeurtenissen, feiten, daar- en -toen over regels en voorschriften
Jelle vertelt over zijn familie Verloren voorwerpen Doet Myriam het goed?
6 7
Tabel 2: Voorbeeld toetsmatrijs op 24-04-2007. (Definitieve toetsmatrijs per toetsversie is opgenomen in bijlage 7 (zie paragraaf 4.9)).
6
21 taken is meer dan nodig voor één instrument. Als we uitgaan van een toets met een duur van 50-60 minuten, dan volstaan een 8-tal taken met een 40-tal items (zie verder). De redenen waarom er meer taken en items ontwikkeld zijn dan vereist, zijn: 1. de mogelijkheid scheppen om een parallelversie van de toets te maken (daarom werden er van bepaalde taken ook analoge versies ontwikkeld, die bv. enkel van context verschillen, bv. ‘hoepel’ en ‘dansje’); 2. ruimte scheppen om na het pilootonderzoek en na het kalibratie-onderzoek inhoudelijk minder goede of misfittende items te kunnen verwijderen (zie verder). 2.2.3 Moeilijkheidsgraad van de toetstaken Er werd naar gestreefd om de opdrachten te laten variëren wat betreft moeilijkheidsgraad, onderwerp en taalvaardigheidseisen. Uit een analyse van de ontwikkelingsdoelen Nederlands voor het kleuteronderwijs, de eindtermen Nederlands voor het lager onderwijs en het Referentiekader vroege tweede taalverwerving, zijn de volgende parameters gehaald voor het bepalen van de moeilijkheidsgraad van de opdrachten. In tabel 3 staan de parameters die van toepassing zijn op de toetstaken van SALTO in het grijs gemarkeerd (zie ook verder 4.9). EENVOUDIG
COMPLEX
Onderwerp
Concreet
Minder concreet
Context
Hier-en-nu
Daar-en-toen
Beschouwend
Perspectief
Vraagt geen inleving
Beperkte inleving
Veel inleving
Gesprekspartner /publiek
Bekend
Leeftijdsgenoot
Tekstsoort (mondeling/ schriftelijk)
Genre van de boodschap (bv. instructie/opdracht, verhaal, relaas, vraag, antwoord, verslag van zelf beleefde gebeurtenis…)
Verwerkingsniveau
Kopiërend
Beschrijvend
Structurerend
Evaluerend
(reproduceren)
(begrijpen/beschrijven)
(herstructureren)
(evalueren)
Visuele ondersteuning
Veel
Linguïstische complexiteit
Abstract
Onbekend
Kleuter zelf
Volwassene
Beperkt
Geen
(met beeld of geluid)
Eenvoudig
Minder eenvoudig
bv. enkelvoudige instructie, bv. minder frequente woorden,
Complex bv. dubbele instructies,
korte tekst,
halflange tekst,
lange tekst, ondergeschikte
frequente woorden
langere zinnen
zinnen
Tabel 3: Parameters voor het bepalen van de moeilijkheidsgraad
7
Niet alleen taken, maar ook items binnen taken kunnen verschillen qua moeilijkheidsgraad, en kunnen zich op deze continua verschillend situeren (zie ook 4.9). Een taak wordt als unidimensioneel gezien in de zin dat het bindend element de eis is die aan de schoolse taalvaardigheid van de leerlingen wordt gesteld. De inhoudelijke context is binnen een taak dezelfde, maar daarbinnen kunnen items wel verschillende deelaspecten van de luisterdoelen meten én dus verschillen op bovenstaande moeilijkheidsparameters. Het taalgebruik in de opdrachten (bijvoorbeeld woordenschat) is gebaseerd op de beschrijving van schooltaal in het onderzoek naar schoolse taalvaardigheidseisen (Schrooten, 1997) dat op het Centrum voor Taal en Onderwijs is uitgevoerd. 2.3 Verdere ontwikkeling toetstaken Tijdens een volgende stap werden alle 21 toetstaken tijdens een pilootonderzoek door leerkrachten uitgeprobeerd bij 131 leerlingen in de derde kleuterklas en in het eerste leerjaar in verschillende scholen. Een beschrijving van dit pilootonderzoek is opgenomen in Hoofdstuk 3. Op basis van dit proefdraaien en de commentaar van de leerkrachten werd het instrument verder aangepast en werden onbetrouwbare items vervangen. In een volgende fase werd een grootschalig kalibratieonderzoek uitgevoerd. Op basis van de resultaten van het kalibratieonderzoek is het instrument gefinaliseerd. Een beschrijving van dit kalibratieonderzoek is opgenomen in Hoofdstuk 4.
8
3 Voorstudies 3.1 Pilootafname bij leerlingen 3.1.1 Doel Vooraleer over te gaan tot een grootschalige afname van de gegenereerde toetsen en toetsopgaven, was het wenselijk de toetsen uit te proberen bij een kleinere groep van leerlingen. Die pilootafname verschafte informatie over de moeilijkheidsgraad van de toetsitems en over het gebruik van de toetsen en de items. Bijvoorbeeld, welke toetsitems werken wel, welke niet. Onduidelijkheden in de luisterteksten en de opgaven konden ook worden opgespoord om ze dan nadien aan te passen. Op basis van de antwoorden die door de leerlingen werden gegeven, konden dan ook de beoordelingssleutels verfijnd of eventueel aangepast worden. Ook werd reeds gekeken naar de samenhang tussen de verschillende opgaven om zo na te gaan of bepaalde opgaven niet iets anders bleken te meten dan de andere opgaven. Hiervoor werd in een klassieke itemanalyse een maat voor interne consistentie gebruikt en werden voor elk item de item-totaalcorrelaties bekeken. 3.1.2 Afname Er werden pilootafnames georganiseerd in drie verschillende scholen, telkens in een eerste leerjaar én in een derde kleuterklas. Alle afnames vonden plaats eind mei en begin juni 2007. Alle 21 ontwikkelde toetstaken werden opgenomen in het pilootonderzoek. In elke toetsgroep werden minstens 7 toetstaken van de 21 toetstaken afgenomen, die op dat moment uit gemiddeld 6 items per taak bestonden. Het aantal leerlingen dat heeft deelgenomen aan deze voorstudie, bedroeg 131. De scholen die deelnamen aan de afnames waren gevestigd in Berchem (school met hoge concentratie allochtone leerlingen), Sint-Lambrechts-Woluwe (school met hoge concentratie Franstalige leerlingen) en Lubbeek (‘witte’ school). Elke toetstaak werd in minstens 2 scholen uitgeprobeerd (alle taken werden in Lubbeek uitgeprobeerd en minstens ook in één van de twee andere scholen) De leerkracht of kleuterleidster stond in de helft van de groepen zelf in als toetsafnemer terwijl de onderzoekers observeerden. In de andere helft van de gevallen (doorgaans in het parallelle toetsgroepje), namen de onderzoekers de toets zelf af. 3.1.3 Resultaten 3.1.3.1 Betrouwbaarheid De 21 taken werden afgenomen in drie sets van 7 taken. Uit de betrouwbaarheidsanalyse bleek dat elke set een hoge betrouwbaarheid heeft (Cronbach’s alpha set 1 = .90, Cronbach’s alpha set 2 = .92, Cronbach’s alpha set 3 = .82).
9
3.1.3.2 Moeilijkheidsgraad Om een idee te krijgen van de moeilijkheidsgraad van de opgaven werd gekeken naar de proportie leerlingen/kleuters die een opgave correct maakten. In de tabel in bijlage 1 vindt u presentatie van de resultaten per toetsitem. Deze resultaten geven aan dat er voldoende spreiding is in de moeilijkheidsgraad van de opgaven (p-waarden). Wel bleek een aantal opgaven zeer gemakkelijk of te moeilijk. Dat vormde een aanwijzing om de opgave aan te passen. Een opgave die door geen enkele leerling juist of fout werd gemaakt, is ook niet in staat informatie te verschaffen over verschillen in vaardigheid tussen leerlingen. 3.1.3.3 Itemanalyse Een belangrijke basis om een toetsopgave aan te passen of weg te laten, is de mate waarin de toetsopgave hetzelfde meet als de andere toetsopgaven opgenomen in de toetsen. De samenhang kan worden weergegeven in de correlatie van de score op een toetsopgave met de score op de totale toets, de item-totaalcorrelatie. Als vuistregel hanteerden wij een minimumwaarde van .10. Wanneer een toetsopgave een item-totaalcorrelatie lager dan .10 had, werd ze onder de loep genomen en werd besloten tot aanpassing of, indien nodig, verwijdering uit de toets. 3.1.3.4 Andere gegevens Tijdens de pilootafname is ook aan de klasleerkrachten gevraagd om hun mening te geven over de ontwikkelde toetsen en opgaven. Hun opmerkingen en suggesties konden namelijk een belangrijke inspiratiebron vormen voor eventuele aanpassingen. Ook is de tijdsbesteding van de verschillende toetstaken in kaart gebracht. De gemiddelde afnametijd per toetstaak bedroeg ongeveer 8 minuten. Uit de gegevens kon verder geconcludeerd worden dat de toetsen meer tijd in beslag namen in de scholen met meer anderstaligen, dus dat in de uiteindelijke versie zeker niet teveel toetstaken opgenomen mochten worden. 3.2 Bijkomend commentaar Naast de leerkrachten van het pilootonderzoek hebben ook nog anderen opmerkingen kunnen formuleren over de toetstaken. Al deze opmerkingen zijn meegenomen in de verdere ontwikkeling van het instrument. In februari 2007 is er een resonansgroep bijeengekomen die feedback heeft gegeven op het instrument en op eerste versies van toetstaken. De resonansgroep bestond uit leerkrachten, pedagogisch begeleiders, leden van de inspectie en andere experten uit het onderwijsveld. Een volgende resonansgroep is bijeengekomen in april 2007. Tijdens die bijeenkomst waren de moeilijkheidsgraad, de onderwerpen en de taakinstructies aan de orde. Bovendien hebben verschillende leden van de resonansgroep nog uitgebreid commentaar op de ontwikkelde taken doorgestuurd via e-mail. Al deze opmerkingen zijn zoveel mogelijk verwerkt bij de aanpassing van de toetstaken voor het uiteindelijke kalibratieonderzoek.
10
4 Kalibratieonderzoek Alvorens het screeningsinstrument op grote schaal inzetbaar is, dienen de verschillende items van de toetstaken 'gekalibreerd' te worden. De kalibratie of schatting van de item- en leerlingparameters gebeurde in de periode septembernovember 2007. De data voor deze statistische analyse werden verzameld door middel van een toetsafname bij een uitgebreide steekproef van leerlingen van het eerste leerjaar tussen 17 september en 5 oktober 2007. Dit hoofdstuk start met het design van deze afname (4.1). Vervolgens komt het steekproefdesign uitgebreid aan bod in 4.2. In 4.3 komt de logistieke organisatie aan bod. De eigenlijke kalibratie wordt besproken vanaf 4.4. 4.1 Afnamedesign In het afnamedesign beschrijven we schematisch welke toetstaken mee opgenomen zijn in het onderzoek en in welke volgorde de verschillende groepen van leerlingen die deelnemen aan de toetsafname, de toetstaken afleggen. Doordat alle toetsvragen en alle leerlingen op één meetschaal geplaatst moeten worden, lijkt het op het eerste gezicht een logische keuze dat alle leerlingen alle toetstaken zouden oplossen. Aangezien het hier om een totaal van 21 ontwikkelde toetstaken gaat (met een gemiddelde tijdsduur van ongeveer 8 minuten per taak, zie 3.1.3.4), zou dat zowel voor de leerlingen als voor hun leerkrachten een te zware opgave zijn. De Itemresponstheorie (IRT) kan deze praktische hindernis opvangen aan de hand van een specifiek afnamedesign. IRT-modellen kunnen structureel onvolledige gegevens onder bepaalde voorwaarden immers goed analyseren (Eggen, 1993). Met andere woorden: hoewel de leerlingen niet alle toetstaken maken, kan naderhand toch één gemeenschappelijke schaal geconstrueerd worden. Hiervoor dient het afnamedesign zo opgebouwd te zijn dat er telkens een duidelijke overlap in de aangeboden toetsopgaven bestaat tussen de verschillende afnamecondities. Dit houdt in dat de leerlingen uit de steekproef in verschillende condities (combinaties van toetstaken) worden onderverdeeld, waarbij ze telkens slechts een deel van het geheel van de toetstaken moeten oplossen. Rekening houdend met inspanningen die de leerling moet leveren en een maximale tijdsduur van ongeveer één uur, werd er besloten dat elke conditie in het huidig onderzoek uit acht toetstaken zou bestaan. In plaats van at random een aantal condities te trekken uit de 203490 mogelijke combinaties, werden de 21 toetstaken percentielsgewijs verdeeld in gelijke groepen op basis van hun voorspelde gemiddelde moeilijkheidsgraad (berekend op basis van de gemiddelde scores op de taken in het pilootonderzoek, zie tabel 4). Op die manier zijn er acht moeilijkheidscategorieën samengesteld van twee of drie toetstaken. Uit elk van deze categorieën is vervolgens één toetstaak geselecteerd. Dit reduceerde het aantal combinatiemogelijkheden aanzienlijk. Zo bestond elke conditie uit een unieke combinatie van acht toetstaken: één uit elke moeilijkheidscategorie. Op die manier werd vermeden dat een bepaalde groep leerlingen enkel de moeilijke/ makkelijke toetstaken kreeg voorgeschoteld. Verder werd erop gelet dat er in eenzelfde conditie geen twee analoge toetstaken werden gecombineerd (zie analoge kleuren in tabel 4): zo zijn ‘Varken en rups’-‘Mug en olifant’, ‘Verhaaltjes’-‘Op stap naar de dierentuin’, ‘Rommel in de klas’-‘Rommel in de eetzaal’, ‘Dansje’-‘Hoepel’ en ‘Verjaardagsfeest’-‘Speeltijd’ duo’s van toetstaken die telkens dezelfde formatkenmerken hebben.
11
In de volgende tabel wordt weergegeven wat de resultaten van de pilot waren m.b.t. de gemiddelde score (en de daaruit afgeleide categorie van moeilijkheidsgraad van de taken 1 ). Categorie 1 is daarbij de categorie met de laagste moeilijkheidsgraad. Toetstaak VARKEN ROMEET MAAIKE VERHAAL GEKKE DIER VIS MYRIAM MUG LIEVEL PIZZA FRUIT JELLE DANS ROMKL MEEST VERLOR VINGER VERJA SPEEL HOEPEL
N 58 58 56 56 49 58 56 58 56 58 56 58 56 56 49 49 49 49 49 58 49
Minimum 0 0 0 2 1 0 0 0 0 0 1 1 0 1 3 2 2 1 4 1 5
Maximum Standaarddeviatie 6 1.87 7 1.90 7 1.69 6 1.39 5 1.29 6 1.50 5 1.41 7 2.00 6 1.42 6 1.51 6 1.50 5 1.22 5 1.09 6 1.16 7 1.22 6 1.15 6 0.97 5 0.94 7 0.74 6 0.78 7 0.39
Gemiddelde Categorie Score 0.63 8 0.66 8 0.69 7 0.72 7 0.72 7 0.73 6 0.74 6 0.76 6 0.77 5 0.78 5 0.81 4 0.82 4 0.86 4 0.87 3 0.87 3 0.89 3 0.89 2 0.91 2 0.92 2 0.96 1 0.98 1
Tabel 4: Gemiddelde score en moeilijkheidscategorieën van de 21 toetstaken in de pilot. N staat voor het aantal leerlingen dat een bepaalde taak gemaakt heeft.
Het afnamedesign bestond uit onderstaande 14x21 matrix (zie tabel 5) waarbij de kolommen de 21 ontwikkelde toetstaken - gerangschikt naar gemiddelde score voorstellen en de rijen 14 verschillende combinaties van toetstaken zijn. Per rij telt men acht toetstaken: zo maken de leerlingen uit conditie 1 bijvoorbeeld de volgende toetstaken: ’Rommel in de eetzaal’, ‘Gekke hoed’, ‘Op stap naar de dierentuin’, ‘Mug en olifant’, ‘Jelle vertelt over zijn familie’, ‘Dansje’, ‘Een vingerpop knutselen’ en ‘Speeltijd’. Er werd gestreefd naar 110 leerlingen per conditie, wat zou resulteren in het feit dat elke toetstaak (en elk toetsitem van die toetstaak) minstens door 550 leerlingen en maximaal door 660 leerlingen opgelost zou worden.
P
1
In de tabel zijn taken met ongeveer eenzelfde moeilijkheidsgraad toch in verschillende categorieën terecht te komen. De verdeling gebeurde namelijk percentielsgewijs.
12
conditie2
X
conditie4
X
X
X
conditie13
X
X X
X
X
X
X
HOEPEL X
X X
X
X X
X X
X
X
X
X
X
SPEEL
X
X X
X X
X X
VERJA
X
X
X
X
VINGER
VERLOR
MEEST
DANS
ROMKL
JELLE
FRUIT
PIZZA
LIEVEL
MUG
X X
X
X
X X
X
X
X X
X
X
X X
X
X
X X
X
X X
X X
X
X
X
X
X X
X X
MYRIAM
VIS
X
X
X
X
X
X X
X
X
X
X
X
X X
X X
X
X X
X
X X
conditie12 conditie14
X X
X
conditie10
X
X
conditie9 conditie11
DIER
X X
X
X X
X
conditie6 conditie8
X
X
X X
X X
X
conditie7
GEKKE
VERHAAL
X
conditie3 conditie5
MAAIKE
ROMEET
VARKEN conditie1
X X
X
X
X
Tabel 5: Afnamedesign waarbij een kruisje aangeeft dat de toets opgenomen werd in de overeenkomstige conditie (toetsset).
13
De eerste leerjaren van de deelnemende scholen werden onderverdeeld in toetsgroepjes van maximaal 10 leerlingen. De 14 condities werden at random verdeeld over deze toetsgroepjes. Zo bestond bijvoorbeeld school 4 uit 25 leerlingen die dan in drie toetsgroepjes werd verdeeld: twee toetsgroepjes van acht en één van negen leerlingen. Deze drie groepjes kregen dan bijvoorbeeld toetssets 6, 11 en 13 (zie tabel 6). De tabel in bijlage 2 geeft een overzicht van de toegekende sets aan de verschillende toetsgroepjes per deelnemende school. Scholen 1 2 3
4
5 …
Toetsgroepjes 1 2 3 4 5 6 7 8 9 10 11 …
Aantal leerlingen 10 6 6 8 7 7 9 8 8 9 8 …
Toetsset 9 12 5 2 1 3 6 11 13 8 7 …
Tabel 6: Procedure voor de toekenning van de toetssets (condities) aan de toetsgroepjes
De 21 toetstaken bestonden in totaal uit 123 items. Dit is gemiddeld 5.86 items per taak. Elke leerling moest een set met 8 toetstaken oplossen (met een gemiddelde van 47 items per leerling). 4.2 Steekproefdesign 4.2.1 Steekproeftrekking De kalibratiefase bij een IRT-analyse vereist strikt genomen geen representatieve steekproef doordat itemparameters van IRT-modellen onafhankelijk van de getrokken steekproef geschat kunnen worden (Eggen, 1993). Toch werd gekozen om te werken met een zo representatief mogelijke steekproef, zodat een eerste, oriënterende uitspraak gedaan kan worden over de schoolse taalvaardigheid bij de leerlingen van het eerste leerjaar uit het basisonderwijs. De leerlingen uit het eerste leerjaar van het lager onderwijs vormden de doelgroep van dit onderzoek. De schoolkenmerken die van belang waren bij de steekproeftrekking voor de kalibratiestudie zijn het onderwijsnet waartoe een school behoort en de locatie van de school. Deze gegevens (oktobertelling 2006) werden opgevraagd bij de Afdeling Begroting en Gegevensbeheer van het Departement Onderwijs van het Ministerie van de Vlaamse Gemeenschap. Er werd geen steekproef getrokken uit de volledige leerlingenpopulatie in Vlaanderen, want de bedoeling van het instrument was voornamelijk om leerlingen die de drempel van schoolse taalvaardigheid wel halen te onderscheiden van leerlingen die deze niet halen (cf. inleiding: de knipperlichtfunctie voor schooltaalbeleid). Er werd daarom geopteerd voor het trekken van een steekproef uit een aangepaste populatie. Deze populatie van scholen, die zowel kleuteronderwijs als lager onderwijs organiseren en met minstens 30% GOK-doelgroepleerlingen, bestaat uit 455 scholen. De steekproef bevat zo een grotere groep potentiële risicoleerlingen, 14
maar sluit de groep leerbedreigde niet-GOK-leerlingen niet uit. De verdeling van zowel de scholen als de leerlingen over de netten en provincies voor aangepaste doelgroep en steekproef worden getoond in tabellen 7 tot en met 9.
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij onderwijs gesubsidieerd Gesubsidieerd 49 40 43 16 19 29 44 5 26 39 20 33 12 8 2 43 9 18 203 101 151
Totaal 132 64 75 92 22 70 455
Tabel 7: Verdeling van de scholen van de aangepaste doelgroep
Tabel 8 geeft de verdeling van de leerlingen van de aangepaste doelgroep.
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij onderwijs gesubsidieerd Gesubsidieerd 1248 1247 1262 518 571 594 983 222 761 969 592 1031 299 241 63 758 157 436 4775 3030 4147
Totaal 3757 1683 1966 2592 603 1351 11952
Tabel 8: Verdeling van de leerlingen (geboortejaar 2001) van de aangepaste doelgroep
De aantallen leerlingen in tabel 8 zijn gebaseerd op het geboortejaar 2001 (leerlingen die dus ‘op leeftijd’ in het eerste leerjaar zouden zitten op het moment van het kalibratieonderzoek, in schooljaar 2007-2008). Op het moment dat de steekproef is getrokken (lente 2007) waren die gegevens richtinggevend om te voorspellen hoeveel leerlingen er ongeveer in het eerste leerjaar zouden starten. Er waren dan immers nog geen gegevens beschikbaar over wie er zou moeten blijven zitten. In het uiteindelijke onderzoek is er gewerkt met intacte klassen eerste leerjaar, dus ook zittenblijvers. De toets wil immers een beeld geven van de taalvaardigheid van de reële populatie in het eerste leerjaar. Of deze keuze een invloed heeft op het gehele beeld, wordt besproken in paragraaf 4.9.2. Er werd gestreefd naar een steekproef van ongeveer 1700 leerlingen, wat ruim voldoende zou zijn om tegemoet te komen aan het afnamedesign. Bij de steekproeftrekking werd gewerkt met een gestratificeerd steekproefdesign. De gebruikte stratificatievariabelen zijn onderwijsnet en provincie. In Vlaanderen onderscheidt men in het basisonderwijs drie onderwijsnetten: het gemeenschapsonderwijs, het gesubsidieerd officieel onderwijs (dat het gemeentelijk en het provinciaal onderwijs omvat) en het vrij gesubsidieerd onderwijs. De stratificatievariabele ‘provincie’ kreeg zes waarden toegekend, namelijk de vijf Vlaamse provincies en het Brussels Hoofdstedelijk Gewest. Aan de hand van deze stratificatievariabelen werd de populatie van Vlaamse basisscholen opgedeeld in 18 (3 x 6) deelpopulaties of strata. 15
Om het vooropgestelde aantal leerlingen te bereiken (gebaseerd op de gegevens van 2006), dienden 94 scholen in de steekproef opgenomen te worden. Het benodigde aantal leerlingen per cel, rekening houdend met de verdeling van de leerlingen over de populatie van de doelgroep, bevindt zich in tabel 9. De getallen drukken het percentage uit dat per cel gewenst is.
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij Totaal onderwijs gesubsidieerd Gesubsidieerd 10 10 11 31 4 5 5 14 8 2 6 16 8 5 9 22 3 2 1 5 6 1 4 11 40 25 35 100
Tabel 9: Verdeling aantal leerlingen per cel, in % uitgedrukt
4.2.2 Werving en respons Proportioneel aan de verdeling in tabel 9 werd er at random een steekproef van 94 scholen getrokken, alsook een steekproef van 94 reservescholen. Half mei 2007, ruim drie maanden voorafgaand aan de toetsafname, werden 94 scholen aangeschreven met de vraag om deel te nemen aan het kalibratieonderzoek. Na toezegging voor deelname hebben scholen aangegeven hoeveel leerlingen zij in het eerste leerjaar verwachtten. De scholen dienden via een daarvoor ontworpen fiche hun deelname bevestigen. Op deze fiche moesten er gegevens over de school (adres, contactgegevens) en het eerste leerjaar (hoeveel, verwacht aantal leerlingen) aangegeven worden. Nadat alle gegevens verzameld waren, kregen de deelnemende scholen in juni een bevestiging van deelname toegestuurd met bijkomende informatie over de toetsafname. Uitgebreidere instructies en meer details ontvingen de scholen aan het begin van schooljaar 2007-2008. Zo konden de leerkrachten de toetsafnames tijdig in hun planning inpassen. In de laatste week van augustus 2007 werd ook aan de scholen gevraagd door te geven hoeveel leerlingen uiteindelijk gestart zijn in het eerste leerjaar (voor de informatie die naar de scholen is gestuurd, zie bijlage 3). Een aantal scholen antwoordde niet deel te willen nemen aan het onderzoek. Deze scholen zijn (indien nodig, zie verder) vervangen door scholen uit de reservesteekproef (m.a.w. door scholen uit hetzelfde net en uit dezelfde provincie). Als uiteindelijk alle leerlingen die zouden starten in 2007 in alle aangeschreven scholen zouden deelnemen, zou het aantal te testen leerlingen op 2000 komen, wat meer dan voldoende was, en ook praktisch gezien niet haalbaar (rekening houdend met de inzet van de toetsassistenten, zie verder 4.4). Daarom bleek het niet nodig om in 94 scholen te toetsen, en is gekeken naar het aantal (gewenste) leerlingen per cel (op basis van tabel 9). Op basis van het aantal leerlingen dat de scholen verwachtten, volstond het om te werken met 72 scholen. Het was dus niet nodig om de eerste steekproeftrekking aan te vullen met reservescholen om tot 94 te komen. Omdat bovendien bleek dat binnen enkele klassen van scholen (bv. gemeenschapsonderwijs in West-Vlaanderen), er in verhouding teveel leerlingen zouden zijn, is besloten om in ‘oververtegenwoordigde’ scholen met grote groepen leerlingen niet alle leerlingen te testen. Er werd in dit 16
geval aan de scholen gevraagd één klas te selecteren, of een representatieve groep leerlingen van ongeveer 30 per school. Dat was het geval in 8 scholen. Of het feit dat er in deze scholen een selectie van leerlingen getoetst is, een vertekening van de resultaten teweeg brengt, wordt besproken in paragraaf 4.9.2. Tabel 10 weerspiegelt de geschatte leerlingenaantallen van de deelnemende scholen.
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij Totaal onderwijs gesubsidieerd Gesubsidieerd 169 171 169 509 104 20 96 220 130 60 117 307 176 65 116 357 63 45 25 133 146 20 45 211 788 381 568 1737
Tabel 10: Geschatte leerlingenaantallen van de deelnemende scholen.
4.2.3 Definitieve onderzoeksgroep De definitieve steekproef van 72 scholen had een geschatte populatie van 1737 leerlingen. Uiteindelijk hebben er aan de afnames van de toetsen in septemberoktober 2007 1530 leerlingen meegedaan. Dit is minder dan het verwachte aantal, omdat er zich in de weken voor de afname nog wijzigingen hebben voorgedaan en er minder leerlingen bleken ingeschreven te zijn. Verder zijn er twee scholen uitgevallen en waren er ook leerlingen afwezig. 1530 leerlingen is 12.8 procent van de volledige doelgroep van scholen met meer dan 30% doelgroepleerlingen (n = 11952). Twee scholen hebben op het laatste moment afgehaakt (uit het Gemeenschapsonderwijs Oost-Vlaanderen en Vlaams-Brabant). Hoewel er gestreefd werd naar een zo goed mogelijke representativiteit, vormt het afhaken van deze scholen geen probleem in het kader van een kalibratiestudie. Zoals gezegd kunnen de itemparameters namelijk geschat worden onafhankelijk van de samenstelling van de steekproef, en bovendien was de vertegenwoordiging in de cellen waaruit de scholen kwamen, nog steeds groot genoeg. Tabel 11 geeft een overzicht van de getrokken scholen (rechts) en de uiteindelijk deelnemende (reserve)scholen (links). Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschapsonderwijs 8 10 3 4 7 8 8 8 2 2 8 8 36 40
Officieel gesubsidieerd 5 8 1 4 2 2 2 4 1 2 1 2 12 22
Vrij Gesubsidieerd 6 8 4 6 5 6 4 6 1 2 2 4 22 32
Totaal 19 8 14 14 4 11 70
26 14 16 18 6 14 94
Tabel 11: Verdeling van de scholen van de getrokken (rechts) en deelnemende (links) steekproef
17
Tabel 12 weerspiegelt de effectieve aantallen van de leerlingen die hebben deelgenomen
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij onderwijs gesubsidieerd Gesubsidieerd 135 137 155 81 20 80 116 66 123 147 54 104 47 38 27 139 19 42 665 334 531
Totaal 427 181 305 305 112 200 1530
Tabel 12: Verdeling van de leerlingen van de deelnemende steekproef
Zoals vermeld werden de leerlingen binnen de scholen toegewezen aan een toetsgroep, en bij die toetsgroepen werd telkens één van de 14 verschillende, aan elkaar gelinkte sets afgenomen. Elke set werd uitgevoerd door gemiddeld 109 leerlingen (minimum 98 en maximum 121 leerlingen). De volgende tabel geeft het aantal keer weer dat elke toetsset is afgenomen, en hoeveel leerlingen per set hebben deelgenomen: SET 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Totaal
Aantal keer uitgevoerd 14 14 13 13 14 14 14 13 15 14 14 14 13 13 192
Aantal leerlingen 121 121 101 98 115 100 114 103 111 110 114 110 104 108 1530
Tabel 13: Aantal afnames/leerlingen per set
4.3 Bijkomende dataverzameling 4.3.1 Taalvaardigheidstoets Aanvang Lager Onderwijs (TAL) In elke school werd telkens van één toetsgroepje de TAL afgenomen (zie verder 5.2). Er werd aan de scholen gevraagd dat dit telkens toetsgroepje 1 zou zijn. Zo werd er ook voor gezorgd dat deze 70 groepjes ook de 14 sets van het screeningsinstrument ongeveer evenveel keer gemaakt hebben. Dit resulteerde in een steekproef van 668 leerlingen waarvan men kon beschikken over de TAL-score. Onderstaande tabel geeft de verdeling van de leerlingen over de provincies en netten. 18
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij onderwijs gesubsidieerd Gesubsidieerd 44 36 72 57 19 34 65 10 36 59 17 42 39 10 9 83 9 27 347 101 220
Totaal 152 110 111 118 58 119 668
Tabel 14: Verdeling van de steekproef (n=668) voor de afname van de TAL
4.3.2 Achtergrondgegevens van de leerlingen Aan de scholen werd gevraagd om per leerling de volledige naam, het geboortejaar en het stamboeknummer aan te geven. De scholen moesten ook hun instellingsnummer doorgeven. De onderzoekers zelf hebben geen gegevens over thuistaal en sociaal-economische achtergrond van de leerlingen opgevraagd, omdat er vanuit het Departement Onderwijs in de periode van het onderzoek op de scholen een bevraging liep in het kader van Gelijke Onderwijskansen, waarin deze gegevens via de ouders opgevraagd werden. Het Departement Onderwijs verzorgde de koppeling van deze gegevens aan de toetsresultaten (zie 4.8).
4.4 Toetsassistenten 4.4.1 Taakomschrijving In het onderzoek werd de toets afgenomen door een personeelslid van de scholen zelf (zie 4.5). De toetsafnemers werden bijgestaan door een externe toetsassistent. De toetsassistent vertegenwoordigde het onderzoeksteam bij de afname in de school. Deze persoon kreeg de taak de toetsafname binnen de school te coördineren en toe te zien op het correcte verloop ervan. Door toetsassistenten in te schakelen kon de geheimhouding van het toetsmateriaal bewaakt worden en werd de werklast van het onderzoek voor de deelnemende scholen en leerkrachten verlicht. Na de afname verzamelden de toetsassistenten het toetsmateriaal, de toetsboekjes van de TAL en de klassenlijsten, en verstuurden ze het materiaal in de daarvoor bestemde enveloppen. Ook stuurden zij nog een verslag over het verloop van afname naar het onderzoeksteam. Bij wijze van onkostenvergoeding ontvingen de toetsassistenten een boekenbon van 50 euro per voormiddag toetsen én verplaatsingsonkosten.
19
4.4.2 Rekrutering en toewijzing aan scholen De toetsassistenten werden via diverse kanalen gerekruteerd. Er werd een aankondiging geplaatst op de site van het Centrum voor Taal & Onderwijs en via de elektronische nieuwsbrieven “Schooldirect” en “Lerarendirect”. De geïnteresseerden moesten een aanmeldingsformulier invullen, zodat er een selectie kon gebeuren op basis van a) band met het onderwijs/ervaring met de doelgroep en b) woonplaats dichtbij een onderzoeksschool. De toetsassistenten werden ingeschakeld in een school in de buurt van hun woonplaats. Er werd één toetsassistent per deelnemende school voorzien. Enkele toetsassistenten zijn in twee scholen ingeschakeld. De toetsassistenten ontvingen per mail de fiche met informatie over hun school/scholen. 4.4.3 Training toetsassistenten Begin september 2007 hebben er in Leuven twee trainingsmomenten plaatsgevonden. De toetsassistenten kregen daar uitgebreide instructies m.b.t. de afnames. Ze kregen op de training ook materiaal mee: een exemplaar van de praktische handleiding en toetsinstructies, en ook de leerlingenboekjes met de sets die in hun toegewezen school door de verschillende toetsgroepjes uitgevoerd zouden worden. Er werd de toetsassistenten gevraagd zo snel mogelijk na de training contact op te nemen met hun school/scholen om data voor de toetsing vast te leggen. Het was de bedoeling dat ze twee toetsgroepjes per voormiddag zouden toetsen volgens een vooraf bepaald scenario (zie bijlage 3). 4.5 Verloop toetsafnames Begin september werd het toetsmateriaal voor de toetsafnemers en de bijbehorende instructies aan de deelnemende scholen bezorgd. De toetsen konden gedurende de periode van 17/9 tot 5/10/2007 worden afgenomen. De toetsen dienden door de leerkrachten van het eerste leerjaar zelf, GOK-leerkracht of zorgcoördinator worden afgenomen: er is uitdrukkelijk gevraagd de toetsen te laten afnemen door een persoon die de leerlingen kenden. De leerkrachten beschikten over de vrijheid om het precieze moment van afname te bepalen gedurende deze weken. Alle verzamelde gegevens werden in september-oktober aan de onderzoekers per post terugbezorgd via enveloppen met antwoordnummer. Alle toetsassistenten hebben ook een verslag gemaakt per toetsmoment, zodat er o.a. ingeschat kon worden hoe de afnames zijn verlopen, hoeveel tijd ze in beslag namen enz. De gemiddelde tijdsduur van de toetsen bleek 63 minuten te zijn, wat dus langer bleek dan de ingeschatte 50 minuten. Verder waren de verslagen positief over de toets zelf: leuke opdrachten, de leerlingen vonden de opdrachten motiverend etc. De toetsassistenten rapporteren dat over het algemeen de toets door de leerlingen als moeilijk werd ervaren.
20
4.6 Eerste verwerking van de gegevens 4.6.1 Beoordeling en invoer van de data In een eerste fase werden de ingevulde toetsopgaven beoordeeld door jobstudenten aan de hand van de opgestelde scoringssleutels/voorschriften. In een tweede fase voerden de jobstudenten de scores in een spreadsheet waarbij de invulmogelijkheden beperkt werden tot de alternatieven ‘juist’ (1), ‘onjuist’ (0) en ‘ontbrekend’ (9), zodat het verkeerdelijk invoeren van andere cijfers uitgesloten werd. Na de invoer van alle data werd het computerbestand gecontroleerd op eventuele invoerfouten. Per item werden gemiddeld 582 observaties (scores van 1 of 0) geregistreerd (minimum 518 en maximum 672 leerlingen), wat het vooropgestelde minimum van 500 observaties per item ruim overschreed. In bijlage 4 vindt u het aantal observaties per item, met de gemiddelde score. De volgende tabel geeft het aantal observaties per toetstaak weer. Toetstaak Dansje Hoepel De gekke hoed Jelle vertelt over zijn familie Juf is jarig Juf Maaike Myriam Lievelingsboeken Fruitsla Mug en olifant Op uitstap naar de dierentuin
N 548 664 651 548 543 518 529 672 562 640 547
Toetstaak Varken en rups Papieren vis Verhaaltjes Verjaardagsfeest Pizza maken Rommel in de klas Rommel in de eetzaal Verloren voorwerpen Een vingerpop knutselen Speeltijd
N 567 566 564 557 632 552 642 540 642 529
Tabel 15: Observaties per toetstaak
4.7. Psychometrische analyses 2 Bij de analyses van de toetsgegevens wordt een beroep gedaan op IRT of itemresponstheorie, wat internationaal gebruikelijk is voor onderwijstoetsen. De psychometrische analyses aan de hand van IRT-modellen hebben in dit onderzoek als doel een meetschaal te construeren voor luistervaardigheid. Op deze meetschaal worden zowel de leerlingen als de items geplaatst. Deze schaal vormt de basis voor de cesuurbepaling (zie Hoofdstuk 5). 4.7.1 De keuze van een model uit de itemresponstheorie Aan de hand van een psychometrisch model worden de data uit het kalibratieonderzoek geanalyseerd met het oog op de constructie van een meetschaal. Binnen een psychometrisch model vallen steeds twee groepen van parameters te onderscheiden, de leerling- en itemparameters. De leerlingparameters modelleren de verschillen in de prestaties tussen de leerlingen. De itemparameters modelleren de eigenschappen van de in de toets opgenomen items.
2
De beschrijving van IRT is gebaseerd op Berben, M. e.a. (2005).
21
4.7.1.1 Itemresponstheorie versus klassieke testtheorie De klassieke testtheorie (KTT) stelt de leerlingparameter gelijk aan de som van de scores die de leerling haalt op de items van de toets. Deze somscore geldt dan als index voor de mate van beheersing van het bevraagde domein. De itemparameter wordt binnen de klassieke testtheorie gedefinieerd als de proportie juiste antwoorden op een welbepaald item. Problematisch bij de leerling- en itemparameters uit de KTT is het feit dat ze steekproefafhankelijk zijn. Dit betekent dat ze zowel afhankelijk zijn van de vaardigheid van de leerlingen in de steekproef als van de moeilijkheidsgraad van de steekproef van items die in de toets zijn opgenomen. Binnen de itemresponstheorie worden de vaardigheid van de leerling en de moeilijkheidsgraad van de items in twee onafhankelijke parameters gemodelleerd. Op die manier wordt de dubbelzinnige interpretatie van de leerling- en itemparameters uit de KTT uitgesloten. Doordat de vaardigheidsparameter van de leerling volgens het model niet steekproefafhankelijk is, kan de schatting van de vaardigheidsparameter gebeuren op basis van de antwoorden op verschillende itemcondities. Leerlingen hoeven, met andere woorden, niet allemaal dezelfde opgaven te maken opdat hun scores vergelijkbaar zouden zijn. De enige voorwaarde is dat de items uit deze verschillende condities aan een gemeenschappelijke schaal kunnen worden gekoppeld. 4.7.1.2 Een meetschaal gebaseerd op twee aannames Een IRT-model gaat er steeds vanuit dat opgaven kunnen verschillen in moeilijkheid. Dit wordt op de meetschaal aangegeven doordat de opgaven gerangschikt staan in stijgende graad van moeilijkheid. Een tweede aanname houdt in dat de beheersingsgraad van een bepaald leergebied kan verschillen tussen leerlingen onderling. De ene leerling is bijvoorbeeld nog volop bezig met het onder de knie krijgen van de basisvaardigheden, terwijl de andere leerling al in staat is om meer gevorderde vaardigheden in de aangewezen situaties toe te passen. Op de meetschaal komt dit tot uiting doordat de leerlingen gerangschikt staan in stijgende graad van beheersing. Doordat bij de gehanteerde meetmodellen de opgaven en leerlingen steeds op dezelfde schaal worden geplaatst, kunnen de leerlingen ook rechtstreeks vergeleken worden met de opgaven. Dat gebeurt in termen van de kans dat ze de opgave kunnen oplossen. Bovendien kan voor elke leerling de opgave aangeduid worden die op dat moment het dichtst aansluit bij zijn of haar huidig vaardigheidsniveau van een welbepaald domein.
22
Meetschaal Leerlingen
Items
vaardigheid
moeilijkheidsgraad Item e
Item h Item i
A
Item f Item d Item j Item g Item a
B Item c Item b
Beheersing in termen van kansen Figuur 1: Schematische voorstelling van de meetschaal in een IRT-model.
Aan de rechterzijde staan de items met hun oplopende moeilijkheidsgraad (item a tot en met item j): in dit geval is item e het moeilijkste item en item b het makkelijkste item. Aan de linkerzijde worden de verschillende personen geschaald. Hoe hoger een leerling op de schaal, hoe vaardiger deze leerling is. In dit voorbeeld is leerling A vaardiger dan leerling B. Leerling A zal geen problemen hebben met de items b, c, a, g, maar zal wel moeite hebben met items h en i. Leerling B zal weinig problemen ondervinden met items b en c, maar zal daarentegen wel moeite moeten doen voor bijvoorbeeld d en j. De kans dat leerling B item e zal kunnen oplossen is haast onbestaande. De meetschaal is dus te vergelijken met een ladder, waarbij de toetsitems de sporten van deze ladder vormen. Hoe hoger op de ladder, hoe moeilijker de items zijn. De sporten van de toetsladder staan daarbij niet altijd op dezelfde afstand van elkaar. Soms liggen items bijvoorbeeld erg dicht bij elkaar qua moeilijkheidsgraad. Ook de leerlingen worden, op basis van hun toetsresultaten, op de ladder geplaatst. Dat gebeurt op de positie die het best aangeeft welke soort items ze beheersen en welke ze nog niet beheersen. De items die onder hun positie staan, zijn de items waarvan men kan verwachten dat de leerling ze al onder de knie heeft. De items die boven de positie van de leerling staan, zijn items waar de leerling op dat moment nog niet bij kan. Toch kan een leerling een dergelijk item soms toch eens tot een goed einde brengen - aangezien de leerling telkens een bepaalde kans heeft om een toetsvraag tot een goed einde te brengen. De basisidee van een gemeenschappelijke meetschaal voor personen en items wordt in de itemresponstheorie geconcretiseerd.
23
We spreken over beheersing in termen van kansen, vermits het om een probabilistisch model gaat. De meetschaal heeft ‘logits’ als eenheden. De gemiddelde moeilijkheidsgraad wordt in het model gelijk aan 0 gesteld. Een item met een positieve (/negatieve) waarde is dus moeilijker (/gemakkelijker). Onderstaande figuur 2 geeft een overzicht van de kansen van een leerling met vaardigheid 0. Men kan afleiden dat deze leerling 50 % kans heeft om een item met moeilijkheidsgraad 0 goed op te lossen. Naarmate de items moeilijker worden (positieve logits) verkleinen de kansen van deze leerling om het desbetreffende item tot een goed einde te brengen. Zo heeft hij nog 27 % kans om een item met logit 1 op te lossen, 12 % kans om een item met logit 2 op te lossen, enzovoort. Indien items met een lagere moeilijkheidsgraad worden aangeboden, dan verhogen zijn kansen.
Figuur 2: Slaagkansen voor een leerling met gemiddelde vaardigheid
24
4.7.2 Modeltoetsing en –selectie De toetsing van het model bestaat erin na te gaan of de voorspellingen die met het model kunnen worden afgeleid, ook werkelijk kloppen met de verzamelde, empirische gegevens. Dit betekent dus dat een meetschaal pas geconstrueerd kan worden als de modelaannames ook door de empirische gegevens worden bevestigd. In het kader van dit onderzoek werd gebruik gemaakt van de IRT-software RUMM2020 (i.e. Rasch Unidimensional Measurement Models, meest recente versie) en meer bepaald een Raschmodel voor dichotome items. Op basis van een statistische toets (de ‘item-trait-interaction’ fitindex) kan nagegaan worden in hoeverre de data passen in het theoretisch model. Dit is in se een maat voor de discrepantie tussen het geobserveerde model en het geschatte model. Deze fit wordt uitgedrukt in een Chi²-probabiliteit. Indien die niet significant is, kan men besluiten dat de empirische gegevens aansluiten bij het model. Indien er geen aannemelijke modelfit te verkrijgen is, kan men ervoor kiezen om niet-passende items te verwijderen of over te schakelen naar een minder restrictief model (zie verder). 4.7.3 Resultaat van de analyses Rasch Unidimensional Measurement Models De resultaten op de 21 ontwikkelde toetstaken, in totaal bestaande uit 123 items, werden onderworpen aan een dichotome Raschanalyse. De analyse wees uit dat voor alle 21 toetstaken samen het Raschmodel niet bleek te passen. Daarom werden in eerste instantie drie toetstaken verwijderd. Twee toetstaken (‘Gekke hoed’ en ‘Op uitstap naar de dierentuin’) werden verwijderd omdat een aanzienlijk aantal items niet pasten in het model. Er bleven in de taken te weinig items over om de rest nog te kunnen behouden. Eveneens werden de toetstaken ‘Speeltijd’, ‘Hoepel en ‘Jelle’ verwijderd omdat alle items veel te gemakkelijk waren, en nauwelijks nog discrimineerden. Er werd besloten om enkel de 16 toetstaken te behouden die zowel moeilijke als makkelijke items bevatten. De toetstaken ‘Pizza maken’, ‘Dansje’, ‘Verloren voorwerpen’ en ‘Papieren vis’ bleven volledig intact. Van de overgebleven 94 items van deze 16 taken zijn 16 niet-passende items verwijderd (zie bijlage 5 voor mogelijke redenen daarvoor en een beschrijving van de items): ‘Juf is jarig 6’, ‘Juf Maaike 1 en 4’, ‘Doet Myriam het goed? 6’, ‘Lievelingsboeken 3’, ‘Fruitsla maken 3’, ‘Mug en olifant 1 en 3’, ‘Varken en rups 2 en 5’, ‘Verhaaltjes 2’, ‘Verjaardagsfeest 6’, ‘Rommel in de klas 2 en 3’, Rommel in de eetzaal 5’ en ‘Een vingerpop knutselen 2’. Dit resulteerde in een model met 78 items dat ook inhoudelijk een goede operationalisering bleek van het vooropgestelde referentiekader (zie ook verder in 4.9, en bijlage 7). Het weglaten van de items resulteerde namelijk niet in verlies van noodzakelijke informatie: de overgehouden items volstaan om op een valide manier te toetsen wat er qua inhoud in kaart gebracht moest worden (zie bijlagen 5, 7 en 10). De tabellen in bijlage zijn te uitgebreid om in de tekst op te nemen, maar tonen aan dat de luisterdoelen geoperationaliseerd in de voorgestelde toetsmatrijs, ook in de uiteindelijke versie goed gedekt blijven.
25
Het bekomen model vertoonde Chi²-probabiliteit van .001271, wat betekent dat de geobserveerde gegevens passen bij het theoretisch model 3 . We stellen vast dat de gemiddelde vaardigheid van de leerlingen in het huidige model 1.364 logits bedraagt, dit ten opzichte van de gemiddelde moeilijkheidsgraad van 0 logits voor de items. Dit betekent dat de leerlingen de items vrij goed kunnen oplossen (zie figuur 3).
Figuur 3: Person-Item Location Distribution
Tabel 16 geeft een aantal beschrijvende statistieken van de luistervaardigheid (persoonlogits) weer: N Gemiddelde Standaardfout van het gemiddelde Mediaan Standaarddeviatie Range Minimum Maximum Kwartielen 25 50 75
1530 1.364 .0312 1.361 1.219 7.966 -3.611 4.355 .580 1.361 2.175
Tabel 16: Beschrijvende statistieken persoonlogits
3
Doordat er gewerkt wordt met een grote steekproef, wordt deze fitindex vrij klein en valt deze eigenlijk onder het significantieniveau van .05. Indien we echter random samples nemen van 500 leerlingen, wordt deze fitindex minder gedrukt en vallen de significantiewaarden telkens boven de .05. Indien we dezelfde Raschanalyse draaien met OPLM-software, stellen we vast dat het model past op basis van het criterium van Sijtstra, van der Schoot & Hemker (2002) waarbij R1c < 1.5 vrijheidsgraden (i.e. 1412.52 / 1046 = 1.35), zie verder.
26
Tabel 17 is het overzicht van de items met hun moeilijkheidsgraad (logit), standaardfout (SE) en fitstatistieken, opgenomen in de schaal. De range van de schaal is 3.886. De itemfitstatistieken (FitResidual en Chi²-probabiliteit) geven aan in welke mate de items passen in het model 4 . Op basis van deze criteria zijn de vermelde 16 items verwijderd uit het model. In tabel 17 zijn de niet-passende items weggelaten. Deze tabel geeft dus een overzicht van de items met hun definitieve nummering. Item Dansje_1 Dansje_2 Dansje_3 Dansje_4 Dansje_5 Dansje_6 Fruitsla_1 Fruitsla_2 Fruitsla_3 Fruitsla_4 Juf_jarig_1 Juf_jarig_2 Juf_jarig_3 Juf_jarig_4 Juf_jarig_5 Juf_Maaike_1 Juf_Maaike_2 Juf_Maaike_3 Juf_Maaike_4 Lievelingsboeken_1 Lievelingsboeken_2 Lievelingsboeken_3 Lievelingsboeken_4 Lievelingsboeken_5 Mug_en_olifant_1 Mug_en_olifant_2 Mug_en_olifant_3 Mug_en_olifant_4 Myriam_1 Myriam_2 Myriam_3 Myriam_4 Myriam_5 Myriam_6 Papieren_vis_1 Papieren_vis_2 Papieren_vis_3 Papieren_vis_4 Papieren_vis_5 Pizza_maken_1 Pizza_maken_2 Pizza_maken_3 Pizza_maken_4 Pizza_maken_5 Pizza_maken_6 Rommel_eetzaal_1 Rommel_eetzaal_2 Rommel_eetzaal_3 Rommel_eetzaal_4 Rommel_eetzaal_5
Logit 0.798 -0.769 -1.089 -2.217 -1.241 -0.586 0.599 -0.046 -0.981 0.439 -0.929 0.063 0.672 -0.647 -0.806 -0.501 1.669 0.415 0.465 -0.427 -0.797 0.703 1.283 0.431 0.598 0.493 -0.180 -0.694 -0.249 -0.558 -0.626 1.283 0.464 -0.726 -0.035 -0.535 -0.187 0.213 0.808 1.113 0.923 0.394 0.509 -1.091 0.271 -1.142 -1.242 -0.818 0.006 0.676
SE 0.100 0.128 0.140 0.201 0.146 0.123 0.099 0.108 0.135 0.101 0.141 0.111 0.102 0.130 0.136 0.123 0.101 0.105 0.105 0.109 0.120 0.091 0.088 0.093 0.093 0.094 0.104 0.116 0.121 0.130 0.132 0.100 0.107 0.135 0.108 0.120 0.111 0.103 0.097 0.092 0.092 0.097 0.096 0.135 0.099 0.132 0.136 0.121 0.101 0.093
FitResid -0.680 -0.359 -2.301 -1.052 -0.627 -2.141 1.194 -0.122 -1.892 -1.441 -1.148 -1.488 -0.780 -1.773 -2.102 -1.947 2.259 -0.911 -0.815 -0.787 -1.199 -1.799 1.527 -0.205 1.817 -0.615 0.292 1.275 0.667 -1.751 -1.490 1.294 1.380 -1.032 1.911 -0.710 1.053 -0.527 1.244 1.079 0.883 -0.145 1.060 -1.750 -2.035 -0.602 1.514 -2.148 -0.640 -1.122
DF 496.720 496.720 496.720 496.720 496.720 496.720 531.440 531.440 531.440 531.440 503.470 503.470 503.470 503.470 503.470 486.110 486.110 486.110 486.110 628.860 629.820 629.820 629.820 629.820 591.240 591.240 591.240 591.240 489.970 489.970 489.970 489.970 489.970 489.970 534.340 534.340 534.340 534.340 534.340 587.390 587.390 587.390 587.390 587.390 587.390 592.210 592.210 592.210 591.240 591.240
ChiSq 3.543 7.831 10.387 6.410 6.393 10.011 7.831 10.161 12.912 14.583 8.254 12.740 9.200 8.451 9.937 6.416 17.024 6.562 4.862 8.908 8.243 11.731 11.830 13.748 12.738 15.337 10.231 24.778 9.097 10.274 4.690 7.468 8.210 7.256 11.968 9.283 11.281 11.007 10.987 18.985 4.759 10.001 14.397 8.096 15.966 5.345 24.536 7.336 6.257 9.440
DF 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
Prob 0.938826 0.551247 0.320098 0.698259 0.700060 0.349595 0.551244 0.337625 0.166617 0.103039 0.508796 0.174717 0.419043 0.489412 0.355618 0.697678 0.048337 0.682599 0.846136 0.445813 0.509833 0.228880 0.223058 0.131580 0.174825 0.082093 0.332131 0.003228 0.428340 0.328771 0.860443 0.588485 0.513172 0.610493 0.215116 0.411545 0.256962 0.275197 0.276630 0.025325 0.854775 0.350429 0.108901 0.524457 0.067593 0.803252 0.003531 0.602172 0.713902 0.397704
4
De criteria voor verwijdering van items: voor FitResidual een waarde > |2.5|; voor Chi²-probabiliteit > .05 .
27
Item Rommel_eetzaal_6 Rommel_klas_1 Rommel_klas_2 Rommel_klas_3 Rommel_klas_4 Varken_en_rups_1 Varken_en_rups_2 Varken_en_rups_3 Varken_en_rups_4 Verhaaltjes_1 Verhaaltjes_2 Verhaaltjes_3 Verhaaltjes_4 Verhaaltjes_5 Verjaardag_1 Verjaardag_2 Verjaardag_3 Verjaardag_4 Verjaardag_5 Verjaardag_6 Verloren_voorw_1 Verloren_voorw_2 Verloren_voorw_3 Verloren_voorw_4 Vingerpop_1 Vingerpop_2 Vingerpop_3 Vingerpop_4
Logit 1.509 -0.388 -0.042 0.952 0.433 0.697 0.608 0.500 1.237 1.174 -0.339 0.087 -0.070 1.440 -2.026 -1.019 -0.670 -0.092 0.849 -1.262 -0.316 -0.533 0.556 0.317 -0.050 0.826 0.845 -1.391
SE 0.091 0.118 0.110 0.098 0.102 0.098 0.098 0.099 0.095 0.095 0.115 0.106 0.109 0.095 0.196 0.140 0.127 0.111 0.098 0.150 0.120 0.126 0.104 0.107 0.101 0.091 0.091 0.140
FitResid -0.751 -1.251 -0.310 -1.122 1.929 0.088 -2.266 0.717 -0.623 2.688 0.016 -0.413 -1.512 -0.832 -1.117 -0.660 -0.826 0.522 -0.616 0.097 0.007 -2.393 0.143 1.758 1.362 -0.693 0.753 -1.917
DF 592.210 520.830 520.830 520.830 520.830 535.300 535.300 535.300 535.300 531.440 531.440 531.440 531.440 531.440 515.050 515.050 515.050 515.050 515.050 515.050 498.650 498.650 498.650 498.650 597.030 597.030 597.030 597.030
ChiSq 12.757 10.716 13.266 9.339 26.666 5.704 13.127 8.427 19.177 9.846 10.734 4.560 11.385 14.079 4.952 5.690 6.291 7.389 14.007 6.710 8.607 12.339 7.163 11.661 13.502 10.510 5.333 18.913
DF 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
Prob 0.173891 0.295669 0.150919 0.406573 0.001588 0.769145 0.156932 0.491717 0.023731 0.363061 0.294407 0.870886 0.250228 0.119553 0.838476 0.770525 0.710441 0.596718 0.122060 0.667332 0.474318 0.194887 0.620188 0.233098 0.141195 0.310789 0.804357 0.025946
Tabel 17: Itemdata voor de passende items
Een interne consistentiemaat in Cronbach’s alpha kon niet worden berekend voor alle toetstaken samen vanwege het onvolledige design. Deze betrouwbaarheidsindex kon wel worden berekend voor de 14 verschillende condities. Uit tabel 18 blijkt dat ze varieerden tussen .87 en .91, wat duidt op een goede interne consistentie binnen elke conditie. Het onderling samenhangen van items binnen een taak was geen noodzakelijke voorwaarde (zie ook 2.2.3: items kunnen binnen een taak verschillen op een aantal aspecten, een taak is een inhoudelijke context). Voor de volledigheid zijn alsnog de item-totaalcorrelaties berekend: correlaties tussen het item en het totaal van items binnen één taak. Deze bleken voldoende hoog te zijn en m.a.w. voldoende discriminerende waarde te hebben (voor een overzicht, zie bijlage 6). Toetsset Cronbach’s alpha 1 .87 2 .90 3 .89 4 .88 5 .89 6 .91 7 .91 8 .89 9 .90 10 .89 11 .91 12 .91 13 .89 14 .88
Aantal items 46 45 48 47 48 46 48 46 48 50 47 46 49 43
Tabel 18: Betrouwbaarheidscoëfficiënten per toetsset
28
Een andere maat van betrouwbaarheid kon wel berekend worden, met name de Person Separation Index (PSI). Deze index geeft aan in welke mate het construct kan discrimineren tussen leerlingen (waarbij .65 de minimum acceptabele grens is). Hoe groter deze waarde, hoe meer we kunnen differentiëren tussen groepen van leerlingen met verschillende vaardigheden. Deze index geeft eveneens aan hoezeer we kunnen vertrouwen op de itemfitstatistieken. Indien de index hoog is, betekent dat dat de gegenereerde fitstatistieken betrouwbaarder zijn, dan wanneer deze index laag is (wat impliceert dat deze statistieken een grote meetfout hebben). De PSIindex bedraagt in dit model .82, wat ten eerste duidt op het feit dat de fitstatistieken vrij betrouwbaar zijn. Ten tweede geeft dit aan dat we drie soorten groepen van leerlingen kunnen differentiëren (voor een overzicht van PSI-indices en het aantal te discrimineren groepen, zie Fisher Jr., 1992). OPLM In een tweede fase werd nagegaan of de gegevens pasten in een minder restrictief model. Deze analyses gebeurden met behulp van het computerprogramma OPLM (Verhelst et al., 1995). OPLM kan naast het Raschmodel eveneens andere, minder strenge modellen toetsen waarbij de discriminatiegraden van de items variabel zijn. In het Raschmodel zijn deze discriminatiegraden per definitie dezelfde. OPLM vraagt hierbij een waarde op te geven voor het geometrische gemiddelde van deze discriminatieparameters. Aanvankelijk wordt de waarde 2 ingevoerd. Wanneer het model niet past in deze vorm, wordt het geometrische gemiddelde verhoogd. Een hoger geometrisch gemiddelde laat namelijk een grotere variabiliteit aan discriminatieparameters toe. Voor het behouden van een model kunnen twee criteria gehanteerd worden. Voor het eerste criterium wordt gekeken naar de significantie van de R1c-toets. Dit is een globale toets die aangeeft of het gebruikte IRT-model past voor al de toetsopgaven samen. Wanneer deze toets significant is, kan men besluiten dat het model niet voldoende bij de empirische gegevens aansluit. Wanneer de analyses betrekking hebben op een grote groep leerlingen, wordt de R1c-toets zeer streng. Als alternatief stelden Sijtstra, van der Schoot en Hemker (2002) een tweede criterium voor dat als richtlijn gehanteerd wordt bij de Nederlandse peilingsonderzoeken. Zij stellen dat significante afwijkingen van de R1c weinig betekenis hebben, zolang de waarde van R1c niet meer dan een factor 1.5 afwijkt van het aantal vrijheidsgraden. Wanneer we nu de 16 volledige toetstaken (i.e. 94 items) opnemen in een OPLMmodel waarbij we telkens het geometrische gemiddelde laten variëren, stellen we vast dat zowel voor een model met een geometrische gemiddelde van 2 als voor een model met 3 of 4 als geometrische gemiddelde er telkens minstens 10 items zijn (respectievelijk 11, 10 en 10) die aan de hand van de individuele item-fittoetsen significant zijn (p < .05) en dus als niet passend beschouwd kunnen worden. Het model wordt dus nauwelijks beter als men de variabiliteit van de discriminatieparameters laat toenemen. Dit betekent dat we het model enkel kunnen verbeteren door items te verwijderen. Indien we onze eerder geconstrueerde schaal toetsen aan de hand van het model, krijgen we de volgende resultaten: in het OPLM-model met een geometrische gemiddelde van 2 voor de discriminatieparameters worden 7 niet-passende items gevonden (p < .05). Vervolgens werd een model getoetst waarbij het geometrische gemiddelde verhoogd is tot 3. De discriminatieparameters varieerden tussen 2 en 4.
29
Hoewel dit model niet voldeed aan het eerste criterium voor de R1c-toets (R1c = 1348.37 vg = 1126, p < .001), paste dit wel op basis van het tweede criterium (R1c/vg = 1.20). Verder was voor slechts drie items van de 78 (namelijk ‘Rommel in de klas 4’, ‘Varken en rups 4’ en ‘Pizza maken 1’) de individuele itemfit-toets significant (p < .05). Verdere aanpassingen aan het model door een verdere verhoging van het geometrische gemiddelde, alsook het verwijderen van items uit de schaal, zorgden niet voor een beter passen van het model. Alle items werden dan ook in de uiteindelijke meetschaal behouden. Bijlage 8 geeft een overzicht van de kalibratieresultaten van deze analyse. Besluit De bekomen schalen in het OPLM-model en in het Raschmodel zijn volledig analoog (zie bijlage 9 voor een vergelijking van de geschatte itemlogits). Het hanteren van een OPLM-model waarbij het geometrische gemiddelde van de discriminatieparameters gelijk is aan 3, resulteerde in een schaalconstructie met een goede fit (R1c/vg = 1.20). De toepassing van het Raschmodel geeft een vergelijkbare fitmaat die onder het criterium van 1.5 vrijheidsgraden valt, R1c/vg = 1.35. We kunnen dus besluiten dat we de eerder geconstrueerde schaal (in tabel 17) kunnen behouden. 4.8
Achtergrondgegevens
Dit hoofdstuk geeft inzicht in welke mate achtergrondkenmerken een impact hebben op de resultaten van de leerlingen in het kalibratie-onderzoek. De achtergrondkenmerken waarover we beschikken zijn thuistaal en opleidingsniveau van de moeder, twee variabelen waarvan uit eerder onderzoek herhaaldelijk is gebleken dat ze een invloed hebben op de prestaties van leerlingen (cf. Colpin e.a., 2006). Aan het eind van dit hoofdstuk wordt een advies uitgebracht m.b.t. de inzetbaarheid van SALTO in alle Vlaamse basisscholen. Aan de meewerkende scholen werd gevraagd om hun instellingsnummer en voor elke leerling het stamboeknummer door te geven. Zo konden de achtergrondgegevens waarover het Departement Onderwijs van de Vlaamse Gemeenschap beschikt (o.b.v. de bevraging aan het begin van het schooljaar 2007-2008), gekoppeld worden aan de resultaten die werden verzameld binnen dit onderzoek. De stamboeknummers werden in eerste instantie schriftelijk en in verschillende vormen doorgegeven, wat een aantal foute gegevens opleverde. Deze fouten werden hersteld, en uiteindelijk was het resultaat van de koppeling succesvol: voor 1496 leerlingen kon er een link gemaakt worden. Voor de 34 leerlingen die niet gekoppeld konden worden, ontbrak het stamboeknummer of was er een verkeerd nummer doorgegeven. 4.8.1 Welke achtergrondgegevens? Via het Departement Onderwijs konden we beschikken over de volgende variabelen: 1. Thuistaal, geoperationaliseerd door de dummyvariabele ‘gok_taal1’. Dit is een dichotomisering van de eerder geconstrueerde variabele ‘gokgeztaal’ die bestaat uit de volgende waarden:
30
gok_taal1 Thuistaal
gokgeztaal
Thuistaal
0
Nederlands
1
Exclusief Nederlands met alle aanwezige soorten gezinsleden
0
Nederlands
2
Nederlands met alle aanwezige soorten gezinsleden
0
Nederlands
3
Nederlands met 2 van de drie soorten gezinsleden, geen Nederlands met 1 ander soort gezinslid
1
Niet- Nederlands
4
Nederlands met 1 van de drie soorten gezinsleden, geen Nederlands met 2 andere soorten gezinsleden
1
Niet- Nederlands
5
Geen Nederlands
9999
9999
Missing
Tabel 19: (Her)codering van Thuistaal
De variabele ‘gokgeztaal’ werd gehercodeerd naar de variabele ‘gok_taal1’ waarbij 0 staat voor (bijna uitsluitend) Nederlands als thuistaal en 1 staat voor (bijna uitsluitend) niet-Nederlands als taal die thuis gesproken wordt. Wat betreft taal was ‘gok_taal1’ de enige variabele waarover we konden beschikken om onze analyses uit te voeren. We definiëren deze variabele verder in de tekst als ‘Thuistaal’. 2. Opleiding moeder: hiervoor beschikken we over zowel de ruwe variabele (‘dipma’) als de gehercodeerde dummyvariabele (‘dipma_dummy’). Tabel 20 geeft een overzicht van de waarden van beide variabelen: Dipma_dummy Diploma moeder
dipma
Diploma moeder
1
Laag opgeleid
1
Geen diploma lager onderwijs
1
Laag opgeleid
2
Lager onderwijs
1
Laag opgeleid
3
Lager secundair onderwijs
0
Hoog opgeleid
4
Hoger secundair onderwijs
0
Hoog opgeleid
5
Hoger onderwijs
9999
9999
Missing
Tabel 20: (Her)codering van opleidingsniveau van de moeder
4.8.2 Verdeling leerlingen op basis van achtergrondgegevens De verdeling van de leerlingen van het eerste leerjaar voor wat betreft het opleidingsniveau van de moeder en de taal die thuis gesproken wordt, ziet er als volgt uit:
Diploma moeder Geen diploma lager onderwijs Lager onderwijs Lager secundair onderwijs Hoger secundair onderwijs Hoger onderwijs Totaal
Nederlands 45 96 223 292 177 833
Thuistaal Niet-Nederlands 162 115 136 111 53 577
Totaal 207 211 359 403 230 1410 5
Tabel 21: Verdeling van de leerlingen over Thuistaal en Opleiding Moeder 5
Bij 86 gekoppelde leerlingen ontbraken er waarden voor één of beide achtergrondvariabelen. Deze werden daarom niet opgenomen in de analyses.
31
Uit de tabel blijkt dat 59 % van de leerlingen Nederlands als thuistaal hebben, versus 41 % waarbij Nederlands niet de dominante taal is. Ongeveer 45 % van de leerlingen heeft een hoog opgeleide moeder, versus 55 % waarvan de moeder een lager (secundair) onderwijsdiploma of geen diploma bezit. We kunnen uit de kruistabel vier soorten groepen afleiden: 1) Thuistaal Nederlands / Hoog opgeleide moeder (33.3%), 2) Thuistaal Nederlands / Laag opgeleide moeder (25.8%), 3) Thuistaal niet-Nederlands / Hoog opgeleide moeder (11.6%) en 4) Thuistaal niet-Nederlands / laag opgeleide moeder (29.3%). Een Chi²-toets toont aan dat beide variabelen niet onafhankelijk van elkaar zijn: χ² = 107.100, p < .001. Er is dus een duidelijk verband tussen het opleidingsniveau van de moeder en de taal die thuis gesproken wordt. 4.8.3 Analyses Voor de statistische analyses werd een beroep gedaan op een univariate variantieanalyse waarbij luistervaardigheid (uitgedrukt in logits) wordt gedefinieerd als afhankelijke variabele en waarbij Thuistaal en Opleiding Moeder worden gedefinieerd als onafhankelijke variabelen. Zo bekomen we een 2x2 factorendesign waarbij hoofdeffecten en een eventueel interactie-effect nagaan kunnen worden. Tabellen 22 en 23 geven de resultaten van de variantie-analyse weer. In tabel 22 kunnen we ten eerste vaststellen dat er een significant hoofdeffect is van de variabele thuistaal, F(1.3) = 260.116, p<.001: de leerlingen die thuis Nederlands spreken, hebben gemiddeld een hogere luistervaardigheid dan de leerlingen die thuis geen Nederlands spreken (1.801 versus 0.689). We vinden eveneens een hoofdeffect van het opleidingsniveau van de moeder, F(1.3) = 62.962, p<.001: leerlingen met een hoog opgeleide moeder doen het gemiddeld beter dan leerlingen met een moeder van een laag opleidingsniveau (1.781 versus 0.992). Ten slotte wordt er een (zwak) significant interactie-effect tussen de thuistaal en het opleidingsniveau gevonden, F(1.3) = 5.378, p<.05: wanneer men thuis geen Nederlands praat én wanneer de moeder laag opgeleid is, mag men relatief lage prestaties op luistervaardigheid kan verwachten. Tabel 23 geeft de gemiddelden en de standaarddeviaties van de vier groepen weer. De eerste groep Thuistaal Nederlands / Hoog opgeleide moeder (2.074) presteert beter dan de tweede groep Thuistaal Nederlands / Laag opgeleide moeder (1.450), die het op haar beurt beter doet dan Thuistaal Niet-Nederlands / Hoog opgeleide moeder (0.944). De laatste groep Thuistaal niet-Nederlands / Laag opgeleide moeder presteert het slechtst (0.689). De proportie verklaarde variantie bedraagt 24 %, wat betekent dat ongeveer een vierde van de variatie in vaardigheidsscores bepaald wordt door de thuistaal en het opleidingsniveau van de moeder. Type III Sum of Squares 515.677(a)
df
Mean Square
F
Sig.
3
171.892
151.162
.000
Intercept
1907.420
1
1907.420
1677.379
.000
Thuistaal
295.789
1
295.789
260.116
.000
Opleiding moeder
71.597
1
71.597
62.962
.000
Thuistaal * Opleiding moeder
5.378
1
5.378
4.730
.030
Error
1598.824
1406
1.137
Total
4669.139
1410
Corrected Total
2114.501
1409
Corrected Model
Tabel 22: Variantie-analyse met Thuistaal en Opleiding Moeder (a R Squared = ,244 (Adjusted R Squared = ,242))
32
Thuistaal Nederlands
Niet-Nederlands
Totaal
Opleiding Moeder Hoog Laag Total Hoog Laag Total Hoog Laag Totaal
Gemiddeld 2.073 1.445 1.801 .944 .588 .689 1.781 .992 1.346
Std. Deviatie 1.050 1.091 1.112 1.061 1.064 1.074 1.163 1.159 1.225
N 469 364 833 164 413 577 633 777 1410
Tabel 23: Gemiddelden, standaarddeviatie per groep
groep
NED/LAGE OPL
NIET NED/HOGE OPL
NIET NED/LAGE OPL
6,000
6,000
5,000
5,000
4,000
4,000
3,000
3,000
2,000
2,000
1,000
1,000
0,000
0,000
-1,000
-1,000
-2,000
-2,000
-3,000
-3,000
-4,000
-4,000 0
10
20
30
40
Frequency
500
10
20
30
40
Frequency
500
10
20
30
40
500
logit2
logit2
NED/HOGE OPL
10 20 30 40 50
Frequency
Frequency
Figuur 4: De spreiding van de logits per groep; de cesuren zijn aangegeven
Een additionele regressie-analyse waarbij beide factoren (beiden gecodeerd als dummy-variabelen) werden opgenomen als predictoren, toont aan dat zowel Thuistaal (β= -.387) als Opleiding moeder (β= -.214) significante voorspellers zijn voor luistervaardigheid. De relatieve regressiecoëfficiënten tonen eveneens aan dat Thuistaal een sterkere voorspeller is dan Opleiding moeder.
33
4.9 Controle op mogelijke scheeftrekkingen Bij de steekproeftrekking is vermeld dat twee aspecten mogelijk voor een vertekening van de resultaten kunnen zorgen, namelijk het feit dat er 1) in 8 scholen gevraagd is om leerlingen (zo heterogeen en representatief mogelijk) te selecteren en 2) dat de steekproef getrokken is op basis van geboortejaar, terwijl de uiteindelijke onderzoeksgroep intacte klassen zijn (met dus leerlingen uit andere geboortejaren). Daarom zijn er een aantal controlerende analyses uitgevoerd. 4.9.1 Mogelijke vertekening door selectie van leerlingen Het zou kunnen dat het doelbewust selecteren van leerlingen in de acht scholen een scheeftrekking van resultaten zou kunnen veroorzaken in de steekproef. Indien men bijvoorbeeld systematisch de meer taalvaardige leerlingen of de niet-zittenblijvers zou kiezen (hoewel aan die scholen gevraagd was dit niet zo te doen), zou dit een verkeerd beeld van de getrokken steekproef geven. Een Chi²-toets toonde echter aan dat er geen afhankelijkheid bestond tussen het al dan niet behoren tot deze acht scholen en het al dan niet zittenblijven (Chi²= 3.168, p > .05). De verhouding zittenblijven versus niet-zittenblijven was min of meer dezelfde voor de acht scholen als voor de rest van de scholen van de steekproef. Met behulp van een t-toets werd eveneens vastgesteld dat er geen significant verschil (t(1528)= -1.521, p = .129) was tussen gemiddelde luistervaardigheid van de acht scholen en die van de overige scholen (1.479 versus 1.345). 4.9.2 Geboortejaar Vermits we informatie hadden over het geboortejaar van de leerlingen, konden we 1) nagaan of er een verschil is in vaardigheid tussen al dan niet zittenblijvers en 2) controleren in welke mate zittenblijven een invloed heeft op de unidimensionaliteit van de geconstrueerde schaal. Zittenblijven versus niet-zittenblijven. Met een t-toets werd nagegaan of de gemiddelde vaardigheid van de leerlingen die hun jaar één of meerdere keren overdoen, verschilt van de gemiddelde vaardigheid van de leerlingen die in het juiste jaar zitten volgens hun leeftijd. Er werd vastgesteld dat de niet-zittenblijvers het significant beter deden dan de zittenblijvers (t(1521)= 3.684, p < .001). De gemiddelde logit van de niet-zittenblijvers bedroeg 1.421 versus 1.136 van de zittenblijvers. Unidimensionaliteit Om na te gaan of de geconstrueerde schaal hetzelfde meet bij zittenblijvers (i.e. geboortejaar 2000 of ouder) als bij niet-zittenblijvers (i.e. geboortejaar 2001), is gebruik gemaakt van een interne validatietechniek (beschreven in Bond & Fox, 2007). Bij deze procedure worden de geschatte itemlogits van beide steekproeven (in dit geval de zittenblijvers versus de niet-zittenblijvers) tegenover elkaar afgezet in een scatterplot. Voor elk van de 78 items worden dus twee schattingen van moeilijkheidsgraad gemaakt: één op basis van de leerlingen van het geboortejaar 2001 en één op basis van de leerlingen die één of meerdere jaren ouder zijn. Verder benadrukken we dat voor beide groepen de gemiddelde moeilijkheidsgraad automatisch op 0 logits wordt gezet. In figuur 5 stelt de diagonale stippellijn het verband voor indien de twee sets van items volledig invariant zouden zijn (i.e. volledig zonder meetfouten). In dit ideale geval zouden alle geplotte punten exact op deze lijn moeten vallen. Uiteraard is dit in de praktijk nooit het geval en moet er rekening gehouden worden met meetfouten. Het Raschmodel voorziet voor elke 34
schatting van een itemlogit ook een schatting van de meetfout. Deze schattingen kunnen we gebruiken om controlelijnen (i.e. 95 % betrouwbaarheidsinterval) te construeren rond de diagonale lijn.
Figuur 5: Controle op de geboortejaren
In de figuur kunnen we door simpele visuele inspectie vaststellen of er genoeg punten (i.e. 95% of meer) binnen deze controlelijnen vallen. We stellen vast dat slechts drie items (3.9 %) nét buiten het betrouwbaarheidsinterval liggen. We kunnen dus aannemen dat de schattingen van de itemlogits invariant blijven, desondanks ze van verschillende steekproeven komen. Met andere woorden kunnen we concluderen dat de unidimensionaliteit van de geconstrueerde schaal gewaarborgd blijft. 4.10
Extra analyses: Fits van de schaal voor de subgroepen
Dit hoofdstuk behandelt een aantal bijkomstige analyses om na te gaan of de geconstrueerde schaal al dan niet onderhevig is aan de invloed van achtergrondgegevens, namelijk de opleiding van de moeder en de thuistaal. In een eerste deel wordt nagegaan of het model overeind blijft indien we enkel een bepaalde subgroep nemen voor de constructie van de schaal. Het tweede luik geeft een visuele vergelijking van de subgroepen weer ten opzichte van de totale steekproef. 4.10.1 Constructie van de schaal op basis van subgroepen Zoals in hoofdstuk x beschreven werd er op basis van 1530 leerlingen van het eerste leerjaar een schaal ontwikkeld bestaande uit 78 items verspreid over 16 toetstaken. Om na te gaan of deze constructie valide blijft, werden verschillende simulaties gedraaid op basis van een aantal subgroepen. Deze subgroepen werden samengesteld aan de hand van de achtergrondvariabelen Thuistaal en Opleiding moeder. Tabel 24 geeft een overzicht van de parameters van deze simulaties: gemiddelde vaardigheid (uitgedrukt in logit), het aantal leerlingen in de subgroep, de globale fitindex (Chi²-toets) van het model, de betrouwbaarheidsmaat PSI en de eventueel misfittende items worden weergegeven.
35
Subgroep
Gemiddelde vaardigheid
Aantal leerlingen
Globale Fitindex
PSI
Misfittende items
Nederlands
1.833
833
.100961
.755
-
NietNederlands
.683
577
.233190
.812
-
Opleiding hoog
1.799
633
.139295
.779
Varken en rups_4
Opleiding laag
.992
777
.132313
.819
-
Nederlands hoge opleiding
2.102
469
.559008
.710
Mug en olifant_1*
1.474
364
.165892
.770
-
.955
164
.072222
.801
Juf Myriam_4
.586
413
.153903
.812
-
Nederlands lage opleiding NietNederlands hoge opleiding NietNederlands lage opleiding
Tabel 24: IRT-analyse per subgroep * Dansje_4 werd in deze schaal niet opgenomen vermits alle leerlingen van deze subgroep het item correct beantwoordden
Wat betreft de verdeling van de subgroepen werd er in eerste instantie een opsplitsing gemaakt op basis van één variabele. Eerst maakten we de opsplitsing tussen thuistaal Nederlands en niet-Nederlands, vervolgens deden we hetzelfde voor opleiding van de moeder. In een tweede fase werden beiden variabelen gebruikt met als resultaat de vier eerder besproken subgroepen. Voor elke gecreëerde subgroep werd een afzonderlijke IRT-analyse gedraaid. Als we kijken naar de gemiddelde vaardigheid van de verschillende subgroepen, dan stellen we vast dat die analoog is aan de bevindingen in vorig hoofdstuk: een hoge opleiding van de moeder resulteert in een hogere gemiddelde vaardigheid dan een lage opleiding, ook de gemiddelde logit van de Nederlandse subgroep is beduidend hoger dan die van de Niet-Nederlandse. De opdeling in de vier subgroepen weerspiegelt eveneens dezelfde gevonden hiërarchie: de eerste groep Thuistaal Nederlands / Hoog opgeleide moeder doet het beter dan de tweede groep Thuistaal Nederlands / Laag opgeleide moeder, die het op haar beurt beter doet dan Thuistaal Niet-Nederlands / Hoog opgeleide moeder, de laatste groep Thuistaal nietNederlands / Laag opgeleide moeder weerspiegelt de laagste gemiddelde vaardigheid. Merk op dat deze gemiddelde vaardigheden licht verschillen met die uit het vorige hoofdstuk doordat hier telkens onafhankelijk een schaal geconstrueerd werd op basis van één bepaalde subgroep, in tegenstelling tot het voorgaande waar één schaal werd ontwikkeld op basis van de totale steekproef. Wat betreft modelfit, stellen we vast dat deze voor elke individuele IRT-analyse goed zit: elke ‘item-trait-interaction’ fitindex heeft een Chi²-probabiliteit die niet significant is (p > .05) wat aangeeft dat voor elke subgroep de data telkens passen in het theoretische model.
36
Vervolgens aanschouwen we de Person Separation Index, de eerder besproken betrouwbaarheidsmaat. Ook hier bemerken we goede resultaten: over de verschillende modellen heen varieert de PSI van .71 tot .82, wat betekent dat de gegenereerde itemfitstatistieken voldoende (.65 is de minimum acceptabele grens) betrouwbaar zijn. Ten slotte bekijken we de laatste kolom van tabel 24. Deze geeft per model de individueel misfittende items weer. We stellen vast dat er nauwelijks misfittende items voorkomen. Enkel voor de subgroepen Hoog opgeleide moeder, Thuistaal Nederlands / Hoog opgeleide moeder en Thuistaal niet-Nederlands / Hoog opgeleide moeder vinden we telkens één misfittend item, respectievelijk zijn dit de items ‘Varken en rups 4’ uit versie A (Fitresidual = -2.861), ‘Mug en olifant 1’ uit versie C (Chi² = .000036) en ‘Juf Myriam 4’ uit versie C (Fitresidual = 2.543). Uit deze bevindingen kunnen we besluiten dat indien men een schaal zou construeren op basis van een bepaalde subgroep in plaats van de totale steekproef, de nieuw geconstrueerde schaal intact blijft: zowel voor het globale model als voor de individuele items worden telkens goede fitindices gevonden, ook de betrouwbaarheid blijkt voor elk model meer dan voldoende. 4.10.2 Vergelijking van de schaal van de totale steekproef met de schalen van de subgroepen In deze paragraaf wordt op een visuele manier een vergelijking gemaakt van de schaal die ontwikkeld werd op basis van de totale steekproef en de schalen die geconstrueerd werden aan de hand van een bepaalde subgroep (i.e. Nederlands, Niet-Nederlands, Hoog opgeleide Moeder en Laag opgeleide Moeder). Dit gebeurt door de eerder beschreven validatietechniek (Bond & Fox, 2007) waarbij de geschatte itemlogits van beide steekproeven (in dit geval de totale steekproef versus een substeekproef) tegenover elkaar worden afgezet in een scatterplot. Voor elk van de 78 items worden dus telkens twee schattingen van moeilijkheidsgraad gemaakt. Eveneens voorziet elk model voor elke schatting van een itemlogit ook een schatting van de meetfout. Deze schattingen kunnen we wederom gebruiken om controlelijnen (i.e. 95 % betrouwbaarheidsinterval) te construeren. In figuur 6 stellen we vast dat er in elke scatterplot nooit meer dan 5 procent van de items buiten de controlelijnen liggen: voor Nederlands zijn dit twee items (2,6 %), voor Niet-Nederlands en Hoge opleiding moeder zijn dit drie items (3,9 %). Voor Lage opleiding moeder worden geen items gevonden buiten het betrouwbaarheidsinterval. We kunnen dus besluiten dat de schattingen van de itemlogits invariant blijven, ongeacht ze van de totale steekproef of een substeekproef komen. Met andere woorden blijft de unidimensionaliteit van de geconstrueerde schaal behouden.
37
Figuur 6: Scatterplots van itemlogits o.b.v. de gehele steekproef versus diverse substeekproeven
4.11 Differential Item Functioning (DIF) Dit deel behandelt de zogenaamde DIF (Differential Item Functioning) waarbij we nagaan in welke mate de schaal individuele itembias vertoont voor deze twee achtergrondvariabelen. Men spreekt van DIF wanneer leerlingen uit verschillende subgroepen, maar met een vergelijkbaar prestatieniveau op een bepaalde vaardigheid, een ongelijke kans hebben om een item juist op te lossen (van Schilt-Mol, 2007). We onderscheiden twee soorten: uniforme en niet-uniforme DIF. Uniforme DIF bij een item wordt aangeduid als een significant hoofdeffect van een variabele (in dit geval Thuistaal of Opleiding moeder). Hierbij vertoont één groep een systematisch consistent verschil over verschillende niveaus heen met een andere groep wat betreft een item. Niet-uniforme DIF wordt aangeduid als een significant interactie-effect tussen het achtergrondkenmerk en een ‘class interval’ 6 van een variabele. Dit komt voor wanneer de verschillen tussen groepen variëren over verschillende niveaus. 6
In een IRT-analyse wordt de steekproef per item opgedeeld in een aantal groepen (class intervals) die verschillen van vaardigheid.
38
Indien er DIF optreedt, is het zaak om vervolgens na te gaan of er bij die items ook sprake is van itembias, m.a.w. of de DIF niet veroorzaakt wordt die factoren die niets te maken hebben met wat men als construct wil meten (in dit geval begrip van schooltaal), waardoor additionele kennis en vaardigheden buiten het beoogde domein een rol gaan spelen bij het beantwoorden van het item. De tabel in bijlage 10 geeft een overzicht van de uniforme en niet-uniforme DIF voor beide achtergrondvariabelen. De items die DIF vertonen zijn aangeduid in het grijs. Voor de variabele Opleiding moeder treedt er geen DIF op. Voor de variabele Thuistaal stellen we uniforme DIF vast bij drie items: voor ‘Dansje 1’ en ‘Dansje 6’ en ‘Juf is jarig 4’ wordt gevonden dat de leerlingen die thuis Nederlands spreken, een grotere kans hebben om deze items juist te beantwoorden dan de leerlingen die thuis geen Nederlands spreken. Verder is er één item, ‘Verhaaltjes 1’, dat niet-uniforme DIF vertoont (en zich dus uit in een interactie-effect tussen vaardigheid en Thuistaal): hier stellen we vast dat minder vaardige niet-Nederlandstalige leerlingen het beter doen dan de minder vaardige Nederlandstalige leerlingen. Bij meer vaardige leerlingen stellen we het omgekeerde vast: hier doen de Nederlandstalige leerlingen het wel beter dan de niet-Nederlandse leerlingen. Uit de plaats van de items op de schaal en binnen de uiteindelijke verschillende parallelle toetsversies (zie volgend hoofdstuk) blijkt het volgende: - 2 items komen uit de A-versie (‘Juf is jarig 4’ en ‘Verhaaltjes 1’ (ook in C)), de 2 items uit ‘Dansje’ komen uit de B-versie. - De 4 items liggen niet op de cesuurpunten: In de A-versie: ‘Verhaaltjes 1’ ligt er ver boven (plaats 34 in A, 35 in C) en ‘Juf is jarig 4’ er ver onder (plaats 12). In de B-versie: ‘Dansje 1’ ligt er ver onder (plaats 10) en ‘Dansje 6‘ erboven, plaats 33. Uit de analyses kunnen we besluiten dat er nauwelijks DIF voorkomt. Dit betekent dat het behoren tot een bepaalde subgroep bijna geen nadelige invloed heeft op de kans om items al dan niet correct op te lossen. Bovendien bevinden de items zich niet op beslissende punten in de schaal. Toch loont het de moeite om na te gaan of er zelfs bij deze enkele items sprake is van itembias. Daarvoor is een poging gedaan om de oorzaak te vinden van het minder functioneren van een bepaalde groep. Deze verklaringen zijn niet meer dan gissingen (cf. Uiterwijk (1994: 190): “Het is enerzijds moeilijk met zekerheid aan te geven welk itemelement de biasbron is en anderzijds blijkt dat bij sterk vergelijkbare items de ene keer wel sprake is van itembias en de andere keer niet”. 1) voor de items waar er DIF is waarbij de anderstalige leerlingen het minder goed doen: - ‘Dansje 1’: Daarbij zijn er mogelijk begripsproblemen bij 'beide' en 'zij', waarbij vooral ‘zij’ (in de betekenis van het lichaamsgedeelte) misschien niet zo bekend is en meer frequent gebruikt/begrepen als de meervoudige persoonsvorm 'zij'. - ‘Dansje 6’ bevat een dubbele instructie waarbij in de ‘foute’ tekeningen telkens één van beide instructies correct afgebeeld staat (geen enkele echte afleider zoals in andere items met dubbele instructies). Het is mogelijk dat anderstaligen één van de twee instructies goed hebben begrepen en dit hebben aangekruist, maar niet de combinatie van beide instructies begrepen hebben. 39
- ‘Juf is jarig 4’: De abstracte ruimtelijke termen 'langs' en 'rand' kunnen begripsproblemen veroorzaken. Het kan zijn dat leerlingen die hier niet vertrouwd mee zijn, zich vooral hebben laten leiden door een heel bekend woord als 'mooi' en dan gekozen hebben voor de taart die het mooist was en dus focussen op wat hij/zij wel begrijpen. 2) voor het item waar er DIF is waarbij de zwakke anderstalige leerlingen het beter goed doen dan de zwakke Nederlandstalige (‘Verhaaltjes 1’): Door de complexiteit van de DIF in dit geval zijn mogelijke verklaringen wel heel tentatief. Dit item vraagt dat de leerlingen begrijpen dat de jongen een pet draagt en op een glijbaan gaat spelen, dus dat ze bepaalde details uit het verhaal halen. Mogelijk concentreren sommige zwakke Nederlandstaligen zich meer op het globaal begrijpen en minder op deze details of doen ze zo hun best te begrijpen dat ze blijven hangen bij minder relevante elementen (ijsje) of slechts één element (glijbaan/pet) van het verhaal? Of Nederlandstalige leerlingen kennen mogelijk alle woorden, maar uiten hun zwakheid in de verbinding tussen de begrippen, terwijl anderstaligen net meer gaan focussen op woorden die ze kennen, zoals 'op' (een sterk visueel voorzetsel) en dan sneller kiezen voor het jongetje dat op de glijbaan zit (zij hebben mogelijk niet eens gedacht aan de combinatie pet + glijbaan + op). Of misschien hebben sommige zwakke anderstaligen dit item juist opgelost door logisch te redeneren en te selecteren eerder dan door de instructie goed te begrijpen: op de tekeningen staat drie keer een glijbaan en twee keer een jongen met pet, dus de oplossing zal wel de jongen met de pet op de glijbaan zijn? In ieder geval kan het presteren op dit item eveneens verklaard worden vanuit het al dan niet begrijpen van het geheel van linguïstische elementen. Uit dit alles concluderen we dat we geen etnisch-culturele of andere constructirrelevante elementen kunnen vinden die de DIF bij deze items zouden verklaren. De moeilijkheden die de items bevatten, kunnen allemaal geplaatst worden binnen het te meten construct (cf. parameters voor de moeilijkheidsgraad: enkel- of meervoudige instructie, linguïstische complexiteit, …). We kunnen dus stellen dat Salto een toets is die geen etnische of culturele bias vertoont. 4.12 Opmaak toetsinstrumenten Door gebruik te maken van een IRT-model hoeven leerlingen zoals reeds vermeld niet steeds dezelfde items te maken om toch onderling vergelijkbare vaardigheidsscores te verkrijgen. Dit geeft de mogelijkheid uit het geheel van toetsen een selectie te maken van een kleiner aantal luistertoetsen voor het uiteindelijke screeningsinstrument en dit zonder veel informatie te verliezen over de te schatten vaardigheid van de leerlingen. Bovendien kunnen op deze manier verschillende parallelversies van het toetsinstrument opgemaakt worden (zie verder tabel 25). In het kader van het huidige project werd ervoor gekozen om een basistoetsversie A op te stellen en twee mogelijke parallelversies van deze basisversie (B en C). Er werd gekozen om niet meer dan acht toetstaken in één versie op te nemen. In de eerste plaats mag de leerling niet overbelast worden. Zowel de pilot als de verslagen van de toetsassistenten in het kalibratieonderzoek hebben uitgewezen dat de tijdsinvestering vaak groter bleek dan voorzien: er was 50 minuten per toetsset vooropgesteld, terwijl het uiteindelijke gemiddelde meer dan een uur bedroeg (tot
40
zelfs 68 minuten). Een te lange toets is voor de concentratie van de leerlingen niet aangewezen. Acht toetstaken achten we dan ook het meest haalbare 7 . Verder werd er voor de samenstelling van de equivalente toetsen rekening gehouden met een aantal criteria: a) dekking van de te meten luisterdoelen, b) het soort toetsopdracht, c) analogie van toetstaken, d) het verkrijgen van voldoende informatie en e) de moeilijkheidsgraad. In bijlage 7 vindt u voor elke toetsversie de ingevulde toetsmatrijs met een overzicht van de toetstaken en de luisterdoelen die in deze taken aan bod komen. In elke toetsversie is variatie in soorten opdrachten voorzien. De mogelijke soorten opdrachten zijn: een kruisje zetten bij de juiste tekening, een tekening afwerken of een pijl trekken van of naar een bepaald voorwerp. Verder bevat een toetsversie geen analoge taken zoals bijvoorbeeld ‘Rommel in de klas’ en ‘Rommel in de eetzaal’. Voor de moeilijkheidsgraad van de toetstaken is er rekening gehouden met de volgende cruciale parameters: het onderwerp van de taak, de context, het perspectief dat de leerling moet innemen, het publiek, de tekstsoort, het verwerkingsniveau, de graad van visuele ondersteuning en de linguïstische complexiteit (zie tabel 3 bij 2.2.3 Parameters voor het bepalen van de moeilijkheid). In bijlage 11 vindt u bij wijze van illustratie een overzicht van waar de verschillende toetsitems in versie A zich qua moeilijkheid situeren voor de verschillende parameters. Voor de duidelijkheid zijn de parameters voorgesteld als afzonderlijke categorieën (eenvoudig, minder eenvoudig, complex), maar het spreekt voor zich dat het in werkelijkheid gaat om continua die geleidelijk van eenvoudig naar complex gaan. Enkele voorbeelden: - Een taak als 'Varken en rups' speelt zich af in het daar-en-toen, terwijl een taak als ‘Dansje’ zich concreet in het hier-en-nu afspeelt; - Voor de taak 'Een vingerpop knutselen' moet de leerling ook omgaan met enkele meer abstracte begrippen. - In de taak ‘Lievelingsboeken’ komen abstractere begrippen zoals gevoelens aan bod en moeten de leerlingen zich meer kunnen inleven.
7
Doordat er items uit enkele taken verwijderd worden voor de uiteindelijke versie, wordt de definitieve toets in tijdsduur ook iets korter en beter haalbaar voor de leerlingen, en wordt die geschat op 50 minuten in totaal.
41
De volgende tabel geeft de selectie van de toetstaken voor het screeningsinstrument weer. Daarbij is toetsversie A de basisversie en zijn toetsversies B en C mogelijke parallelversies. De taken zijn weergegeven in volgorde van afname. Toetsversie A Juf is jarig Verhaaltjes Juf Maaike Lievelingsboeken Varken en rups
Items 5 5 4 5 4
Versie B Dansje Pizza maken Varken en rups Fruitsla Juf Maaike
Items 6 6 4 4 4
Verjaardagsfeest
6
4
Een vingerpop knutselen Rommel in de eetzaal Totaal
4
Verloren voorwerpen Papieren vis
6
Rommel in de eetzaal
39
Items 5 4 5 5 4
5
Versie C Juf is jarig Juf Maaike Verhaaltjes Lievelingsboeken Rommel in de klas Doet Myriam het goed Mug en olifant
6
Verjaardagsfeest
6
39
6 4
39
Tabel 25: Basisversie A en parallelversies B en C
Bij het samenstellen van de equivalente toetsversies is ook rekening gehouden met de meetschaal waarop alle toetsitems uitgezet worden en met de logitwaarde van elk item. In tabel 26 staan de toetsitems uit elke toetsversie met de respectievelijke logitwaarden. Item
logit
SE
Juf_Maaike_2 Rommel_eetzaal_6 Verhaaltjes_5 Lievelingsboeken_4 Myriam_4 Varken_en_rups_4 Verhaaltjes_1 Pizza_maken_1 Rommel_klas_3 Pizza_maken_2 Verjaardag_5 Vingerpop_3 Vingerpop_2 Papieren_vis_5 Dansje_1 Lievelingsboeken_3 Varken_en_rups_1 Rommel_eetzaal_5 Juf_jarig_3 Varken_en_rups_2 Fruitsla_1 Mug_en_olifant_1 Verloren_voorw_3 Pizza_maken_4 Varken_en_rups_3 Mug_en_olifant_2
1.669 1.509 1.440 1.283 1.283 1.237 1.174 1.113 0.952 0.923 0.849 0.845 0.826 0.808 0.798 0.703 0.697 0.676 0.672 0.608 0.599 0.598 0.556 0.509 0.500 0.493
0.101 0.091 0.095 0.088 0.100 0.095 0.095 0.092 0.098 0.092 0.098 0.091 0.091 0.097 0.100 0.091 0.098 0.093 0.102 0.098 0.099 0.093 0.104 0.096 0.099 0.094
Versie A 39 38 37 36
Versie B 39 38
35 34
37
Versie C 39 38 36 37 35
36 34 35 33 32 31
33
34 33 30 29 28 27 26
32 32 31 31 30 29 30
25
28 27 26 29
42
Juf_Maaike_4 Myriam_5 Fruitsla_4 Rommel_klas_4 Lievelingsboeken_5 Juf_Maaike_3 Pizza_maken_3 Verloren_voorw_4 Pizza_maken_6 Papieren_vis_4 Verhaaltjes_3 Juf_jarig_2 Rommel_eetzaal_4 Papieren_vis_1 Rommel_klas_2 Fruitsla_2 Vingerpop_1 Verhaaltjes_4 Verjaardag_4 Mug_en_olifant_3 Papieren_vis_3 Myriam_1 Verloren_voorw_1 Verhaaltjes_2 Rommel_klas_1 Lievelingsboeken_1 Juf_Maaike_1 Verloren_voorw_2 Papieren_vis_2 Myriam_2 Dansje_6 Myriam_3 Juf_jarig_4 Verjaardag_3 Mug_en_olifant_4 Myriam_6 Dansje_2 Lievelingsboeken_2 Juf_jarig_5 Rommel_eetzaal_3 Juf_jarig_1 Fruitsla_3 Verjaardag_2 Dansje_3 Pizza_maken_5 Rommel_eetzaal_1 Dansje_5 Rommel_eetzaal_2 Verjaardag_6 Vingerpop_4 Verjaardag_1 Dansje_4
0.465 0.464 0.439 0.433 0.431 0.415 0.394 0.317 0.271 0.213 0.087 0.063 0.006 -0.035 -0.042 -0.046 -0.050 -0.070 -0.092 -0.180 -0.187 -0.249 -0.316 -0.339 -0.388 -0.427 -0.501 -0.533 -0.535 -0.558 -0.586 -0.626 -0.647 -0.670 -0.694 -0.726 -0.769 -0.797 -0.806 -0.818 -0.929 -0.981 -1.019 -1.089 -1.091 -1.142 -1.241 -1.242 -1.262 -1.391 -2.026 -2.217
0.105 0.107 0.101 0.102 0.093 0.105 0.097 0.107 0.099 0.103 0.106 0.111 0.101 0.108 0.110 0.108 0.101 0.109 0.111 0.104 0.111 0.121 0.120 0.115 0.118 0.109 0.123 0.126 0.120 0.130 0.123 0.132 0.130 0.127 0.116 0.135 0.128 0.120 0.136 0.121 0.141 0.135 0.140 0.140 0.135 0.132 0.146 0.136 0.150 0.140 0.196 0.201
24
25
28 27
24 23 22
21 20 19
23 22 21 20 19
26 25 24
23 22 18 17 21 16
18 17 16
20 19 18 15 17 14
15 14 13
13 12 11
16 15 14 13
12 10 11 10 9 8 7
12 11
9 10 9 8 7
6 5 8 4 7
6
5 4 3 2 1
3 6 5 4 3 2 2 1 1
Tabel 26: Item-data in de parallelversies
43
Voor het specificeren van de meetnauwkeurigheid worden binnen de itemresponstheorie continue functies gebruikt, meerbepaald iteminformatie- en toetsinformatiefuncties. De iteminformatiefunctie binnen het Raschmodel wordt als volgt gedefinieerd: I i (θ) = P(x i =1)* P(x i =0) Deze iteminformatiefunctie (IIF) is met andere woorden het product van de kans dat het item juist wordt opgelost en de kans dat het item verkeerd wordt opgelost. Zo kan voor elk item van de ontwikkelde toets de iteminformatie berekend worden en nagegaan worden welke bijdrage een item levert aan de meetnauwkeurigheid voor ieder punt op de vaardigheidsschaal. De toetsinformatiefunctie (TIF) is de som van de iteminformatiefuncties van een toets en wordt als volgt gedefinieerd: I t (θ) = ∑ I i (θ) waarbij i є t. De TIF is dus een curve die voor elke toets aangeeft hoeveel informatie ze verschaft voor een bepaald vaardigheidsniveau. Figuur 7 geeft een grafische voorstelling van de toetsinformatiefuncties van de parallelversies (versie A = blauw, versie B = rood en versie C = groen) weer.
It(θ)
θ Figuur 7: Toetsinformatiefuncties van de drie parallelversies
We stellen vast dat de curven van de drie versies elkaar overlappen. Naarmate de moeilijkheid toeneemt, neemt de hoeveelheid informatie toe, die een maximale waarde bereikt tussen de logitwaarden 1.1 en 1.5. Verder merken we op dat op de plaats van de bovenste cesuur (logitwaarde 0.672) de hoeveelheid informatie en dus ook de meetnauwkeurigheid vrij hoog is. Ook op de locatie van de onderste cesuur is de nauwkeurigheid groot (0.063).
44
Met behulp van de toetsinformatiefunctie valt eveneens de standaardfout te schatten van de vaardigheidsschattingen. Deze standaardfout wordt als volgt gedefinieerd: SE t (θ) = 1/ (I t (θ))1/2 Zo is het mogelijk om een betrouwbaarheidsinterval op te stellen rond de beide cesuurpunten (zie hoofdstuk 5) met behulp van de volgende formule: θ - Z α/2 * SE t (θ) ≤ θ ≤ θ + Z α/2 * SE t (θ) waarbij α de waarschijnlijkheid is dat het betrouwbaarheidsinterval de werkelijke waarde niet bevat en Z de met de betreffende α corresponderende waarde uit de standaardnormale verdeling. Zo werden voor zowel de volledige toets als voor de parallelversies 95%-betrouwbaarheidsintervallen berekend rond beide cesuurpunten. Vervolgens werd nagegaan in welke mate men op grond van deze betrouwbaarheidsintervallen een juiste beslissing kon maken. Dit is het percentage van leerlingen waarbij er geen overlap van betrouwbaarheidsintervallen bestaat en waarvan we dus met grote zekerheid kunnen zeggen dat ze tot een welbepaalde vaardigheidsgroep behoren. Voor de volledige toets kwam dit neer op 89.6 procent, voor de toetsversies A, B en C bedroeg dit percentage respectievelijk 80.3, 80.5 en 80.3 procent. De toetsen blijken dus voldoende informatie te geven over de capaciteiten van zowel de meer vaardige als de minder vaardige leerlingen. Anders gezegd, er is gezorgd voor een goede spreiding van toetstaken over de totale schaal: zowel moeilijke als makkelijke toetstaken werden in de verschillende versies opgenomen. Verder geeft de toetsinformatie ook zicht op de lokale meetnauwkeurigheid van de toetsen op bepaalde punten (in dit geval de cesuurpunten) van de vaardigheidsschaal. Deze blijken vrij hoog te zijn. Ook de mate waarin men tot een juist besluit kan komen is bevredigend voor de drie versies. In het volgende hoofdstuk wordt besproken hoe voor de geconstrueerde meetschaal deze cesuren werden vastgelegd.
45
5 Cesuurbepaling Naast de constructie van een screeningsinstrument werd ook de cesuurbepaling in dit onderzoeksproject uitgevoerd. Het voorstel was om voor dit instrument twee cesuren te bepalen. Dit hoofdstuk gaat dieper in op de wijze waarop de cesuren werden vastgelegd. Daarbij werd gebruik gemaakt van de Bookmarkprocedure (Janssen e.a., 2003; 2004; Cizek & Bunch, 2006) bij een groep van beoordelaars (zie 5.1). Eveneens werd getracht om de TAL te ankeren met het screeningsinstrument met het oog op extrapolatie van de TAL-cesuren (zie 5.2). 5.1 Cesuurbepaling met beoordelaars Op basis van de meetschaal, die aan de hand van de antwoorden van de leerlingen op de toetsitems werd ontworpen, wordt duidelijk hoe de toetsitems zich qua moeilijkheid tot elkaar verhouden. De meetschaal is daarbij als een toetsladder te omschrijven waarbij de toetsitems in toenemende mate van moeilijkheidsgraad zijn geplaatst. Bovendien is ook de (geschatte) vaardigheid van de leerlingen hierop aangegeven. Toch is daarmee de vraag of de leerlingen over een voldoende minimumniveau beschikken, niet beantwoord. Daarvoor is een cesuur nodig die het minimale niveau aangeeft dat een leerling dient te behalen op de meetschaal, wil men over een voldoende niveau kunnen spreken. In termen van de toetsladder komt dit neer op de vraag tot welk item leerlingen moeten kunnen opklimmen opdat ze het minimumniveau halen. Dat minimumniveau deelt de items van een meetschaal logischerwijs op in twee groepen: enerzijds items die beheerst moeten worden om het minimumniveau te halen en anderzijds items die een uitbreiding vormen van dat minimumniveau en bijgevolg niet hoeven beheerst te worden door leerlingen die de eindtermen behalen. 5. 1.1 De Bookmarkmethode Als methode van cesuurbepaling met beoordelaars werd de Bookmarkmethode (letterlijk: ‘bladwijzermethode’) van Mitzel et al. (2001) gekozen. Bij de Bookmarkmethode krijgen de beoordelaars de toetsitems in hun toetsboekje geordend in stijgende graad van moeilijkheid. Als index van moeilijkheidsgraad werd in dit onderzoek het punt op de meetschaal genomen waarop een leerling een kans van 1 op 2 heeft om het item juist op te lossen (1 kans op 2 omdat we hier te maken hebben met een Raschmodel). De taak van de beoordelaars bestaat erin om (figuurlijk gesproken) een bladwijzer te plaatsen tussen de twee items die de overgang vormen tussen items die wel beheerst moeten worden en items die nog niet beheerst moeten worden. Doordat alle toetsitems op een gemeenschappelijke schaal geplaatst werden, was het mogelijk de cesuurbepaling uit te voeren met een deelgroep van de items. Omdat het aanbieden van alle 16 overgebleven toetsen een te grote tijdsinspanning van de beoordelaars zou vragen en dit bovendien niet noodzakelijk was voor het vastleggen van de cesuren, is gebruik gemaakt van een selectie van acht taken met een verschillende gemiddelde moeilijkheidsgraad, meer bepaald de versie in tabel 27. De selectie van items die werd voorgelegd, bestreek de hele itemrange van de meetschaal. De misfittende items werden reeds uit de schaal verwijderd vóór het aanbieden.
46
Versie cesuurbepaling Hoepel Rommel in de klas Verjaardagsfeest Een vingerpop knutselen Doet Myriam het goed Juf is jarig Verhaaltjes Varken en rups Tabel 27: De acht toetstaken van de cesuurbepaling
Bij de cesuurbepaling kregen de beoordelaars, naast de concrete items in volgorde van de .50-kanspunten, ook een visuele weergave van de itemschaal met daarop de posities van de items volgens hun .50-kanspunten. Figuur 8 geeft deze itemschaal weer. Enkel de items uit de gekozen toetstaken werden op de schaal weergegeven. De itemschaal diende om de beoordelaars een overzicht te geven van de verschillen in moeilijkheidsgraad tussen de items. De beoordelaars moesten hun oordeel ook op deze meetschaal aanbrengen (zie 5.1.3.1 Beoordelingsrondes).
47
- - - - - - 40
Verhaaltjes_5 Myriam_4 Varken_en_rups_4 Verhaaltjes_1 Rommel_klas_3 Vingerpop_3 Verjaardag_5 Vingerpop_2 Varken_en_rups_1 Juf_jarig_3 Varken_en_rups_2 Varken_en_rups_3 Myriam_5 Rommel_klas_4 Verhaaltjes_3 Juf_jarig_2 Vingerpop_1 Rommel_klas_2 Verhaaltjes_4 Verjaardag_4 Myriam_1 Verhaaltjes_2 Rommel_klas_1 Myriam_2 Verjaardag_3 Myriam_3 Juf_jarig_4 Myriam_6 Juf_jarig_5 Juf_jarig_1 Verjaardag_2 Hoepel_5 Hoepel_2 Verjaardag_6 Hoepel_6 Vingerpop_4 Hoepel_1 Verjaardag_1 Hoepel_3 Hoepel_4
40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
39 - - - - - 37 -
-38
- - - - - - - - - - - - 36 35 - - - - 33 -------31 - - - - - - - - - - - -
- - - - - - 34 - - - - - - - - - - - - - - 32 - - - - - - - - - - - - 30
29 - - - - - - - - - - - 27 - - - - - -
25 23 - - - - - - - - - - - 21 - - - - - -
19 - - - - - - - - - - - - -
- - - - - - 28
-26 - - - - - - - - - - - - 24 - - - - - - 22
- - - - - - - - - - - - 20 - - - - - - - - - - - - 18
17 - - - - - - - - - - - 15 - - - - - 13 11 - - - - - - - - - - - 9------
- - - - - - 16 -14 - - - - - - - - - - - - 12 - - - - - - 10 -8
7-
------------6
5------------
------4
3------
-2
1-
Figuur 8: Itemschaal (van boven naar onder = van moeilijk naar gemakkelijk)
48
5.1.2 Twee cesuren: richtlijnen voor de beoordelaars De bedoeling van de cesuurbepaling van het screeningsinstrument is het vastleggen van twee cesuren. Die cesuren moeten een onderscheid aangeven tussen drie groepen van leerlingen. De beoordelaars kregen de volgende omschrijving van deze groepen: “Groep 1: Een groep leerlingen die beschikt over de schoolse taalvaardigheid Nederlands die minimaal nodig is om in een eerste leerjaar vlot tot leren te komen. Groep 2: Een groep leerlingen die net niet de schoolse taalvaardigheid Nederlands bezitten die minimaal nodig is om in een eerste leerjaar vlot tot leren te komen en voor wie bijgevolg de kans bestaat dat ze zwakker zal presteren in het eerste leerjaar, een zogenaamde risicogroep. De leerkracht zou er bijvoorbeeld toe kunnen overgaan om via observatie of andere vormen van brede evaluatie meer informatie te verzamelen over de betreffende leerlingen. Mogelijk spelen ook andere factoren dan taalvaardigheid een rol. Groep 3: Een groep leerlingen die niet over de minimale schoolse taalvaardigheid Nederlands beschikt die nodig is om in het eerste leerjaar te kunnen volgen, en die bijgevolg zeer grote kans lopen op leermoeilijkheden. Deze leerlingen zullen intensief moeten worden ondersteund.” Vertaald naar de toetsitems op de schaal betekent dit voor de beoordelaars dat ze op de meetschaal op twee plaatsen een 'lat' moesten leggen: - cesuur 1 (lat 1): “Welk is het moeilijkste item dat een leerling uit de eerste groep correct zou moeten oplossen?” of, anders geformuleerd: “Welk is opklimmend op de schaal - het laatste (= moeilijkste item) dat een leerling uit de niet-risicogroep correct moet uitvoeren”. Dit item vormt de ondergrens van de groep. Als je de vaardigheid bezit om het correct op te lossen, dan val je immers binnen die groep. - cesuur 2 (lat 2): “Welk is het moeilijkste item dat een leerling uit de tweede groep correct zou moeten oplossen?” of, anders geformuleerd: “Welk is opklimmend op de schaal - het laatste (= moeilijkste item) dat een leerling uit de risicogroep correct moet uitvoeren”. Dit item vormt de ondergrens van de groep. Als je de vaardigheid bezit om het correct op te lossen, dan val je immers binnen die groep. 5.1.3 Concreet verloop van de cesuurbepaling Voor de cesuurbepaling werd een groep van 17 personen 8 met diverse professionele achtergronden samengesteld. De groep bestond zowel uit leerkrachten als pedagogische begeleiders uit de drie onderwijsnetten (vrij, officieel en gemeenschapsonderwijs). Daarnaast werden ook beleidsmedewerkers en een lid van de inspectie in de groep opgenomen. De cesuurbepaling vond plaats in de gebouwen van het Departement Onderwijs in Brussel op woensdag 7 november 2007. De deelnemers kregen op voorhand per mail een korte beschrijving van de procedure. Als vergoeding voor hun deelname ontvingen ze een boekenbon van 25 € en een terugbetaling van hun verplaatsingsonkosten. 8
De 18e persoon heeft enkel de laatste ronde meegevolgd. Dat oordeel is daarom voor de uiteindelijke cesuurbepaling niet meegerekend.
49
5.1.3.1 Beoordelingsrondes De cesuurbepaling verliep in verschillende rondes. De beoordelaars kregen eerst een algemene inleiding waarin de opdracht werd gekaderd, en het doel en de eigenheid van het screeningsinstrument werden toegelicht. Daarna werden het opzet en doel van de cesuurbepaling verduidelijkt. Daarbij werd onder meer ingegaan op de idee van de toetsladder in het kader van de itemresponstheorie. Ook volgde er een toelichting bij de concrete beoordelingstaak die van de experts verwacht werd. Deze beoordeling diende te gebeuren op basis van de concrete inhoud van de items. Zo kan het gebeuren dat een cesuur helemaal onderaan een schaal wordt gelegd of helemaal bovenaan, al naargelang de beoordelaars de items van de schaal als erg moeilijk, dan wel als erg makkelijk, beoordelen. Een cesuur ligt dus zeker niet per definitie in het midden van de schaal. Ook werd benadrukt dat gewerkt werd vanuit een contributiemodel voor de uiteindelijke cesuur waarin elk individueel oordeel even zwaar weegt. Er werd van in het begin duidelijk gemaakt dat een consensus tussen de beoordelaars over de cesuur over de verschillende rondes dus geen doel op zich was. Bij de aanvang van de eerste ronde moesten de beoordelaars alle toetsitems van de acht toetstaken oplossen. Deze procedure werd gevolgd opdat de beoordelaars een goed zicht zouden krijgen op de concrete inhoud en cognitieve vereisten van de luistertaken en de toetsitems. Na het lezen en beantwoorden van de luistertoetsen dienden de beoordelaars de scoringsvoorschriften te bekijken. Na het overlopen van de scoringsvoorschriften kregen de beoordelaars een blad waarop de toetsitems in volgorde van moeilijkheidsgraad geordend waren, en de itemschaal die diende als houvast voor het vastleggen van de cesuur. Vervolgens dienden de beoordelaars een eerste oordeel uit te brengen over de twee cesuren. Elke beoordelaar bracht zijn of haar oordeel rechtstreeks aan op de itemschaal. De gegevens over de individuele oordelen werden in een elektronisch databestand ingevoerd ter voorbereiding van de tweede ronde. Na de eerste ronde volgde een korte pauze. Bij het begin van de tweede ronde kregen de deelnemers feedback over het oordeel voor de cesuren uit de eerste ronde. Deze feedback bestond uit informatie over de mediaan, het minimum en maximum van de oordelen die werden uitgebracht in de eerste ronde. Voor de tweede ronde werden de beoordelaars opgedeeld in drie groepen. Deze groepen waren op voorhand door de onderzoekers samengesteld. Hierbij werd gestreefd naar een evenwichtige verdeling qua beroepsachtergrond en onderwijsnet. Telkens werd gevraagd om een groepslid aan te duiden als gespreksleider. Vervolgens kregen de deelnemers de tijd om inhoudelijk te overleggen. Dit overleg stelde hen in staat om hun oordeel te beargumenteren en om hun eigen oordeel te toetsen aan dat van hun collega’s. Het overleg in elke groep werd bijgewoond door een lid van het onderzoeksteam dat als waarnemer optrad. Zij maakten een verslag van deze verschillende rondes. De discussies in de verschillende groepjes gingen vooral over de moeilijkheidsgraad van de items. Na dit overleg gaf elke beoordelaar – opnieuw individueel – een tweede oordeel. Deze gegevens werden opnieuw in een elektronisch databestand ingevoerd zodat ook in de laatste ronde feedback over de gegeven oordelen gegeven kon worden. Na de tweede ronde volgde een lunchpauze.
50
De derde ronde vond opnieuw plaats in de grote groep. Eerst werd aan de deelnemers de mogelijkheid gegeven eventuele opmerkingen of vragen te formuleren. Daarna werd feedback gegeven over de medianen, minima en maxima van de oordelen van de drie verschillende groepen. Daarbij werd aan de woordvoerders van elke groep de mogelijkheid geboden enige toelichting te geven. Daarna werd informatie gegeven over het percentage leerlingen uit het kalibratieonderzoek dat volgens de cesuren bekomen in de tweede ronde, ingedeeld kon worden als voldoende taalvaardig (dus het minimumniveau behalend), risicoleerling of een leerling die niet voldoende taalvaardig is om en dus zeker extra ondersteuning nodig heeft op het vlak van taalvaardigheid. Vervolgens was er opnieuw ruimte voor overleg. Dit overleg verliep op een constructieve en open manier. De discussie in ronde drie ging vooral over het verschil tussen de twee onderscheiden groepen onder de bovencesuur. Deze derde ronde werd afgesloten met het uitbrengen van een derde en laatste oordeel. Dit oordeel werd als basis genomen voor het vastleggen van de cesuren. Deze cesuren zijn voorgelegd aan de wetenschappelijke stuurgroep die een definitieve beslissing over de cesuren genomen heeft (zie verder). 5.1.4 Analyse van de oordelen Hieronder worden de resultaten van de verschillende rondes van de cesuurbepaling besproken. Telkens wordt aangegeven hoeveel procent van de leerlingen uit het kalibratieonderzoek de vooropgestelde cesuur behalen (enkel na ronde twee is dit gecommuniceerd met de beoordelaars). Ook is nagegaan wat het effect is van de drie beoordelingsrondes en of de gegeven beoordelingen in de verschillende samenhangen met de beroepsachtergrond van de beoordelaars. 5.1.4.1 Het effect van de beoordelingsrondes Om na te gaan wat het effect was van de drie beoordelingsrondes op de uitgebrachte oordelen, zijn in tabel 28 per ronde de mediaan, de onderste en bovenste kwartielpunten, alsook het minimum en maximum van de oordelen weergegeven. Ronde
Ronde 1 Ronde 2 Ronde 3
Cesuur
Cesuur 1 Cesuur 2 Cesuur 1 Cesuur 2 Cesuur 1 Cesuur 2
N
Minimum
17 17 17 17 17 17
18 6 19 9 25 19
Maximum
34 25 29 20 38 31
Kwartielen 25 50 (Mediaan) 24 8.5 24 10 29.5 21.5
27 11 27 11 31 25
75 28 13.5 27 12 36 27
Tabel 28: Verdelingskenmerken per ronde
Uit de tabel kunnen we afleiden dat beide cesuren na de tweede ronde ongewijzigd bleven: de bovenste cesuur van 27 en de onderste cesuur van 11 bleven behouden. Wel stellen we vast aan de hand van de p(ercentiel)25 en de p(ercentiel)75-punten (alsook het minimum en maximum) dat de spreiding van de oordelen verkleint. De discussieronde in drie groepjes zorgde er dus voor dat de oordelen meer overeenstemden, maar het totale oordeel bleef ongewijzigd. Eveneens werd er met behulp van Kruskal-Wallistoetsen 9 nagegaan of er een verschil was tussen de 9
De Kruskal-Wallistoets is de niet-parametrische versie van de ANOVA-toets.
51
oordelen van de drie groepjes. Deze toetsen toonden aan dat er geen significante verschillen tussen de groepen werden gevonden (p > .08). Na het tonen van de impactdata na de tweede ronde (i.e. 79 % voldoende, 18 % risico en slechts 3 % probleem) en het uitbrengen van het derde en laatste oordeel, was er wel een aanzienlijke verschuiving van beide cesuren. In de laatste ronde werden de cesuren respectievelijk verlegd naar 31 en 25: Juf jarig 3 en juf jarig 2. Vooral de tweede cesuur komt een stuk hoger te liggen. Het feit dat met een cesuur op 11 slechts 3% van de leerlingen in aanmerking zou komen voor extra ondersteuning (cf. impactdata, volgende paragraaf) was voor de meeste beoordelaars doorslaggevend om de onderste cesuur te verhogen. 5.1.4.2 Impactdata De laatste beoordelingsronde met cesuren 31 en 25 had de volgende impact op de kalibratiesteekproef: 72.3% van de leerlingen worden beschouwd als voldoende vaardig, 14.6 % van de leerlingen als risicoleerling en 13.1 % als zijnde probleemleerling. Aangezien werd geopteerd voor het trekken van een steekproef uit een aangepaste populatie van scholen met minstens 30% GOK-doelgroepleerlingen (zie paragraaf 4.2 Steekproefdesign), moet er rekening mee worden gehouden dat de impactdata niet gelden voor de volledige Vlaamse populatie (zie ook hoofdstuk 6). 5.1.4.3 Het effect van beroepsachtergrond Een interessante vraag is of leerkrachten (n=6) verschillen in hun oordeel in vergelijking met niet-leerkrachten (n=11). De medianen van de oordelen van de leerkrachten verschilden op geen enkel moment met de medianen van de oordelen van de andere beoordelaars. Het verschil tussen de oordelen van leerkrachten versus niet-leerkrachten werd statistisch getoetst met behulp van de MannWhitneytoetsen 10 . Deze resultaten waren niet significant (p >.10). Leerkrachten blijken in dit geval dus geen hogere of lagere drempels te hanteren dan nietleerkrachten. 5.1.5 De cesuren van de verschillende versies Voor de cesuurbepaling werd een model gebruikt dat de taken ‘Hoepel’ en ‘Jelle vertelt over zijn familie’ nog bevatte. Beide (te gemakkelijke) toetstaken pasten in het toen opgestelde model, maar zij werden nadien vervangen door twee moeilijkere toetstaken, ‘Fruitsla’ en ‘Verloren voorwerpen’. Deze wijziging had nauwelijks implicaties voor de schaal, maar het feit dat deze toetstaken ingebracht zijn, zorgt wel voor een betere discriminatie naar boven toe. In de uiteindelijke A-versie worden met andere woorden iets moeilijkere toetstaken gebruikt, zodat er ook meer naar boven gediscrimineerd kan worden. Bij een Bookmarkprocedure is het gelegitimeerd achteraf items toe te voegen, zolang de items rond de cesuurpunten maar behouden blijven (cf. Cizek & Bunch, 2006). Door het toevoegen van een aantal moeilijkere items worden beide cesuren geëxtrapoleerd naar lagere ruwe scores op de schaal. In de eerdere versie lagen de cesuurpunten (i.e. 31 en 25) op logits 0.81 en 0.274 - vermits deze versie iets gemakkelijker was. De twee vastgelegde cesuurpunten, de items ‘Juf is jarig 3 en 2’ liggen in de uiteindelijke versie op 27 (logit 0.672) en 20 (logit 0.063). Het extrapoleren van deze cesuren bracht nauwelijks een wijziging wat betreft de impactdata: 72.3 % voldoende, 13.4 % risico en 14.3 % probleem (in vergelijking met 72.3 %, 14.6 % en 13.1 %). 10
De Mann-Whitneytoets is de niet-parametrische versie van de t-toets.
52
Versie A 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Item
Logit
SE
Juf_Maaike_2 Rommel_eetzaal_6 Verhaaltjes_5 Lievelingsboeken_4 Varken_en_rups_4 Verhaaltjes_1 Verjaardag_5 Vingerpop_3 Vingerpop_2 Lievelingsboeken_3 Varken_en_rups_1 Rommel_eetzaal_5 Juf_jarig_3 Varken_en_rups_2 Varken_en_rups_3 Juf_Maaike_4 Lievelingsboeken_5 Juf_Maaike_3 Verhaaltjes_3 Juf_jarig_2 Rommel_eetzaal_4 Vingerpop_1 Verhaaltjes_4 Verjaardag_4 Verhaaltjes_2 Lievelingsboeken_1 Juf_Maaike_1 Juf_jarig_4 Verjaardag_3 Lievelingsboeken_2 Juf_jarig_5 Rommel_eetzaal_3 Juf_jarig_1 Verjaardag_2 Rommel_eetzaal_1 Rommel_eetzaal_2 Verjaardag_6 Vingerpop_4 Verjaardag_1
1.669 1.509 1.440 1.283 1.237 1.174 0.849 0.845 0.826 0.703 0.697 0.676 0.672 0.608 0.500 0.465 0.431 0.415 0.087 0.063 0.006 -0.050 -0.070 -0.092 -0.339 -0.427 -0.501 -0.647 -0.670 -0.797 -0.806 -0.818 -0.929 -1.019 -1.142 -1.242 -1.262 -1.391 -2.026
0.101 0.091 0.095 0.088 0.095 0.095 0.098 0.091 0.091 0.091 0.098 0.093 0.102 0.098 0.099 0.105 0.093 0.105 0.106 0.111 0.101 0.101 0.109 0.111 0.115 0.109 0.123 0.130 0.127 0.120 0.136 0.121 0.141 0.140 0.132 0.136 0.150 0.140 0.196
Tabel 29: Items in de A-versie
Het vaststellen van de cesuren van parallelversies gebeurt op een analoge manier: de logits van de vastgelegde cesuurpunten worden overgenomen in de parallelversies wat resulteert in een andere ruwe score. Een extrapolatie van de cesuur van basisversie A naar de equivalente toetsversies B en C geeft het volgende resultaat: Versie B Cesuur 1 Cesuur 2
Logitwaarde 0.676 0.213
Overeenstemmend met item 31 19
Versie C Cesuur 1 Cesuur 2
Logitwaarde 0.672 0.063
Overeenstemmend met item 31 22
Tabel 30: Extrapolatie cesuren naar de parallelversies
53
5.2 De ankering met de TAL 5.2.1 De TAL Naast het vaststellen van cesuren door een groep beoordelaars aan de hand van de Bookmarkmethode, werden de cesuren van SALTO ook vergeleken met die van de Taalvaardigheidstoets Aanvang Lager onderwijs (of TAL). De TAL (Werkgroep Taaltoetsen, 1995) heeft als doel de taalvaardigheid van leerlingen in kaart te brengen bij de aanvang van het lager onderwijs. De score op de toets geeft een beeld van de mate waarin de leerling over de taalvaardigheid beschikt die nodig is om te kunnen functioneren in het eerste leerjaar. Door een follow-uponderzoek (Van Berkel, 1995) is de validiteit van de TAL onderzocht. Hiervoor zijn vijfhonderd leerlingen op drie tijdstippen in het eerste leerjaar gevolgd, waarbij nagegaan is hoe hun op een eerder meetmoment vastgestelde taalvaardigheid zich verhield tot hun schoolprestaties later in het schooljaar. De schoolprestaties van de betreffende leerlingen zijn vastgelegd aan de hand van lees-, spelling en rekentoetsen. Uit dit predictief validiteitsonderzoek is gebleken dat de toets een goede voorspeller voor leerprestaties in het eerste leerjaar is. De TAL bestaat uit 50 items die het begrip van schooltaal meten. De TAL bevat twee drempels of cesuren: 46/50 als bovendrempel en 42/50 als onderdrempel. Deze drempels zijn bepaald op basis van toetsinterne criteria: 46/50 is de gemiddelde score van de autochtone Vlaamse leerlingen uit het betrouwbaarheidsonderzoek. Voor de onderdrempel is de volgende berekeningswijze gebruikt: het gemiddelde niveau van een autochtone leerling min een standaardafwijking voor die leerling. Leerlingen die onder de onderdrempel scoren “zullen naar grote waarschijnlijkheid problemen kennen in het eerste leerjaar”. Bij de leerlingen die tussen de twee drempels scoren “selecteert men een groep potentiële probleemgevallen.” Niet alle leerlingen in die groep zullen dus problemen kennen, er zitten met andere woorden een aantal vals positieve probleemleerlingen bij, maar het is wel goed om ook deze groep aandachtig op te volgen. Uit bovenstaande beschrijving mag duidelijk worden dat er aan de TAL een vergelijkbaar toetsdoel met dat van SALTO ten grondslag ligt. Beide toetsen beogen bij de groep leerlingen die start in het eerste leerjaar de risicoleerlingen te detecteren. De TAL heeft echter al een heel bestaan achter de rug. De toets is wijd verspreid over de scholen in Vlaanderen en is mogelijk ‘grijsgedraaid’ doordat met de toetsitems teveel geoefend is. Bovendien is het referentiekader rond schoolse taalvaardigheid zoals dat bij de aanmaak van de TAL werd gehanteerd, ook geëvolueerd. Daar waar toen vooral begrip van schoolse woordenschat centraal stond, is het huidige referentiekader meer gericht op zinvolle en cruciale taaltaken die leerlingen binnen een schoolse context moeten kunnen uitvoeren. Het construct van de nieuwe toets leunt daarmee veel dichter aan bij de huidige opvattingen van wat schoolse taalvaardigheid nu eigenlijk inhoudt (zie ook Inleiding). Toch is het bij de ontwikkeling van een nieuwe toets meer dan zinvol deze ook ten opzichte van een bestaande, verspreide en erkende toets met een gelijkaardig toetsdoel te plaatsen. Hoe verhoudt de nieuwe toets zich tot de oude? Met name met het oog op het vaststellen van cesuren voor het nieuwe instrument was het interessant om te kijken naar de cesuren van de TAL en wat het zou betekenen mochten de cesuren van de TAL ook gehanteerd worden bij de nieuwe toets. De TAL-cesuren werden immers met gegevens uit een predictief validiteitsonderzoek onderbouwd, iets wat binnen het ontwikkelingsproject van het nieuwe instrument niet mogelijk was. 54
5.2.2 Analyses Om de TAL met SALTO te vergelijken, moesten beide toetsen aan elkaar worden geankerd. Daarvoor werd bij een sample van leerlingen in het kalibratieonderzoek beide toetsen afgenomen. Of preciezer: de TAL werd bij dit sample leerlingen in het geheel afgenomen; voor het nieuwe instrument gold dat elke leerling slechts een set van acht taken aflegde, maar dat alle sets, en dus alle taken, bij dit sample voorkwamen. Zoals eerder vermeld gebeurde de TAL-afname in elke deelnemende school bij één groep leerlingen. We zouden daardoor van 668 leerlingen ook een TAL-score krijgen (zie tabel 14 in paragraaf 4.3.1). Uiteindelijk kregen we van 615 leerlingen het gemaakte TAL-toetsboekje terug. De verdeling over de provincies en de netten is als volgt:
Provincie Antwerpen BHG Limburg Oost-Vlaanderen Vlaams-Brabant West-Vlaanderen Totaal
Net Gemeenschaps- Officieel Vrij onderwijs gesubsidieerd Gesubsidieerd 45 36 53 26 19 34 63 20 36 70 17 42 16 10 9 83 9 27 303 111 201
Totaal 134 79 119 129 35 119 615
Tabel 31: Verdeling van de steekproef (n=615) voor de afname van de TAL
In tegenstelling tot de items van SALTO werden bij de TAL dus alle items door de 615 leerlingen afgelegd. Jobstudenten hebben op basis van de gemaakte toetsboekjes itemscores ingevoerd. Een analyse van de resultaten leverde de volgende toetsstatistieken op: N Gemiddelde Standaardfout van het gemiddelde Mediaan Standaarddeviatie Minimum Maximum
615 43.92 .226 45 5.60 12 50
Tabel 32: Resultaten op de TAL
Het is duidelijk dat het merendeel van deze leerlingen erg goed scoort op de TAL. 77% haalt de cesuur van 42 en 50% de cesuur van 46. De helft van de leerlingen scoort dus meer dan 90% op de toets. De volgende grafiek laat zien dat er aan de TAL een plafond zit bij deze groep, wat betekent dat er bij de voldoende taalvaardige leerlingen niet meer echt kan worden gediscrimineerd.
55
140
120
Frequentie
100
80
60
40
20
0 20
30
40
50
TALscore Figuur 9: Resultaten op de TAL
Een betrouwbaarheidsanalyse wees uit dat de TAL bij dit sample van 615 leerlingen goed betrouwbaar was (Cronbach’s alpha = .88). Eén item bleek iets minder betrouwbaar, namelijk item 1_9 ‘daarna’. De betrouwbaarheid van de TAL ligt daarmee in de buurt van de betrouwbaarheid van de nieuwe toets, als we kijken naar de Cronbach’s alpha’s die van elke set werden berekend. De alpha’s van de sets varieerden tussen de .87 en .91 (zie ook de tabel in paragraaf 4.7.3). In een volgende stap werd er gekeken of beide toetsen zouden kunnen worden geëquivaleerd. Een strenge equivalering vereist naast de basisvoorwaarde dat beide toetsen dezelfde vaardigheid meten en bij dezelfde groep even betrouwbaar zijn, nog dat er in de ene toets voor alle scores een unieke en symmetrische één-op-één relatie met scores in de andere toets kan worden gevonden. Het is duidelijk dat het in dit project niet de bedoeling was om met SALTO een perfect equivalente toets aan de TAL te maken. De verwachting was dan ook niet dat aan de strenge equivaleringseisen kon worden voldaan. Wel wilden we nagaan in welke mate er overeenstemming tussen de beide toetsen was. We wilden met name weten of de manier waarop de TAL de drie groepen leerlingen – probleemleerlingen, risicoleerlingen en niet-risicoleerlingen – onderscheidt, met andere woorden de TALcesuren, zouden kunnen worden overgezet naar het nieuwe instrument.
56
Een eerste verkenning op dit vlak bestond uit een correlatieanalyse. Daarin werden voor de TAL de ruwe totaalscores (de gesommeerde itemscores voor elke leerling) en voor SALTO de persoonlogits (op basis van de schaal met de 78 overgebleven items van de 16 behouden taken) betrokken. Voor SALTO konden we immers niet werken met ruwe totaalscores omdat bij de leerlingen in het sample geen gelijke set screeningsitems werd afgenomen. Maar de persoonlogit op basis van een Raschmodel houdt wel lineair verband met een geschatte totaalscore op de volledige set items in het model. Daarom werden deze gegevens gerelateerd aan de totaalscores van de TAL. Er werd een significante correlatie gevonden van .67 (p < .01). Beide toetsen wijzen dus in dezelfde richting. De correlatiecoëfficiënt is echter niet erg hoog. Een score op de ene toets zegt dus niet alles over de score op de andere toets. Dit heeft mogelijk te maken met de beperkte variatie die er bij de helft van leerlingen, de meer dan 90% scorende, op de TAL aanwezig was (zie hiervoor ook het onderstaande scatterplot).
50
TALscore
40
30
20
10 -4,000
-2,000
0,000
2,000
4,000
persoonlogit screeningsinstrument Figuur 10: Scatterplot TAL-score – persoonlogit SALTO
57
Maar bovendien stellen we vast dat er in die hogere regionen van de TALtotaalscores ook geen eenduidig beeld naar voren komt wat betreft de ingeschatte vaardigheid van de leerlingen volgens SALTO. Voor de hogere TAL-scores geldt dat de persoonlogit niet noodzakelijk ook hoog is, maar erg verspreid kan zijn over de schaal. Als we inzoomen op de hogere TAL-scores in de scatterplot, dan zien we het volgende:
50
TALscore
48
46
44
42 -2,000
-1,000
0,000
1,000
2,000
3,000
4,000
5,000
persoonlogit screeningsinstrument Figuur 11: Scatterplot TAL-score vanaf 42 – persoonlogit SALTO
Een tweede stap bestond erin de groepen leerlingen zoals die door de TAL-cesuren worden onderscheiden, te bekijken op hun ingeschatte vaardigheid volgens de nieuwe toets. Kunnen de TAL-cesuren een indicatie geven voor waar de cesuren in het nieuwe instrument zouden moeten liggen? Voor een gemakkelijkere interpretatie werden niet de oorspronkelijke persoonlogits van SALTO gebruikt, maar de herschaalde (op een schaal van 0 tot 100) persoonlogits.
58
herschaalde persoonlogit screeningsinstrument
100,00
528 80,00
929 1000 738
60,00
40,00
365 780
1339
20,00
1375 0,00 probleemleerling
risicoleerling
niet-risicoleerling
TAL-groep Figuur 12: Boxplot persoonlogit SALTO per TAL-groep
De gemiddelde persoonlogits per TAL-groep verschillen significant van elkaar (F= 238.96; VG = 2; p < .01). De probleemleerlingen hebben ook inderdaad een lagere gemiddelde persoonlogit (N probleem = 141; Gem logit probleem = 47.56; Sdev logit probleem = 11.19) dan de risicoleerlingen (N risico = 367; Gem logit risico = 58.79; Sdev logit probleem = 10.01) en die hebben op hun beurt een lagere gemiddelde ingeschatte vaardigheid dan de niet-risicoleerlingen (N niet-risico = 307; Gem logit niet-risico = 71.44; Sdev ogit probleem = 11.50). In de nieuwe toets worden drie groepen onderscheiden: probleem- , risico en niet-risicoleerlingen. Wat echter in de bovenstaande boxplot opvalt, is dat de range van de logitwaarden elkaar voor de drie groepen overlapt. De middengroep, de risicoleerlingen, kent bovendien veel uitschieters. In die groep zitten dus zowel leerlingen die het erg zwak doen op de SALTO-items, als leerlingen die het daarop erg goed doen. Er is dus geen duidelijk screeningsprofiel in deze groep terug te vinden. Wanneer we enkel naar de interkwartiele range - p(ercentiel)25 tot en met p(ercentiel)75 – kijken, is het iets beter gesteld. Toch is er ook daar tussen de bovengrens (p75) van de ene groep en ondergrens (p25) van de andere groep een kleine overlap. Wanneer we op basis van de resultaten op de nieuwe toets nu toch dezelfde drie groepen als bij de TAL willen onderscheiden, dan zouden we het midden kunnen nemen tussen de logitwaarde voor p75 van de ene groep en p25 van de daaropvolgende groep. Dat levert de volgende cesuren op voor de herschaalde persoonlogits in SALTO:
59
Screeningsgroep
Herschaalde persoonlogit
Probleemleerlingen Risicoleerlingen Niet-risicoleerlingen
0.00 - 53.59 53.60 – 63.99 64.00 – 100.00
Tabel 33: Herschaalde persoonlogits
We hebben vervolgens bekeken hoe de screeningsgroepen zich verhouden tot de TAL-groepen aan de hand van een kruistabel. In principe zouden er zo weinig mogelijk leerlingen in de grijs gemaakte cellen mogen voorkomen. We vonden weliswaar een significant verband (Chi2 = 287.15; p < .01 en ook Kendall’s tau b = .584; p < .01), maar er blijft sprake van een redelijk aantal misclassificaties, met name in de middengroep. TAL-groep
SALTO-groep Probleemleerling
Probleemleerling Risicoleerling Niet-risicoleerling Totaal
Aantal Aantal Aantal Aantal
98 44 14 156
Risicoleerling 32 78 73 183
Totaal Nietrisicoleerling 11 45 220 276
141 167 307 615
Tabel 34: TAL-groepen versus screeningsgroepen
Mochten we toch deze cesuren hanteren, dan zouden we voor de volledige steekproef uit het kalibratieonderzoek de volgende verdeling in screeningsgroepen krijgen. Aantal Percentage Cumulatief Percentage Probleemleerling Risicoleerling Niet-risicoleerling Totaal
412 437 681 1530
26.9 28.6 44.5 100
26.9 55.5 100
Tabel 35: Screeningsgroepen
Een derde en laatste oefening bestond uit een ankering van beide toetsen via een IRT-analyse. De twee toetsen werden daarvoor in één IRT-model (Rasch) samengebracht via het programma Bigsteps (Linacre & Wright, 1998). Eén item bleek niet goed op de schaal te passen, en dat was TAL-item 9 (‘daarna’) (p = .28; infit mnsq = 1.23; infit Zstd = 4.7; outfit mnsq = 1.71; outfit Zstd = 6.9; point biss = .14). Dit item kwam ook in de betrouwbaarheidsanalyse van de TAL als iets minder betrouwbaar naar voren. Het item werd in een volgende IRT-analyse dan ook weggelaten. Die analyse met 127 items (78 SALTO-items en 49 TAL-items) leverde een model op met een Person Reliability Index van .83. Op deze schaal werden vervolgens de cesuren aangeduid voor beide toetsen. Voor SALTO namen we de cesuren die uit de Bookmarkprocedure (zie 5.1.5) kwamen, namelijk het item juf_jarig 2 (of b/02) als cesuur om de probleemleerlingen van de rest te onderscheiden (de ondercesuur) en het item juf_jarig 3 (of b/03) als cesuur om de niet-risicoleerlingen te onderscheiden (de bovencesuur). 60
Voor de TAL lag het aanduiden van een item op de IRT-schaal als cesuur iets moeilijker. De cesuren voor de TAL werden immers niet vastgesteld op basis van een oordeel over de items in de TAL, maar op basis van somscores. We hebben de somscores waarop de cesuren oorspronkelijk werd gelegd, in deze oefening vervolgens beschouwd als de rang van de items dat die cesuren aangeven. De ondercesuur bij de TAL komt overeen met somscore 42. We leggen de TAL-cesuur dan ook bij het negende moeilijkste TAL-item (t/07) van alle 50 TAL-items - niet enkel de 49 die we in deze IRT-analyse overhouden - en dit omdat de oorspronkelijke TALcesuren op de volledige set werden gebaseerd. Voor de bovencesuur deden we hetzelfde. Die cesuur ligt bij somscore 46; we hebben daarvoor het vijfde moeilijkste TAL-item aangeduid (t/04) oftewel het 46ste item, te tellen vanaf het gemakkelijkste item en zo opklimmend naar boven. De TAL- en SALTO-cesuren zijn grijs gemarkeerd (lichtgrijs voor de bovencesuur, donkergrijs voor de ondercesuur). PERSONS 5
4
3
2
1
0
-1
-2
-3
ITEMS
.##### # . .## .## .# .## .#### .###### .## .##### .##### .##### .########## .###### .######### ####### .############ .########## .########### .########## .######### .######## .######## .###### .####### .#### .#### .## .### .# .## .# # . .# . . . . . . .
. .
-4
+ | | Q| | | + | | | | S| + | | |Q | | M+ | | | |S | + S| | | | | +M | | Q| | | + | |S | | | + | | |Q | | + | | | | | +
t/40 c/02 n/06 d/04 h/04 l/01 a/01 b/03 d/05 c/03 i/04 b/02 f/02 d/01 c/01 a/06 a/02 a/03 k/02 a/05 t/37 t/13 t/01 k/01 a/04 t/20 t/02
e/04 j/01
j/05
k/05 e/03 f/01 c/04 l/06 j/03 g/03 i/03 e/01 b/04 b/05 b/01 l/05 k/06
l/02 g/01 g/02 e/05 t/41 n/04 i/01
m/03 h/01 h/02 f/04
p/02 i/05 h/03 l/03
p/03 n/05 l/04 m/04
p/01 j/04
t/15 k/04
m/02
j/02 d/02 d/06 f/03 n/01 n/02
m/01 d/03 e/02 t/08 t/14 p/04
o/01 i/02 g/04 t/25 t/36 t/06
t/18 t/21 t/30 t/34 t/26 t/12
t/31 t/27 t/46 t/42 t/32 t/48
t/33 t/28
t/39 t/50
t/38
t/43
t/11
t/16
t/22
t/03
t/24
t/05
t/47
o/03 o/04
t/04
t/10
t/07
t/35
k/03 n/03
o/02 t/23
t/44 t/29
t/45
t/49
t/17 t/19
61
Figuur 13: Raschschaal met TAL- en SALTO-items 11
Wat we vaststellen als we de verschillende cesuren op de schaal bekijken, is dat de SALTO-cesuren telkens hoger liggen dan die van de TAL. Voor de bovencesuur ligt de SALTO-cesuur op 1.31 logit, dat is 0.35 logit hoger dan de TAL-bovencesuur die op 0.96 logit ligt. Bij de ondercesuur is het verschil iets groter: 0.58 logit. De ondercesuur voor SALTO uit de Bookmarkmethode ligt op 0.66 logit, die van de TAL op 0.08 logit. De ondercesuur van de TAL komt daarmee in de buurt van de gemiddelde moeilijkheidsgraad van alle 127 items samen. De volgende tabel plaatst de verdeling in drie screeningsgroepen in een IRT-model met 127 items op basis van de cesuren uit de Bookmarkprocedure en op basis van de TAL-cesuren tegenover elkaar. Screeningsgroep
Persoonlogit
Aantal Percentage
Cumulatief percentage 13.2 13.2 13.5 26.7 73.3 100
< 0.66 > 0.65 en < 1.31 > 1.30
202 206 1122 1530 Aantal Percentage
Bookmarkcesuren
Probleemleerlingen Risicoleerlingen Niet-risicoleerlingen Totaal Screeningsgroep
Persoonlogit
TAL-cesuren
Probleemleerlingen Risicoleerlingen Niet-risicoleerlingen Totaal
< 0.08 > 0.07 en < 0.96 > 0.95
92 185 1253 1530
Cumulatief percentage 6.0 6.0 12.1 18.1 81.9 100
Tabel 36: Screeningsgroepen in IRT-model (127 items) o.b.v. Bookmarkcesuren en TAL-cesuren
5.2.3 Besluit Wat kunnen we uit de resultaten van bovenstaande oefeningen concluderen? Beide toetsen houden wel degelijk verband met elkaar. Toch zijn ze verre van equivalent. Een score op de TAL is niet zonder meer inwisselbaar met een score op de nieuwe toets. In de belangrijke zone waar de TAL-cesuren liggen, blijken de leerlingen een heel variërende ingeschatte vaardigheid volgens SALTO te hebben, gaande van vrij laag tot en met heel hoog. Wanneer we op basis van de TAL-groepen en dus de oorspronkelijke TAL-cesuren, ook groepen in SALTO proberen af te bakenen, dan krijgen we echter een vergelijkbaar beeld. Bij de TAL blijkt 50% van de leerlingen voldoende taalvaardig te zijn. Bij SALTO is dat iets minder, namelijk 44%. De tussencategorie is voor beide toetsen ongeveer even groot: TAL 27% en SALTO 29%. De risicogroep is bij de TAL dan weer iets kleiner, 23%, dan bij SALTO: 27%.
11
TAL-items werden gelabeld met de letter t plus een volgnummer. De items uit de screeningstoets beginnen met een letter, van a tot en met p waarbij a = dansje, b = juf jarig, c = juf Maaike, d = Myriam, e = lievelingsboeken, f = fruitsla, g = mug olifant, h = varken rups, i = papieren vis, j = verhaaltjes, k = verjaardag, l = pizza, m = rommel klas, n = rommel eetzaal, o = verloren voorwerp en p = vingerpop.
62
De vraag naar misclassificaties blijft echter belangrijk. De groepen in beide toetsen zijn vergelijkbaar qua grootte, maar het is via de kruistabel duidelijk geworden dat ze niet helemaal dezelfde leerlingen bevatten. We weten bovendien dat beide toetsen immers niet helemaal dezelfde taalvaardigheid meten. Deze procedure zegt ons bovendien niet veel over hoe de moeilijkheidsgraad van de TAL-items zich verhoudt tot de SALTO-items. Komen de leerlingen dan wel in de juiste groep terecht als we TAL-cesuren gebruiken als basis om in SALTO te onderscheiden? We krijgen een iets ander plaatje te zien wanneer we beide toetsen samennemen in één model via een IRT-analyse. De TAL-cesuren liggen daar lager dan de cesuren die uit de Bookmark kwamen. De Bookmarkcesuren geven aan dat 73% van de leerlingen als voldoende taalvaardig kan worden beschouwd. Wanneer we de TALcesuren in het IRT-model (met beide toetsen samen) hanteren, dan worden er nog meer leerlingen als voldoende taalvaardig (niet risico) gecategoriseerd (82%) én de helft minder als probleemleerlingen. De tussencategorie, leerlingen met een risico op achterstand, blijft ongeveer gelijk. Wanneer we in acht nemen dat de TAL al meer dan tien jaar in het onderwijs wordt gebruikt waardoor er waarschijnlijk gewenning aan de TAL is opgetreden, en verder dat de TAL mogelijk beperkter meet, namelijk schoolse woordenschat, daar waar de nieuwe toets grotere structuren, hele taaltaken, als construct neemt, dan zouden we kunnen aannemen dat de nieuwe SALTO-items juist een terechte hogere moeilijkheidsgraad vertegenwoordigen. De cesuren van de TAL overnemen zou dan wellicht de lat te laag leggen. De cesuren van SALTO zijn dus diegenen vastgelegd door de Bookmarkprocedure. De wetenschappelijke stuurgroep keurde aan het eind van dit project deze cesuren goed. 5.3 Risico- en probleemleerlingen in de verschillende leerlingengroepen 5.3.1 Percentages Aan de hand van de cesuren die bepaald werden kunnen we nu voor elke groep het percentage risico- en probleemleerlingen bepalen. Bij deze analyse moeten we steeds in onze gedachten houden dat deze onderzoeksresultaten niet zomaar veralgemeend kunnen worden vanwege de scheve steekproef. Tabel 37 geeft een overzicht van deze percentages. In eerste instantie merken we op dat de oorspronkelijke percentages die in de cesuurbepaling werden vastgelegd behouden blijven (72 % van de leerlingen haalt de bovencesuur). Dat betekent dat het uitvallen van leerlingen door een gebrek aan koppeling en/of het bestaan van missings geen vertekeningen geeft in de resultaten. Groep Geen probleem Risico Probleem Totaal
NED/ HOGE OPL
NED/ LAGE OPL
NIET NED/ HOGE OPL
NIET NED/ LAGE OPL
Totaal
427
286
99
200
1012
91.0% 26 5.5% 16 3.4% 469 100,0%
78.6% 45 12.4% 33 9.1% 364 100,0%
60.4% 38 23.2% 27 16.5% 164 100,0%
48.4% 88 21.3% 125 30.3% 413 100,0%
71.8% 197 14.0% 201 14.3% 1410 100,0%
Tabel 37: Aantallen en percentages van de leerlingindicaties per groep
63
Als we kijken naar de leerlingen die geen problemen hebben, dan stellen we het volgende vast: 91 % van de sterkste groep, Thuistaal Nederlands / Hoog opgeleide moeder, haalt de bovencesuur; voor de twee tussenliggende groepen, Thuistaal Nederlands / Laag opgeleide moeder en Thuistaal niet-Nederlands / Hoog opgeleide moeder wordt een slaagpercentage vastgesteld van 78.6 en 60.4 %; de zwakste groep, Thuistaal niet-Nederlands / Laag opgeleide moeder, telt 48.4 % ‘geslaagden’. Het aantal leerlingen dat de onderste cesuur niet haalt (‘probleemleerlingen’) is eveneens in proportie: 3.4 % in de sterkste groep, 9.1 en 16.5 % in de tussenliggende groepen en 30.3 % in de minst vaardige groep. Het percentage leerlingen vertoont een gelijkaardig beeld met de uitzondering dat de groep Thuistaal niet-Nederlands / Hoog opgeleide moeder hier het hoogste percentage (23.2 %) heeft. NED/HOGE OPL 3,41%
NED/LAGE OPL 9,07%
5,54%
LL_indicatie_SALTO geen probleem risico probleem
12,36%
Pies show percents
78,57%
91,04%
NIET NED/HOGE OPL
NIET NED/LAGE OPL
16,46% 30,27% 48,43% 60,37%
23,17%
21,31%
Figuur 14: taartgrafieken leerlingindicaties
5.3.2 Conclusie: de inzetbaarheid van SALTO in de Vlaamse basisscholen Uit het voorafgaande is gebleken dat de achtergrondvariabelen Thuistaal en Opleiding moeder een sterke invloed hebben op de toetsresultaten van de leerlingen. De factor Thuistaal heeft het meeste impact: anderstaligen presteren slechter dan Nederlandstaligen, zelfs wanneer hun moeder een hoger opleidingsniveau heeft. Zoals gezegd heeft het kalibratie-onderzoek plaatsgevonden in scholen met meer dan 30% GOK-doelgroepleerlingen. Het percentage doelgroepleerlingen ligt daardoor in dit onderzoek hoger dan het gemiddelde in de volledige populatie Vlaamse basisscholen: we wilden er immers zeker van zijn dat we genoeg van deze leerlingen konden toetsen, omdat het identificeren van risico- en probleemleerlingen de voornaamste doelstelling van SALTO is. Dat neemt echter niet weg dat in de 64
steekproef van het kalibratie-onderzoek een groot aantal Nederlandstalige leerlingen (59% van de steekproef) en ook een groot aantal leerlingen met een hoog opgeleide moeder (44% van de steekproef) waren vertegenwoordigd. Wat de combinatie Nederlandstalige leerlingen met een hoog opgeleide moeder betreft, konden we vaststellen dat onze steekproef 423 leerlingen met dit profiel bevatte, wat toelaat om ook voor deze leerlingen waardevolle, robuuste en betrouwbare vaststellingen te doen omtrent hun prestaties op de toets in dit kalibratie-onderzoek. De toets blijkt voor alle categorieën van leerlingen (GOK-leerlingen versus niet-GOKleerlingen, Nederlandstalige leerlingen versus niet-Nederlandstalige) haar screenende functie te vervullen: binnen alle categorieën worden leerlingen die qua taalvaardigheid geen problemen vertonen onderscheiden van leerlingen die een risico op dit vlak lopen, en van leerlingen die op het vlak van taal een duidelijke achterstand hebben. De resultaten van de bovenstaande analyses geven sterk aan dat het aangewezen is SALTO ter beschikking te stellen van alle Vlaamse basisscholen. Het is immers opvallend dat bijna 10% van de Nederlandstalige leerlingen met een hoog opgeleide moeder toch de bovencesuur niet haalt. Dit zijn leerlingen die in principe niet als GOK-leerling worden geïdentificeerd, maar die dankzij de afname van deze toets wel worden geïdentificeerd als leerlingen die op het vlak van taal sterk in het oog moeten worden gehouden, sterk moeten worden opgevolgd, en waarvan een aantal zelfs een intensieve ondersteuning behoeft op het vlak van taalvaardigheid Nederlands om in het eerste leerjaar vlot tot leren te komen. Gerichte opvolging van, en taalstimulering aan de leerlingen die het nodig hebben, is in het eerste leerjaar van cruciaal belang. Wetenschappelijk onderzoek naar de verwerving van vroege technisch- en begrijpend-leesvaardigheid in het eerste leerjaar (onder andere het toonaangevend onderzoek van Vernooy in Nederland) toont overvloedig aan dat het van het allergrootste belang is om risicoleerlingen in het eerste leerjaar meteen te identificeren en nauwgezet op te volgen; op dit prille niveau kunnen interventies die gericht zijn op snelle bijsturing en extra ondersteuning nog een groot verschil maken. Duidelijk is ook dat deze toets niet mag afgeschilderd, of ingezet worden, als een toets die enkel van anderstalige leerlingen mag worden afgenomen: van de Nederlandstalige leerlingen haalt liefst 15% de bovencesuur niet. In het licht van deze resultaten raden wij het Departement Onderwijs aan om deze toets aan alle basisscholen in Vlaanderen ter beschikking te stellen, en scholen de raad te geven de toets bij ingang van het eerste leerjaar van alle leerlingen af te nemen. Het lijkt ons in het licht van de bovenvermelde resultaten niet nodig, noch aangewezen om de cesuren te herzien, door bijvoorbeeld de resultaten van de Nederlandstalige leerlingen in het kalibratie-onderzoek te wegen. We kunnen immers vaststellen dat de percentages van risico- en probleemleerlingen die binnen de verschillende categorieën van leerlingen worden geïdentificeerd, sterk overeen komen met wat door de expertengroep van de bookmark-procedure als ‘realistisch’ werd omschreven. In die zin kunnen we vaststellen dat de toets zelf, en de cesuren een zeer hoge ‘face validity’ hebben, wat het daadwerkelijk gebruik van de toets door schoolteams sterk kan bevorderen.
65
6 Interpretatie en gebruik van SALTO In het vorige hoofdstuk werd beschreven hoe SALTO tot stand is gekomen, en dat de opdracht om een functioneel, efficiënt, betrouwbaar en valide screeningsinstrument schoolse taalvaardigheid op te leveren, vervuld is. In wat volgt wordt er dieper ingegaan over het omgaan met de resultaten van SALTO en de vastgelegde cesuren. SALTO is een signaaltoets. De toets geeft een signaal wanneer blijkt dat leerlingen onvoldoende taalvaardig zijn om in het eerste leerjaar vlot tot leren te komen. Daarbij wordt een onderscheid gemaakt tussen leerlingen die nét niet de drempel van noodzakelijke schoolse taalvaardigheid halen en leerlingen die zich verder onder deze minimumdrempel bevinden. De toets geeft niet aan waar specifieke (taal)problemen zouden kunnen liggen; daarvoor is verdere diagnose nodig. De toets geeft wél een betrouwbaar, globaal beeld van de schoolse taalvaardigheid van de leerlingen aan het begin van het lager onderwijs. In die zin vervult de toets de functie van een ‘knipperlicht’. Omdat de toets aan het begin van het schooljaar wordt afgenomen, is het mogelijk om de nodige maatregelen te nemen en leerlingen die hulp nodig hebben, intensief te ondersteunen. Bij leerlingen die onvoldoende taalvaardig blijken te zijn, kan de leerkracht (en de rest van het schoolteam) de nodige acties nemen om de taalvaardigheid van deze leerlingen te verhogen, op een moment dat het nog niet te laat is. De toets wil dus in de eerste plaats leerkrachten aanzetten om taalproblemen aan te pakken, maar heeft absoluut niet de bedoeling om leerlingen te selecteren, om de leerlingengroep in zogenaamde ‘niveaus’ in te delen of leerlingen door te verwijzen naar een andere onderwijsvorm of een lager leerjaar. Ook daarom is het belangrijk dat SALTO aan het begin van het schooljaar wordt afgenomen. Wat betekenen de toetsresultaten nu concreet? Hoe kunt u de toetsscores van de leerlingen interpreteren? Hieronder geven we aanwijzingen voor het interpreteren van de toetsresultaten.
6.1 Toetsresultaten interpreteren De toetsresultaten kunt u op twee manieren bekijken, namelijk op het niveau van de individuele leerling en op het niveau van de klas. Op het niveau van de individuele leerling kunt u nagaan hoe de leerling presteert ten opzichte van het te behalen criterium. Het criterium in deze toets is het minimale niveau van schoolse taalvaardigheid waarover een leerling aan het begin van het eerste leerjaar moet beschikken om vlot tot leren te komen. U kunt (ook visueel voorgesteld op de grafiek die gegenereerd wordt) zien of de leerling het minimale niveau haalt en hoe ver hij boven of onder de drempel zit. Daarnaast kunt u ook op klasniveau nagaan hoe het gesteld is met de schoolse taalvaardigheid van de leerlingen. Bijvoorbeeld, hoeveel leerlingen halen het minimumniveau taalvaardigheid? Hoeveel niet? Hoe algemeen stelt zich het probleem van taalvaardigheid in de klas?
66
1) Hoe presteert de individuele leerling? Bekijk de individuele score van de leerling. Op basis van de totaalscore behoort een leerling tot één van onderstaande groepen: Groep 1 OK >= 27 Een leerling die tot deze groep behoort, beschikt over de schoolse taalvaardigheid Nederlands die minimaal nodig is om in een eerste leerjaar vlot tot leren te komen.
Zie verder 7.1.1 ‘Acties op klasniveau: actie 1’
Groep 2 Risico 20-26 Een leerling die tot deze groep behoort, beschikt net niet over de schoolse taalvaardigheid Nederlands die minimaal nodig is om in een eerste leerjaar vlot tot leren te komen. Bijgevolg bestaat de kans dat hij zwakker zal presteren in het eerste leerjaar. Dit is een zogenaamde risicoleerling. De leerkracht zou er bijvoorbeeld toe kunnen overgaan om via observatie of andere vormen van brede evaluatie meer informatie te verzamelen over de betreffende leerling. Mogelijk spelen ook andere factoren dan taalvaardigheid een rol. Zie verder 7.1.1 ‘Acties op klasniveau: actie 1’
Groep 3 Probleem < 20 Een leerling die tot deze groep behoort, beschikt zeker niet over de minimale schoolse taalvaardigheid Nederlands die nodig is om in het eerste leerjaar te kunnen volgen. Bijgevolg loopt hij zeer grote kans op leermoeilijkheden. Deze leerling zal intensief moeten worden ondersteund op het vlak van taalvaardigheid.
Zie verder 7.1.2 klasniveau: actie 2’
‘Acties
Tabel 38: Beschrijving van 3 groepen leerlingen op basis van cesuren
2) Hoe presteert de klas? Bekijk het klasgemiddelde en de mediaan in de tabel onderaan het excell-blad. Ga ook na hoe de verschillende leerlingenscores zich ten opzichte van elkaar verhouden. Op basis hiervan kan u nagaan of taalvaardigheid een structureel probleem is in de klas, dan wel een individueel probleem van enkele leerlingen. Mogelijke klasscenario’s: -
Structureel probleem in de klas: o De meeste leerlingen van de klas behoren tot groep 2: deze leerlingen moeten in het oog gehouden worden. Zij hebben geen specifieke ondersteuning nodig, maar structurele aandacht voor algemene, schoolse taalvaardigheid doorheen alle lessen is noodzakelijk. o De meeste leerlingen van de klas behoren tot groep 3: deze leerlingen hebben extra, gerichte ondersteuning nodig. Naast de structurele aandacht voor schoolse taalvaardigheid doorheen alle lessen, zal ook op klas- en schoolniveau moeten worden nagedacht hoe extra ondersteuning voor deze leerlingen kan worden gerealiseerd. 67
op
-
Individueel probleem van enkele leerlingen: o Enkele leerlingen van de klas behoren tot groep 2: de leerkracht zal ervoor moeten zorgen dat deze leerlingen goed opgevolgd worden. Dit zijn leerlingen die vaak uit het oog worden verloren. o Enkele leerlingen van de klas behoren tot groep 3: de leerkracht zal deze leerlingen individueel moeten ondersteunen en indien nodig verder differentiëren op leerlingniveau.
6.2 Toetsresultaten aanvullen met andere informatie Als op basis van de toetsafname blijkt dat leerlingen onvoldoende schools taalvaardig zijn, is het interessant om na te gaan of dat ook wordt bekrachtigd door andere informatie die u als leerkracht of als schoolteam hebt verzameld over de leerlingen (bijvoorbeeld gegevens over de voorgeschiedenis van de betrokken leerlingen, evaluatiegegevens uit het kleuteronderwijs). Wat weet u al over deze leerling? Hoe functioneerde deze leerling in het kleuteronderwijs? Wat ging goed? Minder goed? Verzamel in de loop van het schooljaar procesmatige informatie over de leerling op vlak van taalvaardigheid. Dat kunt u doen aan de hand van observaties tijdens allerlei klasactiviteiten, via een leerlingvolgsysteem (met aandacht voor mondelinge en schriftelijke vaardigheden en niet enkel technisch lezen of andere deelaspecten), door zelfevaluatie, met een portfolio (zie ‘Verder lezen’), … . Op die manier krijgt u een beter zicht op de mogelijkheden en behoeften van de leerlingen, wat van belang is bij het interpreteren van de toetsresultaten en het nemen van verdere maatregelen op klas- en schoolniveau. Bij zeer zwak scorende leerlingen is het mogelijk dat niet enkel taalvaardigheid een probleem is, maar dat andere factoren (zoals sociale of emotionele factoren, gedragstoornis…) ervoor zorgen dat zij taalachterstand hebben. Indien dat het geval is, is het aangeraden om samen met het CLB na te gaan waar mogelijke problemen liggen. Op basis van een meer uitgebreide diagnose kan worden vastgesteld waar specifieke problemen liggen en hoe die moeten worden aangepakt.
6.3 Communicatie over toetsresultaten met ouders De SALTO-resultaten zijn in de eerste plaats een signaal voor de school om gepaste acties te ondernemen bij leerlingen die onvoldoende taalvaardig blijken te zijn om vlot in een eerste leerjaar mee te kunnen (cf. hoofdstuk 7). SALTO heeft vooral implicaties voor de manier waarop de leerkrachten met taalvaardigheid zullen omgaan in de klas en op school. Voor ouders is het belangrijk te weten dat de school de nodige inspanningen zal doen om deze leerlingen te ondersteunen en uitleg te krijgen over de concrete ondersteuningsmaatregelen die de leerkracht zal nemen. Dit moet de essentie zijn van de boodschap die men aan ouders geeft wanneer met hen de SALTO-resultaten worden besproken. Het kan niet de bedoeling zijn om een oplossing voor mogelijke risico’s of problemen op vlak van taalvaardigheid bij ouders te leggen. Het is in de eerste plaats de school die haar taak hierin zal opnemen.
68
7. Wat na SALTO? Zoals reeds vermeld geeft SALTO een globaal beeld van de schoolse taalvaardigheid van de leerlingen. SALTO meet geen afzonderlijke taalelementen of deelvaardigheden (zoals woordenschat, klankherkenning, zinsbouw, technisch lezen, …). Op basis van de toets kan een inschatting worden gemaakt van de schoolse taalvaardigheid van de leerling. Als uit de afname van de toets blijkt dat leerlingen het minimum aan schoolse taalvaardigheid niet bezitten om vlot tot leren te komen in een eerste leerjaar,zullen gerichte acties op klas- en schoolniveau nodig zijn zodat de taalvaardigheid van deze leerlingen verhoogt. Hieronder beschrijven we hoe u daarbij te werk kan gaan, hoe u als leerkracht en als team kan inspelen op taalvaardigheidsproblemen. Eerst geven we concrete tips voor acties op klasniveau. Onder ‘actie 1’ worden concrete tips gegeven om het taalvaardigheidsonderwijs in de klas te optimaliseren. Deze aanpak zal álle leerlingen ten goede komen, ook de taalsterkere leerlingen die in principe geen extra ondersteuning of aanmoediging meer nodig hebben. Dit kader vormt meteen de basis waarop meer gerichte ondersteuning ten aanzien van de taalzwakke leerlingen in de klas kan worden geënt. Dat vindt u onder ‘actie 2’. Vervolgens vindt u een beschrijving van mogelijke acties op schoolniveau. Acties op klasniveau zullen pas het verhoopte effect opleveren op langere termijn wanneer zij ondersteund worden door een effectief taalbeleid en een doordachte aanpak op schoolniveau. Acties op klas- en schoolniveau kunnen bijgevolg niet los van elkaar staan, maar versterken elkaars effect.
7.1 ACTIES OP KLASNIVEAU 7.1.1 Actie 1: creëren van een taalrijke en krachtige leeromgeving Leerlingen worden taalvaardiger door taal te gebruiken om een motiverend doel te bereiken, en dat in een positieve, veilige omgeving waarin ze voldoende (talig) ondersteund worden. Dat basisprincipe geldt voor alle leerlingen, dus niet enkel voor taalzwakke leerlingen. Ook taalsterke leerlingen hebben hier baat bij. Dit houdt in dat goed taalvaardigheidsonderwijs focust op taalgebruik en dus op taalvaardigheid, veeleer dan op kennis over taal. Dat sluit ook aan bij de ontwikkelingsdoelen en de eindtermen van het kleuter- en lager onderwijs. De krachtige leeromgeving wordt gevisualiseerd in de volgende figuur (cf. Gysen, Rossenbacker & Verhelst, 1999; Verhelst, 2006):
69
Positief en veilig klasklimaat
Betekenisvolle taken
Ondersteuning door interactie
Figuur 15: De drie cirkels
7.1.1.1 Een positief en veilig klasklimaat Leerlingen die onvoldoende taalvaardig blijken te zijn hebben vooral nood aan een positief en veilig school- en klasklimaat waarin veel en rijke taal wordt aangeboden en waarin zij veel kansen krijgen om taal te gebruiken. Een omgeving waarin leerlingen zich veilig voelen en ervaren dat ze fouten mogen maken en dat ze uit fouten kunnen leren, draagt bij tot een positieve ontwikkeling van de taalvaardigheid. Bijvoorbeeld: -
-
Reageer positief op wat de leerling zegt en doet. Ga niet negatief om met taalfouten. Corrigeer indirect in uw reactie. (bv. leerling: ‘Ik heb een mooi cadeautje gekrijgen voor mijn verjaardag.’ Leerkracht: ‘O, leuk dat jij een mooi cadeau gekregen hebt. Wat zat erin?’) Laat zien dat u geïnteresseerd bent in wat de leerling zegt. Laat nonverbaal zien dat u luistert, ga in op wat de leerling zegt,… Geef de leerling voldoende kans om zelf initiatief te nemen, om eigen keuzes te maken (bv. het onderwerp van gesprek door de leerling laten bepalen). Wacht voldoende lang voor u zelf het woord overneemt. Ga niet negatief om met de eigen thuistaal van de leerling.
7.1.1.2 Betekenisvolle taken Een positief en veilig klasklimaat is een noodzakelijke voorwaarde om de taalvaardigheid van leerlingen te stimuleren, maar er is meer nodig. Taalvaardigheid kan pas tot volle ontwikkeling komen wanneer leerlingen met betekenisvolle taken worden geconfronteerd in de klas. Hiermee bedoelen we dat leerlingen de kans moeten krijgen om aan te slag te gaan met leuke activiteiten of taken waarbij taal gebruikt moet worden om een motiverend doel te bereiken en/of waaruit taal op een spontane, natuurlijke manier voortvloeit. Dan pas is er sprake van een krachtige leeromgeving. 70
Iets doen met taal Geef de leerlingen opdrachten waarbij ze iets moeten doen met taal. Een luisteropdracht krijgt een heel andere betekenis wanneer leerlingen niet zomaar moeten luisteren om te luisteren, maar achteraf iets met de beluisterde boodschap moeten doen. Ze moeten bijvoorbeeld goed luisteren om achteraf te weten hoe ze een knutselwerkje zullen maken, hoe ze een tekening moeten vervolledigen, wat ze morgen moeten meebrengen naar school, … . Taal is geen doel op zich, maar een middel om iets te bereiken. Taal staat dan in functie van een einddoel dat moet worden bereikt. Dergelijke taken sluiten nauw aan bij de natuurlijke taalverwerving van kinderen: kinderen gebruiken taal om er iets anders mee te bereiken. Motiverende taken Zorg dat de opdrachten de leerlingen prikkelen om aan de slag te gaan. Voorwaarde is dat taken aansluiten bij de leefwereld en de ervaringen van de leerlingen en van hen een actieve inbreng vragen. Wanneer leerlingen bijvoorbeeld instructies moeten begrijpen om een knutselwerkje te maken, zijn zij geen passieve luisteraars, maar moeten ze actief aan het werk gaan met wat ze beluisterd hebben. Onbewust ontwikkelen zij al knutselend hun taalvaardigheid. Het werken naar een concreet (talig of niet-talig) eindproduct toe werkt bovendien stimulerend. Groot leerpotentieel Leerlingen leren niets nieuws wanneer zij een te gemakkelijke opdracht moeten uitvoeren. Evenmin zullen zij tot leren komen wanneer taken te moeilijk zijn. Betekenisvolle taken bevatten dus een groot leerpotentieel en zijn een uitdaging voor alle leerlingen. Door veel interactie, ondersteuning en differentiatie te voorzien in taken, kan ervoor worden gezorgd dat zowel zwakkere als sterkere leerlingen tot leren komen. Relevante taken Zorg dat de taken aan relevante doelstellingen voor taalvaardigheid werken. De eindtermen lager onderwijs voor taalvaardigheid zijn hierbij richtinggevend, ook in een eerste leerjaar. Kansen benutten en creëren In een eerste leerjaar gaat veel aandacht naar het aanvankelijk lezen en schrijven. Leerlingen starten meestal heel enthousiast aan deze nieuwe fase in hun schoolloopbaan. Leerkrachten hebben de handen vol met het in goede banen leiden van dit aanvankelijk lees- en schrijfproces. Vraag is dan ook hoe en wanneer extra aandacht kan worden gegeven aan de schoolse (mondelinge) taalvaardigheid van de leerlingen. Enerzijds doen zich in het dagelijkse klasverloop veel kansen voor om taalvaardigheid te stimuleren. De kunst is om alle luister-, spreek-, lees- en schrijfkansen die zich voordoen in de klas, te zien en te benutten. Het is dus zeker niet zo dat u als leerkracht enkel taalvaardigheid kan stimuleren door allerlei extra’s aan het dagelijkse klasverloop toe te voegen. U kan als leerkracht ook kansen creëren door leerlingen zinvolle taken aan te bieden.
71
Taalvaardigheid stimuleren betekent dat leerlingen, net zoals in het dagelijkse leven, verschillende vaardigheden met elkaar combineren. Zij zijn vaak tegelijkertijd luisteraar en spreker, of lezer en spreker. In eenzelfde taak kunnen de vier vaardigheden samen aan bod komen. Uiteraard zal in het begin van het eerste leerjaar vooral aandacht gaan naar het aanvankelijk lezen en schrijven. Maar zelfs in deze beginfase is het zinvol om ook begrijpend lezen en creatief schrijven een plaats te geven, zij het dan in zeer beperkte vorm. Hieronder vindt u voorbeelden van hoe u leerlingen extra kansen kunt bieden om hun taalvaardigheid te verhogen. Nog meer uitgewerkte ideeën vindt u verder in de paragraaf ‘Verder lezen’ (7.3). Bijvoorbeeld: -
Besteed aandacht aan taalvaardigheid tijdens het aanvankelijk lezen en schrijven. In de recente methodes voor aanvankelijk lezen en schrijven vindt u hiervoor concrete suggesties, bv. laat de leerlingen voor het voorlezen van een ankerverhaal de inhoud voorspellen aan de hand van de kaft en de titel, laat de leerlingen tijdens het voorlezen het verloop van het verhaal raden aan de hand van open vragen, visualiseer zoveel mogelijk nieuwe woorden aan de hand van concrete afbeeldingen of voorwerpen, laat de leerlingen eigen ervaringen verwoorden of een beeldverhaal navertellen in eigen woorden, bespreek met de leerlingen wat ze gedaan hebben en hoe ze dit ervaren, … .
-
Start de (namid)dag met 10 minuutjes voorlezen uit een leuk, spannend (prenten)boek. Laat de leerlingen vooral genieten van het verhaal. Nu en dan kan er een korte, leuke opdracht volgen op het verhaal, bv. afloop van verhaal laten voorspellen aan de hand van een tekening, een vraag beantwoorden, iets laten uitbeelden, … . Op deze manier kunt u het begrip bij taalzwakkere leerlingen controleren en hun woordenschat uitbreiden.
-
Bied de leerlingen, naast het aanvankelijke lezen en schrijven, ook opdrachtjes aan die lijken op het ‘echte’ lezen en schrijven. Op deze manier worden en blijven leerlingen zich bewust van de gebruikswaarde van lezen en schrijven en ervaren zij dat lezen en schrijven leuk kan zijn. Laat de leerlingen zelf een boek kiezen in de boekenhoek op basis van de kaft/ de titel/ de tekeningen/ de flap; korte onderschriftjes noteren bij een reportage met foto’s of tekeningen van een schooluitstap (die u achteraf ophangt in de gang van de school of in de schoolkrant laat verschijnen); naam en een korte boodschap laten zetten onder een zelf geknutseld wenskaartje; in duo’s losse woorden zetten bij een zelfgemaakte tekening of een stripverhaal; een tekening maken met korte wens erbij voor een jarige klasgenoot en eventueel bundelen in een boekje dat u afgeeft, … .
-
Voorzie naast de boekenhoek (ook boeken van hoger avi-niveau, prentenboeken, informatieve boeken...) ook een schrijfhoek in de klas waarin de leerlingen bv. iets mogen tekenen of losse woorden kunnen schrijven in een klasdagboek of een fotoalbum van de klas, de boeken die ze bekeken of gelezen hebben kunnen evalueren aan de hand van pictogrammen in een persoonlijke leeslijst. Voorzie een brievenbus waarin ze briefjes mogen stoppen voor een klasgenoot of de leerkracht. Ideaal is als de schrijfhoek zowel voor opgelegde als voor aanvullende, vrije schrijftaken gebruikt wordt. U kunt dit ‘vrij schrijven’ inbouwen in contractwerk of wekelijks een vrijhoekenuurtje inlassen, waarbij de leerlingen in de schrijfhoek, de leeshoek, de wereldoriëntatiehoek,…een activiteit naar keuze doen. 72
-
Maak de verschillende hoeken in de klas interactiever door de leerlingen in duo’s aan een opdracht te laten werken en waarbij ze moeten overleggen of instructies aan elkaar geven om tot een oplossing te komen. Er zijn heel wat leuke opdrachten mogelijk, zoals: een schermspel met duplo- of legoblokken, waarbij twee leerlingen tegenover elkaar zitten met een scherm tussen hen in en waarbij de ene leerling instructies moet geven aan de andere om een constructie na te bouwen zonder naar het voorbeeld te kijken. Of geef de leerlingen een stapel foto’s en artikels en laat hen overleggen welke foto bij welk artikel past tot ze tot een compromis komen. Allerlei gezelschapspelletjes (bv. Wie is het? Ben ik een banaan?) in de hoek kunnen interactie bij de leerlingen uitlokken.
Taal in andere leergebieden Taalvaardigheid is niet beperkt tot de lessen ‘taal’. Het begint bij een continue aandacht voor taal de hele dag door, in alle lessen. Een les muzische vorming, wereldoriëntatie of lichamelijke opvoeding biedt heel wat mogelijkheden om taalvaardigheid te stimuleren. Op deze manier ontwikkelen leerlingen bijna onbewust hun taalvaardigheid, terwijl ze met leuke activiteiten bezig zijn. Bijvoorbeeld: -
Geef duidelijke mondelinge instructies bij een knutsel- of bewegingsopdracht. Herhaal, parafraseer, zeg het nog eens met andere woorden als de leerlingen iets niet begrijpen. Zorg voor voldoende visuele ondersteuning door een voorbeeld van een knutselwerkje te tonen, door iets aan te wijzen op een tekening, door concreet materiaal te benoemen, door een handeling voor te doen.
-
Geef leerlingen de ruimte om te vertellen over concrete ervaringen of gebeurtenissen uit hun eigen leefwereld, bijvoorbeeld in een vertelkring. U kan dit inpassen in het kader van het thema wereldoriëntatie waarrond gewerkt wordt in de klas. Je kan de leerlingen ondersteunen door concrete voorwerpen te laten meebrengen naar de klas. Dit hoeft niet steeds in een klassikale setting te gebeuren, maar kan ook in kleinere groepjes of gesprekjes per twee. Dit is vaak een veiligere basis om te communiceren.
-
Lok interactie uit tussen de leerlingen door hen in duo’s of in kleine (heterogene) groepjes te laten samenwerken (bv. samen informatie opzoeken en uitwisselen om tot een klein eindproduct komen).
-
Introduceer eenvoudige lees- of schrijfopdrachtjes bij de les. Laat leerlingen bv. in het kader van wereldoriëntatie prenten opzoeken en daarmee een collage maken met korte onderschriftjes, vraag hen om een neerslag voor de schoolkrant te maken over een kookactiviteit (met foto’s, tekeningen, losse woorden, korte tekst). Maak met de leerlingen een uitnodiging voor een feest of activiteit op school. Organiseer een interview in de klas rond het thema van wereldoriëntatie en laat de leerlingen per twee vragen bedenken die ze willen stellen tijdens het interview.
73
7.1.1.3 Ondersteuning door interactie Bij het uitvoeren van zinvolle taken is het belangrijk dat leerlingen ondersteund worden door andere leerlingen en door de leerkracht. Interactie is daarbij een sleutelbegrip. Wanneer leerlingen aan een motiverende taak werken en in dat kader in dialoog kunnen treden met de leerkracht of met andere leerlingen, kunnen heel wat taalproblemen voorkomen worden. Dit geldt niet enkel tijdens de uitvoering van een taak. Interactie is uiteraard ook zeer efficiënt voor en na de uitvoering van een taak, wanneer leerlingen door middel van een gesprek worden voorbereid op een taak of een taak afronden door te bespreken hoe het is verlopen. Door interactie wordt het taalaanbod vaak begrijpelijker én komen leerlingen makkelijker tot taalproductie. Dit geldt zeker voor de risicoleerlingen en taalzwakke leerlingen, maar ook de taalsterke leerlingen profiteren hier mee van. Daarom zou aandacht voor interactie structureel moeten worden ingebouwd in elke lespraktijk. Leerling - leerling interactie - Bied de leerlingen zinvolle taken aan die hen motiveren. Ga begripsproblemen niet uit de weg: moeilijke of onbekende woorden kunnen net een aanleiding zijn om tot betekenisonderhandeling te komen. Wanneer leerlingen aan de praat gaan met elkaar, wordt vaak duidelijk wat er bedoeld wordt en breiden zij hun woordenschat uit. -
Laat de leerlingen samenwerken in duo’s of in kleinere groepjes waarbij iedere leerling een specifieke verantwoordelijkheid krijgt of een deeltje van de informatie dat nodig is om de taak tot een goed einde te brengen.
-
Zorg voor heterogene groepjes waarbij de taalzwakke leerlingen kunnen samenwerken met meer taalvaardige leerlingen. Zowel voor de taalsterke als voor de taalzwakke leerlingen is dit de beste conditie om tot leren te komen.
Leerkracht - leerling interactie - Kijk mee over de schouders van de leerlingen: stel open vragen om begrip te controleren, laat de leerlingen iets in eigen woorden formuleren zodat ze beter begrijpen wat van hen verwacht wordt, herhaal/parafraseer de instructies, … . Stimuleer het zelfontdekkend leren bij de leerlingen om zelf tot oplossing te komen. - Geef gepaste feedback: moedig de leerlingen aan als ze dreigen vast te lopen, corrigeer op indirecte wijze, richt hun aandacht naar het meest essentiële in de taak, … . -
Achterhaal via gesprek hoe het komt dat leerlingen moeite hebben met luisteren, lezen, spreken, schrijven.
74
7.1.2 Actie 2: initiatieven nemen om de zwak scorende leerlingen extra te ondersteunen Krachtige (taal)leeromgeving als voorwaarde Een krachtige (taal)leeromgeving vormt de basis waarop extra ondersteuning kan worden geënt. Zonder deze voedingsbodem zijn ondersteuningsacties een slag in het water. Zoals aangegeven kunnen in een krachtige (taal)leeromgeving heel wat taalproblemen worden voorkomen door een positief klasklimaat te scheppen, leerlingen betekenisvolle taken aan te bieden en te zorgen voor voldoende interactie voor, tijdens en na de uitvoering van taken. Voor sommige leerlingen blijkt dit echter nog niet voldoende. Zij hebben nood aan meer intensieve en gerichte hulp. Wanneer we dit kaderen in het verhaal van de drie cirkels (zie de figuur in 7.1.1), kunnen we zeggen dat deze intensieve, meer gerichte ondersteuning een verdieping is van de binnenste cirkel. Het blijft belangrijk te onderstrepen dat SALTO een eerste stap kan betekenen in de richting van gerichte, gedifferentieerde ondersteuning van leerlingen van wie via de screening is vastgesteld dat de taalontwikkeling traag of problematisch verloopt. Deze evaluatie zal echter meer ‘verbreed’ moeten worden met andere evaluatietechnieken zoals observatie, portfolio en zelfevaluatie door de leerling (zie 7.2.2). Afhankelijk van de grootte van de groep die nood heeft aan ondersteuning, kan ondersteuning structureel worden ingebed bij de normale werking in de klas ofwel meer aandacht krijgen tijdens individuele momenten. Veel zal ook afhangen van de specifieke context van uw school en de mogelijkheden die u heeft om deze ondersteuning uit te bouwen (bijvoorbeeld klasoverschrijdende samenwerking, extra leerkracht in de klas, ...). - Wanneer het gaat om een vrij grote groep leerlingen, zal het nodig zijn deze extra ondersteuning zoveel mogelijk structureel in te bouwen in uw aanpak. Onderbreek regelmatig opdrachten om vast te stellen waar de leerlingen vastlopen. Besteed expliciet aandacht aan signalen van onbegrip (rondkijken, bij buur kijken, vragend kijken, om hulp roepen, niet geconcentreerd of gemotiveerd zijn). - Bij een kleinere groep leerlingen of een individuele probleemleerling in de groep kan u zoveel mogelijk de momenten van zelfstandig werk uitbuiten om de individuele leerling of een kleinere groep meer gerichte ondersteuning te bieden (bv. hoeken- en contractwerk, zelfstandig werk bij aanvankelijk lezen en schrijven, momenten van vrij lezen). Hieronder geven we enkele tips voor meer gerichte, intensieve ondersteuning en mediatie.
75
Æ Extra ondersteuning in de interactie: - Visualiseer: maak gebruik van prenten, gebaren, voorwerpen, aanwijzen,… - Herhaal veelvuldig. - Plaats het belangrijkste woord van wat u zegt naar voren (bv. “De scháár. Neem jij de schaar even?”). - Maak gebruik van uw intonatie en mimiek. - Articuleer goed. - Verbind uw taal met gekende taal of ervaringen. - Ga door vragen te stellen en door te reageren na of de leerling u goed begrepen heeft, en of u de leerling juist begrijpt. - Zet stille leerlingen / anderstaligen / … bij u in de buurt tijdens kringgesprekken. Dit geeft een veiliger gevoel. - Differentieer in uw ondersteuning: begin met het stellen van open vragen en ga geleidelijk aan naar meer gesloten vragen of naar het voorzeggen, uitleggen van een instructie, een oplossing wanneer blijkt dat de leerling niet kan antwoorden. Van open Naar meer gesloten Naar in de plaats zeggen van
76
Æ Stuur het gedrag van de leerling door zijn impulsiviteit te beperken Taalzwakke leerlingen kunnen erg impulsief zijn en beginnen vaak te snel aan een taak. Het kan dan nuttig zijn om de zelfcontrole te stimuleren, een plan te leren opstellen om zo die impulsiviteit te beperken. Neem daarom de tijd om samen met de leerling het aanbod te bekijken, te beluisteren, stil te staan bij de aard van de taak, het materiaal, …: - Ga naast de leerling zitten. - Geef maar een deel van de informatie. - Wijs aan waar de leerling eventueel aan voorbij gaat. - Vraag of hij aan alles gedacht heeft. - Suggereer zelf wat nog belangrijk is. - Vraag waar hij mee bezig is. Æ Richt de leerling op de taak - Houd zijn aandacht op de taak (bijvoorbeeld door vragen te stellen over het onderwerp). - Roep ervaringen op rond het onderwerp. - Geef hints en ontlok antwoorden, stel vragen zonder meteen het antwoord zelf te geven: wat een leerling zelf kan oplossen, geeft hem een positief gevoel! Æ Ondersteun de leerling in het zien van verbanden - Spreek voortdurend het voorstellingsvermogen van de leerling aan. - Verwoord verbanden expliciet (vb. “Nu moeten wij, net als Hennie,…”). Æ Voor leerlingen die volledig blokkeren - Sta model voor de eerste stap in de taak. - Beschrijf wat er gebeurt, doe hardop denkend mee met de leerling. Æ Versterk het competentiegevoel - Verwoord en bevestig het denkproces van de leerling (“Je pakt dat goed aan, want …”). - Zeg op het eind van de activiteit dat het goed was en waarom (“Je hebt dat goed gedaan, want …”). - Richt je vooral op het proces, het eindproduct van de activiteit is ondergeschikt (“Je heb dat goed opgelost door eerst naar de tekening te kijken en pas nadien naar de woorden!”; “Goed zo Bruno, ik zie dat je eerst goed hebt nagedacht voor je het antwoord riep!”)
Verdere differentiëring Naarmate de verschillen tussen leerlingen in de klasgroep op het vlak van taalvaardigheid groter zijn, kan het nodig blijken om nog verder te differentiëren. Differentiëren kan op verschillende manieren gebeuren. Het hoeft zeker niet te betekenen dat je leerlingen andere opdrachten of activiteiten aanbiedt. Bedoeling is zeker niet om aan de zwakkere leerlingen opdrachten aan te bieden die ‘lagere’ taaldoelen stellen dan wat u met uw onderwijs beoogt. Het blijft immers de bedoeling dat u ook met deze leerlingen de talige doelstellingen bereikt die u vooropstelt voor alle leerlingen. U kan er wel voor kiezen om zowel voor, tijdens of na de opdracht te differentiëren qua tempo, omvang van de opdracht, groeperingswijze,…
77
-
Breid taken uit of kort ze in naargelang het tempo waarin de leerlingen werken. Pas de hoeveelheid te lezen tekst aan. Hou rekening met de moeilijkheidsgraad van teksten: geef taalzwakkere leerlingen tijdens een taak met verdeelde informatie een tekst die qua moeilijkheid aansluit bij het niveau dat ze aankunnen (kan variëren).
7.2 ACTIES OP SCHOOLNIVEAU Inspanningen op klasniveau zullen pas renderen op langere termijn als deze inspanningen ook gedragen en opgevolgd worden door collega’s in kleuter- en lager onderwijs. Taalvaardigheid stimuleren is een verantwoordelijkheid van het héle schoolteam. Daarom zijn acties op schoolniveau minstens even belangrijk als de acties op klasniveau. De afname van de SALTO kan een uitgelezen moment zijn om als team samen te zitten en na te denken over de aanpak van het taalvaardigheidsonderwijs op school en de effectiviteit ervan, zeker wanneer de scores van de leerlingen te laag uitvallen. Vraag is dan op welke manier de taalvaardigheid van de leerlingen kan worden opgekrikt, welke acties nodig zijn om de taalontwikkeling van de leerlingen te stimuleren en op welke manier het hele team daarmee aan de slag gaat. Dergelijk teamoverleg is cruciaal voor het verhogen van de interne kwaliteitszorg op school. 7.2.1 Actie 1: bespreek de SALTO-resultaten in het team -
-
-
Leg de resultaten van SALTO, aangevuld met andere evaluatiegegevens van de leerlingen, voor aan het schoolteam (ook de collega’s van het kleuteronderwijs) en bespreek samen: hoe zijn de scores? Wat vinden andere leerkrachten hiervan? Staan de scores in verhouding met de inspanningen die op school gebeuren op het vlak van taalvaardigheid? Hebben we het gevoel dat de inspanningen die gebeuren het verhoopte effect hebben? Zo nee, hoe zou dat komen? Vinden we naast achtergrondkenmerken van de leerlingen andere factoren die dit kunnen verklaren? Zo ja, welke inspanningen hebben volgens ons resultaat? Plaats de evaluatie in breder perspectief: op welke manier wordt er in de school aan taalvaardigheid gewerkt? Welke concrete acties onderneemt het schoolteam? Waar liggen de prioriteiten? Is hierrond overleg tussen de leerkrachten? Is er een gemeenschappelijke visie rond taalvaardigheidsonderwijs over de verschillende leerjaren heen? Is er samenwerking tussen kleuter- en lager onderwijs? Is er een breed draagvlak voor de visie rond taalvaardigheidsonderwijs op school? Is er een beginanalyse rond taalvaardigheidsonderwijs op school uitgevoerd? Zo ja, wat voor inzichten en mogelijke knelpunten heeft dat opgeleverd? Volgen leerkrachten nascholing rond taalbeleid? Hoe wordt op school omgegaan met heterogeniteit? SALTO is niet bedoeld om homogenere groepen samen te stellen op klasniveau of zwakkere leerlingen uit de klas te halen om bij te werken op deelaspecten. Onderzoek wijst uit dat homogenisering net leidt tot lagere verwachtingen en verschraling van (taal)aanbod. Heterogene groepering geeft aan taalzwakke leerlingen de meeste kansen tot taalontwikkeling. Zwaktaalvaardige leerlingen leren immers veel van leerlingen die sterker zijn qua taalvaardigheid .
78
7.2.2 Actie 2: optimaliseren van overleg over evalueren Hoe kan de school de evaluatie van haar leerlingen nog verder optimaliseren? De afname van SALTO kan een aanleiding vormen om de evaluatiecultuur op school onder de loep te nemen. Een school die ál haar leerlingen gelijke onderwijskansen wil bieden, maakt werk van brede evaluatie. Niet omdat brede evaluatie een doel op zich zou zijn, maar vooral omdat breder evalueren kan leiden tot gerichtere ondersteuning van de zwakkere leerlingen en bijgevolg de kwaliteit van het onderwijs kan verhogen. Breder evalueren Onderwijs dat gericht is op het ontwikkelen van vaardigheden bij leerlingen, en meer specifiek van taalvaardigheid, vraagt een bredere manier van evalueren dan enkel via klassieke toetsen. Anders onderwijzen vraagt anders evalueren. Deskundigen die op het terrein van het anders evalueren reeds heel wat expertise vergaarden, stellen assen en continua voor die aangeven waarin traditionele toetsen van andere evaluatievormen verschillen. Zij benadrukken dat ook evaluatievormen waarvan een toets er één is zich meer naar links dan wel meer naar rechts op elk van die assen bevinden (Bultynck, 2004; Vanhoof & Van Petegem, 2004; Gysen, 2004). Bultynck (2004) beschrijft de volgende vier assen om taalevaluatie vanuit een bredere hoek te bekijken en dus ook andere vormen van evaluatie naast toetsen een plaats te geven (zie figuur 16): “Je verschuift als het ware met deze aspecten als handvatten over een as van beperkter naar breder”.
Bredere evaluatie: schuiven op vier assen Eenmalige momentopname
tijd
Betrokken beoordelaars Leerkracht
Taalkennis
Registreren of taakuitvoering geslaagd is of niet
Aard verzamelde informatie
Manier van verzamelen van informatie
Doorheen de tijd, verschillende momenten Taalleerder zelf en leerkracht Taalvaardigheid, leerproces, en factoren als cognitie, kennis wereld, strategieën… Observeren, video-opname, gesprekken, logboek
Figuur 16: Bredere evaluatie, schuiven op vier assen (Bultynck 2004)
Op de as die de ‘aard van de verzamelde informatie’ voorstelt, situeert SALTO zich aan de rechterkant van de as: SALTO peilt naar taal als vaardigheid (wat een leerling met taal kan doen, in plaats van wat iemand erover kent) en sluit aan bij authentieke, realistische taaltaken. Op de overige continua bevindt SALTO zich veeleer aan de linkerkant en leunt het instrument aan bij een klassieke toets: het gaat om een éénmalige momentopname; de evaluatie gebeurt door de leerkracht (leerlingen zijn hierbij niet betrokken); leerlingen worden gevraagd om standaard toetstaken op te 79
lossen en op basis van hun antwoorden kan hun taalvaardigheidsniveau worden bepaald. Het is daarom van groot belang dat de resultaten van SALTO ook aangevuld worden met andere, meer kwalitatieve informatie (zie ook 6.2). Wanneer toetsresultaten worden aangevuld met relevante informatie, verkregen uit observaties van allerlei klasactiviteiten, leerlingvolgsysteem, gesprekken, zelfevaluatie, portfolio krijgen leerkrachten een breder beeld van de capaciteiten van een leerling, met nadruk op wat de leerling al kan (in plaats van niet kan). Naast taalvaardigheid krijgt men ook een beter zicht op andere vaardigheden, kennis en attitudes van de leerling. Verder bieden deze vormen van breder evalueren meer mogelijkheden om goede communicatie tussen leerlingen en leerkrachten op gang te brengen, zeker wanneer leerlingen ook bij de evaluatie worden betrokken (bv. door via zelfevaluatie aan te geven wat ze geleerd hebben, wat ze nog willen leren, wat ze leuk of minder leuk vonden...). Op deze manier is evalueren niet iets wat wordt opgespaard tot aan het einde van het leerproces, maar heeft evaluatie reeds tijdens het leerproces een functie: leerkrachten kunnen er conclusies uit trekken voor de eigen lespraktijk (bv. wat vinden mijn leerlingen interessant? Boeiend? Wat is hen bijgebleven? Wat niet?), hun onderwijs indien nodig bijsturen, leerlingen met specifieke noden beter begeleiden. Breder evalueren is niet enkel beter afgestemd op een ‘breder’ onderwijs. Het kan ook omgekeerd werken: door breder te evalueren stel je als leerkracht je eigen didactisch handelen in vraag en krijg je relevante informatie om effectiever te kunnen inspelen op interesses en behoeften van leerlingen. Een voorbeeld van brede evaluatie dat bruikbaar is om (in het kleuteronderwijs) te observeren hoe leerlingen taalvaardiger worden, is het observatie-instrument dat op basis van het Referentiekader vroege tweede taalverwerving werd ontwikkeld (Coussement, Van Oosthuyze & Verhelst, 2004). Aan de hand van concrete klassituaties worden heel wat voorbeelden gegeven van adequaat gedrag en uitingen van kinderen waardoor een doelstelling zichtbaar wordt. Via het instrument kan in kaart worden gebracht welke doelen een kind al beheerst voor spreken en luisteren. Het instrument bevat voorbeelden per item en per doelstelling en een beschrijving van de situatie voor de observatie. Deze lijst is exemplarisch en dient als inspiratiebron. De observatielijst is gratis te downloaden van: http://www.cteno.be/downloads/observatielijst_taalvaardigheid_met_invulblad.pdf Teamoverleg Het is belangrijk om in team stil te staan bij de manieren van evalueren op school. Zijn deze effectief genoeg? De insteek voor het teamoverleg is steeds: hoe kunnen we er als schoolteam voor zorgen dat àlle kinderen over de verschillende klassen heen breed geëvalueerd worden, zodat meer leerlingen komen tot meer leren? Het doel van dit overleg is verschillende aspecten van evaluatie in kaart te brengen (Wat doen we al? Waar zijn er nog hiaten?) en als schoolteam concrete afspraken te maken om evaluatie en het eigen onderwijs indien nodig bij te sturen. In bijlage 11 vindt u een leidraad voor een teamoverleg over breed evalueren. Betrek zeker de collega’s van het kleuteronderwijs bij dit overleg. SALTO geeft hen niet alleen een zicht op het ‘eindpunt’ dat bereikt moet worden in het kleuteronderwijs, maar geeft ook aan wat relevante doelen zijn op het vlak van taalvaardigheid voor het kleuteronderwijs. Het instrument kan hen inspireren om op een zinvolle manier aan schoolse taalvaardigheid te werken. Om de toets beter te leren kennen, kunnen zij bij het overleg worden betrokken en indien mogelijk, ingeschakeld worden bij de afname van de toets in het eerste leerjaar. 80
7.3 Verder lezen Achtergrondliteratuur Bultynck, K. (2004). Wie A zegt, moet ook B zeggen. In: Les, 129, 21-24. Colpin, M., Ramaut, G., Timmermans, S., Van den Branden, K., Vandenbroucke, M. & K. Van Gorp (Red.) (2002). Leesrijk school- en klasklimaat. Een schat aan le(e)sideeën voor het basisonderwijs. Antwerpen/Apeldoorn: Garant. Coussement, K. (2005). Tien voor taal? Observatie en evaluatie van taalvaardigheid bij kleuters, In: Kleuters & ik, 21/3, 24-26. Gysen, S. (2004). Taal anders evalueren in de klas. In: Vonk, 34/2, 3-20. Van den Branden, K., D. Van den Nulft, M. Verhallen & M. Verhelst (2001). Referentiekader vroege tweede taalverwerving. Een referentiekader voor doelstellingen rond vroege NT2-verwerving in Nederland en Vlaanderen. Den Haag: Nederlandse Taalunie. Het Referentiekader is te downloaden op www.taalunieversum.org. Van den Branden, K. (2004). Taalbeleid: een hefboom naar gelijke onderwijskansen? In: School en Samenleving, 5, 49-56. Vanhoof, J. & P. Van Petegem (2004). Alternatieve evaluatievormen als hefboom voor leren: uitdagingen voor het onderwijs in het Nederlands. Mechelen: Wolters Plantyn. Van Petegem, P. & J. Vanhoof (2002). Evaluatie op de testbank. Een handboek voor het ontwikkelen van alternatieve evaluatievormen. Mechelen: Wolters Plantyn. Instrumenten (breed) evalueren Coussement, K., Vanoosthuyze, S. & M. Verhelst (2004). Observatielijst taalvaardigheid o.b.v. het Referentiekader vroege tweede taalverwerving. Leuven: Centrum voor Taal en Migratie, Steunpunt NT2; te downloaden van www.cteno.be. Gysen, S., K. Rossenbacker & M. Verhelst (1999). KOBI-TV. Kleuterobservatieinstrument Taalvaardigheid. Leuven: Centrum voor Taal en Migratie, Steunpunt NT2. Laevers, F., e.a. (2001), Procesgericht Kindvolgsysteem voor Kleuters. Leuven: CEGO Publishers.
81
Lesmateriaal taalvaardigheid (lager onderwijs) Berben, M., Callebaut, I., Colpin, M., Geerts, M., Goethals, M., Vander Meeren, K., Vandommele, G., Van Gorp, K. & S. Vanoosthuyze (2006). TotemTaal. Mechelen: Wolters Plantyn. Geerts, M, Timmermans, S., Van den Branden, K., Van Gorp, K. & T. Verheyen (2004). Het Schrijfpaleis. Motiverende schrijftaken voor de lagere school. Leuven: Steunpunt Nederlands als Tweede Taal. Hansma, M. (2001). Kansrijke taalhoeken in groep 1-8. Baarn: HB-uitgevers. Steunpunt Intercultureel Onderwijs – Universiteit Gent (2004). Een CLIMrek naar intercultureel leren. Antwerpen: Uitgeverij De Boeck. Steunpunt Nederlands als Tweede Taal (2001). Leesprikkels. Lesmateriaal voor begrijpend lezen in het eerste leerjaar. Antwerpen/Apeldoorn: Garant. Voor meer referenties en informatie over lesmateriaal of instrumenten voor breed evalueren verwijzen we graag naar: www.cteno.be en www.steunpuntgok.be.
82
Referenties Berben, M. e.a. (2005). De constructie van een peilingsinstrument luisteren voor het basisonderwijs. Ongepubliceerd eindrapport bij OBPWO 02.07. Leuven/Antwerpen: Katholieke Universiteit Leuven en Universiteit Antwerpen. Bond, T.G. & C.M. Fox (2007) Applying The Rasch Model: Fundamental Measurement in the Human Sciences. Mahwah, New Jersey: Lawrence Erlbaum Associates, Inc. Bultynck, K.. (2004). Wie A zegt, moet ook B zeggen. In: Les, 129, 21-24. Cizek G. & M. Bunch (2006). Standard Setting. A Guide to Establishing and Evaluating Performance Standards on Tests. Sage Publications. Colpin, M., Heymans, R. & R. Rymenans (2005). Ontwikkeling van een instrument voor periodiek peilingsonderzoek schrijven (PPON-S). Ongepubliceerd eindrapport bij OBPWO 01.06. Leuven/Antwerpen: Katholieke Universiteit Leuven en Universiteit Antwerpen. Colpin, M., S. Gysen, K. Jaspaert, R. Heymans, K. Van den Branden & M. Verhelst (2006). Studie naar de wenselijkheid en haalbaarheid van de invoering van centrale taaltoetsen in Vlaanderen in functie van gelijke onderwijskansen. Leuven: Centrum voor Taal en Onderwijs. Coussement, K., Van Oosthuyze, S. & M. Verhelst (2004). Observatielijst taalvaardigheid o.b.v. het Referentiekader vroege tweede taalverwerving. Leuven: Centrum voor Taal en Migratie, Steunpunt NT2; te downloaden van www.cteno.be. Eggen, T.J.H.M. (1993). Itemresponstheorie en onvolledige gegevens [Item response theory and missing data]. In T.J.H.M. Eggen & P. F. Sanders (Eds.), Psychometrie in de praktijk. Arnhem: Cito, 239-284. Fisher, W. Jr. (1992). Reliability Statistics. Rasch Measurement Transactions 1992; 6(3): p.238. Gysen, S., K. Rossenbacker & M. Verhelst (1999). KOBI-TV. Kleuterobservatie-instrument Taalvaardigheid. Leuven: Centrum voor Taal en Migratie, Steunpunt NT2. Janssen, R., De Corte, E., Daems, F., De Boeck, P., Verschaffel, L., Rymenans, R., Luyten, B. & Van Nijlen, D. (2003). Eerste peiling wiskunde en lezen in het basisonderwijs. Eindrapport. Leuven/Antwerpen: Katholieke Universiteit Leuven en Universiteit Antwerpen. Janssen, R., Luyten, B., Van Nijlen, D., & Van Damme, J. (2004). Peiling informatieverwerving en – verwerking in de eerste graad van de A-stroom in het secundair onderwijs. Eindrapport. Leuven: Katholieke Universiteit Leuven. Linacre, J. M. & Wright, B. D. (1998). A user’s guide to BIGSTEPS: Rasch-model computer program. Chicago, IL.: Winsteps.com, P.O. Box 811322. Ministerie van de Vlaamse Gemeenschap, Departement Onderwijs, Afdeling Informatie en documentatie (1997). Gewoon Basisonderwijs: Ontwikkelingsdoelen en eindtermen. Besluit 27, mei 1997. Decreet 15 juli 1997, Brussel. Mitzel, H.C., Lewis, D.M., Patz, R.J. & Green, D.R. (2001). The bookmark procedure: psychological perspectives. In: G.J. Cizek (Ed.), Setting performance standards. Mahwah, NJ: Lawrence Erlbaum, 49-281. Schrooten, W. (1997). De school aan het woord. Een onderzoek naar de lexicale samenstelling van het taalaanbod op de basisschool in Vlaanderen en Nederland. In: Spiegel, 15/3, 61-81. Sijtstra, J., Van der Schoot, F. & Hemker, B. (2002). Balans van het taalonderwijs aan het einde van de basisschool 3: Uitkomsten van de derde peiling in 1998 (PPON-reeks nr. 19). Arnhem: Cito.
83
Steunpunt GOK (2007), Leidraad voor overleg over evalueren (intern document). Thomas, W. & V. Collier, (2000). Accelerating schooling for all students: research findings on education in multilingual communities. In: S. Shaw (Ed.), Intercultural education in European classrooms. Stoke on Trent: Trentham Books, 15-36. Uiterwijk H. (1994) De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. Van Berkel, S. (1995). Stap over de drempel. Ontwikkeling van de Taalvaardigheidstoets Aanvang Lager Onderwijs. In: Samenwijs, 16/1, 32-33. Van Berkel, S. (1995). Taalvaardigheid, schoolsucces en etniciteit. In: Huls, E. & J. Klatter-Folmer (Reds.), Artikelen van de Tweede Sociolinguïstische Conferentie. Delft: Uitgeverij Eburon, 53-66. Van den Branden, K. (1997). Effect of negotiation on language learners’ output. In: Language Learning, 47, 589-636. Van Schilt-Mol, T.M.M.L. (2007). Differential Item Functioning en itembias in de Cito-Eindtoets Basisonderwijs. Amsterdam: Aksant. Verhelst, M. (2006). A box full of feelings: Promoting infants’ second language acquisition all day long.In: K. Van den Branden (Ed.), Task-based language education: from theory to practice, Cambridge Applied Linguistics Series. Cambridge: Cambridge University Press, 197-216. Verhelst, N.D. & C.A.W. Glas (1995). The one parameter logistic model. In: G.H. Fisher & I.W. Molenaar (Eds.): Rasch models: Foundations, recent developments and applications. New York: Springer, 215-239. Verhoeven, L. & A. Vermeer, (2003). Zin en onzin van toetsen bij de aanvang van het basisonderwijs: Predictieve validiteit van taal- en intelligentiepeiling bij autochtone en allochtone kleuters. In: T. Koole, J. Nortier, & B. Tahitu (Reds.), Artikelen van de vierde sociolinguïstische conferentie. Delft: Eburon, 532-541. Werkgroep Taaltoetsen (1995). TAL. Taalvaardigheidstoets Aanvang Lager onderwijs. Leuven: Steunpunt NT2.
84
Bijlagen BIJLAGE 1: RESULTATEN VAN DE ITEMS IN HET VOORONDERZOEK N
Minimum
Maximum
p-waarde
Standaarddeviatie
Rommel eetzaal 7
58
0
1
.40
.493
Varken en rups 5
58
0
1
.40
.493
Naar dierentuin 1
58
0
1
.43
.500
Juf Maaike 4
56
0
1
.45
.502
Juf Maaike 5
56
0
1
.48
.504
Varken en rups 4
58
0
1
.53
.503
Juf Maaike 2
56
0
1
.54
.503
Rommel eetzaal 1
58
0
1
.55
.502
Myriam 4
58
0
1
.57
.500
De gekke hoed 2
49
0
1
.59
.497
Verhaaltjes 6
57
0
1
.60
.495
Lievelingsboeken 4
58
0
1
.60
.493
Varken en rups 6
58
0
1
.60
.493
Verhaaltjes 4
56
0
1
.61
.493
De gekke hoed 1
49
0
1
.61
.492
De gekke hoed 5
49
0
1
.61
.492
Lievelingsboeken 5
58
0
1
.62
.489
Rommel eetzaal 5
58
0
1
.64
.485
Verhaaltjes 1
56
0
1
.64
.483
Jelle vertelt over fam 3
56
0
1
.64
.483
papieren vis 1
56
0
1
.66
.478
Fruitsla 5
58
0
1
.67
.473
Myriam 6
58
0
1
.67
.473
Rommel eetzaal 4
58
0
1
.67
.473
Mug en olifant 1
56
0
1
.68
.471
Dansje 1
56
0
1
.68
.471
Varken en rups 1
58
0
1
.69
.467
Lievelingsboeken 6
58
0
1
.71
.459
Rommel eetzaal 6
58
0
1
.71
.459
Pizza maken 1
56
0
1
.71
.456
Mug en olifant 2
56
0
1
.73
.447
papieren vis 3
56
0
1
.73
.447
papieren vis 5
56
0
1
.73
.447
papieren vis 4
56
0
1
.73
.447
Pizza maken 3
56
0
1
.73
.447
Verjaardagsfeest 6
49
0
1
.73
.446
Rommel klas 3
49
0
1
.73
.446
Myriam 5
58
0
1
.74
.442
Varken en rups 3
58
0
1
.74
.442
Pizza maken 4
56
0
1
.75
.437
Mug en olifant 4
56
0
1
.75
.437
Naar dierentuin 2
58
0
1
.76
.432
Naar dierentuin 2
58
0
1
.76
.432
85
N
Minimum
Maximum
p-waarde
Standaarddeviatie
Mug en olifant 5
56
0
1
.77
.426
Naar dierentuin 4
58
0
1
.78
.421
Juf Maaike 6
56
0
1
.79
.414
Rommel eetzaal 3
58
0
1
.79
.409
Fruitsla 3
58
0
1
.79
.409
Meester jarig 5
49
0
1
.80
.407
Rommel klas 6
49
0
1
.80
.407
Mug en olifant 3
56
0
1
.80
.401
Myriam 1
58
0
1
.81
.395
Varken en rups 2
58
0
1
.81
.395
Verloren voorw 6
49
0
1
.82
.391
Verhaaltjes 2
56
0
1
.82
.386
Verhaaltjes 5
56
0
1
.82
.386
Juf Maaike 7
56
0
1
.82
.386
Verhaaltjes 3
56
0
1
.82
.386
Myriam 3
58
0
1
.83
.381
Myriam 7
58
0
1
.83
.381
Fruitsla 1
58
0
1
.83
.381
Naar dierentuin 3
58
0
1
.83
.381
Verloren voorw 5
49
0
1
.84
.373
Jelle vertelt over fam 4
56
0
1
.84
.371
papieren vis 2
56
0
1
.84
.371
Naar dierentuin 6
58
0
1
.84
.365
Verloren voorw 2
49
0
1
.86
.354
De gekke hoed 4
49
0
1
.86
.354
Dansje 6
56
0
1
.86
.353
Pizza maken 2
56
0
1
.86
.353
vingerpop 2
49
0
1
.86
.354
Juf Maaike 1
56
0
1
.87
.334
Meester jarig 2
49
0
1
.88
.331
Rommel klas 5
49
0
1
.88
.331
Fruitsla 4
58
0
1
.88
.329
Rommel eetzaal 2
58
0
1
.88
.329
Pizza maken 5
56
0
1
.89
.312
Dansje 2
56
0
1
.89
.312
Dansje 3
56
0
1
.89
.312
Mug en olifant 6
56
0
1
.89
.312
Pizza maken 6
56
0
1
.89
.312
Lievelingsboeken 3
58
0
1
.90
.307
Myriam 2
58
0
1
.90
.307
Meester jarig 3
49
0
1
.90
.306
Rommel klas 2
49
0
1
.90
.306
vingerpop 3
49
0
1
.90
.306
Meester jarig 6
49
0
1
.90
.306
Jelle vertelt over fam 2
56
0
1
.91
.288
Juf Maaike 3
56
0
1
.91
.288
Lievelingsboeken 1
58
0
1
.91
.283
86
N
Minimum
Maximum
p-waarde
Standaarddeviatie
Verjaardagsfeest 5
49
0
1
.92
.277
Verjaardagsfeest 7
49
0
1
.92
.277
Verloren voorw 3
49
0
1
.92
.277
vingerpop 4
49
0
1
.92
.277
Meester jarig 1
49
0
1
.92
.277
Rommel klas 4
49
0
1
.92
.277
Fruitsla 2
58
0
1
.93
.256
vingerpop 1
49
0
1
.94
.242
Hoepel 7
49
0
1
.94
.242
Rommel klas 7
49
0
1
.94
.242
Verloren voorw 4
49
0
1
.94
.242
De gekke hoed 3
49
0
1
.94
.242
Verjaardagsfeest 2
49
0
1
.94
.242
Jelle vertelt over fam 1
56
0
1
.95
.227
Dansje 4
56
0
1
.95
.227
Jelle vertelt over fam 5
56
0
1
.95
.227
Speeltijd 2
58
0
1
.95
.223
Speeltijd 3
58
0
1
.95
.223
Speeltijd 1
58
0
1
.95
.223
Rommel klas 1
49
0
1
.96
.200
Hoepel 6
49
0
1
.96
.200
Meester jarig 4
49
0
1
.96
.200
vingerpop 5
49
0
1
.96
.200
Dansje 5
56
0
1
.96
.187
Speeltijd 4
58
0
1
.97
.184
Lievelingsboeken 2
58
0
1
.97
.184
Speeltijd 5
58
0
1
.97
.184
Speeltijd 6
58
0
1
.97
.184
Verjaardagsfeest 3
49
0
1
.98
.143
Verjaardagsfeest 4
49
0
1
.98
.143
Hoepel 2
49
0
1
.98
.143
Verloren voorw 1
49
0
1
.98
.143
Verjaardagsfeest 1
49
1
1
1.00
.000
Hoepel 1
49
1
1
1.00
.000
Hoepel 3
49
1
1
1.00
.000
Hoepel 4
49
1
1
1.00
.000
Hoepel 5
49
1
1
1.00
.000
Tabel 39: Resultaten van de items in het vooronderzoek (p-waarde: de proportie juiste antwoorden)
87
BIJLAGE 2: TOETSGROEPJES PER SCHOOL
Schoolnr. s01 s02 s03 s04 s05 s06 s07 s08 s09 s10 s11 s12 s13 s14 s15 s16 s17 s18 s19 s20 s21 s22 s23 s24 s25 s26 s27 s28 s29 s30 s31 s32 s33 s34 s35 s36 s37 s38 s39 s40 s41 s42 s43 s44 s45 s46 s47
Aantal leerlingen in toetsgroepje tg1 tg2 tg3 tg4 10 6 6 8 7 7 8 9 8 8 9 8 10 10 10 9 9 9 9 6 6 10 9 9 10 10 10 10 8 8 8 7 10 10 10 10 10 10 10 10 10 10 10 10 10 8 8 8 8 7 10 10 10 10 10 10 10 10 10 10 10 10 8 7 6 5 9 8 8 9 8 8 10 10 10 10 9 8 8 10 10 10 10 10 8 7 8 8 10 10 9 7 7 7 8 8 7 8 7 7 10 10 10 9 9 9 8 10 10 8 7 7 7 10 10 10 9 9 9 7 7 8 8 7 6
tg5
tg6
9
10
10
Totaal 10 12 22 25 25 30 45 12 28 40 31 60 30 30 30 16 23 40 30 20 10 20 15 11 25 25 20 20 25 20 30 15 16 29 21 23 22 30 35 20 15 14 30 27 14 16 13
88
Schoolnr. s48 s49 s50 s51 s52 s53 s54 s55 s56 s57 s58 s59 s60 s61 s62 s63 s64 s65 S66 s67 s68 s69 s70 s71 s72 Totaal
Aantal leerlingen in toetsgroepje tg1 tg2 tg3 tg4 9 8 8 7 9 8 8 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 6 9 9 8 9 8 8 8 7 10 9 9 9 9 9 9 8 10 10 10 10 8 7 7 10 10 9 9 8 8 6 6 8 7 9 9 9 9 9 9 9 9 9 8 8 10 639 584 380 89
tg5
tg6
9 8
9
45
10
Totaal 17 15 25 30 30 30 30 30 6 26 25 15 46 43 20 20 22 29 25 12 15 36 45 25 10 1747
Tabel 40: Verdeling toetsgroepjes per school
89
BIJLAGE 3: BRIEF NAAR DE SCHOLEN
CENTRUM VOOR TAAL EN ONDERWIJS BLIJDE-INKOMSTSTRAAT 7 B-3000 LEUVEN
Leuven, 27 augustus 2007 Geachte In het kader van het normeringsonderzoek voor de taaltoets aanvang eerste leerjaar, zouden we graag zo goed mogelijk zicht krijgen op het precieze aantal leerlingen in het eerste leerjaar van uw school. Is het mogelijk dat (geschatte) aantal zo snel mogelijk (vóór 1 september) door te geven? U kunt dat eenvoudig doen door te antwoorden op dit schrijven. Vanaf de tweede week van september neemt een toetsassistent rechtstreeks met u contact op om data voor de test af te spreken. U kunt alvast enkele toetsdata voorzien die in aanmerking kunnen komen. Gelieve bij het zoeken naar toetsdata rekening te houden met het volgende: -
-
De test moet plaatsvinden op één of meerdere voormiddagen tussen 17-9 en 5-10. het totaal aantal te toetsen leerlingen moet worden verdeeld in ongeveer gelijke groepjes van maximaal 10 leerlingen. ¾ Hebt u bv. 22 leerlingen, dan maakt u twee groepjes van 7 en één van 8 leerlingen. Hebt u er 19, dan 10 + 9. Hebt u er 11, dan 5 + 6. ¾ Gelieve de groepjes zo heterogeen mogelijk samen te stellen: niet alle zwakkere leerlingen in de ene en de sterkere in de andere groep. De klastitularis kan wellicht de leerlingen op basis van zijn of haar inschatting spreiden. Er is één toetsassistent per school, die één toetsgroep tegelijk observeert. Er worden dus geen groepen tegelijkertijd getest. Dit betekent dat de overige leerlingen opgevangen moeten worden. De toets bestaat uit twee delen van ongeveer 25 à 30 min., die vanwege de concentratieboog best met een tussenpauze worden afgenomen. Elk groepje zal een andere toets krijgen. Om dit zo efficiënt mogelijk te organiseren, geven we hierbij een voorbeeld van verschillende scenario’s. ¾ Stel dat uw school twee toetsgroepjes heeft: groep 1 en 2 (precieze uren afhankelijk van uw dagverloop) Maandag van 9 tot half 10 groep 1 deel A van toets 1 van half 10 tot 10 groep 2 deel A van toets 2 van half 11 tot 11 groep 1 deel B van toets 1 van 11 tot 11u30 groep 2 deel B van toets 2
90
¾ Stel dat uw school drie toetsgroepjes heeft: groep 1, 2 en 3 (precieze uren afhankelijk van uw dagverloop) Maandag van 9 tot half 10 groep 1 deel A van toets 1 van half 10 tot 10 groep 2 deel A van toets 2 van half 11 tot 11 groep 3 deel A van toets 3 Dinsdag van 9 tot half 10 groep 1 deel B van toets 1 van half 10 tot 10 groep 2 deel B van toets 2 van half 11 tot 11 groep 3 deel B van toets 3 OF: groep 1 deel B op maandag net voor de middag Half september wordt het instructieboek bij u per post geleverd, zodat de leerkracht(en) die de toets zal (zullen) afnemen, zich kunnen voorbereiden. Voor de kopies van de toetsboekjes waarop de leerlingen moeten antwoorden, zorgen de onderzoekers: de toetsassistent brengt deze boekjes op de toetsdag(en) zelf mee. Samen met het instructieboek voor de leerkracht zullen wij u ook vragen een lijst met enkele elementaire achtergrondgegevens in te vullen per leerling. Van een aantal leerlingen moet tegen 5 oktober ook de TAL (Taalvaardigheidstoets Aanvang Lager Onderwijs) worden afgenomen. Het is de bedoeling dat in elke school één toetsgroepje de TAL afneemt. Gelieve daarvoor het groepje te kiezen dat bij de afname van de nieuwe test de meeste leerlingen heeft. ¾ Stel dat er in uw school drie toetsgroepjes voor de afname van de nieuwe test zijn: 8+8+9 leerlingen, waarbij in groep 3 negen leerlingen zitten, dan vragen wij u van (hetzelfde) groepje met 9 leerlingen de TAL af te nemen. Het is de bedoeling dat ook deze afname gebeurt door het schoolpersoneel. Bij deze afname is er echter geen toetsassistent aanwezig. De onderzoekers bezorgen wel in de eerste week van september de toets en de leerlingenboekjes aan de scholen. Idealiter gebeurt de TAL-afname reeds vóór de afnames van de nieuwe toets, zodat de toetsassistent op de toetsdagen de toetsboekjes weer kan meenemen. U kunt op onderstaand e-mailadres vanaf nu ook terecht voor al uw kleine en grote vragen. Alvast erg bedankt voor alle moeite en tot later! Griet Ramaut, Shalini Roppe en Machteld Verhelst
[email protected]
91
BIJLAGE 4: RESULTATEN PER ITEM IN HET KALIBRATIEONDERZOEK Item Dansje 1 Dansje 2 Dansje 3 Dansje 4 Dansje 5 Dansje 6 Hoepel 1 Hoepel 2 Hoepel 3 Hoepel 4 Hoepel 5 Hoepel 6 Hoepel 7 De gekke hoed 1 De gekke hoed 2 De gekke hoed 3 De gekke hoed 4 De gekke hoed 5 Jelle 1 Jelle 2 Jelle 3 Jelle 4 Jelle 5 Juf jarig 1 Juf jarig 2 Juf jarig 3 Juf jarig 4 Juf jarig 5 Juf jarig 6 Juf Maaike 1 Juf Maaike 2 Juf Maaike 3 Juf Maaike 4 Juf Maaike 5 Juf Maaike 6 Myriam 1 Myriam 2 Myriam 3 Myriam 4 Myriam 5 Myriam 6 Myriam 7 Lievelingsboeken 1 Lievelingsboeken 2 Lievelingsboeken 3 Lievelingsboeken 4 Lievelingsboeken 5 Lievelingsboeken 6
N 548 548 548 548 548 548 664 664 664 664 664 664 664 651 651 651 651 651 548 548 548 548 548 543 543 543 543 543 543 518 518 518 518 518 518 529 529 529 529 529 529 529 671 672 672 672 672 672
Minimum
Maximum
Gemiddelde
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.608 0.841 0.870 0.945 0.889 0.821 0.935 0.890 0.956 0.836 0.970 0.884 0.901 0.685 0.217 0.418 0.802 0.521 0.960 0.920 0.735 0.901 0.940 0.877 0.761 0.657 0.849 0.862 0.761 0.846 0.811 0.421 0.286 0.683 0.670 0.807 0.841 0.853 0.546 0.698 0.588 0.860 0.823 0.862 0.793 0.652 0.531 0.692
Standaarddeviatie 0.489 0.366 0.336 0.228 0.315 0.384 0.246 0.313 0.205 0.371 0.171 0.320 0.299 0.465 0.412 0.494 0.399 0.500 0.196 0.272 0.442 0.298 0.238 0.329 0.427 0.475 0.358 0.345 0.427 0.362 0.392 0.494 0.452 0.466 0.471 0.395 0.366 0.355 0.498 0.460 0.493 0.347 0.382 0.346 0.405 0.477 0.499 0.462
92
Item Fruitsla 1 Fruitsla 2 Fruitsla 3 Fruitsla 4 Fruitsla 5 Mug en olifant 1 Mug en olifant 2 Mug en olifant 3 Mug en olifant 4 Mug en olifant 5 Mug en olifant 6 Naar dierentuin 1 Naar dierentuin 2 Naar dierentuin 3 Naar dierentuin 4 Naar dierentuin 5 Naar dierentuin 6 Varken en rups 1 Varken en rups 2 Varken en rups 3 Varken en rups 4 Varken en rups 5 Varken en rups 6 Papieren vis 1 Papieren vis 2 Papieren vis 3 Papieren vis 4 Papieren vis 5 Verhaaltjes 1 Verhaaltjes 2 Verhaaltjes 3 Verhaaltjes 4 Verhaaltjes 5 Verhaaltjes 6 Verjaardag 1 Verjaardag 2 Verjaardag 3 Verjaardag 4 Verjaardag 5 Verjaardag 6 Verjaardag 7 Pizza maken 1 Pizza maken 2 Pizza maken 3 Pizza maken 4 Pizza maken 5 Pizza maken 6 Rommel klas 1 Rommel klas 2 Rommel klas 3
N 562 562 562 562 562 640 640 640 640 640 640 547 547 547 547 547 547 567 567 567 567 567 567 566 566 566 566 566 564 564 564 564 564 564 557 557 557 557 557 557 557 632 632 632 632 632 632 552 552 552
Minimum
Maximum
Gemiddelde
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.648 0.760 0.726 0.867 0.681 0.764 0.641 0.542 0.666 0.772 0.845 0.742 0.596 0.770 0.731 0.665 0.684 0.631 0.767 0.651 0.668 0.243 0.529 0.760 0.829 0.784 0.717 0.611 0.535 0.585 0.807 0.743 0.766 0.495 0.943 0.883 0.847 0.774 0.616 0.445 0.901 0.573 0.608 0.698 0.684 0.881 0.726 0.806 0.790 0.848
Standaarddeviatie 0.478 0.428 0.446 0.340 0.466 0.425 0.480 0.499 0.472 0.420 0.362 0.438 0.491 0.421 0.444 0.472 0.465 0.483 0.423 0.477 0.471 0.430 0.500 0.428 0.377 0.412 0.451 0.488 0.499 0.493 0.395 0.437 0.424 0.500 0.233 0.321 0.360 0.419 0.487 0.497 0.299 0.495 0.489 0.460 0.465 0.324 0.446 0.396 0.408 0.360
93
Item Rommel klas 4 Rommel klas 5 Rommel klas 6 Rommel eetzaal 1 Rommel eetzaal 2 Rommel eetzaal 3 Rommel eetzaal 4 Rommel eetzaal 5 Rommel eetzaal 6 Rommel eetzaal 7 Verloren voorw 1 Verloren voorw 2 Verloren voorw 3 Verloren voorw 4 Vingerpop 1 Vingerpop 2 Vingerpop 3 Vingerpop 4 Vingerpop 5 Speeltijd 1 Speeltijd 2 Speeltijd 3 Speeltijd 4 Speeltijd 5 Speeltijd 6
N 552 552 552 642 642 642 641 642 641 642 540 540 540 540 642 642 642 642 642 529 529 529 529 529 529
Minimum
Maximum
Gemiddelde
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.761 0.592 0.685 0.889 0.900 0.854 0.750 0.776 0.638 0.489 0.811 0.831 0.678 0.711 0.732 0.706 0.595 0.586 0.891 0.949 0.947 0.964 0.962 0.968 0.975
Standaarddeviatie 0.427 0.492 0.465 0.314 0.300 0.354 0.433 0.417 0.481 0.500 0.392 0.375 0.468 0.454 0.443 0.456 0.491 0.493 0.312 0.220 0.224 0.186 0.191 0.177 0.155
Tabel 41: Resultaten per item in het kalibratieonderzoek
94
BIJLAGE 5: NIET-PASSENDE TOETSITEMS Twee toetstaken (‘Gekke hoed’ en ‘Op uitstap naar de dierentuin’) werden zoals vermeld verwijderd omdat een aanzienlijk aantal items niet pasten in het model. Daarnaast zijn er ook 16 toetsitems verwijderd die niet pasten in het model: 1. Juf is jarig 6 2. Juf Maaike 1 3. Juf Maaike 4 4. Myriam 6 5. Lievelingsboeken 3 6. Fruitsla 3 7. Mug en olifant 1 8. Mug en olifant 3 9. Varken en Rups 2 10. Varken en Rups 5 11. Verhaaltjes 2 12. Verjaardagsfeest 6 13. Rommel in de klas 2 14. Rommel in de klas 3 15. Rommel in de eetzaal 5 16. Vingerpop 2 De vraag is of de schendingen van het model door deze items kunnen worden ondersteund door inhoudelijke argumenten. Er kunnen verschillende inhoudelijke redenen zijn waarom een item zich afwijkend gedraagt en daardoor uit de analyses komt als misfit of 'niet-passend in het model'. De meest plausibele verklaringen voor de 16 genoemde items zijn: - omdat de toetsvraag dubbelzinnig kan worden geïnterpreteerd waardoor sterke leerlingen net in de fout gaan; - omdat een tekening verschillende interpretaties toelaat; - omdat een item te eenvoudig en sterke leerlingen te ver gaan 'doordenken' en daardoor het verkeerde antwoord geven. We kunnen de exacte inhoudelijke verklaring waarom een bepaald item misfit in de IRT-schaal niet met stelligheid aangeven; bovenstaande redenen zijn dan ook hypothetisch. De informatie die deze items (en ook de volledig verwijderde taken) qua luisterdoel hadden moeten opleveren, staat vermeld in de toetsmatrijs in tabel 2. De uiteindelijke toetsmatrijzen opgenomen in bijlage 7 geven de luisterdoelen weer die met de overgehouden items worden getoetst. Daaruit zal blijken dat er nog een voldoende grote dekking van het referentiekader is. In de onderstaande tabel staat een overzicht van waar de 16 verwijderde toetsitems zich qua moeilijkheid situeren voor de verschillende parameters. Voor de duidelijkheid zijn de parameters voorgesteld als afzonderlijke categorieën (eenvoudig, minder eenvoudig, complex), maar het spreekt voor zich dat het in werkelijkheid gaat om continua die geleidelijk van eenvoudig naar complex gaan.
95
Juf is jarig 6
x
x
x
x
x
x
Juf Maaike 1
x
x
x
x
x
x
Juf Maaike 4
x
x
x
x
x
x
x
Myriam 6
x
x
x
x
x
x
x
x
x
x
x
x
x
x
X
Lievelingsboeken 3 Fruitsla 3
x
x
x
x
x
x
complex
minder eenvoudig
linguïstische complexiteit eenvoudig
geen
beperkt
visuele ondersteuning
veel
kopiërend
onbekend/ volwassenen
onbekend/ leeftijdsgenoot
beschrijvend
verwerkingsniveau
publiek bekend/ leerling zelf
veel inleving
beperkte inleving
geen inleving
perspectief beschouwend
daar-en-toen
context hier-en-nu
abstract
minder concreet
concreet
onderwerp
x x
Mug en olifant 1
x
x
x
x
x
x
x
Mug en olifant 3
x
x
x
x
x
x
x
Varken en rups 2
x
x
x
x
x
x
x
Varken en rups 5
x
x
x
x
x
x
Verhaaltjes 2
x
x
x
x
x
x
Verjaardagsfeest 6
x
x
Rommel in de klas 2
x
x
x
Rommel in de klas 3
x
x
x
Rommel in eetzaal 5
x
x x
Vingerpop 2
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Tabel 42: Moeilijkheidsgraad van de verwijderde items
Bijlage 11 geeft een gelijkaardig overzicht van de items opgenomen in versie A. Uit die tabel zal blijken dat ook het scala van moeilijkheidsgraad ook zonder deze items nog steeds genoeg gedekt is. De volledige toetstaken zoals afgenomen in het kalibratieonderzoek vindt u (wegens omvang) in een apart document 'toetstaken (alle items)'. De eerste vijf taken in dat bestand zijn de taken die in zijn geheel zijn weggelaten. De volgende twaalf taken zijn taken waar hier en daar een item is verwijderd. De taken die intact bleven zijn niet opgenomen (want die bevinden zich al integraal in het leerkrachten- en leerlingenboek).
96
Bijlage 6 : Betrouwbaarheidsanalyses De analyses bevatten al de 123 items van het kalibratieonderzoek. 1 Dansje Case Processing Summary N Cases
Valid Excludeda Total
548 982 1530
Reliability Statistics
% 35,8 64,2 100,0
Cronbach's Alpha ,620
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Dansje 1 Dansje 2 Dansje 3 Dansje 4 Dansje 5 Dansje 6
Scale Variance if Item Deleted 1,055 1,238 1,179 1,374 1,307 1,121
Scale Mean if Item Deleted 4,37 4,13 4,10 4,03 4,09 4,15
Corrected Item-Total Correlation ,327 ,308 ,453 ,369 ,301 ,437
Cronbach's Alpha if Item Deleted ,605 ,594 ,539 ,584 ,595 ,540
2 Hoepel Case Processing Summary N Cases
Valid Excludeda Total
664 866 1530
Reliability Statistics % 43,4 56,6 100,0
Cronbach's Alpha ,651
N of Items 7
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Hoepel 1 Hoepel 2 Hoepel 3 Hoepel 4 Hoepel 5 Hoepel 6 Hoepel 7
Scale Mean if Item Deleted 5,44 5,48 5,42 5,54 5,40 5,49 5,47
Scale Variance if Item Deleted 1,013 ,926 1,079 ,792 1,107 ,977 ,995
Corrected Item-Total Correlation ,388 ,402 ,341 ,509 ,361 ,293 ,304
Cronbach's Alpha if Item Deleted ,609 ,602 ,624 ,561 ,625 ,639 ,633
97
3 De gekke hoed Case Processing Summary
Reliability Statistics N Cases
Valid Excludeda Total
651 879 1530
% 42,5 57,5 100,0
Cronbach's Alpha ,417
N of Items 5
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
De gekke hoed 1 De gekke hoed 2 De gekke hoed 3 De gekke hoed 4 De gekke hoed 5
Scale Mean if Item Deleted 1,96 2,43 2,22 1,84 2,12
Scale Variance if Item Deleted 1,112 1,285 1,168 1,159 ,993
Corrected Item-Total Correlation ,236 ,112 ,138 ,281 ,318
Cronbach's Alpha if Item Deleted ,347 ,432 ,426 ,321 ,274
4 Jelle Case Processing Summary N Cases
Valid Excludeda Total
548 982 1530
Reliability Statistics % 35,8 64,2 100,0
Cronbach's Alpha ,533
N of Items 5
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
jelle 1 jelle 2 jelle 3 jelle 4 jelle 5
Scale Mean if Item Deleted 3,50 3,54 3,72 3,55 3,52
Scale Variance if Item Deleted ,671 ,575 ,450 ,547 ,579
Corrected Item-Total Correlation ,249 ,342 ,244 ,348 ,424
Cronbach's Alpha if Item Deleted ,509 ,453 ,568 ,446 ,421
98
5 De juf is jarig Reliability Statistics
Case Processing Summary N Cases
Valid Excludeda Total
Cronbach's Alpha ,671
% 35,5 64,5 100,0
543 987 1530
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics Scale Variance if Item Deleted 1,766 1,493 1,437 1,670 1,666 1,500
Scale Mean if Item Deleted 3,89 4,01 4,11 3,92 3,90 4,01
Juf jarig 1 Juf jarig 2 Juf jarig 3 Juf jarig 4 Juf jarig 5 Juf jarig 6
Corrected Item-Total Correlation ,310 ,452 ,425 ,375 ,405 ,443
Cronbach's Alpha if Item Deleted ,657 ,610 ,623 ,638 ,629 ,613
6 Juf Maaike Case Processing Summary N Cases
Valid Excludeda Total
Reliability Statistics % 33,9 66,1 100,0
518 1012 1530
Cronbach's Alpha ,559
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Juf Maaike 1 Juf Maaike 2 Juf Maaike 3 Juf Maaike 4 Juf Maaike 5 Juf Maaike 6
Scale Mean if Item Deleted 2,87 2,91 3,30 3,43 3,03 3,05
Scale Variance if Item Deleted 1,649 1,683 1,601 1,816 1,583 1,607
Corrected Item-Total Correlation ,444 ,349 ,277 ,141 ,335 ,304
Cronbach's Alpha if Item Deleted ,461 ,494 ,526 ,584 ,496 ,511
99
7 Myriam Case Processing Summary N Cases
Valid Excludeda Total
529 1001 1530
Reliability Statistics
% 34,6 65,4 100,0
Cronbach's Alpha ,629
N of Items 7
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Myriam 1 Myriam 2 Myriam 3 Myriam 4 Myriam 5 Myriam 6 Myriam 7
Scale Variance if Item Deleted 2,177 2,073 2,096 2,036 2,035 2,042 2,230
Scale Mean if Item Deleted 4,39 4,35 4,34 4,65 4,50 4,60 4,33
Corrected Item-Total Correlation ,307 ,459 ,455 ,285 ,339 ,287 ,327
Cronbach's Alpha if Item Deleted ,603 ,560 ,563 ,616 ,594 ,615 ,598
8 Lievelingsboeken Case Processing Summary N Cases
Valid Excludeda Total
671 859 1530
Reliability Statistics % 43,9 56,1 100,0
Cronbach's Alpha ,649
N of Items 6
Corrected Item-Total Correlation ,365 ,352 ,426 ,400 ,355 ,397
Cronbach's Alpha if Item Deleted ,612 ,618 ,590 ,599 ,619 ,600
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Lievelingsboeken 1 Lievelingsboeken 2 Lievelingsboeken 3 Lievelingsboeken 4 Lievelingsboeken 5 Lievelingsboeken 6
Scale Mean if Item Deleted 3,53 3,49 3,56 3,70 3,82 3,66
Scale Variance if Item Deleted 1,909 1,979 1,811 1,714 1,726 1,744
100
9 Fruitsla Case Processing Summary N Cases
Valid Excludeda Total
Reliability Statistics
% 36,7 63,3 100,0
562 968 1530
Cronbach's Alpha ,639
N of Items 5
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Fruitsla 1 Fruitsla 2 Fruitsla 3 Fruitsla 4 Fruitsla 5
Scale Variance if Item Deleted 1,355 1,448 1,244 1,438 1,255
Scale Mean if Item Deleted 3,03 2,92 2,96 2,81 3,00
Corrected Item-Total Correlation ,313 ,292 ,491 ,463 ,440
Cronbach's Alpha if Item Deleted ,630 ,633 ,535 ,565 ,561
10 Mug en olifant Case Processing Summary N Cases
Valid Excludeda Total
640 890 1530
Reliability Statistics % 41,8 58,2 100,0
Cronbach's Alpha ,589
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Mug en olifant 1 Mug en olifant 2 Mug en olifant 3 Mug en olifant 4 Mug en olifant 5 Mug en olifant 6
Scale Mean if Item Deleted 3,47 3,59 3,69 3,56 3,46 3,38
Scale Variance if Item Deleted 1,864 1,620 1,692 1,658 1,754 1,949
Corrected Item-Total Correlation ,252 ,398 ,305 ,375 ,365 ,254
Cronbach's Alpha if Item Deleted ,573 ,510 ,555 ,521 ,528 ,571
101
11 Dierentuin Reliability Statistics Case Processing Summary N Cases
Valid Excludeda Total
547 983 1530
% 35,8 64,2 100,0
Cronbach's Alpha ,538
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Naar dierentuin 1 Naar dierentuin 2 Naar dierentuin 3 Naar dierentuin 4 Naar dierentuin 5 Naar dierentuin 6
Scale Mean if Item Deleted 3,45 3,59 3,42 3,46 3,52 3,50
Scale Variance if Item Deleted 1,834 1,821 1,746 1,692 1,572 1,620
Corrected Item-Total Correlation ,197 ,149 ,302 ,321 ,392 ,356
Cronbach's Alpha if Item Deleted ,531 ,559 ,484 ,474 ,436 ,455
12 Varken en rups Case Processing Summary N Cases
Valid Excludeda Total
567 963 1530
Reliability Statistics % 37,1 62,9 100,0
Cronbach's Alpha ,625
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Varken en rups 1 Varken en rups 2 Varken en rups 3 Varken en rups 4 Varken en rups 5 Varken en rups 6
Scale Mean if Item Deleted 2,86 2,72 2,84 2,82 3,25 2,96
Scale Variance if Item Deleted 1,998 1,943 1,877 2,012 2,381 1,896
Corrected Item-Total Correlation ,346 ,493 ,457 ,350 ,104 ,405
Cronbach's Alpha if Item Deleted ,585 ,531 ,539 ,583 ,666 ,560
102
13 Papieren vis Reliability Statistics
Case Processing Summary N Cases
Valid Excludeda Total
Cronbach's Alpha ,462
% 37,0 63,0 100,0
566 964 1530
N of Items 5
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Papieren vis 1 Papieren vis 2 Papieren vis 3 Papieren vis 4 Papieren vis 5
Scale Mean if Item Deleted 2,94 2,87 2,92 2,98 3,09
Scale Variance if Item Deleted 1,142 1,145 1,096 1,042 ,964
Corrected Item-Total Correlation ,175 ,244 ,254 ,259 ,295
Cronbach's Alpha if Item Deleted ,454 ,409 ,401 ,396 ,368
14 Verhaaltjes Case Processing Summary N Cases
Valid Excludeda Total
% 36,9 63,1 100,0
564 966 1530
a. Listwise deletion based on all variables in the procedure.
Reliability Statistics Cronbach's Alpha ,593
N of Items 6
Item-Total Statistics
Verhaaltjes 1 Verhaaltjes 2 Verhaaltjes 3 Verhaaltjes 4 Verhaaltjes 5 Verhaaltjes 6
Scale Mean if Item Deleted 3,40 3,35 3,12 3,19 3,16 3,44
Scale Variance if Item Deleted 1,845 1,847 2,002 1,918 1,886 1,806
Corrected Item-Total Correlation ,305 ,313 ,313 ,329 ,381 ,336
Cronbach's Alpha if Item Deleted ,559 ,555 ,555 ,547 ,527 ,544
103
15 Verjaardag Reliability Statistics
Case Processing Summary N Cases
Valid Excludeda Total
Cronbach's Alpha ,646
% 36,4 63,6 100,0
557 973 1530
N of Items 7
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Verjaardag 1 Verjaardag 2 Verjaardag 3 Verjaardag 4 Verjaardag 5 Verjaardag 6 Verjaardag 7
Scale Mean if Item Deleted 4,47 4,53 4,56 4,64 4,79 4,96 4,51
Scale Variance if Item Deleted 2,044 1,966 1,783 1,761 1,635 1,556 1,898
Corrected Item-Total Correlation ,335 ,280 ,426 ,347 ,361 ,417 ,406
Cronbach's Alpha if Item Deleted ,624 ,631 ,590 ,613 ,614 ,592 ,601
16 Pizza Case Processing Summary N Cases
Valid Excludeda Total
632 898 1530
Reliability Statistics % 41,3 58,7 100,0
Cronbach's Alpha ,609
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Pizza maken 1 Pizza maken 2 Pizza maken 3 Pizza maken 4 Pizza maken 5 Pizza maken 6
Scale Mean if Item Deleted 3,60 3,56 3,47 3,49 3,29 3,44
Scale Variance if Item Deleted 1,816 1,809 1,765 1,854 2,015 1,826
Corrected Item-Total Correlation ,304 ,319 ,403 ,313 ,378 ,367
Cronbach's Alpha if Item Deleted ,582 ,575 ,539 ,576 ,561 ,554
104
17 Rommel in de klas Reliability Statistics
Case Processing Summary N Cases
Valid Excludeda Total
% 36,1 63,9 100,0
552 978 1530
Cronbach's Alpha ,673
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Rommel klas 1 Rommel klas 2 Rommel klas 3 Rommel klas 4 Rommel klas 5 Rommel klas 6
Scale Mean if Item Deleted 3,68 3,69 3,63 3,72 3,89 3,80
Scale Variance if Item Deleted 1,813 1,927 1,855 1,777 1,790 1,890
Corrected Item-Total Correlation ,488 ,350 ,516 ,466 ,348 ,300
Cronbach's Alpha if Item Deleted ,605 ,649 ,601 ,610 ,656 ,670
18 Rommel in de eetzaal Case Processing Summary N Cases
Valid Excludeda Total
640 890 1530
Reliability Statistics % 41,8 58,2 100,0
Cronbach's Alpha ,702
N of Items 7
Corrected Item-Total Correlation ,268 ,254 ,489 ,443 ,542 ,463 ,429
Cronbach's Alpha if Item Deleted ,700 ,702 ,652 ,660 ,633 ,655 ,667
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Rommel eetzaal 1 Rommel eetzaal 2 Rommel eetzaal 3 Rommel eetzaal 4 Rommel eetzaal 5 Rommel eetzaal 6 Rommel eetzaal 7
Scale Mean if Item Deleted 4,40 4,39 4,44 4,54 4,52 4,66 4,80
Scale Variance if Item Deleted 2,542 2,574 2,263 2,158 2,081 2,041 2,045
105
19 Verloren voorwerpen
Reliability Statistics Case Processing Summary N Cases
Valid Excludeda Total
Cronbach's Alpha ,537
% 35,3 64,7 100,0
540 990 1530
N of Items 4
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Verloren voorw 1 Verloren voorw 2 Verloren voorw 3 Verloren voorw 4
Scale Mean if Item Deleted 2,22 2,20 2,35 2,32
Scale Variance if Item Deleted ,859 ,810 ,689 ,767
Corrected Item-Total Correlation ,263 ,375 ,380 ,289
Cronbach's Alpha if Item Deleted ,513 ,429 ,412 ,498
20 Vingerpop Case Processing Summary N Cases
Valid Excludeda Total
Reliability Statistics % 42,0 58,0 100,0
642 888 1530
Cronbach's Alpha ,587
N of Items 5
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Vingerpop 1 Vingerpop 2 Vingerpop 3 Vingerpop 4 Vingerpop 5
Scale Mean if Item Deleted 2,78 2,80 2,91 2,92 2,62
Scale Variance if Item Deleted 1,331 1,353 1,170 1,197 1,516
Corrected Item-Total Correlation ,326 ,282 ,422 ,390 ,322
Cronbach's Alpha if Item Deleted ,542 ,567 ,485 ,506 ,551
106
21 Speeltijd Case Processing Summary N Cases
Valid Excludeda Total
529 1001 1530
Reliability Statistics Cronbach's Alpha ,670
% 34,6 65,4 100,0
N of Items 6
a. Listwise deletion based on all variables in the procedure. Item-Total Statistics
Speeltijd 1 Speeltijd 2 Speeltijd 3 Speeltijd 4 Speeltijd 5 Speeltijd 6
Scale Mean if Item Deleted 4,82 4,82 4,80 4,80 4,80 4,79
Scale Variance if Item Deleted ,408 ,338 ,372 ,370 ,385 ,390
Corrected Item-Total Correlation ,189 ,464 ,454 ,441 ,425 ,495
Cronbach's Alpha if Item Deleted ,709 ,604 ,609 ,613 ,621 ,605
107
BIJLAGE 7: DEFINITIEVE TOETSMATRIJS PER VERSIE Overzicht taalvaardigheidsdoelen versie A / versie B / versie C TAALVAARDIGHEIDSDOELEN LUISTEREN
O.D.
Luisteren (1) mondelinge instructie of opdracht, voor de leerling bestemd, begrijpen 1.1 instructies voor een concrete fysieke handeling in het hier-en-nu, bestemd voor de leerling of een leeftijdsgenoot, begrijpen
1.4
1.2 instructies voor een mentale of talige handeling, bestemd voor de leerling of een leeftijdsgenoot, begrijpen Luisteren (2) mondelinge vraag, voor de leerling bestemd, begrijpen 2.1 vraag naar intenties, interesses of voorkeuren begrijpen
TITEL TOETSTAAK
Verjaardagsfeest (items 1-4) Dansje De juf is jarig (items 1-5) Fruitsla maken Papieren vis Pizza maken Rommel in de eetzaal (items 1-6) Rommel in de klas Vingerpop knutselen (items 1-4)
1.2 Lievelingsboeken (items 1-4)*
2.2 open vraag over eigen ervaringen en belevingen begrijpen 2.3 vraag over zijn gevoelens of van partners in de omgeving begrijpen 2.4 vraag over situaties, handelingen of voorwerpen in de concrete omgeving begrijpen
Varken en Rups (items 1,3)* Juf Maaike (items 1,2)* Varken en Rups (items 2,4)* Verhaaltjes (items 1-5)*
Luisteren (3) gesproken verhaal, bestemd voor de leeftijdsgroep, begrijpen 3.1 voor hem bestemd verhaal volgen en begrijpen
1.5
Luisteren (4) mondelinge informatieve mededelingen, bestemd voor de leerling of leeftijdsgenoten, begrijpen 4.1 informatieve mededelingen over concrete gebeurtenissen en feiten in het hier-en-nu begrijpen 4.2 informatieve mededelingen over concrete gebeurtenissen en feiten buiten het hier-en-nu begrijpen 4.3 mededelingen over regels en voorschriften in concrete situaties begrijpen
1.3
Mug en olifant Varken en rups (items 1-4)* Verhaaltjes (items 1-5)*
1.1
Juf Maaike (items 1-4)* Verloren voorwerpen Lievelingsboeken (items 1-4)* Doet Myriam het goed?
Tabel 43: Toetsmatrijs versie A Opmerkingen - In de categorieën 1.1 en 4.1 gaat het – behalve voor ‘Verjaardagsfeest’ – niet om het concrete hieren-nu waarin de leerlingen zich bevinden. Er wordt verondersteld dat ze zich inleven in een concrete situatie die niet aanwezig is en die wordt voorgesteld d.m.v. de tekeningen. - In de taken die gemarkeerd zijn met * worden meerdere doelen gemeten in de toets: om de toetsitems correct te kunnen oplossen, moeten de leerlingen meerdere vaardigheden kunnen combineren. Ze moeten bijvoorbeeld niet enkel een informatieve mededeling of een stukje verhaal begrijpen, maar ook de vraag begrijpen die daarbij hoort.
108
Overzicht taalvaardigheidsdoelen versie A / versie B / versie C TAALVAARDIGHEIDSDOELEN LUISTEREN
O.D.
Luisteren (1) mondelinge instructie of opdracht, voor de leerling bestemd, begrijpen 1.1 instructies voor een concrete fysieke handeling in het hier-en-nu, bestemd voor de leerling of een leeftijdsgenoot, begrijpen
1.4
1.2 instructies voor een mentale of talige handeling, bestemd voor de leerling of een leeftijdsgenoot, begrijpen Luisteren (2) mondelinge vraag, voor de leerling bestemd, begrijpen 2.1 vraag naar intenties, interesses of voorkeuren begrijpen
TITEL TOETSTAAK
Verjaardagsfeest Dansje (items 1-6) De juf is jarig Fruitsla maken (items 1-4) Papieren vis (items 1-5) Pizza maken (items 1-6) Rommel in de eetzaal (items 1-6) Rommel in de klas Vingerpop knutselen
1.2 Lievelingsboeken*
2.2 open vraag over eigen ervaringen en belevingen begrijpen 2.3 vraag over zijn gevoelens of van partners in de omgeving begrijpen 2.4 vraag over situaties, handelingen of voorwerpen in de concrete omgeving begrijpen
Varken en Rups (items 1,3)* Juf Maaike* Varken en Rups (items 2,4)* Verhaaltjes*
Luisteren (3) gesproken verhaal, bestemd voor de leeftijdsgroep, begrijpen 3.1 voor hem bestemd verhaal volgen en begrijpen
1.5
Luisteren (4) mondelinge informatieve mededelingen, bestemd voor de leerling of leeftijdsgenoten, begrijpen 4.1 informatieve mededelingen over concrete gebeurtenissen en feiten in het hier-en-nu begrijpen 4.2 informatieve mededelingen over concrete gebeurtenissen en feiten buiten het hier-en-nu begrijpen 4.3 mededelingen over regels en voorschriften in concrete situaties begrijpen
1.3
Mug en olifant Varken en rups (items 1-4)* Verhaaltjes*
1.1
Juf Maaike (items 1-4)* Verloren voorwerpen (items 1-4) Lievelingsboeken * Doet Myriam het goed?
Tabel 44: Toetsmatrijs versie B Opmerkingen - In de categorieën 1.1 en 4.1 gaat het – behalve voor ‘Verjaardagsfeest’ – niet om het concrete hieren-nu waarin de leerlingen zich bevinden. Er wordt verondersteld dat ze zich inleven in een concrete situatie die niet aanwezig is en die wordt voorgesteld d.m.v. de tekeningen. - In de taken die gemarkeerd zijn met * worden meerdere doelen gemeten in de toets: om de toetsitems correct te kunnen oplossen, moeten de leerlingen meerdere vaardigheden kunnen combineren. Ze moeten bijvoorbeeld niet enkel een informatieve mededeling of een stukje verhaal begrijpen, maar ook de vraag begrijpen die daarbij hoort.
109
Overzicht taalvaardigheidsdoelen versie A/ versie B / versie C TAALVAARDIGHEIDSDOELEN LUISTEREN
O.D.
Luisteren (1) mondelinge instructie of opdracht, voor de leerling bestemd, begrijpen 1.1 instructies voor een concrete fysieke handeling in het hier-en-nu, bestemd voor de leerling of een leeftijdsgenoot, begrijpen
1.4
1.2 instructies voor een mentale of talige handeling, bestemd voor de leerling of een leeftijdsgenoot, begrijpen Luisteren (2) mondelinge vraag, voor de leerling bestemd, begrijpen 2.1 vraag naar intenties, interesses of voorkeuren begrijpen
TITEL TOETSTAAK
Verjaardagsfeest (items 1-4) Dansje De juf is jarig (items 1-5) Fruitsla maken Papieren vis Pizza maken Rommel in de eetzaal Rommel in de klas (items 1-4) Vingerpop knutselen
1.2 Lievelingsboeken (items 1-4)*
2.2 open vraag over eigen ervaringen en belevingen begrijpen 2.3 vraag over zijn gevoelens of van partners in de omgeving begrijpen 2.4 vraag over situaties, handelingen of voorwerpen in de concrete omgeving begrijpen
Varken en Rups* Juf Maaike (items 1,2)* Varken en Rups* Verhaaltjes (items 1-5)*
Luisteren (3) gesproken verhaal, bestemd voor de leeftijdsgroep, begrijpen 3.1 voor hem bestemd verhaal volgen en begrijpen
1.5
Luisteren (4) mondelinge informatieve mededelingen, bestemd voor de leerling of leeftijdsgenoten, begrijpen 4.1 informatieve mededelingen over concrete gebeurtenissen en feiten in het hier-en-nu begrijpen 4.2 informatieve mededelingen over concrete gebeurtenissen en feiten buiten het hier-en-nu begrijpen 4.3 mededelingen over regels en voorschriften in concrete situaties begrijpen
1.3
Mug en olifant (items 1-4) Varken en rups* Verhaaltjes (items 1-5)*
1.1
Juf Maaike (items 1-4)* Verloren voorwerpen Lievelingsboeken (items 1-4)* Doet Myriam het goed? (items 1-6)
Tabel 45: Toetsmatrijs versie C Opmerkingen - In de categorieën 1.1 en 4.1 gaat het – behalve voor ‘Verjaardagsfeest’ – niet om het concrete hieren-nu waarin de leerlingen zich bevinden. Er wordt verondersteld dat ze zich inleven in een concrete situatie die niet aanwezig is en die wordt voorgesteld d.m.v. de tekeningen. - In de taken die gemarkeerd zijn met * worden meerdere doelen gemeten in de toets: om de toetsitems correct te kunnen oplossen, moeten de leerlingen meerdere vaardigheden kunnen combineren. Ze moeten bijvoorbeeld niet enkel een informatieve mededeling of een stukje verhaal begrijpen, maar ook de vraag begrijpen die daarbij hoort.
110
BIJLAGE 8: RESULTATEN OPLM-KALIBRATIE nr label 1 dans1 2 dans2 3 dans3 4 dans4 5 dans5 6 dans6 24 jufj1 25 jufj2 26 jufj3 27 jufj4 28 jufj5 31 maai1 32 maai2 34 maai3 35 maai4 36 myr1 37 myr2 38 myr3 39 myr4 40 myr5 42 myr6 43 liev1 44 liev2 46 liev3 47 liev4 48 liev5 49 fru1 50 fru2 52 fru3 53 fru4 55 mug1 57 mug2 58 mug3 59 mug4 66 vark1 68 vark2 69 vark3 71 vark4 72 pap1 73 pap2 74 pap3 75 pap4 76 pap5 77 verh1 79 verh2 80 verh3 81 verh4 82 verh5 83 verj1 84 verj2 85 verj3 86 verj4 87 verj5 89 verj6
A 3 4 4 2 3 4 3 3 3 4 4 4 2 3 3 2 3 3 2 2 3 3 4 4 3 3 3 3 4 4 2 3 3 2 3 4 3 4 2 3 2 3 3 2 3 3 3 3 3 3 3 3 3 3
B .274 -.116 -.218 -1.118 -.396 -.080 -.293 .029 .237 -.085 -.119 -.058 .637 .128 .158 -.281 -.178 -.213 .425 .055 -.245 -.122 -.130 .278 .447 .160 .211 -.011 -.166 .203 .125 .158 -.074 -.514 .243 .253 .179 .428 -.179 -.182 -.246 .086 .275 .380 -.109 .035 -.016 .484 -.643 -.344 -.222 -.027 .285 -.417
SE(B) .035 .035 .039 .098 .050 .034 .047 .038 .034 .035 .036 .034 .049 .036 .036 .058 .044 .045 .048 .051 .046 .037 .032 .025 .030 .032 .034 .037 .036 .028 .045 .033 .036 .058 .033 .027 .034 .026 .052 .041 .054 .035 .033 .046 .039 .036 .037 .032 .065 .048 .043 .038 .033 .051
S 3.725 7.719 2.876 7.427 3.019 2.542 8.893 2.711 9.234 5.377 1.915 2.097 1.288 7.797 3.838 3.478 8.546 7.713 2.582 10.678 8.896 8.388 1.369 10.655 9.455 10.705 5.247 5.175 3.479 6.191 9.115 12.339 5.923 3.100 1.811 3.127 5.040 15.193 2.999 11.873 2.022 9.000 4.022 5.329 7.557 5.176 9.556 12.433 2.226 1.777 3.537 9.568 9.034 1.185
DF 7 5 4 3 5 5 5 6 7 5 4 5 7 7 7 7 5 5 7 7 5 6 5 7 7 7 7 7 4 6 7 7 6 7 7 7 7 7 7 6 7 7 7 7 6 6 6 7 3 5 6 6 7 4
P .811 .172 .579 .059 .697 .770 .113 .844 .236 .372 .751 .836 .989 .351 .798 .838 .129 .173 .921 .153 .113 .211 .928 .154 .222 .152 .630 .639 .481 .402 .244 .090 .432 .876 .970 .873 .655 .034 .885 .065 .959 .253 .777 .620 .272 .521 .145 .087 .527 .879 .739 .144 .250 .881
M -.109 2.170 .167 -1.150 -1.009 -.601 -.753 -1.029 -.051 .543 -.728 -.071 .795 .501 .398 -1.097 -.888 .264 .186 -1.332 -.143 -1.358 .532 .098 .939 1.646 1.194 -.270 -.111 -.553 -.139 1.910 .850 -.839 -.050 -.269 -.887 -.276 .422 .395 .208 .959 .936 .052 2.170 .302 .171 -1.237 -1.636 .962 .098 2.026 -.865 .222
M2 .143 .294 -1.412 -2.090 .754 -.559 -1.579 -.675 -.105 .264 -.531 .438 .936 -.095 .182 -.813 -1.696 -.331 .183 .087 -.685 -.809 -.108 .483 .346 -.623 .051 .685 -1.182 -.878 .578 .452 1.730 .328 -.349 .066 -.196 .391 -.097 .970 -.040 -.082 1.228 .168 -.318 .880 -.319 -.774 -.229 -.225 .898 1.541 -.455 -.236
M3 .111 .583 -.727 -2.012 .867 -.421 -.745 -.786 -.221 -.593 -.223 .371 .340 .957 -.523 -.186 -.315 -.144 .108 -.846 -2.037 -.575 .018 .421 1.273 .416 .695 1.121 -1.740 .317 -.118 .675 1.260 1.095 -.146 .130 .301 .567 -.669 .113 -.156 .080 .306 .417 .549 1.180 -1.857 -.752 -.992 .215 .412 1.036 -1.043 -.119
111
nr label 90 piz1 91 piz2 92 piz3 93 piz4 94 piz5 95 piz6 96 rkla1 99 rkla2 100 rkla3 101 rkla4 102 reet1 103 reet2 104 reet3 105 reet4 107 reet5 108 reet6 109 verl1 110 verl2 111 verl3 112 verl4 113 ving1 115 ving2 116 ving3 117 ving4
A 3 2 3 2 4 4 3 3 3 2 3 2 4 3 3 4 2 4 3 2 3 4 3 4
B .375 .265 .141 .065 -.208 .151 -.117 -.007 .327 .034 -.379 -.749 -.151 .008 .234 .478 -.319 -.065 .182 .005 .027 .311 .300 -.283
SE(B) .031 .044 .033 .046 .036 .028 .040 .038 .033 .049 .046 .069 .034 .035 .032 .026 .059 .035 .036 .051 .034 .025 .031 .037
S 15.042 8.217 7.808 5.129 5.446 6.734 12.430 10.348 4.444 14.280 1.794 6.764 1.644 7.500 8.608 9.687 5.401 .918 5.549 4.756 12.021 3.774 5.409 5.791
DF 7 7 7 7 4 6 6 6 7 7 5 6 5 7 7 7 6 4 7 7 7 7 7 4
P .035 .314 .350 .644 .245 .346 .053 .111 .727 .046 .877 .343 .896 .379 .282 .207 .493 .922 .593 .690 .100 .805 .610 .215
M -.018 -.250 .829 -.329 .904 .426 -2.503 -1.582 -1.740 -.549 1.412 -1.512 -.066 -1.633 -1.230 .043 -.522 -.795 .257 -.487 -.942 .544 -.118 -.765
M2 .000 .266 1.358 -.235 .446 .347 -.280 .080 -1.389 -.477 -.235 1.844 .038 -.142 -.435 .290 -1.045 -.854 1.606 1.054 1.001 -.058 -.126 -.865
M3 -.282 -.285 .076 -.811 -.400 .924 -.239 .102 -1.031 .259 .034 1.050 .039 .495 -.658 -.049 -1.483 -.168 1.163 .796 1.034 .937 .017 -2.183
Tabel 46: OPLM-analyses log-likelihood = -15313.53 (-.1531352940D+05) -2*log-likelihood = 30627.06 (.3062705879D+05) Number of parameters estimated =77 Geometric mean of discrimination indices = 2.961 Distribution of p-values for S-tests. 0.--/---/---.1-----.2-----.3-----.4-----.5-----.6-----.7-----.8-----.9-----1. 0/ 3/ 6 11 11 7 4 4 8 6 12 6 R1c = 1348.366; df = 1126; p = .0000
112
BIJLAGE 9: ITEMLOGITS AFKOMSTIG UIT RUMM- EN OPLM-ANALYSE item Juf_Maaike_2 Rommel_eetzaal_6 Verhaaltjes_5 Lievelingsboeken_4 Myriam_4 Varken_en_rups_4 Verhaaltjes_1 Pizza_maken_1 Rommel_klas_3 Pizza_maken_2 Verjaardag_5 Vingerpop_3 Vingerpop_2 Papieren_vis_5 Dansje_1 Lievelingsboeken_3 Varken_en_rups_1 Rommel_eetzaal_5 Juf_jarig_3 Varken_en_rups_2 Fruitsla_1 Mug_en_olifant_1 Verloren_voorw_3 Pizza_maken_4 Varken_en_rups_3 Mug_en_olifant_2 Juf_Maaike_4 Myriam_5 Fruitsla_4 Rommel_klas_4 Lievelingsboeken_5 Juf_Maaike_3 Pizza_maken_3 Verloren_voorw_4 Pizza_maken_6 Papieren_vis_4 Verhaaltjes_3 Juf_jarig_2 Rommel_eetzaal_4 Papieren_vis_1 Rommel_klas_2 Fruitsla_2 Vingerpop_1 Verhaaltjes_4 Verjaardag_4 Mug_en_olifant_3 Papieren_vis_3 Myriam_1
Logit RUMM 1.669 1.509 1.440 1.283 1.283 1.237 1.174 1.113 0.952 0.923 0.849 0.845 0.826 0.808 0.798 0.703 0.697 0.676 0.672 0.608 0.599 0.598 0.556 0.509 0.500 0.493 0.465 0.464 0.439 0.433 0.431 0.415 0.394 0.317 0.271 0.213 0.087 0.063 0.006 -0.035 -0.042 -0.046 -0.050 -0.070 -0.092 -0.180 -0.187 -0.249
item maai3 reet7 verh6 liev5 myr4 vark6 verh1 piz1 rkla5 piz2 verj5 ving4 ving3 pap5 dans1 liev4 vark1 reet6 jufj3 vark3 fru1 mug2 verl3 piz4 vark4 mug4 maai6 myr5 fru5 rkla6 liev6 maai5 piz3 verl4 piz6 pap4 verh4 jufj2 reet4 pap1 rkla4 fru2 ving1 verh5 verj4 mug5 pap3 myr1
Logit OPLM 0.637 0.478 0.484 0.447 0.425 0.428 0.380 0.375 0.327 0.265 0.285 0.300 0.311 0.275 0.274 0.278 0.243 0.234 0.237 0.253 0.211 0.125 0.182 0.065 0.179 0.158 0.158 0.055 0.203 0.034 0.160 0.128 0.141 0.005 0.151 0.086 0.035 0.029 0.008 -0.179 -0.007 -0.011 0.027 -0.016 -0.027 -0.074 -0.246 -0.281
113
item Verloren_voorw_1 Verhaaltjes_2 Rommel_klas_1 Lievelingsboeken_1 Juf_Maaike_1 Verloren_voorw_2 Papieren_vis_2 Myriam_2 Dansje_6 Myriam_3 Juf_jarig_4 Verjaardag_3 Mug_en_olifant_4 Myriam_6 Dansje_2 Lievelingsboeken_2 Juf_jarig_5 Rommel_eetzaal_3 Juf_jarig_1 Fruitsla_3 Verjaardag_2 Dansje_3 Pizza_maken_5 Rommel_eetzaal_1 Dansje_5 Rommel_eetzaal_2 Verjaardag_6 Vingerpop_4 Verjaardag_1 Dansje_4
Logit RUMM -0.316 -0.339 -0.388 -0.427 -0.501 -0.533 -0.535 -0.558 -0.586 -0.626 -0.647 -0.670 -0.694 -0.726 -0.769 -0.797 -0.806 -0.818 -0.929 -0.981 -1.019 -1.089 -1.091 -1.142 -1.241 -1.242 -1.262 -1.391 -2.026 -2.217
item verl1 verh3 rkla1 liev1 maai2 verl2 pap2 myr2 dans6 myr3 jufj4 verj3 mug6 myr7 dans2 liev2 jufj5 reet3 jufj1 fru4 verj2 dans3 piz5 reet1 dans5 reet2 verj7 ving5 verj1 dans4
Logit OPLM -0.319 -0.109 -0.117 -0.122 -0.058 -0.065 -0.182 -0.178 -0.080 -0.213 -0.085 -0.222 -0.514 -0.245 -0.116 -0.130 -0.119 -0.151 -0.293 -0.166 -0.344 -0.218 -0.208 -0.379 -0.396 -0.749 -0.417 -0.283 -0.643 -1.118
Tabel 47: De analoge schalen
114
BIJLAGE 10: DIF-ANALYSE VOOR THUISTAAL EN OPLEIDING MOEDER Thuistaal
Class Interval by Thuistaal
Opleiding Moeder
Class Interval by Opleiding Moeder
Item
MS
F
DF Prob
MS
F
DF Prob
MS
F
DF Prob
MS
F
DF Prob
Dansje1 Dansje2 Dansje3 Dansje4 Dansje5
14,27001 0,32055 4,67655 1,83073 0,77556
15,62994 0,3444 7,20845 2,6275 0,92403
1 1 1 1 1
1,66073 1,05368 0,90739 0,34686 0,57994
1,819 1,13205 1,39865 0,49781 0,69096
9 9 9 9 9
5,38233 1,44402 2,38973 0,16119 1,38399
5,76528 1,55695 3,56006 0,23152 1,70044
1 1 1 1 1
0,016757 0,212775 0,059838 0,630645 0,1929
1,63505 1,09118 0,05387 0,55814 1,76373
1,75139 1,17651 0,08026 0,80166 2,16701
9 9 9 9 9
0,000089 0,557595 0,007518 0,105737 0,336947
0,062784 0,338295 0,186062 0,876086 0,717307
0,075478 0,308087 0,99985 0,61494 0,023257
Dansje6
10,00141
14,1882
1
0,000182
1,07005
1,518
9
0,138805
0,01345 0,01855
1
0,891764
1,17027
1,61322
9
0,108838
Juf is jarig1 Juf is jarig2
0,21106 6,71385
0,26903 8,36065
1 1
0,604232 0,004025
0,90735 1,12697
1,15659 1,4034
9 9
0,321235 0,183771
0,19502 0,24489 5,23671 6,34425
1 1
0,620929 0,012122
0,29536 0,13402
0,37088 0,16236
9 9
0,948743 0,997364
Juf is jarig3
0,42766
0,45937
1
0,498254
1,01137
1,08634
9
0,371248
0,0791
0,08493
1
0,770845
1,03449
1,11081
9
0,353284
Juf is jarig4 Juf is jarig5 Juf Maaike1 Juf Maaike2 Juf Maaike3 Juf Maaike4 Myriam1 Myriam2 Myriam3 Myriam4 Myriam5 Myriam6 Lievelingsboeken1 Lievelingsboeken2 Lievelingsboeken3 Lievelingsboeken4 Lievelingsboeken5 Fruitsla1 Fruitsla2 Fruitsla3 Fruitsla4
10,27937 3,47057 0,16469 0,23947 0,98328 3,23141 0,32592 1,90292 0,04845 0,00002 1,53368 0,00224 0,36394 0,02187 2,79307 1,35872 6,3137 0,16857 0,95918 0,36284 0,00085
14,43474 5,18731 0,22461 0,22686 1,07515 3,60172 0,30739 2,82006 0,06352 0,00002 1,38256 0,00273 0,39907 0,02727 3,23075 1,28155 6,68103 0,1571 1,0058 0,54785 0,00099
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,000169 0,023203 0,635776 0,634085 0,300336 0,058353 0,579556 0,093777 0,801147 0,995829 0,240281 0,958308 0,527812 0,868875 0,072784 0,258083 0,009997 0,692018 0,316388 0,459547 0,975019
0,61464 0,28206 0,27379 2,141 0,6834 0,65715 1,01404 0,41402 0,45444 1,8361 1,12586 0,51043 0,83938 0,6537 0,73249 0,68908 1,48787 1,23956 0,52934 1,04207 0,49124
0,8631 0,42159 0,37342 2,02823 0,74724 0,73246 0,95639 0,61357 0,59576 1,76701 1,01492 0,62189 0,92041 0,815 0,84727 0,64994 1,57444 1,15518 0,55507 1,57339 0,57099
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
0,558346 0,923636 0,947603 0,034784 0,665502 0,679199 0,475699 0,785791 0,800816 0,072231 0,426879 0,778659 0,506735 0,602505 0,572708 0,754316 0,119376 0,322003 0,833827 0,120181 0,821189
4,33106 0,47157 0,71027 0,43048 0,07595 1,69525 3,07645 1,02033 0,46455 1,31791 1,57277 0,23116 0,21087 0,10583 9,67443 1,27139 0,15974 6,88772 0,00434 0,03951 0,56826
5,8985 0,70382 0,96735 0,39751 0,08356 1,90521 2,93086 1,53899 0,61603 1,25662 1,41644 0,28233 0,2306 0,1318 11,32849 1,20467 0,16414 6,44049 0,00455 0,05962 0,6674
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,015529 0,401935 0,325872 0,528688 0,772644 0,168181 0,087574 0,215408 0,432924 0,262874 0,2346 0,595438 0,631266 0,716694 0,000825 0,27285 0,685512 0,01146 0,946243 0,807212 0,414356
0,13171 0,56538 0,16129 0,73756 1,07132 1,20132 1,24935 1,11319 0,85056 1,19611 1,06729 0,58682 0,69766 0,58645 0,64691 1,01011 0,35546 0,69282 0,72341 1,05548 0,92074
0,17937 0,84383 0,21967 0,68107 1,17873 1,35011 1,19022 1,67905 1,1279 1,14048 0,9612 0,71672 0,76293 0,73033 0,75751 0,95711 0,36524 0,64783 0,75984 1,59268 1,08138
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
0,996121 0,575973 0,991658 0,726299 0,306554 0,208647 0,299056 0,091462 0,341113 0,332318 0,471584 0,693736 0,650948 0,681233 0,655995 0,474785 0,951315 0,75609 0,653813 0,114345 0,374799
Mug en olifant1 Mug en olifant2
4,98906 0,49081
4,54291 0,53427
1 1
0,033493 0,465126
0,81383 1,08158
0,74106 1,17734
9 9
0,671283 0,306899
0,07915 0,07309 0,10718 0,11653
1 1
0,787002 0,732955
2,31266 1,05785
2,13576 1,15017
9 9
0,025051 0,325144
115
Mug en olifant3 Mug en olifant4 Varken en rups1 Varken en rups2 Varken en rups3 Varken en rups4 Papieren vis1 Papieren vis2 Papieren vis3 Papieren vis4 Papieren vis5
5,20239 1,75975 3,24905 0,50756 4,11258 0,90601 1,12483 2,91661 0,07659 0,01208 6,08133
5,1667 1,51863 3,30971 0,61878 4,08775 0,9776 0,94832 3,38601 0,0732 0,01323 6,12809
1 1 1 1 1 1 1 1 1 1 1
0,023394 0,218347 0,069473 0,431864 0,043725 0,323262 0,330613 0,066334 0,786847 0,908489 0,013645
0,21759 0,4954 0,81879 0,25618 1,14256 0,65958 0,77302 0,97557 0,91478 0,52015 1,99252
0,21609 0,42752 0,83408 0,31231 1,13566 0,7117 0,65172 1,13258 0,87424 0,56947 2,00784
9 9 9 9 9 9 9 9 9 9 9
0,99218 0,920476 0,584904 0,97092 0,335427 0,698387 0,752658 0,337593 0,548178 0,822411 0,036634
0,66184 0,42576 0,03811 1,19539 0,1383 0,78 0,80532 0,36733 1,25515 0,01086 0,68878
0,65925 0,366 0,03826 1,48103 0,13573 0,84691 0,67949 0,43345 1,20238 0,01217 0,68017
1 1 1 1 1 1 1 1 1 1 1
0,417168 0,545444 0,845003 0,224176 0,712715 0,357871 0,410162 0,510601 0,273375 0,912171 0,409919
0,9067 0,36548 0,36636 0,91319 0,8618 0,99622 0,86088 2,0353 0,92267 1,6911 1,45999
0,90315 0,31419 0,36778 1,1314 0,84574 1,08167 0,72636 2,40167 0,88388 1,89499 1,44174
9 9 9 9 9 9 9 9 9 9 9
0,522083 0,970365 0,950149 0,338414 0,574183 0,374567 0,68487 0,011342 0,53946 0,050502 0,167193
Verhaaltjes1 Verhaaltjes2 Verhaaltjes3 Verhaaltjes4 Verhaaltjes5 Verjaardag1 Verjaardag2 Verjaardag3 Verjaardag4 Verjaardag5 Verjaardag6 Pizza maken1 Pizza maken2 Pizza maken3 Pizza maken4 Pizza maken5 Pizza maken6 Rommel in de klas1 Rommel in de klas2 Rommel in de klas3 Rommel in de klas4 Rommel in de eetzaal1 Rommel in de eetzaal2 Rommel in de eetzaal3 Rommel in de eetzaal4 Rommel in de eetzaal5
0,15031 0,96062 0,45539 2,65478 4,60231 0,65907 0,09208 0,00017 2,89898 0,13588 3,247 1,75255 0,80434 0,15271 0,47051 0,30173 0,77599 3,53937 5,05821 2,47532 1,19094 0,64427 4,32188 6,29357 0,76762 4,62264
0,1412 0,96007 0,49157 3,32201 5,01342 0,94365 0,10596 0,00019 2,79026 0,14479 3,08692 1,68698 0,79584 0,16006 0,45212 0,43111 0,95471 4,57247 5,65885 2,73785 1,08845 0,74302 3,33895 8,70246 0,84113 5,70988
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,707257 0,327648 0,483572 0,068969 0,025607 0,331847 0,744928 0,988857 0,095506 0,703737 0,07958 0,194568 0,372746 0,689258 0,501615 0,511738 0,328974 0,032983 0,017744 0,098636 0,297333 0,389087 0,068235 0,003318 0,3595 0,017224
3,97541 0,86389 1,23513 0,86637 1,04006 1,56337 1,80123 0,65156 0,69619 0,66949 0,83038 0,80372 1,9865 1,9849 1,704 0,6894 0,33523 2,20257 0,93163 0,93935 1,02555 1,21276 0,01584 0,15045 0,57741 0,27954
3,7345 0,86339 1,33327 1,08412 1,13296 2,23841 2,07278 0,72814 0,67008 0,71336 0,78944 0,77365 1,96551 2,08038 1,63737 0,985 0,41243 2,84548 1,04226 1,03898 0,93729 1,39865 0,01224 0,20804 0,63271 0,34529
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
0,000138 0,558046 0,216769 0,37279 0,337395 0,018734 0,030516 0,683206 0,736221 0,69683 0,626274 0,640965 0,041233 0,029588 0,101592 0,451281 0,928658 0,002808 0,404904 0,407489 0,492093 0,185463 1 0,993206 0,769393 0,959385
6,29732 0,34838 0,26492 0,12306 4,07788 0,00681 1,44031 0,04575 3,7416 0,09263 0,0101 0,57897 0,52672 0,15093 2,14919 1,49262 3,62439 0,24379 0,75056 1,04743 4,83127 0,14631 7,6671 0,06999 0 0,3673
5,64198 0,35315 0,2826 0,15158 4,42055 0,00956 1,63011 0,05122 3,608 0,09867 0,00949 0,55128 0,50917 0,15918 2,04807 2,12199 4,53469 0,30004 0,83109 1,15169 4,4818 0,16867 6,1147 0,09626 0 0,45018
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,017919 0,552619 0,595246 0,697201 0,036017 0,922119 0,202318 0,821052 0,058121 0,753552 0,92246 0,458121 0,475813 0,690072 0,152995 0,145799 0,033668 0,584104 0,362404 0,283723 0,034745 0,681458 0,013725 0,756468 1 0,50254
0,48651 1,69684 0,65524 0,4583 0,8547 0,88661 0,89379 0,72213 0,70315 0,65902 0,51165 0,2661 0,61924 2,33244 1,0074 0,35093 0,81485 0,453 0,90218 0,80321 1,51128 1,24769 2,00235 0,61965 1,30458 0,38581
0,43588 1,72006 0,69895 0,56452 0,92652 1,24378 1,01157 0,80831 0,67804 0,70199 0,48046 0,25337 0,59861 2,45987 0,96 0,49891 1,0195 0,55752 0,99898 0,88316 1,40196 1,43834 1,59692 0,85233 1,44703 0,47287
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
0,915628 0,081776 0,71006 0,826344 0,501527 0,265928 0,429565 0,608756 0,729049 0,707268 0,887909 0,985998 0,798548 0,009421 0,472422 0,875482 0,422921 0,831898 0,439774 0,540113 0,184186 0,168441 0,112935 0,568114 0,164903 0,892984
116
Rommel in de eetzaal6 Verloren voorwerp1 Verloren voorwerp2 Verloren voorwerp3 Verloren voorwerp4 Vingerpop1 Vingerpop2 Vingerpop3 Vingerpop4
5,39753 1,86055 7,23473 0,3363 2,14434 9,96277 0,04514 5,31867 0,79349
5,87455 2,00193 10,30409 0,34905 1,8936 9,24291 0,04843 5,37295 1,25103
1 1 1 1 1 1 1 1 1
0,015691 0,157804 0,001425 0,554954 0,169495 0,002473 0,825893 0,02081 0,263853
1,05642 0,98461 -0,00683 0,54827 0,44443 1,10499 0,92037 1,20298 0,57519
1,14978 1,05943 -0,00973 0,56904 0,39247 1,02515 0,98753 1,21526 0,90684
9 9 9 9 9 9 9 9 9
0,325564 0,391785 0,999999 0,822636 0,938679 0,418314 0,44911 0,282722 0,518805
3,88962 0,00499 6,47114 1,35269 7,01672 0,00374 1,28323 1,68144 1,318
4,19101 0,00534 9,30076 1,41345 6,2445 0,00345 1,38033 1,66218 2,06371
1 1 1 1 1 1 1 1 1
0,041134 0,94179 0,002433 0,235124 0,012831 0,953057 0,240556 0,197847 0,151413
0,68325 0,97205 0,38809 0,75128 0,32975 1,92226 0,92515 0,28385 0,24958
0,73619 1,04089 0,55779 0,78503 0,29346 1,77556 0,99515 0,2806 0,39078
9 9 9 9 9 9 9 9 9
0,675781 0,406228 0,831571 0,63038 0,976446 0,070042 0,442781 0,97991 0,939643
Tabel 48: DIF-analyse voor Thuistaal en Opleiding moeder Opmerking: om het significantieniveau te bepalen werd gebruik gemaakt van de Bonferroni-correctie waarbij de significantielevel .05 wordt gedeeld door het aantal items.
117
BIJLAGE 11: OVERZICHT PARAMETERS MOEILIJKHEID BIJ VERSIE A
complex
minder eenvoudig
linguïstische complexiteit eenvoudig
geen
beperkt
visuele ondersteuning
veel
kopiërend
onbekend/ volwassenen
onbekend/ leeftijdsgenoot
beschrijvend
verwerkingsniveau
publiek bekend/ leerling zelf
veel inleving
beperkte inleving
geen inleving
perspectief beschouwend
daar-en-toen
context hier-en-nu
abstract
minder concreet
concreet
onderwerp
juf is jarig 1
x
x
x
x
x
x
juf is jarig 2
x
x
x
x
x
x
x x
juf is jarig 3
x
x
x
x
x
x
x
juf is jarig 4
x
x
x
x
x
x
juf is jarig 5
x
x
x
x
x
x
x x
verhaaltjes 1
x
x
x
x
x
x
x
verhaaltjes 2
x
x
x
x
x
x
x
verhaaltjes 3
x
x
x
x
x
x
x
verhaaltjes 4
x
x
x
x
x
x
x
x
verhaaltjes 5
x
x
x
juf Maaike 1
x
x x
x x
x
x
x
x
x
juf Maaike 2
x
x
x
x
x
x
x
juf Maaike 3
x
x
x
x
x
x
x
juf Maaike 4
x
x
x
x
x
x
x
lievelingsboeken 1
x
x
x
x
x
x
x
lievelingsboeken 2
x
x
x
x
x
x
x
lievelingsboeken 3
x
x
x
x
x
x
x
lievelingsboeken 4
x
x
x
x
x
x
x
varken en rups 1
x
x
x
x
x
x
x
varken en rups 2
x
x
x
x
x
x
x
varken en rups 3
x
x
x
x
x
x
x
varken en rups 4
x
x
x
x
x
x
x
verjaardagsfeest 1
x
x
x
x
x
x
x
verjaardagsfeest 2
x
x
x
x
x
x
x
verjaardagsfeest 3
x
x
x
x
x
x
x
verjaardagsfeest 4
x
x
x
x
x
x
verjaardagsfeest 5
x
x
x
x
x
x
verjaardagsfeest 6
x
x
x
x
x
x
x x x
vingerpop 1
x
x
x
x
x
x
x
vingerpop 2
x
x
x
x
x
x
x
vingerpop 3
x
x
x
x
x
x
x
vingerpop 4
x
x
x
x
x
x
x
rommel in eetzaal 1
x
x
x
x
x
x
x
rommel in eetzaal 2
x
x
x
x
x
x
x
rommel in eetzaal 3
x
x
x
x
x
x
x
rommel in eetzaal 4
x
x
x
x
x
x
rommel in eetzaal 5
x
x
x
x
x
x
x
rommel in eetzaal 6
x
x
x
x
x
x
x
x
Tabel 49: Overzicht parameters moeilijkheid bij versie A
118
BIJLAGE 12: LEIDRAAD VOOR HET OPTIMALISEREN VAN TEAMOVERLEG OVER EVALUATIE Een school die àl haar leerlingen gelijke onderwijskansen wil bieden, maakt werk van brede evaluatie. Het is belangrijk om hierover op teamniveau te overleggen. De insteek voor het teamoverleg is steeds: hoe kunnen we er als schoolteam voor zorgen dat àlle kinderen over de verschillende klassen heen breed geëvalueerd worden, zodat meer leerlingen komen tot meer leren. Het doel van dit overleg is verschillende aspecten van evaluatie in kaart te brengen (Wat doen we al? Waar zijn er nog hiaten?) en als schoolteam concrete afspraken te maken om evaluatie en het eigen onderwijs indien nodig bij te sturen. De volgende vragen kunnen daarbij als leidraad dienen: 1.
Wat?
Op welke manier worden kennis, vaardigheden en attitudes op verschillende domeinen momenteel in kaart gebracht in de verschillende klassen (zowel in de kleuterschool (KS) als de lagere school (LS))? o Toetsen? (LS) Uit de gebruikte methodes? Zelfgemaakte toetsen? o Kind-/Leerlingvolgsysteem? o Observaties? Breed en/of gericht? o Reflectie? (zelfevaluatie, peerevaluatie, co-evaluatie) o Is dit voldoende in overeenstemming met de ontwikkelingsdoelen (KS) of eindtermen (LS)? Hebben wij er als team een zicht op in hoeverre onze kinderen goed op weg zijn om de ontwikkelingsdoelen / eindtermen te halen? (Welke zijn de indicatoren die we gebruiken om te oordelen of de kinderen al goed op weg zijn?) Ligt de nadruk wel voldoende op inzicht, vaardigheden (bv. begrijpend lezen, schrijven) en attitudes en niet teveel op reproductie, feitenkennis, deelvaardigheden (bv. technisch lezen, spelling)? o Is er plaats voor een brede evaluatie van taalvaardigheid (observaties in de klas, bekijken van processen i.p.v. producten, bevraging leerkrachten, leerlingen en ouders, ...) of baseert men zich louter op toetsresultaten? 2.
Waarom?
Evaluatie heeft in de eerste plaats kwaliteitsverhoging van onderwijs als doel. Evaluatie mag gelijke onderwijskansen niet in de weg staan, maar moet ze bevorderen, bijvoorbeeld omdat ze leidt tot een gerichtere ondersteuning van zwakkere leerlingen. Men moet zich dus steeds afvragen: Wat is het specifieke doel van de actie i.v.m. evaluatie (bv. invoeren van een leerlingvolgsysteem)? Welk effect wenst u te bereiken? Bijvoorbeeld: - Wil ik bij mijn leerlingen vaststellingen doen i.v.m. een bepaalde (bv. talige) vaardigheid? - Wil ik als leerkracht mijn onderwijsaanpak (bv. i.v.m. taal) evalueren? - Wil ik bij de leerlingen een zelfreflecterende houding bevorderen? - Wil ik ingrijpen of remediëren? - Wil ik rapporteren?
119
3.
Hoe?
Als er op schoolniveau concrete acties gepland worden i.v.m. evaluatie, dan moet er rekening gehouden worden met het volgende: - Hoe wordt de actie vormgegeven? (bv. meer aandacht voor brede observatie of voor zelfevaluatie) - Wie wordt bij de uitvoering van de actie betrokken? (Bv. de klasleerkrachten observeren, terwijl de GOK-leerkracht lesgeeft) (Bv. alle klasleerkrachten bouwen zelfevaluatie in; ze starten binnen wereldoriëntatie.) - Binnen welke tijdspanne wordt de actie gepland? - Wie volgt de uitvoering van de actie op? (bv. GOK-leerkracht, directie,...) Hoe gebeurt dit concreet? - Hoe wordt de actie (en de vraag of de doelstelling gerealiseerd is) geëvalueerd? - Hoe blijft het hele team op de hoogte van de actie? (Bv. er kan worden afgesproken dat het eerste deel van een personeelsvergadering telkens besteed wordt aan evaluatie) - Hoe worden eventueel schoolbegeleidende instanties betrokken? (bv. CLB-medewerker) - Zijn er bepaalde (groepen van) leerlingen die systematisch lager scoren dan andere leerlingen? Hoe gaan de leerkrachten van de verschillende klassen concreet met de resultaten van deze (en andere) leerlingen om? Worden resultaten gebruikt om nog gerichter te ondersteunen? Hoe? - Worden de resultaten van de leerlingen op het einde van het schooljaar doorgegeven naar de volgende klas? - Welke informatie wordt gecommuniceerd naar de ouders? Hoe? (kleuterschool: oudercontacten, lagere school: oudercontacten en rapport) Bv. Wanneer toetsresultaten aan ouders meegedeeld worden, kunnen deze bijkomend genuanceerd worden door observaties van de leerkracht. Het is belangrijk om, op termijn, de uitvoering en de effecten van de geplande acties steeds weer terug in het ruimere kader van het onderwijsgebeuren te plaatsen. Uiteindelijk moet worden ingeschat of de uitgevoerde actie (ook als die geslaagd is) bijdraagt tot een krachtiger onderwijs: - Hebben de acties en hun resultaten een blijvend karakter? (worden ze echt dagdagelijks toegepast in het onderwijsgebeuren?) - Hebben de acties en hun resultaten een structureel karakter? (worden ze toegepast door alle leerkrachten?) Zijn de acties en hun resultaten voldoende 'integraal'? (stromen ze door naar alle inhouden en ontwikkelingsgebieden?) (bron: Steunpunt GOK, 2007)
120