Hoe toets je taalvaardigheid? Een bijdrage tot de discussie
HOE TOETS JE TAAL VAARDIGHEID? EEN BIJDRAGE TOT DE DISCUSSIE
Wim Jochems Frans .Montens
Boom M.eppel Amsterdam
©
Wim Jochems en Frans Montens, 1986
Niets uit deze uitgave mag worden verveelvuldigd en/of openbaar gemaakt door middel van druk, fotocopie, microfilm of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever; No part of this book may be reproduced in any way whatsoever without the written permission of the publisher Verzorging omslag Studio Boom lliustratie omslag Burkhardt Soli, Leiden Druk Boompers drukkerijen bv, Meppel
CIP-Gegevens Koninklijke Bibliotheek, Den Haag
Jochems , Wim Hoe toets je taalvaardigheid? - een bijdrage tot de discussie/Montens, Frans - Meppel (etc.) Boom ISBN 90 6009 780 7 Trefw: taalonderwijs; toetsing
Voorwoord
In de afgelopen jaren heeft zich in algemene zin een positieve consensus afgetekend over de wenselijkheid van de totstandkoming van een Certificaat Nederlands als Tweede Taal (Coumou 1982, Montens & Sciarone 1985, Beheydt 1986). Deze consensus heeft in Nederland op bestuurlijk niveau haar uitdrukking gevonden in de instelling van een werkgroep van Onderwijs en Wetenschappen die, voorzover het volwassenen betreft, tot taak heeft voorstellen terzake uit te werken, en wel met inbegrip van de bij zo'n Certificaat behorende toetsprocedures. llet stemt in additionele zin tot tevredenheid dat de werkgroep tot de slotsom is gekomen dat het geconstrueerde onderscheid tussen Nederlands als Tweede Taal en Nederlands als Vreemde Taal beter kan worden opgeheven, en dat aan een Certificaat Nederlands voor Anderstaligen civiel effect zou moeten worden verleend dat voor Nederland en Belgie het best kan worden gewaarborgd door het Verdrag inzake de Nederlandse Taalunie. De eventuele instelling van een Certificaat Nederlands voor Anderstaligen leidt natuurlijkerwijs tot een discussie over de vraag welke toetsvorm men moet kiezen om vast te stellen of iemand over voldoende kennis van het Nederlands beschikt om in aanmerking te komen voor zo'n Certificaat. Op universitair niveau is deze discussie al gevoerd blijkens de paging te komen tot een Centrale Toets Nederlands
5
(Hulstijn 1986). De hier gebundelde artikelen vormen de bijdrage van de sectie Toegepaste Taalkunde van de Technische Universiteit Delft aan deze discussie. De artikelen zijn geschreuen uanuit de overtuiging dat in het kader van de universitaire discussie op voorbarige wijze, want op grond van onvoldoende argumenten, gekozen is voor een soort zogenaamde realistische toetsing. Een dergelijke vorm van toetsing is extreem kostbaar en legt een groot beslag op de beschikbare middelen die in feite aan daadwerkelijk onderwijs besteed zouden moeten worden. Toetsing behoort van dat onderwijs slechts een klein onderdeel te zijn. Om redenen van efficiiintie en op grond van een afweging van kosten en baten heeft de Vakgroep Toegepaste Taalkunde van de Technische Universiteit Delft sinds jaar en dag de voorkeur gegeven aan de veel goedkopere multiple choice clozetoetsen. Uit de hier gepubliceerde bijdragen blijkt, dat deze multiple choice cloze-toetsen qua nauwkeurigheid de zeer veel duurdere 'realistische' toetsen voor nagenoeg honderd procent benaderen. De, auteurs zijn dan ook de mening toegedaan dat hun bevindingen een zeker belang vertegenwoordigen nu de discussie blijkbaar op een hoger plan wordt gebracht. Wij danken onze collega M. Klijn-Wuisman voor het verzamelen van een gedeelte van de (vele) gegevens waarop onze conclusies zijn gebaseerd. Wim ]ochems, Delft Frans Montens, Wijk aan Zee
6
Ret meten van vorderingen met een multiple choice clozetoets. Samenvatting. In dit artikel wordt verslag gedaan van twee jaar ervaring met een multiple choice cloze-toets ter meting van zowel voor- als eindkennis van het Nederlands bij buitenlanders. De kwaliteit van deze toets in beide hoedanigheden wordt geevalueerd. Bediscussieerd wordt hoe de toets gebruikt kan worden ter evaluatie van leereffecten binnen een cursus 'Nederlands voor buitenlanders'. Het artikel wil een bijdrage zijn aan de discussie rond het vinden van een betrouwbare multifunctionele toetsvorm die op efficiente wijze in staat stelt tot het doen van systematische uitspraken omtrent taalvaardigheid.
1. lnleiding.
In de studiejaren 1982/1933 en 1983/1984 hehben zich respectievelijk 280 en 343 toekomstige studenten met een huitenlandse vooropleiding tot de Sectie Toegepaste Taalkunde van de Technische Universiteit te Delft gewend in verband met hun kennis van het Nederlands. Dat zovelen dit gedaan hebhen vindt zijn verklaring in de invoering in het eerst genoemde studiejaar van een nieuw Academisch Statuut dat bepaalt dat een hezitter van een hui· tenlands diploma 'eerst toegang verkrijgt tot het afleggen van het deshetreffende propedeutisch examen, indien hij ten genoegen van de deshetreffende examencommissie het hewijs heeft geleverd van voldoende kennis van de Nederlandse taal om 7
het onderwijs met vrucht te kunnen volgen' (Artikel 66, lid 2). In de praktijk hetekent dit dat zowel anderstalige buitenlanders als van origine nederlandstaligen, die in het buitenland een einddiploma van het middelbaar onderwijs hehaald hebben, niet aan de T.U. kunnen gaan studeren, voordat ze in het bezit zijn van een verklaring van de Sectie Toegepaste Taalkunde dat 'hun kennis van het Nederlands geen beletsel vormt voor hun studie aan de T.U.'. Een dergelijke verklaring wordt in beginsel slechts afgegeven na het met voldoende resultaat afleggen van een daartoe ontworpen toets Nederlands, die al snel de 'vruchttoets' werd gedoopt. Buitenlandse aspirant-T.U.studenten kunnen deze toets op elk door hen gewenst moment afleggen. Van de genoemde 280 en 343 aspirant-studenten kon de bedoelde verklaring aan respectievelijk 53 (18,9%) en 81 (23,6%) worden uitgereikt na het onmiddellijk afleggen van de vruchttoets zonder voorafgaand onderwijs Nederlands aan de T.U. Alle anderen, respectievelijk dus 227 en 262 personen, hebben op de een of andere wijze aan het onderwijs Nederlands van de Sectie Toegepaste ·Taalkunde deelgenomen. Niet elke aankomende 'buitenlandse' aspirant-student bezit eenzelfde kennis van het Nederlands. Ret te geven onderwijs kan dan ook gedifferentieerd worden naar hehoefte. Gezien de beschikbare personele middelen - de ratio docent/student hedraagt ongeveer 1 op 100 - is differentiatie slechts in zeer beperkte mate realiseerbaar. Waar bij zeer kleine aantallen studenten per docent zeer verfijnde bepaling van het kennisniveau (op welke wijze dan ook) mogelijk en zinvol is, omdat men het te geven onderwijs totaal kan aanpassen aan de behoefte van het individu, zal men bij de aangegeven grootschaligheid niet kunnen ontkomen aan het 'bij elkaar zetten' van individueel verhoudingsgewijs nog tamelijk sterk in kennis van het Nederlands verschillende personen die groepsgewijs bepaalde
8
gestandaardiseerde vormen van onderwijs zullen volgen. Het moge derhalve duidelijk zijn dat bij het maken van keuzes ten aanzien van zowel het onderwijs Nederlands zelf als de toetsing van voor- en eindkennis van het Nederlands de 'efficientie' - doelmatigheid dus - een belangrijk argument behoort te zijn. In discussies rond toetsprocedures wordt de nadruk gelegd op zaken als betrouwbaarheid en validiteit (vgl. van der Linden, 1985; Beheydt, 1985). Naar onze overtuiging moet daar de economic van toetsprocedures als derde criterium van doorslaggevende betekenis aan worden toegevoegd. De te volgen vormen van onderwijs komen - voor de hier bedoelde populatie, die qua doel (studeren aan een afdeling van de T.U.) homogeen is - overeen met een grove indeling naar niveau van kennis van het Nederlands. De opsplitsing van een totale leergang Nederlands voor buitenlanders in cursusdelen is op zich arbitrair. Aan de T.V.Delft was de situatie (mede op grond van praktische zaken als het daar vigerende kwartaalsysteem en het ontwikkelde, casu quo gebruikte lesmateriaal) in de bedoelde periode als volgt. Zie ook het schematisch overzicht in figuur L Iemand die zonder enige voorkennis van het Nederlands aan het onderwijs begint - een 'echte' beginner dus -, heeft in beginsel de mogelijkheid de complete leergang in twee kwartalen te doorlopen: een verdeling derhalve in een beginfase en een eindfase. De beginfase bestaat uit de beginnerscursus volgens de Delftse methode (Sciarone & Montens, 1984), onderverdeeld in een eerste ronde van drie weken gericht op het algemene Nederlands (Montens & Sciarone, 1984) en een tweede ronde van vijf weken gericht op populair natuurwetenschappelijk taalgebruik (Sciarone & Montens, 1983): zie figuur 1, het traject 1-2. In de praktijk blijken slechts weinig bij de Sectie Toegepaste Taalkunde aankomende buitenlandse studenten 'echte' beginners. Het merendeel bezit enige voorkennis. Voor mensen van wie de kennis van het Nederlands te groot 9
3 1
Beginners
4
Halfgevorderden
7
Gevorderden
s
2
6
I
8 weken
Halfgevorderden
Gevorderden 8 weken
I 8 weken
I
Tijdsduur
Figuur l. Schematisch overzicht van de opbouw van de cursus en de tijdsduur per onderdeel.
is voor de 'echte' beginnerscursus en te gering voor het onderwijs in de eindfase - voor een deel dus zogenaamde 'valse' beginners -- hestaat de heginfase van het onderwijs uit het volgen van wat genoemd wordt de 'halfgevorderden-cursus' (zie figuur l, het traject 3-4). In deze cursus van eveneens acht weken wordt enerzijds een traditionele heginnerscursus (de welhekende Familie de Vries) gecomprimeerd doorgewerkt en anderzijds aandacht hesteed aan spreektaal (Hulstijn & Schellart, 1978), luister- en schrijfvaardigheid en de wiskundetaal van het Nederlandse V.W.O. (Montens & Korswagen, 1982). Deze cursus omvat dus, met name wat het laatste hetreft, een meer gevorderd aspect dat thuishoort in wat hiervoor de eindfase werd genoemd. Echte beginners met een daartoe voldoende resultaat over de beginnerscursus kunnen in de eindfase een zogenaamde 'gecomhineerde cursus' volgen, waarin zowel het materiaal uit de halfgevorderden-cursus als het op collegetaal gerichte materiaal van de eigenlijke gevorderden-cursus (Korswagen, 1981) in wederom acht weken wordt doorgewerkt (zie figuur l, het traject 6-7). Wanneer hun resultaat over de beginnerscursus minder is of daartoe anderszins aanleiding is, bestaat 'natuurlijk' de mogelijkheid dat de studenten het lang10
zamer aan doen: eerst de halfgevorderden- en dan pas de gevorderden-cursus, waardoor de eindfase zestien weken heslaat (zie figuur 1, de trajecten 3-4 en 4-5) en men ook zou kunnen zeggen dat de totale leergang in drie fasen verloopt. Studenten die in de beginfase de halfgevorderden-cursus hebhen gedaan, doen in de eindfase uitsluitend de gevorderden-cursus (zie figuur 1, traject 4-5), casu quo een gecombineerde cursus waarvan zij het halfgevorderden-gedeelte niet hijwonen. In de hier hesproken periode was nog geen op specifieke afdelingen gericht materiaal voor overgangsonderwijs heschikbaar zodat daar hier niet verder op zal worden ingegaan (zie daartoe Montens & Ruijgrok, 1985 en Montens & Sciarone, 1985). Het voordeel van de geschetste constructie is dat iedere student een complete leergang in twee kwartalen kan doorlopen, terwijl hij - als dat om welke reden dan ook niet het geval is en hij er drie kwartalen over doet - niet gedwongen is inhoudelijk dezelfde cursus te douhleren. Ten aanzien van de bij de Sectie Toegepaste Taalkunde aankomende studenten hetekent dit alles dat bepaald moet worden op welk van de drie niveau 's - beginners, halfgevorderden, gevorderden - zij onderwijs kunnen (of zo men wil: moeten) volgen. Daartoe wordt een zogenaamde 'instaptoets' afgenomen. Deze instaptoets heeft de vorm van een multiple choice cloze-toets, dat wil zeggen van een tekst waarin om een hepaald aantal woorden een woord is weggelaten dat moet worden ingevuld door te kiezen uit drie altematieven waarvan er slechts een juist is. Op grond van ervaring heslist het percentage correct gedane items dan in heginsel over indeling op een der drie genoemde niveau 's: 0-44%: beginners; 45-74%: halfgevorderden; en 75% en hoger: gevorderden dan wei onmiddellijke afname van de vruchttoets. Voor de multiple choice cloze-toets werd gekozen (zie daartoe hij voorbeeld: Oller, 1979), niet aileen omdat deze toetsvorm in de praktijk reeds lang had gehleken te voldoen, maar
11
vooral omdat zij in korte tijd kan worden afgenomen (efficientie) en de scoring plaatsvindt op een eenduidige wijze die niet athankelijk is van de heoordelaar (ohjectiviteit). Om dezelfde redenen van efficientie en objectiviteit werd ook in het geval van de hiervoor vermelde vruchttoets gekozen voor de toetsvorm van een multiple choice cloze-toets. Daarbij wordt dan gebruik gemaakt van tekstmateriaal dat representatief wordt geacht voor (de afdelingen) van een technische universiteit. Om de verklaring van voldoende kennis te verkrijgen, moet de 'kandidaat' minimaal een bepaald percentage items (68%) correct doen. Zowel de instaptoets als de vruchttoets bestaan uit verscheidene tekstgedeeltes (deeltoetsen genoemd), waardoor binnen een toets verschillende scores met elkaar vergeleken kunnen worden om tot een weloverwogen oordeel te komen. Om resultaten over de instaptoets en de vruchttoets direct met elkaar te kunnen vergelijken en ter beantwoording van de vraag of dezelfde multiple choice cloze-toets, afgenomen op twee verschillende tijdstippen, gebruikt kan worden voor het meten van vorderingen in het leerproces, werd in de instaptoets en in de vruchttoets een identieke deeltoets opgenomen van 46 items, namelijk een inleidende tekst over het hegrip 'energie'. Het is op de hevindingen ten aanzien van het functioneren van deze deeltoets 'Energie' als onderdeel van de instaptoets en de vruchttoets dat in het nu volgende zal worden ingegaan.
2. Kwaliteit van het meetinstrument.
In het navolgende heperken we ons tot een bespreking van de deeltoets 'Energie'. Deze is zowel opgenomen in de instaptoets die v66r de aanvang van de cursus is afgenomen, als in de vruchttoets welke na de cursus is afgenomen. Hij verschaft
12
derhalve een mogelijkheid om de vorderingen van de studenten tijdens de cursus te kwantificeren. De deeltoets 'Energie' is opgezet volgens de multiple choice doze-procedure. In een tekst over het onderwerp energie zijn een aantal woorden weggehaald, zodat er 'gaten' ontstaan. De opdracht aan de student is voor elk gat het juiste woord uit drie gegeven aJ. ternatieven aan te kruisen. In aile gevallen is slechts een van de drie alternatieven correct. De tekst bevat 46 gaten, die verkregen zijn door in de oorspronkelijke tekst telkens het zesde woord te witten. De tekst 'Energie' is ontleend aan een leerboek voor natuurkunde voor de derde klas van V.~ .0. en H.A.V.O. (Schweers & van Vianen, 1977, p. 1). Het betreffende fragment is de inleiding van een hoofdstuk en bevat geen formules, grafieken, tekeningen, definities en dergelijke. De keuze is gebaseerd op twee overwegingen. Ten eerste dient de tekst inhoudelijk algemeen van aard te zijn, zodat specifieke kennis op een bepaald gebied geen rol van betekenis speelt. Ten tweede mag de tekst in taalkundig opzicht noch erg gemakkelijk, noch erg moeilijk zijn. Deze overweging hangt samen met de functie van de deeltoets, namelijk over een zeer breed spectrum een indicatie geven van beheersing van het Nederlands. Met andere woorden: de deeltoets dient een groot discriminerend vermogen te bezitten. Dit houdt in dat de deeltoets goed in staat moet zijn de groep cursisten 'uit elkaar te trekken' en te splitsen in beginners, halfgevorderden en gevorderden die het Nederlands reeds goed beheersen. Is de tekst relatief gemakkelijk (respectievelijk moeilijk), dan maakt zij weinig onderscheid tussen halfgevorderden en gevorderden (respectievelijk tussen beginners en halfgevorderden). De tweede overweging vormt een noodzakelijke, maar niet voldoende voorwaarde voor een goed discriminerend vermogen, omdat ook andere kwaliteitsaspecten van de deeltoets een rol spelen. De deeltoets 'Energie' als onderdeel van de instaptoets is
13
in de studiejaren 1982/1983 en 1983/1984 aan 318 studenten afgenomen. Deze groep bestaat uit studenten die letterlijk nog geen woord Nederlands spreken tot en met studenten aan wie onmiddellijk een bewijs van voldoende kennis van het Nederlands kan worden uitgereikt, zoals bedoeld in artikel 66, lid 2 van het Academisch Statuut. Aan de hand van hun resultaten op de instaptoets zullen we de kwaliteit van de deeltoets 'Energie' heschouwen. In tabel 1 zijn daartoe een aantal gegevens samengebracht. n k
Aantal studenten Aantal items Gemiddelde score Standaarddeviatie
X: &,.:
Betrouwbaarheid Gemiddelde p-waarde Standaarddeviatie
rxx' p
"
Betrouwbaarheid Standaardmeetfout
KR20 S£
318 46 22,91 13,29 0,96 0,50 0,13 0,96 2,50
Tabel 1. Gegevens met betrekking tot deeltoets 'Energie' als onderdeel van de instaptoets.
De gemiddelde score van deze studenten bedraagt 22,91, hetgeen vrijwel het midden van de schaal is. Ter orientatie: de deeltoets hestaat uit 46 items die elk 0 (fout) of 1 (goed) als score opleveren. De (statistische) hetrouwhaarheid bepaald volgens Kuder-Richardson, formule 20, geeft een coefficient met een zeer hoge waarde (Lord & Novick, 1968, p. 91). Wordt de deeltoets in twee helften gesplitst, de items met een oneven nummer ten opzichte van die met een even nummer, dan is de betrouwbaarheid volgens de 'split-halves'-methode waama de Spearman-Brown-formule de zogenoemde 'stepped-up reliability' geeft, eveneens zeer hoog (Lord & Novick, 1968, p. 112). De standaardmeetfout ten slotte is klein. 14
Bovenstaande gegevens maken aannemelijk, dat de deeltoets 'Energie' als meetinstrument van goede kwaliteit is. De hetrouwhaarheid is immers zeer hoog, terwijl de standaardmeetfout klein is. Bovendien Iaten zij zien, dat de deeltoets een geschikt instrument is voor het meten van vorderingen tijdens de cursus. De zeer grote standaarddeviatie wijst erop, dat de deeltoets hetrekkelijk goed in staat lijkt de groep cursisten 'uit elkaar te trekken'. Bovendien hlijkt uit de gemiddelde score en de gemiddelde p-waarde, dat de toets voor een dergelijke, heterogene groep als geheel niet te gemakkelijk of te moeilijk is. Overigens dient men te hedenken dat de heterogeniteit van de groep, die zich uit in een zeer grote standaarddeviatie, de hetrouwhaarheid positief heinvloed heeft. Een geringere standaarddeviatie geeft, ceteris paribus, een lagere hetrouwhaarheid.
3. Meting van leerresultaten.
Bij het hespreken van de vorderingen moeten we ons noodgedwongen beperken tot de studenten die in de studiejaren 1982/1983 en 1983/1984 de cursus hebhen afgesloten met de vruchttoets. Slechts van hen is immers en de score op de deeltoets 'Energie' als onderdeel van de instaptoets en de score op deze deeltoets als onderdeel van de vruchttoets hekend. De toename van deze score vatten we op als een maat voor de vorderingen die tijdens de cursus zijn gemaakt. In deze paragraaf zullen we voor de deeltoets 'Energie' de scores op de instaptoets vergelijken met die op de vruchttoets ten einde een glohale indruk van het leereffect van de cursus te krijgen. De vraag in welke mate de verschillende cursusdelen tot dat leereffect hebhen bijgedragen komt in paragraaf 4 aan de orde. Door 148 cursisten is zowel de instaptoets als de vruchttoets gemaakt. De scores van deze groep op de deeltoets 15
'Energie' zijn in figuur 2 in beeld gebracht.
"'
u
IS Score op de vrudtUuell
Figuur 2. De frekwentieverdelingen van de scores op de deeltoets 'Energie' bij de instaptoets (boven) en de vruchttoets (beneden) voor dezelfde 148 studenten.
Uit de figuur is af te lezen, dat de prestaties ingrijpend verheterd zijn. De gemiddelde score is toegenomen van 21,22 bij de instaptoets tot 35,19 bij de vruchttoets, terwijl de standaarddeviatie is afgenomen van 13,20 bij de instaptoets tot 5,27 op de vruchttoets, zoals in tabel 2 is weergegeven. De betrouwbaarheid, bepaald volgens de 'split-halves'-methode en 'stepped-up' volgens de Spearman-Brown-formule zoals in de vorige paragraaf beschreven, is weliswaar gedaald van 0,96 naar 0,81, maar is nog steeds hoog. Aangenomen mag worden, dat deze daling samenhangt met de aanzienlijke afname van de standaarddeviatie. De standaardmeetfout is - ondanks deze vermindering van de standaarddeviatie - wederom klein. Ook deze gegevens wijzen erop, dat het gehanteerde 16
Vooraf Aantal studenten Gemiddelde score Standaarddeviatie Betrouwbaarheid Standaardmeetfout Correlatiecoefficient
Achteraf 148
n
x
21,22 13,20 0,96 2,64
~
rxx' SE
rxy
o.ps
35,19 5,27 0,81 2,30
Tabel 2. Gegevens met betrekking tot de resultaten op de deeltoets 'Energie' vooraf (bij de instaptoets) en en achteraf (bij de vruchttoets) voor dezelfde 148 studenten.
meetinstrument van goede kwaliteit is, zoals ook in de vorige paragraaf is beargumenteerd. Ten slotte is uit het hovenstaande af te leiden dat de groep van 148 studenten gemiddeld een iets lagere score bij de instaptoets heeft hehaald dan de overige studenten die de instaptoets hehhen gedaan (21,22, respectievelijk 24,38). Verwonderlijk is dat niet, aangezien studenten met een zeer hoge score op de instaptoets slechts op eigen verzoek naar een cursus worden verwezen. Op de gegevens van de 148 studenten is een statistische toetsing uitgevoerd. De toename van de gemiddelde score van 21,22 naar 35,19 is significant op 0,1% (t-toets voor gecorreleerde gemiddelden; t = 12,25; a < 0,001; power > 0,995). Ook de afname van de standaarddeviatie is significant in dezelfde orde van grootte. Beperken we ons verder tot de toename van de gemiddelde score van de 148 studenten, dan is het geconstateerde effect zeer groot. In termen van Cohen: d = 1,43 (Cohen, 1969, pp. 38 en 46 ). Het ligt voor de hand een dergelijke toename van de gemiddelde score te verklaren als een effect van het gevolgde onderwijs en niet als een effect van testing* (Campbell * Als aan personen tweemaal dezelfde test wordt afgenomen, blijkt de score bij de tweede afname vaak iets hoger te zijn dan die bij de eerste afname, ook aJs er geen sprake is van een tussentijds leerproces.Dit verschijnsel wordt 'testing' genoemd.
17
& Stanley, 1963, p. 179). Immers, de geconstateerde toename is dermate groot, dat testing hiervoor geen aannemelijke verklaring kan geven. ~•lede gelet op de kwaliteit van het gehanteerde meetinstrument kan derhalve geconcludeerd worden, dat de cursus globaal gezien een zeer groot leereffect heeft.
4. Analyse van het leereffect. Alvorens het Ieereffect gedetailleerder te heschouwen is het wenselijk te herinneren aan de opbouw van de cursus. Zoals uit figuur 1 is af te lezen, zijn er vier cursusdelen, namelijk beginners (voortaan aangeduid met n, traject 1-2 in figuur 1), halfgevorderden (C, traject 3-4), gevorderden (G, traject 4-5) en een combinatiedeel waarin C en G samen zijn gevoegd tot een deel (C/G, traject 6-7). De cursus kent derhalve twee stromen, te weten een 'langzame' en een 'snelle'. De langzame stroom omvat drie cursusdelen, namelijk B, C en G. De snelle stroom heeft hetzelfde cursusdeel voor beginners als de langzame stroom, maar daarna volgt het samengevoegde deel C/G waarin C en G versneld worden behandeld. Aan de hand van de score op de instaptoets werden de studenten als volgt ingedeeld: I) echte beginners volgen B, waarna afhankelijk van de resultaten aan het eind van B de student de cursus vervolgt met C/G, dan wel met eerst C en dan G afzonderlijk; 2) valse beginners volgen C en daama G; 3) gevorderden volgen G of C/G, afhankelijk van het cursusaanbod dat op dat moment kan worden gedaan. Opgemerkt zij dat echte beginners pas aan het eind van cursusdeel B worden ingedeeld in de langzame dan wei de snelle stroom. Anders gezegd: cursusdeel B in de langzame stroom is identiek aan cursusdeel B in de snelle stroom. Bij de navolgende analyse van het leereffect van de cursus beperken we ons tot de studenten die een van de hierboven
18
omschreven stromen op reguliere wijze doorlopen hebben. Al degenen die om zeer uiteenlopende redenen in een of ander opzicht van deze patronen afwijken, Iaten we verder buiten beschouwing. Zodoende resteren er 125 studenten. In tabel 3 is weergegeven welke cursusdelen zij hebben gevolgd tussen instaptoets en vruchttoets. Stroom
Cursusverloop
Langzaam B+C+G C+G G Snel B+C/G C/G
Aantal i stuclenten vooraf
x
Code
aehteraf
Aantal oontacturen onclerwija
34 34 20
10,24 26,47 34,15
33,53 34,15 37,00
I II III
152 96 48
29 8
12,00 31,75
36,97 34,00
IV
104 48
---------------------------------v
Tabel 3. Overzieht van bet verloop van de cursus (n = 125); de mogelijkheden worden I tot en met V genoemcl.
Uit de tabel is af te lezen dat er zich vijf mogelijke manieren voordoen waarop studenten aan de cursus 'Nederlands voor buitenlanders' hebben deelgenomen. Deze vijf mogelijkheden zullen we verder I tot en met V noemen, zoals in tabel 3 is aangegeven. Ten einde een indruk te krijgen van de bijdrage van elk der cursusdelen aan het totale leereffect van de cursus zijn de vijf mogelijkheden afzonderlijk bekeken. Daartoe is voor elke mogelijkheid bepaald wat de gemiddelde score van de studenten op de deeltoets 'Energie' bij de instaptoets was en wat hun gemiddelde score was op die deeltoets bij de vruchttoets. Het verschil tussen beide gemiddelden geeft een indicatie van de leerwinst. In figuur 3 is een en ander in beeld gebracht. Op de horizontale as is als eenheid het contactuur genomen, aangezien het aantal contacturen niet voor aile cursusdelen hetzelfde is (zie tabel 3). De figuur kan als volgt gelezen worden:
19
Score(%) 100
Score(%) 100
80
80
60
60
40
40
20
20
0
0
B
c
G
B
C/G in contacturen
in con tacturen
Figuur 3. Grafische weergave van de vorderingen ~meten met de deeltoets 'Energie' (verticale as) ten opzichte van de gevolgde cursusdelen, ui~rukt in aantallen rontacturen (horizontale as, 1 em = 40 rontacturen) voor de Iangzame stroom (linlu) en de melle stroom (rechts).
hoe steiler de lijn, des te groter het leereffect. Bet eerste wat dan opvalt, is dat het volledig volgen van de snelle stroom (IV) kennelijk niet leidt tot een geringer leereffect dan het volledig volgen van de langzame stroom (I). Bij de beschouwde studenten is het leereffect van stroom IV zelfs groter dan van stroom I (respectievelijk 54,28% en 50,63%). We kunnen derhalve concluderen dat het versneld doorlopen van de cursus - het materiaal is voor heide stromen immers het· zelfde - niet tot slechtere leerresultaten leidt. Deze conclusie stemt overeen met de ervaring. Ten tweede ligt als interpretatie van figuur 3 voor de hand dat naarmate de studenten verder in de cursus vorderen, de bijdrage van de cursusdelen aan het leereffect de tendens vertoont geringer te worden. Deze algemene interpretatie verdient nadere heschouwing. 20
5. Slotbeschouwing.
De resultaten van dit onderzoek wijzen erop dat een kwali· tatief goede m.c. cloze-toets een geschikt meetinstrument kan zijn voor het zichtbaar maken van vorderingen tijdens het leerproces. Zelfs een betrekkelijk korte toets van 46 items blijkt gevoelig voor de vorderingen die personen in de cursus maken. Zoals al eerder gezegd is, worden aan een dergelijk toets twee voorwaarden gesteld. Op de eerste plaats dient hij gebaseerd te zijn op een tekst van algemene aard ten einde te voorkomen dat specifieke kennis op een bepaald (vak- of leer-)gebied een belangrijke rol gaat spelen. Deze voorwaarde hangt samen met het gegeven dat er op dit punt belangrijke verschillen kunnen bestaan tussen cursisten. Aangezien het hier slechts gaat om het meten van taalvorderingen, dient specifieke kennis op een bepaald ge· hied zo veel mogelijk buiten de meting gehouden te worden.De tweede voorwaarde betreft de moeilijkheidsgraad van de toets. Deze zal zodanig mocten zijn dat de toets iiberhaupt vorderingen zichthaar kan maken. Een te moeilijke of te gemakkelijke toets schiet in dit opzicht tekort, want een erg moeilijke toets maakt weinig onderscheid tussen beginners en halfgevorderden, terwijl een erg gemakkelijke geen onderscheid maakt tussen halfgevorderden en gevorderden. Daarom mag beslist ook niet geconcludeerd worden dat elke kwalitatief goede m.c. cloze-toets ook een geschikt instrument is voor het meten van vorderingen. De tweede kwestie die we willen beschouwen, betreft de aard van de relatie tussen enerzijds de toename in score op de m.c. cloze-toets, in de vorige paragraaf leereffect genoemd, en anderzijds de voortgang in de cursus. Wanneer men tot de conclusie komt dat het leereffect de tendens vertoont af te nemen naarmate men in de cursus vordert, dan moet men daarbij onmiddelliik aantekenen dat de grafi-
21
sche weergave van de vorderingen in figuur 3 (de lijnstukken I t/m V) niet wil suggereren dat de vorderingen in het leerproces lineair verlopen. De lijnstukken geven slechts weer welke meetpunten bij elkaar horen, omdat ze over dezelfde personen zijn verkregen. In het navolgende zullen we nader ingaan op de interpretatie van figuur 3. Stel dat men de beheersing van een taal op zeker moment zou kunnen karakteriseren door het aantal gekende woorden van die taal door een persoon. Die gekende woorden garanderen een zekere dekking van een willekeurige gesproken dan wei geschreven tekst. Anders gezegd: de gekende woorden maken een zeker percentage uit van alle woorden die in de tekst voorkomen.We noemen dat het dekkingspercentage. Naarmate de beheersing van die taal toeneemt, dus het aantal gekende woorden toeneemt, neemt de dekking toe en stijgt het dekkingspercentage. Zetten we nu het dekkingspercentage uit tegen de woorden in strikte volgorde van afnemende frekwentie, dan verkrijgen we de ideale dekkingscurve (Sciarone, 1979; Sciarone & Montens, 1985). Zie figuur 4. Dekking (%) 100
80 60
40
20
0
1000
2000 3000 4000 5000 Woorden naar afnemende frekwentie
Figuur 4. ldeale leercurve bij taalverwerving in tennen van dekking (verticale as) en aantal geleerde woorden naar afnemende frekwentie (horizontale as).
Af te lezen is dat bekendheid met de 500 meest frekwente woorden voor een willekeurige tekst leidt to een dekkingspercentage can circa 65%. 22
Bekeildheid met de 1000 meest frekwente woorden geeft een dekkingspercentage van circa 70%. Eveneens is af te lezen dat voor een verdere stijging van het dekkingspercentage een onevenredig grote stijging van het aantal gekende woorden nodig is, waarbij steeds minder frekwente woorden gekend moeten worden. Wij spreken hier van een ideale dekkingscurve, omdat de geschetste relatie slechts deze vorm zal aannemen onder de ideale omstandigheid dat de woorden in strikte volgorde van afnemende frekwentie worden geleerd (en niet meer worden vergeten). Hoewel onbekend is welke de exacte relatie is tussen enerzijds het hierboven bedoelde dekkingspercentage en anderzijds het percentage items dat iemand correct doet op een multiple choice cloze-toets, lijkt het duidelijk dat men de lijnstukken I t/m V uit figuur 3 moet interpreteren als koordes van de min of meer afgevlakte werkelijke versie van de ideale curve uit figuur 4. In de eerste drie weken van B worden de 1200 meest frekwente woorden van het Nederlands ingevoerd. Het dekkingspercentage kan dan zeer snel tot circa 70% stijgen. In de navolgende cursusdelen zal men 'veel meer' (woorden) moeten leren om een verhoudingsgewijs steeds geringere toename van het dekkingspercentage te bereiken. De eindterm van zowel C+G als C/G ligt hij de 80% dekking waarvan wordt aangenomen dat die in staat stelt tot een redelijk goed begrip van een willekeurige tekst. Dat de vorderingen, gemeten door de multiple choice clozetoets, gefuterpreteerd kunnen worden in termen van de geschetste curve bij taalverwerving - met andere woorden: dat er een structurele overeenkomst hestaat tussen enerzijds het verloop van scores op een m.c. cloze-toets in de cursus en anderzijds het verloop van het dekkingspercentage in het proces van taalverwerving -, achten wij een belangrijke indicatie voor de validiteit van de m.c. cloze-toets als taalvaardigheidstoets.
23
De multiple choice cloze-toets als algemene taalvaardigheidstoets. Samenvatting. In dit artikel wordt een onderzoek besproken naar de me-
ting van taalvaardigheid in het Nederlands bij 85 buitenlandse studenten die zich onder andere door Nederlands te leren - hadden voorbereid op een studie aan de Technische Universiteit ~e Delft. Hun taalvaardigheid is zowel gemeten met behulp van een multiple choice cloze-toets als een uitgebreide vier-vaardigheden-toets. Uit vergelijking van de resultaten blijkt dat de multiple choice cloze-toets als meetinstrument van zeer goede kwaliteit is. Geconcludeerd wordt dat de gehanteerde multiple choice clozetoets, gezien zijn zeer grote efficiiintie en zijn zeer hoge predicitieve validiteit, geschikt is ter vervanging van uitgebreide toetsing van de vier afzonderlijke vaardigheden.
1. Inleiding.
Buitenlandse studenten die aan een Nederlandse universitaire instelling willen gaan studeren, moeten eerst aantonen dat ze beschik.ken over 'voldoende kennis van de Nederlandse taal om bet onderwijs met vrucht te kunnen volgen' (Academisch Statuut, Artikel 66, lid 2). De Vakgroepen Toegepaste Taalkunde, die het onderwijs Nederlands voor huitenlanders verzorgen, pogen in een landelijk overleg te komen tot een 'Centrale Toets Nederlands'. Er hestaat daarhij consensus over de inhoudelijke omschrijving van de frase 'voldoende kennis van 24
de Nederlandse taal' en deze wordt in zijn algemeenheid door buitenlanders ontvangende (faculteiten van) universitaire instellingen aanvaard. Bij overeenstemming over het vereiste kennisniveau - waar hier niet verder op zal worden ingegaan - resteert de vraag hoe men studenten het best op het hezit van die kennis kan toetsen. Bij meerderheid is gekozen voor uitgehreide toetsing van 'alle vier de vaardigheden': spreken, luisteren, schrijven en lezen (Hulstijn, 1984). In de toets is tevens een gedeelte opgenomen uit de uitgehreide hatterij m.c. cloze-toetsen die ontwikkeld is door de Sectie Toegepaste Taalkunde van de Technische Universiteit te Delft (Montens, 1983). In de zomer van 1985 werd te Delft hij 85 huitenlandse aspirant-studenten zowel de landelijke vier-vaardigheden-toets (CTN) als de 'Delftse' hatterij m.c. cloze-toetsen afgenomen. Het is van onze bevindingen met deze twee toetsvormen dat in dit artikel verslag wordt gedaan. Men raakt hierhij aan de discussie rond 'integrative versus discrete point testing' in zoverre respectievelijk m.c. cloze-toetsen en vier-vaardigheden-toetsen daar voorheelden van vormen (Oller, 1979). Deze discussie is verzand in een controverse over de zogenoemde 'global factor hypothesis', of anders gezegd: in de vraag of er aan taalvaardigheid iets al dan niet ondeelhaars ten grondslag ligt (Oller, 1982). Door deze tamelijk academische discussie is de (multiple choice) cloze-toets als voor de hand liggende toetsvorm in discrediet geraakt (zie voor het Nederlandstalige gehied hij voorbeeld: Beheydt, 1985). Dat is ons inziens ten onrechte geheurd. De m.c. cloze-toets heeft ten opzichte van de gangbare viervaardigheden-toets twee belangrijke voordelen. In de eerste plaats is hij relatief zeer snel af te nemen en te scoren, en is het derhalve een zeer efficient toetsinstrument. In de tweede plaats is de scoring geheel onafhankelijk van de heoordelaar en is het in die zin dus een volstrekt ohjectief toetsinstrument. 25
Deze twee criteria - een efficientie en objectiviteit - behoren naast andere een grote rol te spelen bij de keuze van een toetsvorm, zeker wanneer het zoals in het onderhavige geval gaat om grote aantallen kandidaten bij wie de toets sterk gespreid in ruimte en tijd moet worden afgenomen. Ondanks het materieel vaak doorslaggevende belang van criteria als efficientie en objectiviteit wordt in discussies over toetsing van taalvaardigheid veelal meer belang gehecht aan betrouwbaarheid en validiteit van toetsen. In het navolgende zal derhalve aan deze beide aspecten aandacht besteed moeten worden. Ten aanzien van de betrouwbaarheid van goed geconstrueerde multiple choice cloze-toetsen kan men zeggen dat deze doorgaans zeer hoog is (zie p. 7 t/m 24). Hetzelfde zal - zij het doorgaans in mindere mate ook gelden voor goed geconstrueerde vier-vaardigheden-toetsen. Een discussie over 'viervaardigheden-toetsen versus multiple choice cloze-toetsen' zal zich derhalve toespitsen op de validiteit van die toetsen als toetsen van taalvaardigheid. De validiteit van vier-vaardigheden-toetsen wordt door de voorstanders ervan bijna als vanzelfsprekend aangenomen op grond van de min of meer vermeende directheid van die toetsen (Beheydt, 1985 ). In feite ligt er aan uitgebreide toetsing van op welke wijze dan ook verregaand opgesplitste deelvaardigheden namelijk iets ten grondslag dat men misschien nog het beste kan omschrijven als een 'naturalistische begoocheling'. Het lijkt daarbij alsof de beschrijving van de kwaliteit van iets (in casu taalvaardigheid) in beginsel slechts mogelijk is door een uitputtende taxonomische opsomming van alle kleinste details van dat iets (in casu de vier of meer vaardigheden). Zelfs binnen een feitelijke naturalistische beschrijving wordt echter mede op grond van het hierarchische karakter van elke taxonomie - gekozen voor een beperkt aantal representatieve (zo men wil: symbolische) details, dus voor een beperkt
26
aantal deelkwaliteiten. Dat taalvaardigheid traditiegetrouw wordt opgesplitst in de vier vermelde vaardigheden hetekent niet dat taalvaardigheid - op zich namelijk een uiterst vaag en onduidelijk hegrip - door die vier vaardigheden volledig en uitsluitend wordt gedekt. In die zin is dus ook vier-vaardigheden-toetsing een indirecte vorm van toetsen. Waar de multiple choice cloze-toets doorgaans een heurtelings glohale, integratieve of indirecte toetsvorm wordt genoemd, is het van helang erop te wijzen dat er een structurele overeenkomst hestaat tussen enerzijds het verloop van de vorderingen in een taalcursus, gemeten door middel van een multiple choice cloze-toets, en anderzijds het verloop van het dekkingspercentage in het proces van taalverwerving. Als men dat laatste heschouwt als een algemene karakteristiek voor het proces van taalverwerving heeft men daarin een helangrijke indicatie voor de hegripsvaliditeit van de multiple choice cloze-toets als taalvaardigheidstoets (zie p. 7 t/m 24). Er is derhalve reden om aan te nemen dat de multiple choice cloze-toets wei degelijk taalvaardigheid meet, en wel op een directe wijze ). Hoe zulks ook zij, wanneer men op praktische en rationele gronden proheert te komen tot een vergelijkende heoordeling van vier-vaardigheden-toetsen en multiple choice cloze-toetsen, dan moet men hedenken dat het niet gaat om een wedstrijd in vooralsnog altijd hekritiseerhare validiteit. Wanneer men door middel van uitgehreide chemische analyse van een hepaalde stof vast weet te stellen dat het een zuur is, dan maakt de wetenschappelijke juistheid van deze 'zware' procedure het hekende lakmoespapier niet waardeloos of onwetenschappelijk. Het lakmoespapier dat van hlauw rood wordt, 'voorspelt' op efficiente en hetrouwhare wijze of iets een zuur is of niet, dat wil zeggen voorspelt iets wat de zware procedure ons ook zou leren. Ten aanzien van de multiple choice cloze-toets hetekent dit dat het hij aangenomen
27
validiteit van vier-vaardigheden-toetsen in eerste instantie van helang is te hezien hoe het staat met de voorspellende waarde, ofte wei de predictieve validiteit van een multiple choice cloze-toets ten opzichte van een uitgehreide vier-vaardigheden-toets.
2. Experiment. Aan 85 huitenlandse studenten werden twee samengestelde toetsen Nederlands voorgelegd: de Centrale Toets Nederlands (kortweg aangeduid met CTN) en de zogenoemde 'Delftse toets'. De CTN toetst afzonderlijk vier taalvaardigheden, te weten luisteren, sprekcn, lezen en schrijven. Zie ook tahel 1. De luistertest hestaat uit een video-opname van drie fragmenten uit een populair-wetenschappelijk televisieprogramma. De fragmenten hetreffen 'hct voorkomen van levende organismen in afgravingen', 'taal en dialect' en 'gedrag hij schoolkinderen'. Hierover worden 31 vragen gesteld, voornamelijk multiple choice vragen en een enkele invulvraag. Met hetrekking tot het spreken hestaat de toets uit een spreektest en een spreekopdracht. In heide gevallen wordt een handopname gemaakt van de mondelinge reacties van de kandidaat. Bij de spreektest reageert hij op 21 opmerkingen uit dagelijkse communicatieve situaties van een student. De eerste lO opmerkingen worden uitsluitend door middel van de band aangehoden, de overige 11 ook nog schriftelijk. Bij de spreekopdracht moet de kandidaat een monoloog van twee minuten houdcn in het kader van een gesprek met een decaan waarin hij informatie over zichzelf moet verschaffen. De leestest omvat vijf korte teksten over onderwerpen als 'studeren', 'medicijnen', 'milieu' enzovoort. Over elke tekst worden 5 multiple choice vragen gesteld, in totaal dus 25.
28
Schrijven omvat weer twee onderdelen: een schrijftest en een schrijfopdracht. Bij de schrijftest moet de kandidaat een ontbrekende zin toevoegen aan 14 korte tekstfragmenten. Bij de schrijfopdracht krijgt hij twee geografische kaartjes van Nederland voorgelegd waarop de luchtverontreiniging over twee periodes in beeld is gebracht. Hij moet in een essay van 150 a 200 woorden enkele vragen daarover beantwoorden. Naast deze vier onderdelen bevat de CTN nog een multiple choice doze-test van 100 items ontleend aan de radionieuwsdienst. Deze laatste test is gebruikt als ankertoets om de scores op de andere tests landelijk te kunnen vergelijken. De Delftse toets is een algemene taalvaardigheidstoets in de vorm van een zestal multiple choice cloze-testen. Daarbij worden teksten aangeboden waarin, te beginnen bij een willekeurig woord, elk zevende woord is weggelaten. De kandidaat moet deze woorden aanvullen door telkens te kiezen uit drie altematieven waarvan er slechts een juist is. De teksten betreffen onderwerpen van de radionieuwsdienst en fragmenten uit leerboeken wis- en natuurkunde voor het voortgezet onderwijs. Het totaal aantal weggelaten woorden bedraagt 447. De scoring van de diverse onderdelen van de toetsen loopt uiteen. Bij aile cloze-testen alsmede bij de luistertest en de leestest wordt per item 0 (fout) of 1 (goed) gescoord overeenkomstig de sleutel. Bij de spreektest en de schrijftest wordt per item de score 0, 1 of 2 gegeven: 2, indien een adekwaat, begrijpelijk antwoord is gegeven waarin nog wei een enkele grammaticale fout mag voorkomen; l, indien een antwoord is gegeven dat niet geheel adekwaat is, grammaticale fouten bevat maar wel redelijk begrijpelijk is; 0, in aile overige gevallen. De prestaties bij de spreekopdracht en de schrijfopdracht worden beide beoordeeld op een schaal die loopt van 0 tot en met 7. Aileen voor deze twee opdrachten ontbreekt een eenduidig scoringsvoorschrift. Aan het experiment namen 85 proefpersonen deel, waarvan
29
Toets
Onderdeel
CTN
Cloze-test
Aantal items
Vorm
Aard
100 multiple choice schriftelijk
Score p. item
0-1
Luistertest
31 multiple choice video-opname
0-1
Spreektest Spreekopdracht
21 aanvullen 1 monoloog
0-1-2 0-7
Leestest
25 multiple choice schriftelijk
0-1
Schrijftest Schrijfopdracht
14 aanvullen 1 essay
0·1·2 0-7
Delftse toets Cloze-testen
bandopname bandopname schriftelijk schriftelijk
447 multiple choice schriftelijk
0·1
Tabel 1. Overzicht van de afgenomen testen (voor nadere toelichting zij vetwezen naar de tekst).
12% vrouwen en 88% mannen. De personen waren atkomstig uit 17 verschillende landen, te weten Iran (30), Indonesie (26 ), Marokko (9), Turkije (3), Duitsland, Egypte, Syrie en Ethiopie (elk 2), de Verenigde Staten, Zuid-Afrika, Ghana, Guyana, Nigeria, ltalie, Mozambique, Afghanistan en Pakistan (elk 1 ). De gemiddelde leeftijd van de proefpersonen bedroeg 23,2 jaar. Alvorens aan de Delftse toets deel te nemen had 12% van de proefpersonen gedurende 8 weken een cursus Nederlands aan de T.U. gevolgd. Dit betekent dat zij bij aanmelding aldaar reeds een redelijke voorkennis van het Nederlands hadden. 44% van de proefpersonen had gedurende 16 weken een cursus gevolgd. Van hen begon de helft zonder enige voorkennis van het Nederlands aan de cursussen, de andere helft bezat al wel enige voorkennis. 19% van de proefpersonen had gedurende 24 weken een cursus Nederlands gevolgd en 25% gedurende meer dan 24 weken. Laatstgenoemde groepen begonnen zonder voorkennis van het Nederlands aan de cursussen.
30
3. ResuUaten.
Alvorens de meetinstrumenten met elkaar te vergelijken, is het nodig een indicatie te geven van de kwaliteit van elk der gebruikte testen. Daartoe worden in tabel 2 een aantal gegevens gepresenteerd met betrekking tot de vijf onderdelen van de Centrale Toets Nederlands. Onderdelen van de Centrale Toets Nederlands
Cloze-test Luistert. Spreekt. l.eestest
Aantal per~nen Aantal items Gemiddelde score Stand. deviatie Gemid. ,re,waarde Stand. ev. p-waariien
n k
x \
p
:~P
Betrouwb. KR20 of txx' Stand. meetfout Sr;
85 100 69,68 11,36 0,70 0,24 0,89 3,77
85 31 15,99 5,20 0,52 0,22 0,79 2,38
85 21* 26,67 9,07
0,88 3,14
85 25 13,02 4,20 0,52 0,17 0,72 2,22
Schrijft.
85 14* 17,89 5,45
0,83 2,25
Tabel 2. Gegevens over de vijf onderdelen van de Centrale Toots Nederlands voor dezelfde 85 personen, exclusief de spreekopdracht en de schrijfopdracht (voor een toelichting hierop zij verwezen naar de tekst). (* De score per item is 0, 1 of 2).
De betrouwbaarheid van de doze-test, de luistertest en de leestest is bepaald met behulp van de Kuder-Richardson-formule 20 (Lord & Novick, 1968, p. 91). Voor de spreektest en de schrijftest, waarbij elk item de score 0, l of 2 kan opleveren, is de betrouwbaarheid bepaald via de 'split-halves'-methode, waama de Spearman-Brown-formule de zogenoemde 'stepped-up reliability' geeft (ibidem, p. 112). Hierbij is elk van de twee testen in twee helften gesplitst, de items met een oneven nummer ten opzichte van die met een even nummer. De betrouwbaarheid van elk van de vijf testen is betrekkelijk hoog. Een rechtstreekse vergelijking op dit aspect is niet mogelijk, omdat
31
de testen in lengte verschlllen. In tabel 2 zijn geen gegevens opgenomen met betrekking tot de spreekopdracht en de schrijfopdracht. De reden daartoe is dat de kwaliteit van deze twee meetinstrumenten te wensen overlaat. Zoals eerder beschreven wordt bij deze opdrachten een door de persoon uitgesproken, respectievelijk uitgeschreven tekst beoordeeld op een schaal van 0 tot en met 7. Ten einde een indruk te krijgen van de betrouwbaarheid van het oordeel zijn een aantal uitgesproken teksten (vastgelegd op de band) en geschreven teksten voorgelegd aan een tweede, onafhankelijke beoordelaar die eveneens goed bekend is met de voorgeschreven heoordelingsprocedure. De steekproef omvatte 12 van de 85 personen en is verkregen door vanaf persoon nummer 6 telkens de zevende erop volgende te nemen. Deze spreiding is gewenst in verband met een eventueel instrumentatie-effect (Campbell & Stanley, 1971, pp. 175 en 179). De interbeoordelaarshetrouwhaarheid is voor beide opdrachten redelijk; voor de spreekopdracht 0,63 en voor de schrijfopdracht 0,66. Opvallend is echter dat beide beoordelaars verschillende standaards blijken te hanteren. Bij de spreekopdracht gaf beoordelaar 1 in vergelijking met beoordelaar 2 gemiddeld 1 ,5 punt meer op een schaal die loopt van 0 tot en met 7. Bij de schrijfopdracht bedraagt het verschll gemiddeld bijna 1 punt. In absolute zin bestaat er dus een beduidend verschll tussen beide beoordelingen. Om deze reden zullen we in de verdere analyse van de resultaten de spreekopdracht en de schrijfopdracht buiten beschouwing Iaten. Ten einde een indruk te krijgen van de samenhang binnen de Centrale Toets Nederlands zijn de correlaties berekend tussen de resterende vijf onderdelen van deze toets. De gegevens zijn te vinden in tabel 3. De correlatiecoefficienten hehben veelal een hoge waarde. · Ter illustratie: aile correlatiecoeffieienten met een waarde groter dan 0,50 zijn significant (a1 = 0,01, power = 0,99; Cohen, 32
Ooze-test
Luistertest Spreektest Leestest Schrijftest
0,72 0,52 0,62 0,74
Luistertest
Spreektest
Leestest
Schrijftest
-
0,61 0,60 0,66
-
0,23 0,73
-
0,46
-
Tabel 3. Correlaties tussen de vijf onderdelen van de Centrale Toets Nederlands, exclusief de spreek- en de schrijfopdracht.
1969, p. 82). Dit lijkt erop te wijzen dat datgene wat de vijf testen meten - wat dat verder ook precies moge zijn - samenhang vertoont. Ook uit onderzoek naar een eerdere versie van de Centrale Toets Nederlands is een duidelijke samenhang gebleken (Janssen-van Dieten, 1984, p. 6). Een eenduidige interpretatie van de gegevens in tabel 3 is vooralsnog niet te geven. Ter toelichting hiervan het volgende. De lage correlatie tussen de prestaties op de spreektest en de leestest kan gelnterpreteerd worden als een relatief gering verband tussen de vaardigheden spreken en lezen, maar kan wellicht ook ten dele samenhangen met de inhoud van het voorafgaande onderwijs. Duidelijk is wel dat de doze-test er niet in negatieve zin uitspringt. Vatten we de Centrale Toets Nederlands op als een samengestelde test, bestaande uit vijf componenten, dan is de betrouwbaarheid van de totale toets 0,84. De betrouwbaarheid van deze toets exdusief de doze-test, dus van de samengestelde test bestaande uit de componenten luisteren, spreken, lezen en schrijven, is iets lager, namelijk 0,80. Onze condusie is derhalve dat de Centrale Toets Nederlands exclusief de spreekopdracht en de schrijfopdracht van aanvaardbare kwaliteit is. Met betrekking tot de Delftse toets zijn in tabel 4 een aantal gegevens samengebracht. Zoals eerder gezegd, bestaat deze toets uit zes multiple choice doze-testen. Ook van deze testen is de betrouwbaarheid, bepaald met behulp van de KuderRichardson-formule 20, wederom betrekkelijk hoog. De stan33
Onderdelen van de Delftse toets I
Aantal personen n Aantal items k Gemiddelde score Stand. deviatie ~ Gem. p-waarde p Stand. dev. p-waarden s Betrouwbaarheid KRztt Stand. meetfout SE
x
85 100 65,44 13,15 0,65 0,24 0,91 3,95
II
85 70 41,79 8,86 0,60 0,19 0,83 3,65
Ill
IV
v
85 85 85 30 100 101 16,04 65,80 63,40 4,00 12,02 13,49 0,54 0,66 0,63 0,18 0,19 0,20 0,62 0,88 0,90 4,27 2,47 4,16
VI
85 46 33,33 5,34 0,73 0,21 0,76 2,62
Tabel 4. Gegevens over de zes onderdelen van de Delftse toets voor dezelfde 8S personen als in tabel 2.
daard meetfout van de testen is van vergelijkhare grootte, gelet op de lengte van de testen (cf. Lord, 1959). Bovenstaande gegevens maken aannemelijk dat de Delftse toets als meetinstrument eveneens van aanvaardbare kwaliteit is. In het voorgaande zijn twee belangrijke aspecten van de toetsen buiten beschouwing gebleven, namelijk efficientie en validiteit. Zoals uit tabel 5 blijkt, vergen afname en correctie bij de Centrale Toets Nederlands veel tijd. Voor 85 personen is dat ongeveer 72 uur als de testbatterij in een keer kan worden afgenomen. Ter vergelijking: voor de zes onderdelen van de Delftse toets te zamen is dat 18 uur. Vanuit het oogpunt van efficientie zou een dergelijke batterij cloze-testen dus de voorkeur verdienen hoven het vier-vaardigheden-gedeelte van de Centrale Toets Nederlands. Resteert derhalve de vraag naar de validiteit van de gehanteerde cloze-testen. Op deze vraag zullen we in het nuvolgende ingaan. Stel dat 'taalvaardigheid' uit vier en niet meer dan vier componenten bestaat, namelijk: luistervaardigheid, spreekvaardigheid, leesvaardigheid en schrijfvaardigheid. Deze veronderstelling 1igt overigens impliciet ook aan de Centrale Toets Nederlands ten grondslag. Stel vervolgens dat de vier componenten even zwaar wegen en dus in gelijke mate bijdragen tot wat eerder 'taalvaardigheid' 34
Onderdeel
Cloze-test Luistertest Spreektest Spreekopdracht Leestest Schrijftest Schrijfopdracht
Wijze van afname
g, g, g, g, g, g, g,
Afnametijd per groep in minuten
p p, v a a p p p
Correctietijd per persoon in minuten
45
60 15 5 90
]
120
]
Totale tijdskosten voor 85 perS<men in uren
2 5
3,6 8,1
15
21,6
5
8,6
20
30,3
Tabel 5. Gegevens met betrekking tot de eft""tcientie van de Centrale Toets Nederlands. Legenda tweede kolom: g, groepsgewijs af te nemen; p, 'potlood en papier test'; a, andio-opname-apparatuur vereist; v, tevens video-afspeel-apparatuur vereist.
is genoemd. Een plausihel uitgangspunt dat een andere gewichtsverdeling rech tvaardigt, onthreekt ons vooralsnog*. Stel ten slotte dat de luistertest, de spreektest, de leestest en de schrijftest uit de Centrale Toets Nederlands respectievelijk luistervaardigheid, spreekvaardigheid, leesvaardigheid en schrijfvaardigheid meten. Gelet op de inhoud van deze testen, die juist met het oog op die vaardigheden zijn ontworpen, is ook dit aannemelijk. De drie hovenstaande veronderstellingen leiden tot de volgende stelling: de beste schatter, E, van taalvaardigheid is de som van de prestaties van een persoon op de vier testen, zodanig dat de vier testen een gelijk gewicht hebben. Omdat de vier testen qua lengte van schaal uiteenlopen, kan niet rechtstreeks van de ruwe scores op elk van de vier testen
* Maximalisering van de betrouwbaarheid van de samengestelde toets, bestaande uit vier componenttesten met een gefixeerde lengte, Ievert de volgende gewichtsverdeUng op: 0,56, 0,61, 0,36 en 0,61 (Lord & Novick, 1968, pp. 123-124). lnhoudelijk is zo'n gewichtsverdeUng niet interessant, reden om er in dit verband verder ook geen aan· dacht aan te besteden.
35
gehruik worden gemaak.t*. Daarom wordt de mwe score op een test gedeeld door het maximum van de schaal van de hetreffende test. Op deze wijze wordt de ruwe score omgezet in een percentage: het percentage dat een persoon op die test hereikt. Door de percentages van een persoon op de vier testen te sommeren en de som door vier te delen, wordt een nieuwe score verkregen, de zogenoemde E-score, die een waarde van 0 tot en met 100 kan aannemen. Kortom: E-score
= 25
(luisterscore + spreekscore + Jeesscore + schrijfscore) 31 42 25 28
Op deze wijze is voor elk van de 85 personen een E-score hepaald aan de hand van zijn score op de luistertest, de spreektest, de leestest en de schrijftest. De verkregen E-score van een persoon wordt geacht de beste schatter te zijn van zijn 'taalvaardigheid '. In het navolgende zullen we het verhand tussen de E-score van een persoon en zijn score op een Cloze-test, de zogenoemde C-score, nader heschouwen. Als eerste nemen we de dozetest uit de Centrale Toets Nederlands, die relatief de kleinste meetfout heeft. In figuur 1 is de samenhang tussen de E-score en de C-score van de 85 personen in heeld gehracht. De figuur laat zien dat er een duidelijk positief verhand hestaat tussen de E-score en deze C-score van de personen. De product-moment-correlatiecoefficient hedraagt 0,79 zoals uit kolom 1 van tahel 6 is af te lezen. Wordt de betrouwhaarheid van beide metingen hierin hetrokken, dan hedraagt de werkelijke correlatie, gecorrigeerd voor attenuatie, i XY' 0, 94 (Nunnally, 1978, p. 220). Vergelijken we de E-scores van de personen met hun score op de eerste cloze-test van de Uelftse toets, dan zien we vrijwel hetzelfde. De product-moment-correlatiecoeffi-
* Dit is overigens een belangrijke reden waarom een benadering via variantie-analyse {zie bij voorbeeld: Winer, 1970, p. 105 e.v.) niet zinvol is. 36
100 E-score C.T.N.
E'
90
80 70 60 50
40
30
20 10
0
10
20
30
40
50
60
70
100 90 C-score C.T.N.
80
Figuur 1. Scatterdiagram van de score op de doze-test van de Centrale Toets Nederlands (C-score: horizontale as) en de score op de overige testen van de Centrale Toets Nederlands (E-score: verticale as) voor aile 85 personen. E' is de regressielijn van E op C.
cient bedraagt 0, 78 (zie kolom 3 van tabel 6 ). Correctie voor attenuatie leidt tot een werkelijke correlatie van 0,91. Kortom: de scores van de 85 personen op elk van beide cloze-testen correleren zeer hoog met hun E-scores, afgeleid uit de luistertest, de ·spreektest, de leestest en de schrijftest.
37
Schaalbereik Gemiddelde score X: Standaarddeviatie ~ Betrouwbaarheid KR20 of a Standaardmeetfout SE Correlatie met E-score rxy Disattenuated corre... rxy latie met E-score
C'i~Core
E~re
C~re
C.T.N.
C.T.N.
D.T.l
0-100 69,68 11,36 0,89 3,77 0,79
0-100 57,85 15,27 0,80 6,83 --
0-100 65,44 13,15 0,91 3,95 0,78
0,94
-
0,91
Tabel 6. De C-score van 85 personen vergeleken met hun E-score, een uit de testen luisteren, spreken, lezen en schrijven van de C.T.N. afgeleide score voor 'taalvaardigheid'; C-score C.T .N. staat voor de cloze-test uit de Centrale Toets Nederlands en C-score D.T.l voor de eerste cloze. test uit de Delftse toets.
Ook de overige vijf cloze-testen van de Delftse toets vertonen een goede samenhang met de 'E-test'. De correlatiecoefficienten lopen uiteen van 0,58 voor de vierde doze-test tot 0,79 voor de vijfde cloze-test uit de Delftse toets. Eeperken we ons tot de laatste twee in verband met de lengte van de meetschaal, dan zijn de correlatiecoefficienten na correctie voor attenuatie respectievelijk 0,69 en 0,93. De interpretatie van de gegevens ligt voor de hand. Datgene wat door elk van beide cloze-testen uit tabel 6 wordt gemeten, hangt zeer nauw samen met datgene wat wordt gemeten door de 'E-test', de samengestelde test die luistervaardigheid, spreekvaardigheid, leesvaardigheid en schrijfvaardigheid afzonderlijk meet. Lezen we de correlatiecoefficienten, gecorrigeerd voor attenuatie, als validiteitscoefficienten, dan heeft elk van heide cloze-testen een zeer hoge predictieve validiteit. Met andere woorden: is hij voorheeld de score van een persoon op de cloze-test van de Centrale Toets Nederlands hekend, 38
dan is een zeer goede voorspelling mogelijk van zijn taalvaardigheid zoals we die eerder hebben geoperationaliseerd. De regressievergelijking is in dit geval:
E'
1,06 C - 16,14
waarin E' de voorspelde E-score is op grond van de gevonden C-score (Allen & Yen, 1979, p. 31). Zie ook figuur I. De implicatie van het voorgaande zal duidelijk zijn. In de praktijk kan volstaan worden met het afnemen van een dozetest, bij voorkeur de cloze-test uit de Centrale Toets Nederlands. In het laatste geval kan via bovenstaande regressievergelijking een goede voorspelling worden gemaakt van de E-score van een persoon. Zoals uit tabel 5 is af te leiden, Ievert een dergelijke werkwijze .een enorme besparing van tijdskosten: de cloze-test vergt immers nog geen 5% van de totale tijdskosten van de Centrale Toets Nederlands.
4. Slotbeschouwing.
Samenvattend kan men op grond van dit vergelijkend onderzoek het volgende vaststellen. De twee nader beschouwde multiple choice cloze-testen zijn als meetinstrument kwalitatief goed, met name gelet op betrouwbaarheid en standaardmeetfout. De betrouwbaarheid van beide multiple choice cloze-testen is zeer hoog, terwijl de standaardmeetfout van beide aanmerkelijk geringer is dan die van de viervaardigheden-toets opgevat als een samengestelde test {zie tabel 6 ). In zijn algemeenheid voldoen de multiple choice cloze-testen ten aanzien van de objectiviteit beter dan de hier beschreven vier-vaardigheden-toets. Dit komt doordat beoordelaars in een aantal gevallen (met name bij de schrijf- en de spreekopdracht, in mindere mate ook bij de schrijf· en de spreektest) verschil39
lende standaards blijken te gebruiken, hetgeen bij een multiple choice cloze-toets geheel onmogelijk is. Dit is voor de toetsing van het Nederlands bij buitenlanders met name van praktische betekenis vanwege de veelheid van in plaats zeer gespreide instellingen waar toetsen worden afgenomen. In verhouding tot de vier-vaardigheden-toets is de efficientie van de multiple choice cloze-testen in termen van totale tijdskosten uitermate hoog (een factor 20). Het verschil in dit opzicht is zo groot dat een van beide multiple choice cloze-testen 85 maal achtereenvolgens individueel afgenomen - bij minimalisatie van de tijdskosten, door de kandidaat de test in nog altijd 'zes maal een aparte ruimte af te Iaten leggen zo efficient' is als de vier-vaardigheden-toets bij een groep van 85 personen afgenomen in een keer, waarbij verdere minimalisatie van tijdskosten onaannemelijk is. Dit is voor de toetsing van het Nederlands bij buitenlanders met name van praktische betekenis vanwege hun in de tijd zeer gespreide en veelal onregelmatige instroom. De predictieve validiteit van de multiple choice cloze-testen ten aanzien van de 'taalvaardigheid' zoals gemeten door de vier-vaardigheden-toets - waarvan de begripsvaliditeit in de praktijk door de overgrote meerderheid van toetsers als vanzelfsprekend wordt aangenomen - is zeer hoog. Met het oog op de vier hierboven gehanteerde criteria kan men derhalve besluiten dat een multiple choice cloze-toets van de hier beschreven kwaliteit in de praktijk zeer wel kan dienen ter veroanging van een uitgebreide vier-vaardigheden-toets. Om redenen van objectiviteit en efficientie verdient zulks voor het meten van vorderingen ten aanzien van Nederlands als tweede taal - althans bij personen met een vooropleiding die vergelijkbaar is met die van de hier beschreven proefpersonen - zelfs aanbeveling.
40
Aanhangsel(I) betreffende de vermeende mogelijkheid van het optreden van een compensatie-effect bij het volgen van een middelingsprocedure tussen de verschillende deelvaardigheden ter verkrijging van de zogenoemde E-score. Bij de analyse van de resultaten van de 85 personen op de Centrale Toets Nederlands en de Delftse Toets zijn scores op multiple-choice cloze-testen vergeleken met scores op testen, waarin de vier vaardigheden luisteren, spreken, lezen en schrijven afzonderlijk werden gemeten. Daarbij is de zogenoemde Escore gefutroduceerd. Beargumenteerd werd, dat de beste schatter, E, van taalvaardigheid de som is van de prestaties van een persoon op deze vier testen, zodanig dat de vier testen een gelijk gewicht hebben. De E-score is bepaald door per persoon de proportionele score op de luistertest, de spreektest, de leestest en de schrijftest van de C.T.N. te sommeren, waarna de som door 4 is gedeeld. Dit leidde tot een E-score met een bereik van 0 tot en met 100. Uit de analyse bleek, dat er tussen scores op m.c. cloze-testen enerzijds en E-score anderzijds zeer aanzienlijke correlaties bestonden. Zo had de productmoment-correlatiecoefficient tussen E-score en de score op de m.c. doze-test van de C.T.N. een waarde van 0,79, hetgeen na correctie voor attenuatie 0,94 bedroeg. Geconcludeerd werd, dat deze m.c. doze-test een zeer hoge predictieve validiteit heeft als de correlatie coefficient gecorrigeerd voor attenuatie gelezen wordt als validiteitscoefficient. ln de geschetste benadering is aan de vier vaardigheden een 41
even groot gewicht toegekend. Hoewel dat het meest voor de hand ligt, zijn er situaties denkbaar, waarin aan hepaalde vaardigheden een groter gewicht wordt toegekend dan aan andere. In feite is dit niets anders dan een normeringskwestie. Het gaat immers uiteindelijk om de vraag hoe belangrijk men elk van de vier vaardigheden acht, gelet op het doel van de meting. Mede ook omdat geringe wijzigingen in de gewichtsverdeling slechts geringe invloed zullen hebben op de E-score en dus op de geconstateerde relatie tussen E-score en score op een m.c. doze-test, blijft deze kwestie hier buiten beschouwing. Een ander aspect van de gevolgde benadering is het zogenoemde compensatie-effect. Middeling van de proportionele scores voor de vier vaardigheden kan er bijvoorbeeld toe leiden, dat een relatief lage score op de ene test gecompenseerd wordt door relatief hoge . scores op de andere testen. Algemener ge~ formuleerd: als de proportionele scores van een persoon op de vier testen uiteenlopen, heeft middeling tot gevolg dat extreme scores worden gecompenseerd. In het navolgende wordt het compensatie-effect nader beschouwd. Stel dat er twee testen zijn, X en Y, elk met een schaalbereik van 0 tot en met 100, die specifieke deelvaardigheden meten. Uit de scores van personen op beide testen wordt een nieuwe score afgeleid, Z genoemd, volgens de relatie: X+Y Z=2
(1)
Merk op, dat de scores X en Y even zwaar wegen. Relatie (1) is in figuur 1 in beeld gebracht. De X-as geeft de score op test X weer; de Y-as de score op test Y. De rechten in de figuur Iaten zien hoe bepaalde waarden van Z, aangegeven in de figuur, verkregen kunnen worden uit waarden van X en Y. Zo is uit de figuur af te lezen, dat. bijvoorbeeld Z=50 zowel gerealiscerd wordt door X=50 en Y=50, alsook door X=20 en Y=80 en door X=80 en Y=20. In de laatste twee gevallen is 42
100
80
60
40
20
0
20
60
40
Figuur l. De relatie Z=li2(X+Y) in beeld gebracht, waarbij de rechten in de grafiek weergeven hoe bepaaJde waarden van Z (in de tekening aangegeven) verkregen kunnen worden uit waarden van X en Y.
er sprake van compensatie. Tevens is duidelijk, dat het een compensatie-effect van meer betekenis is, naarmate X-score en Y-score van een persoon meer verschillen. In term en van figuur 1: het effect is groter naarmate het punt met de coordinaten (X, Y) een grotere afstand heeft tot de diagonaal X=Y. Voor een verzameling van X- en Y-scores verkregen 43
over dezelfde personen geldt derhalve, dat het compensatieeffect groter is naarmate de productmoment-correlatiecoefficient tussen X en Y van 1 naar 0 daalt. Hoe kleiner die positieve correlatie is, des te groter is de compensatie. Het compensatie-effect kan gemanipuleerd worden door een andere relatie tussen Z en X en Y te definieren, bijvoorbeeld
Z=JX. yY Z=lOO
of
(2)
v(l00-X)(100-Y).
(3)
Voor bijvoorbeeld X=20 en Y=80 leidt (2) tot Z=40 en (3) tot Z=60, terwijl (1) in dit geval Z=50 oplevert. Met andere woorden: in vergelijking met (I) leidt relatie (2) tot ondercompensatie, terwijl relatie (3) tot overcompensatie leidt. Een en and'er is in beeld gebracht in de figuren 2 en 3 die op dezelfde wijze gelezen dienen te worden als figuur I. Ook nu weer blijkt uit de figuren, dat de (over· of onder-) compensatie groter is naarmate het punt met de coordinaten (X, Y) een grotere afstand heeft tot de diagonaal X=Y, dus naarmate de correlatie tussen X-scores en Y-scores daalt van I naar 0. Met behulp van het voorgaande is het mogelijk een indicatie te geven van de invloed van compensatie op de E-score. Zoals gezegd is het effect het grootst bij de twee testen van de C.T.N. die onderling het laagst correleren. In ons geval zijn dat de spreektest en de leestest met als correlatie-coefficient 0,23. Stel nu dat X de score op de spreektest en Y de score op de leestest is, waarbij X en Y telkens de proportionele scores van een persoon op die testen zijn. Voor elk van de 85 personen wordt nu een score z1 bepaald overeenkomstig de relatie: (2)
44
0
20
60
40
80
100
F.guur 2. De relatie Z:.JX . ..jY in beeld gebracht, waarbij de curven in de ~afiek weergeven hoe bepaalde waarden van Z (in de tekening aangegeven) verkregen kunnen worden uit waarden van X en Y.
45
0
20
60
40
80
100
Figuur 3. De relatie Z=IOO - y'(iOO-X)(IOO-Y) in beeld gebraeht, waarbij de curven in de grafiek weergeven hoe bepaalde waarden van Z (in de tekening aangegeven) verkregen kunnen worden uit waar· den van X en Y. ·
46
Deze relatie leidt, zoals ook in figuur 2 is te zien, tot ondercompensatie als X-score en Y-score van een persoon uiteenlopen. De Z 1-scores van de 85 personen zullen dus lager uitvallen, naarmate het verschil tussen hun X- en Y-score groter is. Zie daartoe ook tahel l. X
y
zl
z2
50
50
50
50
40
60
48,99
51,01
30
70
45,83
54,17
20
80
40
60
10
90
30
70
Tabel 1. Een demonstratie van ondercompensatie (zie de waarden onder Z 1) en overcompensatie (zie onder Z 2 ), gegeven zekere waarden voor X en Y.
Daarnaast wordt voor elk van de 85 personen een score Z2 hepaald volgens de relatie: Z 2 =100 - J(iOO-X)(lOO-Y).
(3)
Deze relatie leidt, zoals ook in figuur 3 is te zien, tot overcompensatie als X-score en Y-score van een persoon uiteenlopen. De Z2 -scores van de 85 personen zullen dus hoger uitvallen, naarmate het verschil tussen hun X-score en Y-score groter is. Zie ook tahel 1. Vervolgens kan nu de productmoment-correlatiecoefficient herekend worden tussen de Z1-score en de Z2 -score van de 85 personen. Deze coefficient geeft een indicatie van de grootte van het compensatie-effect in die zin dat een hoge correlatie op een
47
geringe compensatie duidt. Immers, zoals ook uit tahel l is af te lezen, hoe groter het verschil tussen zl en z2' des te groter het compensatie-effect en des te kleiner de correlatie tussen Z1 - en Z2 -scores. Aldus uitgevoerde herekeningen le· veren een productmoment-correlatiecoefficient tussen zl en z2 van 0,94. Derhalve is de conclusie, dat zelfs hij de twee testen van de vier uit de C.T.N. die onderling de minste samenhang vertonen, het compensatie-effect zeer gering is. Dit maakt het aannemelijk, dat ook de E-scores nauwelijks heihvloed zijn door het compensatie-effect. Kortom: sommering van proportionele scores op de vier taaltesten tot E-scores leidt niet tot een verstoring van hetekenis.
48
Aanhangsel(II) betreffende de vraag aan welke van beide toetsen het ligt dat de C-scores niet altijd een vohnaakt juiste voorspelling geven van de F.-scores. In het voorgaande zijn twee delen van de CTN vergeleken. Het ene deel omvatte de Iuistertest, de spreektest, de leestest en de schrijftest uit de CTN. Deze vier zijn gecomhi· neerd tot een samengestelde 'vier-vaardigheden' test, waaruit een E-score is afgeleid. Deze samengestelde test zal verder kortweg de E-test worden genoemd. Het andere deel betrof de multiple-choice cloze-test uit de CTN, verder de C-test te noemen. Gebleken is, dat er een hoge correlatie bestaat tussen E-scores en C-scores en dat de E-score weinig hei'hvloed wordt door het zogenoemde compensatie·effect. Aangezien de efficientie van de C-test zeer groot is in vergelijking met de E-test - de m.c. cloze-test vergt circa 5% van de afname en correctietijd van de totale CTN - rijst de vraag of in de praktijk van het onderwijs niet volstaan kan worden met metingen via kwalitatief goede m.c. cloze-testen. In tabel 2 zijn een aantal gegevens samengebracht met hetrekking tot de C-test en de E-test, zoals verkregen over de 85 personen. Uit de tabel is af te lezen, dat een beslissing op grond van de score van een persoon op de C-test niet altijd identiek zal zijn aan de beslissing die voor dezelfde persoon op grond van zijn of haar score op de E-test wordt genomen. Als bijvoorbeeld de gemiddelde scores op de testen als cesuur onvoldoende-voldoende zouden worden aan-
49
KR20/a
C-test
E-test
69,68
51,85
11,36
15,27
0,89
0,80
3,77
6,83 0,79 0,94 I
Tabel 2. Enkele gegevens met betrekking tot de C-test (de m.c. dozetest uit de CIN) en de E-test (de samengestelde vier-vaardigheden test uit de CTN), verkregen over dezelfde 85 personen.
gehouden, dan zouden voor 34 personen (40%) zowel de Ctest als de E-test tot de beslissing voldoende leiden en voor 37 personen (44%) beide testen tot onvoldoende. Voor 7 personen (8%) zou de C-test tot een onvoldoende leiden, terwijl de E-test tot een voldoende leidt. Het omgekeerde geldt eveneens voor 7 personen. Mag hieruit geconcludeerd worden, dat de C-test in dit geval voor 16% van de personen tot een onjuiste heslissing leidt? Bij een dergelijke benadering zou de E-test als criterium worden gehanteerd in die zin, dat beslissingen op grond van de E-test per definitie de juiste beslissingen zijn. Deze benadering is aanvechtbaar zoals in het navolgende gedemonstreerd zal worden. Stel dat de score van een persoon op de C-test gelijk is aan X en zijn of haar score op de E-test gelijk is aan Y. Stel verder:
50
X=Wx +Ex en: Y=Wy + Ey , waarin Wx en Wy de ware scores en Ex en Ey de error scores. We stellen, dat C-test en E-test hetzelfde meten, dus: Wy=p.Wx + q. Van p ~ q is als volgt een schatting te verkrijgen: Wy=p.Wx + q ~=_r.swx
Wx=X
en Wy=Y,
Het verband tussen de ware scores wordt dus weergegeven door de vergelijking: (1) Y=1,27X - 10~2. Het punt (X, Y) ligt op deze lijn. Uitgaande van 95%-betrouwbaarheid wordt romd dit punt een betrouwbaarheidsellips afge· grensd. Zie figuur 4. Door deze ellips langs de eerder bepaalde lijn (1) te schuiven ontstaat een 95%-betrouwbaarheidsstrook, begrens door de raaklijnen aan de ellips (2) en (3), welke parallel lopen aan (1). Bepaling van de ellips en vervolgens van de raaklijnen aan de ellips, parallel aan (1), levert als vergelijkingen voor de raaklijnen op: Y=1,27X
14,22
Y=1,27X
47,62.
en
(2) (3)
Zie ook figuur 4. De afstand van de twee raaklijnen (2) en (3) tot (1) is 10,31. In figuur 5 zijn de raaklijnen weergege· ven in het scatterdiagram, waarin X staat voor de score op de m.c. cloze-test van de 85 personen en Y voor hun score op 51
(3)
y
X
Figuur 4. De 95%-betrouwbaarheidseUips rond bet punt (X, Y) in beeld gebracht, waarbij a=2~Y' b=2~x· Het verband tussen de ware scores wordt weergegeven door (1); de raaklijnen aan de ellips door (2) en (3). De afstand van (2) en van (3) tot (I) is c met als waarde 10,31.
52
100 (1)
80 (3)
60
40
20
0
20
60
40
80
100
Figuur 5. Scatterdiagram van de scores op de C-test, X, en de E-test, Y, waarin het verband tussen de ware scores (1) in beeld is gebracht, alsmede de 95%-betrouwbaarheidsstrook (2) en (3). Zie voor een toelichting de tekst.
de samengestelde viervaardighedentest. In figuur 4 is zichthaar gemaakt, dat het 95%-hetrouwhaarheidsinterval* voor Y veel groter is dan dat voor X, namelijk * In feite is hier sprake van een enigszins vereenvoudigde voorstelling van zaken, omdat de breedte van een betrouwbaarheidsinterval strikt genomen niet constant is, maar in geringe mate varieert (zie de Gruijter, 1982, p. 46). Een /outer indicatief gebruik van betrouwbaarheidsintervallen op de hier beschreven wijze is echter te rechtvaardigen.
53
27,32 voor Y tegenover 15,08 voor Tevens is zichtbaar gemaakt, dat de breedte van de 95%-betrouwbaarheidsstrook in hogere mate afhankelijk is van sEy dan van sEx. Uitgaande van de veronderstelling, dat C-test en E-test hetzelfde meten, zal de C-test naar verwachting betere benaderingen van de true scores van personen opleveren dan de E-test. Een belangrijke implicatie hiervan is, dat beslissingen op grond van de C-test de voorkeur verdienen hoven beslissingen op grond van de E-test. Anders gezegd: naar verwachting zal de m.c. dozetest minder vaak tot een onjuiste beslissing leiden dan de samengestelde vier-vaardigheden test uit de CTN. De bevindingen zijn als volgt samen te vatten. * Zowel de samengestelde vier-vaardigheden test als de multiple-choice doze-test uit de CTN zijn psychometrisch van goede kwaliteit. * Uitgaande van de samengestelde vier-vaardigheden test is de predictieve validiteit van de m.c. cloze-test hoog. * Sommering van de proportionele scores op elk van de vier afzonderlijke testen voor luisteren, spreken, lezen en schrijven tot E-scores heeft geen compensatie-effect van betekenis. * De m.c. cloze-test geeft naar verwachting betere benaderingen van de true scores van personen dan de samengestelde viervaardigheden test uit de CTN. De conclusie is derhalve, dat de m.c. doze-test in geen enkel opzicht onder doet voor de vier-vaardigheden test. Omdat de efficientie van de m.c. cloze-test veel en veel groter is, verdient deze test in de praktijk van het onderwijs de voorkeur.
54
Slotbeschouwing Er resteren nog vragen ten aanzien van m.c. cloze-testen waarop in dit onderzoek geen antwoord is gegeven. De drie die naar onze inzichten het belangrijkst zijn, zullen we hier summier bespreken. Ten eerste: wat meet een m.c. dozetest nu eigenlijk. Verondersteld wordt, dat dergelijke testen kennis van de grammatica, woordenschat en tekstbegrip meten, afzonderlijk of gecombineerd, afhankelijk van het weggelaten woord, de context en de aangeboden altematieven. Met name het aspect van tekstbegrip is voor ons van belang. Doel van de cursus 'Nederlands voor huitenlanders' is immers hen in staat te stellen het onderwijs in een studie met vrucht te volgen. Evident is dat tekstbegrip daarhij een essentieel element is. Om die reden is een onderzoek gestart waarin wordt nagegaan in welke mate m.c. cloze-testen 'gevoelig' zijn voor teksthegrip. Overigens zijn uit een eerder onderzoek aanwijzingen verkregen die erop duiden, dat er een structurele overeenkomst hestaat tussen het verloop van scores op een m.c. dozetest in de cursus en het verloop van het dekkingspercentage in het proces van taalverwerving. Duidelijk is, dat de relaties tussen scores op m.c. cloze-testen, dekking van teksten en de eerder genoemde taalaspecten als grammaticakennis, woordenschat en teksthegrip nader onderzocht dienen te worden. De tweede vraag betreft de kwaliteit van m.c. cloze-testen in het algemeen. Gedemonstreerd is, dat de hier onderzochte m.c. cloze-testen goede vervangers zijn van de inefficiente
55
vier-vaardigheden testen. Het betekent uiteraard niet, dat elke willekeurige m.c. doze-test dergelijke kwaliteiten heeft, net zo min als een willekeurig proefwerk of test van bepaalde vorm per definiti.e van goede kwaliteit is. De vraag die hier aan de orde is, betreft in feite de equivalentie van m.c. cloze-testen. Naar onze mening is in dit geval slechts een benadering verdedigbaar: er is pas sprak.e van equivalentie wanneer die gedemonstreerd is voor de betreffende testen. De derde vraag tenslotte heeft betrekking op het effect van gebruik van m.c. cloze-testen. Men zou bijvoorbeeld kunnen veronderstellen, dat veelvuldig gebruik van dergelijke testen leidt tot onderwaardering of veronachtzaming van aspecten van taalverwerving en taalvaardigheid of tot een andere wijze van voorbereiding op examens door de cursisten. In ons onderzoek zijn dergelijke effecten niet gebleken. Bovendien behoort het tot de verantwoordelijkheid en deskundigheid van de docent te bepalen in welke mate hij of zij tijdens de cursus aandacht aan de verschillende aspecten van taalvaardigheid zal besteden. Evenmin zijn wij van mening, dat luister-, spreek-, lees- en schrijfoefeningen tijdens het onderwijs overbodig zijn en vervangen zouden moeten worden door m.c. cloze-testen. Onze stelling is, dat bij examinering van beheersing van het Nederlands door buitenlandse aspirant-studenten een m.c. cloze-test van de hier beschreven kwaliteit als vervanging kan dienen van de uitgebreide vier-vaardigheden toetsing.
56
Literatuur Allen, MJ.; Yen, W.M. (1979) Introduction to measurement theory, Mon· terey, Calif.: Brooks/Cole. Appel, R.; Croson, C.; Muysken, P. & de Vries, J.W. {red.) (1982) Taalpro· blemen van buitenlandse arbeiders en hun kinderen, Muiderberg: Coutinho. Beheydt, L. (1985) Toetsconstructie bij het 'Certificaat Nederlands: in Toegepaste Taalkunde in artikelen 22, Amsterdam: VU boekhandel/uitgeverij, pp. 129-147. * Campbe1l, D.T.; Stanley, J.C. (1971) Experimental and quasi-experimental designs for research on teaching, in: Gage, N.L. (ed.) (1971) Handbook of research on teaching, Chicago: Rand McNally, pp. 171-246. Cohen, J. (1969) Statistical power analysis for the behavioral sciences. New York: Academic Press. Coumou, W. (1982) Taalonderwijs aan buitenlandse arbeiders, in: R. Appel e.a. (red.) (1982), pp. 54-76. Gruijter, D.N.M. de (1982) Tentamineren en beslissen, Harlingen: Flevodruk. Hulstijn, J.H. (1984) Een Centrale Toets Nederlands voor niet-Nederlandstalige aspirant-studenten: verantwoording van uitgangspunten en opzet (concept), Amsterdam: Vrije Universiteit. Hulstijn, J .H. (1986) De toetsing van de kennis van het Nederlands bij buitenlandse aspirant-studenten, Rapport van de interuniversitaire werkgroep centrale toets Nederlands. Hulstijn, J.H.; Schellart, M. (1978) Makkelijk praten. Nederlandse spreektaal voor buitenlanders, Amsterdam: Meulenhoff Educatief. *Beheydt, L. (1986) Titel onbekend (te verschijnen). Janssen-van Dieten, A.M. (1984) Verslag onderzoek examen Nederlands 1984, Nijmegen: rapport K.U.N. Korswagen, CJ J. (1981) Cursus Nederlands voor buitenlanders II, leergang voor gevorderden, Delft: Vakgroep Toegepaste Taalkunde, T.H.-Delft. Linden, T. v.d. (1985) Instaptoets anderstaligen, in Toegepaste Taalkunde in artikelen 22. Amsterdam: VU boekhandel/uitgeverij, pp. 73-85.
57
Lord, F.M. (1959) Tests of the same length do have the same standard e"or of measurement, in Educational and psychological measurement, 19, 2, pp. 233-239. Lord, F.M.; Novick, M.R. (1968) Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley. Montens, F. (1983) Toets Nederlands, Delft: Vakgroep Toegepaste Taalkunde Technische Hogeschool Delft. Montens, F.; Korswagen, CJ J. (samenst.) (1982) Nederlands Compact, Delft: Vakgroep Toegepaste Taalkunde, T.H.-Delft. Montens, F.; Ruijgrok, G.JJ. (1985) Nederlands voor buitenlanders: Luchten Ruimtevaart de Delftse methode, Amsterdam: Boom/Meppel. Montens, F.; Sciarone, A.G. (1984) Nederlands voor buitenlanders -de Delftse methode, Amsterdam: Boom/Meppel. Montens, F.; Sciarone, A.G. (1985) Enkele voorlopige opmerkingen over de kennis van het Nederlands bij buitenlanders en de toetsing en certificering ervan, probleemstellende notitie vervaardigd in opdracht van de Nederlandse Taalunie, Voorzetten 5, Groningen: Wolters Noordhoff. Nunnally, J.C. (1978) Psychometric theory, New York: McGraw-Hill. Oller, J.W. (1979) Language tests at school, a pragmatic approach. London: Longman. Oller, J.W. (1982) 'g: What is it? Albuquerque: paper Universitz of New Mexico. Schweers, J .; van Vianen, P. (1977) Natuurkunde op corpusculaire gronds/ag, dee/ 2, Den Bosch: Malmberg. Sciarone, A.G. (1979) Woordjes leren in het vreemde-talenonderwijs, Muiderberg: Coutinho. Sciarone, A.G.; Montens, F. (1983) Nederlands voor buitenlanders de tweede ronde, (experimentele versie), Delft: Vakgroep Toegepaste Taalkunde, T.H.-Delft. Sciarone, A.G.; Montens, F. (1984) Hoe leer je een taal? - de Delftse methode, Amsterdam: Boom/Meppel. Sciarone, A.G.; Montens F. (1985) Nederlands voor buitenlanders: de Delftse methode, in Toegepaste Taalkunde in artikelen 22. Amsterdam: VU boekhandel/uitgeverij. Wijnstra, J.M. (1983) Resultaten van de toelatingstoets applicatiecursus allochtone leerkrachten, Arnhem: intern memorandum CITO. Winer, B.J. (1970) Statistical principles in experimental design, London: McGraw-Hill.
58
Inhoud I Voorwoord II Het meten van vorderingen met een multiple choice cloze-toets. - l. Inleiding - 2. Kwaliteit van het meetinstrument 3. Meting van leerresultaten 4. Analyse van het leereffect - 5. Slotheschouwing HIDe multiple choice cloze-toets als algemene taalvaardigheidstoets. l. Inleiding - 2. Experiment - 3. Resultaten - 4. Slotbeschouwing Aanhangsel(I) betreffende de vermeende mogelijkheid van het optreden van een compensatie-effect hij het volgens van een middelingsprocedure tussen de verschillende deelvaardigheden ter verkrijging van de zogenoemde E-score. Aanhangsel(II) hetreffende de vraag aan welke van heide toetsen het ligt dat de C-scores niet altijd een volmaakt juiste voorspelling geven van de E-scores. IV Slotbeschouwing V Literatuur Inhood
59
5 7 7 12 15 18 21 24
24 28 31 39
41
49 55 57 ~
Wim Jochems (1947) en Frans Montens (1947) zijn heiden verhonden ~tan de vakgroep Communicatie en Kennisoverdracht van de faculteit der Wijshegeerte en Maatschappijwetenschappen van de Technische Universiteit te Delft. Zij verrichten onderzoek naar de problematiek van het toetsen in relatie tot taalverwerving, met name van het Nederlands van huitenlanders.