DE EVALUATIE VAN SPREEKVAARDIGHEID IN COMMUNICATIEVE SITUATIES
GLOBALE BEOORDELING EN GEDETAILLEERDE ANALYSE
VAN SPREEKPRESTATIES VAN 11- EN 12-JARIGEN
CIP-GEGEVENS KONINKLIJKE BIBLIOTHEEK, DEN HAAG Gelderen, Amos van De evaluatie van spreekvaardigheid in communicatieve situaties : globale beoordeling en gedetailleerde analyse van spreekprestaties van 11- en 12-jarigen / Amos van Gelderen. - Amsterdam : Stichting Centrum voor Onderwijsonderzoek van de Universiteit van Amsterdam ; Amsterdam : Stichting Kohnstamm Fonds voor Onderwijsresearch [distr.]. - (SCO-rapport / Stichting Centrum voor Onderwijsonderzoek van de Universiteit van Amsterdam ; 303) Proefschrift Universiteit van Amsterdam. - Met ]it. opg. Met samenvatting in het Engels. ISBN 90-6813-347-0 geb. Trefw.: spreekvaardigheid ; kinderen.
DE EVALUATIE VAN SPREEKVAARDIGHEID IN COMMUNICATIEVE SITUATIES
GLOBALE BEOORDELING EN GEDETAILLEERDE ANALYSE VAN SPREEKPRESTATIES VAN 11- EN 12-JARIGEN
Academisch Proefschrift
ter verkrijging van de graad van doctor aan de Universiteit van Amsterdam, op gezag van de Rector Magnificus prof. dr. P.W.M. de Meijer, in het openbaar te verdedigen in de Aula der Universiteit (Oude Lutherse Kerk, ingang Singel 411, hoek Spui), op maandag 16 november 1992 te 11.30 uur door Amos Jitschak Schlomo van Gelderen geboren te Den Haag
Faculteit der Letteren Promotor: prof. dr ir L.C.W. Pols Co-promotor: dr G.C.W. Rijlaarsdam
Dit onderzoek is mogelijk gemaakt •door subsidies van de Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO) en van het Instituut voor Onderzoek van het Onderwijs (SVO). De publicatie is mede mogelijk gemaakt door een bijdrage van het SCO-Kohnstamm Instituut (SCO) van de Universiteit van Amsterdam. iv
Voorwoord
De problemen waarvoor in dit proefschrift een oplossing gezocht wordt, zijn voor een belangrijk deel van praktische aard. Het gebruik van beoordelaars bij grootschalig peilingsonderzoek naar de taalvaardigheid van leerlingen in basis- en voortgezet onderwijs en de interpreteerbaarheid van de resultaten van dit onderzoek voor diverse belanghebbenden - overheid, betrokkenen bij het onderwijs, het "grote" publiek - zijn de belangrijkste aanleidingen voor de probleemstelling. In het algemeen geldt dat hierin overwegingen van kosten en baten een belangrijke rol spelen. Ik denk dat het niet vaak voorkomt dat men in de gelegenheid is hierbij veel tijd uit te trekken voor het verrichten van wetenschappelijk onderzoek om keuzes beter te kunnen funderen. Ik prijs mij dan ook gelukkig dat ik in dit geval wel in de gelegenheid was en ik hoop met dit proefschrift te demonstreren dat efficiëntie-vraagstukken soms gediend zijn met een wetenschappelijke - en multi-disciplinaire - benadering. Het proefschrift is het resultaat van verschillende onderzoeksprojekten uitgevoerd bij de programmagroep Taalonderwijs van de Stichting Centrum Onderwijsonderzoek* (SCO) van de Universiteit van Amsterdam. Het eerste project van de reeks startte in januari 1985. Ik voerde dit uit onder supervisie van Hildo Wesdorp. Ook het tweede project dat direct aansluitend werd uitgevoerd en de eerste pogingen om subsidie te verwerven voor een validatiestudie (deel 3 van het proefschrift) maakte Hildo nog mee. Hildo stond dus aan de wieg van dit proefschrift en wat men er nu in lezen kan, is een voortzetting van vraag- en probleemstellingen die hij heeft geformuleerd. Ik ben hem hiervoor veel dank verschuldigd. Ik wil mijn promotor, Louis Pols, hartelijk bedanken voor de steun die hij heeft gegeven, vooral in de latere fasen van het onderzoek en voor zijn zeer nuttige commentaar op de teksten die ik hem voorlegde. Hij heeft zich in de loop van het onderzoek ontpopt tot een kritisch waarnemer op alle terreinen van het onderzoek, ook al zijn daar delen bij waar hij zich met de haren bij gesleept gevoeld moet hebben. Ook mijn co-promotor, Gert Rijlaarsdam, ben ik veel dank verschuldigd voor zijn steun bij het beramen van plannen en zijn vaak uitgebreide commentaar op mijn teksten. Hij was - hoe dan ook - altijd bereid tot gesprekken en voorzag elke tekst grondig en rijkelijk van 'noten'.
* Tegenwoordig geheten: SCO-Kohnstamm Instituut
Dat het proefschrift binnen de gestelde termijn afgerond kon worden is mede te danken aan de deskundige hulp van enkele andere begeleiders. Hiervan wil ik in de eerste plaats Mindert Eiting dank zeggen. Hij vond altijd tijd om mij uit methodologische nesten te leiden en hij ontwierp speciaal voor mijn onderzoek enkele 'programmatjes' die mijn data-opslag en -analyses aanzienlijk hebben vereenvoudigd. Alles wat ik weet over LISREL-analyses heb ik bovendien van hem geleerd. In de tweede plaats bedank ik René van Bezooijen, Hans 't Hart, Vincent van Heuven, David Weening en Carel van Wijk die - elk vanuit haar/zijn eigen specialisme - altijd bereid waren adviezen te geven over de manier waarop de linguïstische en fonetische analyses het best uitgevoerd konden worden en commentaar te geven op mijn min of meer onrijpe produkten. Verder gaat mijn dank uit naar de mensen die in diverse fasen van het onderzoek diensteriihebben verleend die van groot belang waren. Ik bedoel de beoordelaars die de Jury vormden in verschillende studies die hier gerapporteerd zijn: Anja Blaaij, Reinouw de Jong en Eva Teysse, en de codeurs die een groot deel van de fonetische en linguïstische analyses hebben uitgevoerd: Christel Deckers, en Ceciel van Hoeckel. Als de resultaten van de studies hier of daar onbevredigend bevonden worden dan heeft dat zeker niet aan hun werk gelegen. Tenslotte dank ik Marijke Lambers voor haar toegewijde zorg voor de tekstverwerking en het typewerk, de onderzoeksmedewerkers van de programmagroep Taalonderwijs van de SCO voor de collegiale werksfeer en de medewerkers van het Instituut voor Fonetische Wetenschappen van de Universiteit van Amsterdam die me eveneens een aangename werksfeer boden en meermalen geholpen hebben de weg te vinden in de krochten van hun computernetwerk.
vi
INHOUDSOPGAVE
Deel I:
ALGEMENE INLEIDING
Hoofdstuk 1 Achtergrond en probleemstelling 1.1 Inleiding 1.2 Achtergrond: de peiling van taalvaardigheden in het onderwijs 1.2.1 Geïntegreerde taken voor de peiling van taalvaardigheden; een definitie 1.2.2 De beoordeling van spreekprestaties in peilingsonderzoek 1.3 Probleemstelling: validiteit van taken en oordelen over spreekvaardigheid in communicatieve situaties 1.4 Opbouw van het rapport
3 3 4
-
Hoofdstuk 2 De dataverzameling; sprekers en spreektaken 2.1 De twee steekproeven 2.2 De selectie van de spreektaken 2.2.1 De vormgeving van de vier taken 2.2.2 Parameters van spreektaken; een overzicht en vergelijking van de vier taken 2.3 Condities voor taakuitvoering en kwaliteit van de registratie
Deel II:
6 8 9 10
13 13 14 15 16 18
CONSTRUCTIE EN BEPROEVING VAN EEN BEOORDELINGSSCHEMA
oofds 4k 3 Theoretische grondslag 3.1 Communicatieve effectiviteit als algemeen criterium voor spreekvaardigheid 3.2 Vier dimensies voor de beoordeling van communicatieve effectiviteit 3.2.1 Analytische schema's; een overzicht 3.2.2 De dimensies van Becker 3.2.3 De definitie van dimensies voor het beoordelingsschema 3.3 Van algemene dimensies naar taakspecifieke beoordelingscategorieën
vil
23 24 26 26 29 30 36
Hoofdstuk 4 Beoordeling van prestaties op vier taken; een eerste beproeving van het beoordelingsschema 4.1 Inleiding 4.2 Vraagstellingen 4.2.1 Enkele praktische overwegingen bij de inrichting van de beoordelingsexperimenten 4,3 Opzet van de experimenten 4.3.1 Selectie van prestaties 4.3.2 De beoordelaars 4.3.3 De beobrdelingscategorieën per taak 4.3.4 Instructie en beoordelingsprocedure 4.4 Resultaten 4.4.1 Beoordelaarsovereenstemming 4.4.2 Meettechnische onderscheidbaarheid van de-categorieën 4.4.3 Simultane en afzonderlijke beoordeling 4.5 Conclusies en discussie
41 42 42 43 44 45 45 45 48 49 49 50 55 59
Hoofdstuk 5 Definitieve beproeving van het beoordelingsschema; twee studies Vraagstellingen 5.1 Opzet van de twee studies 5.2 De modelspecificaties 5.2.1 5.3 Resultaten De modeltoetsing 5.3.1 Betrouwbaarheid van de oordelen 5.3.2 5.3.3 De correlaties tussen de factoren Conclusies 5.4
63 63 64 66 67 68 69 70 72
Hoofdstuk 6 Samenvattende conclusies
75
Deel ifi:
OORDEELSVALIDITEIT
Hoofdstuk 7 De redenen voor predictieve validering van de oordelen Inleiding 7.1 De relatie tussen communicatieve functies en 7.2 gedragsaspecten Beoordelingsproblemen; het signifische en het 7.3 halo-effect viii
81 81 82 84
De vraagstellingen
7.4
88
Hoofdstuk 8 De opzet van het onderzoek naar de oordelen over Overdracht en Spreekgemak 8.1 8.2 8.3 8.3.1 8.3.2 8.4 8.5
Inleiding Selectie van prestaties Een overzicht van de hypothesen De relatie tussen de beoordeelde functies en gedragsaspecten De hypothesen Methode van toetsing Methoden van data-analyse;:-transcriptie, codering, meting en invoer
Hoofdstuk 9 Selectie en operationalisatie van predictoren 9.1 De toongroep als eenheid van analyse 9.1.1 De definitie van de toongroep 9.1.2 Valse en neutrale startgroepen 9.1.3 De codeursovereenstemming 9.1.4 De definitieve codering van toongroepen en de correcties voor tekstlengte 9.2 Toonhoogtebewegingen en accenten voor de predictie van Overdracht 9.2.1 De basisbewegingen voor Nederlandse intonatie 9.2.2 De codering van intonatie en accenten 9.2.3 De codeerprocedure 9.2.4 De codeursovereenstemming 9.2.5 Objectiviteit van de codering van intonatie 9.2.6 Specifieke predicties voor toonhoogtebewegingen en accenten 9.3 Variatie van intensiteit, fundamentele frequentie en tempo voor de predictie van Overdracht 9.3.1 Stabiliteit van de geselecteerde maten 9.3.2 Tempovariatie 9.4 Registerversterkers en -verzwakkers voor de predictie van Overdracht 9.4.1 De classificatie van registerversterkers 9.4.2 De classificatie van registerverzwakkers 9.4.3 De coderingsprocedure 9.4.4 De codeursovereenstemming 9.4.5 De constructie van de predictormaten
ix
91 91 92 93 95 99 100 100
103 103 106 108 109 109 110
111 112 115 116 117 119 121 123 124 125 125 130 132 132 133
9.5
9.6 9.7
9.5.1 9.5.2 9.5.3 9.6.1 9.7.1 9.7.2 9.7.3
De classificatie van zelfcorrecties en pauzes voor de predictie van Spreekgemak De codeerprocedure De codeursovereenstemming Specifieke predicties voor zelfcorrecties en pauzes De meting van pauzeduur, spreek- en articulatiesnelheid voor de predictie van Spreekgemak Stabiliteit van de tempometingen De codering van ernstige taalfouten .De 'codeerproced ure ,De codeursovereenstemming - De definitieve codering van taalfouten ,
Hoofdstuk 1CL De predictieve validiteit van oordelen over Referentie en -Verstaanbaarheid
133 137 137 137 138 139 139 141 142 142
,
10.1 - 10.2 10.2.1 10.2.2 10.3 10.3.1
Inleiding - De predictie van Referentie-oordelen De inhoudselementen Verbanden tussen inhoudselementen en jury-oordelen De predictie van Verstaanbaarheidsoordelen Verbanden tussen ernstige taalfouten en de juryoordelen
145 145 146 147 147 148 149
Hoofdstuk 11 De predictieve validiteit van oordelen over Overdracht en Spreekgemak Inleiding 11.1
153
Hoofdstuk 12 Conclusies
169 169
11.2 11.2.1 11.3 11.4 11.4.1 11.4.2 11.4.3
12.1 12.2 12.3 12.4
Opzet van de multipele regressie-analyses Specificatie van de toetsingsmodellen Resultaten van de multipele regressies Exploraties Indicaties voor beoordelinsgproblemen De verbanden tussen Spreekgemak en de tempomaten De beoordeling van zelfcorrecties en pauzes
Inleiding De predictieve validiteit van de beoordelingsdimensies Evidentie voor beoordelingsproblemen Thema's voor discussie
154 154 156 158 161 161 163 164
170 174 175
Deel IV:
DE EVALUATIE VAN SPREEKVAARDIGHEID; IMPLICATIES VOOR THEORIE EN PRAKTIJK
Hoofdstuk 13 Beperkingen van de studies en thema's voor vervolgonderzoek Beperkingen van de studies 13.1 Repliceerbaarheid 13.1.1 13.1.2 Generaliseerbaarheid 13.2 De relatie tussen oordelen en de beoordeelde aspecten van spreekvaardigheid 13.2.1 Spreekgemak; een herdefinitie 13.2.2 Correlatieslussen akoestische en perceptieve variabelen; gegevens uit enkele andere studies 13.2.3 Beoordeling van spreekvaardigheid; detail en Gestalt 13.3 Taakvaliditeit; een poging tot ontginning 13.3.1 Empirische bevindingen; correlaties tussen prestaties op communicatieve taken 13.3.2 Een suggestie voor vervolgonderzoek
Hoofdstuk 14 De implicaties voor peilingsonderzoek en de onderwijspraktijk 14.1 Bruikbaarheid van het beoordelingsschema in peilingsonderzoek 14.2 Gebruik van het schema voor het onderwijs 14.2.1 Enkele voordelen Praktische consequenties 14.2.2
179 179 180 183 185 186 188 192 194 195 199
201 201 207 209 210
SUMMARY
213
SAMENVATTING
220
BIBLIOGRAFIE
227
BIJLAGEN 1 Taakbeschrijvingen 2. Toelichting op de categorieën voor de beoordeling bij taak 4 3. Scoringsformulieren voor de twee beoordelingsstudies 4. Inhoudselementen per taak 5. Ladingen van beoordelaars op de dimensies in de vijf toetsingen van het vier-factormodel
235 235 246 251 253
xi
254
6. 7. 8. 9. 10. 11.
Beschrijvende statistieken van de variabelen gebruikt voor de constructie van predictoren Modale adjectiva en adverba met een versterkende of verzwakkende functie die minstens eenmaal voorkwamen Kruistabellen van twee codeurs voor soorten registerversterkers, -verzwakkers en ernstige taalfouten Correlaties tussen predictoren De predictiemodellen Kruistabellen voor de relatie tussen het jury-oordeel over Spreekgemak en de gemiddelde spreek- en articulatiesnelheid
xii
255 257 258 260 261 265
Deel 1
-
Algemene inleiding
2
Hoofdstuk 1
Achtergrond en problee I ste
Samenvatting
De achtergrond van het onderzoek waarover in dit boek gerapporteerd wordt, is de peiling van taalvaardigheden in de context van het curriculum Nederlands in basis- en voortgezet onderwijs. Er wordt ingegaan op het doel van dit peilingsonderzoek in het algemeen en op de moeilijkheden die zich voordoen bij de peiling van de spreekvaardigheid in het bijzonder. Twee soorten moeilijkheden staan hierbij centraal, te weten (1) de validiteit van oordelen over spreekprestaties van leerlingen en (2) de (gemotiveerde) selectie van communicatieve taken voor de peiling. De studies die in dit proefschrift gepresenteerd worden zijn in eerste instantie gericht op de beoordelingsproblematiek. Het doel is de ontwikkeling van een beoordelingsschema dat op een betrouwbare, valide en efficiënte wijze informatie geeft over relevante aspecten van de spreekvaardigheid van leerlingen aan het eind van de basisschool. Om dit te realiseren is het nodig het schema te beproeven bij de beoordeling van een groot aantal prestaties van leerlingen op diverse (communicatieve) taken. De vraag of het schema voor deze taken aan zijn doel beantwoordt is de probleemstelling van het onderzoek. De laatste paragraaf geeft een overzicht van de inhoud van de volgende hoofdstukken.
1.1 Inleiding
Sinds enige jaren wordt in opdracht van de Nederlandse overheid peilingsonderzoek verricht met als doel informatie te verzamelen over (onder meer) het taalvaardigheidsniveau van leerlingen na een aantal jaren onderwijs. Men hoopt hiermee indicaties te krijgen over de effectiviteit van het onderwijs Nederlands. Tevens wil men door een vergelijking van peilingsresultaten over verschillende jaren, zicht krijgen op de richting waarin het onderwijsniveau zich beweegt: omhoog, omlaag of geen van beide (zie Wijnstra, 1991). Hoewel dit peilingsonderzoek een belangrijke achtergrond vormt voor dit proefschrift, betekent dat niet dat men hier een definitie van het huidige niveau van spreekvaardigheid van 11- en 12-jarigen zal aantreffen. Sterker nog: over dit
3
'niveau' zal in het geheel geen uitspraak gedaan worden. De studies die ik heb uitgevoerd richten zich op enkele vragen die beantwoord moeten worden, alvorens men gegronde uitspraken kan doen over de spreekvaardigheid van leerlingen. Welke aspecten van de spreekvaardigheid moeten in zo een evaluatie meegewogen worden? Hoe gedifferentieerd kunnen de uitspraken over het niveau zijn? Wat zijn de beste omstandigheden om de vaardigheid op de proef te stellen en aan welke criteria wordt getoetst? Evaluatie van spreekvaardigheid kan in principe op twee verschillende manieren geschieden. De eerste manier richt zich op onderscheiden componenten van de vaardigheid, bijvoorbeeld uitspraak, idiomatische kennis, formuleervaardigheid of kennis over eigenschappen van gesproken taal; hierbij worden toetsen gebruikt waarin uitsluitend die componenten beproefd worden. De tweede manier richt zich op het gebruik van gesproken taal om (realistische) communicatieve doelen te bereiken. In het peilingsonderzoek wordt vooral de tweede manier van evaluatie gebruikt, omdat het gebruik van gesproken taal in communicatie vanuit het perspectief van het onderwijs en de maatschappij het belangrijkste doel is. Omdat de spreekvaardigheid hier niet in afzonderlijke componenten, maar als geïntegreerde (complexe) vaardigheid bedoeld is, noemen we dc gebruikte toetssituaties ook wel geïntegreerde taken (vgl. Rijlaarsdam Wolfhagen, 1991, p. 17). Ook de studies die hier gerapporteerd zullen worden, maken gebruik van prestaties die kinderen leveren op zulke geïntegreerde taken. De evaluatiecriteria hebben derhalve betrekking op de communicatieve kwaliteit van de spraak in telkens anders gedefinieerde gebruikssituaties. De integratie van deelvaardigheden (componenten) in een complexe, communicatieve handeling is het object van de evaluatie. Het centrale probleem is nu hoe dergelijke complexe handelingen te evalueren op een betrouwbare (d.w.z. met een acceptabele signaal/ruis verhouding), valide (met voldoende informatiewaarde) en efficiënte wijze (in een goede kosten/baten verhouding), die zinvol is voor de verschillende belanghebbenden bij het peilingsonderzoek: beleidslieden, docenten, vakdidactici, onderwijsbegeleiders en onderzoekers, leerplanontwikkelaars, uitgevers van leermateriaal en de ouders van leerlingen. In de volgende paragrafen wordt ingegaan op de problemen die zich voordoen bij een evaluatie van spreekvaardigheid die aan bovenstaande eisen voldoet. De redenen voor de ontwikkeling en beproeving van een algemeen beoordelingsschema worden geschetst.
1.2 Achtergrond: de peiling van taalvaardigheden in het onderwijs In de jaren 1983-1985 is bij de Stichting Centrum voor Onderwijsonderzoek een voorstudie uitgevoerd waarvan het voornaamste doel was ervaring op te doen met het uitvoeren van landelijk peilingsonderoek: de Voorstudie Periodieke Peiling van het Onderwijsniveau (PPON). Het was de bedoeling dat op grond van deze Voorstudie aanbevelingen gedaan konden worden voor de uitvoering van een
4
Achtergrond en probleemstelling
echte landelijke peiling door het Centraal Instituut voor Toetsontwikkeling (CITO). Een en ander is gerapporteerd in een samenvattend onderzoeksverslag (Wesdorp, Van den Bergh, Bos e.a., 1986). Een belangrijk onderdeel van de Voorstudie was het onderzoek naar de haalbaarheid van een landelijke peiling van taalvaardigheden van leerlingen aan het eind van de basisschool (destijds nog de lagere school). Vooral voor de zogenaamde produktieve taalvaardigheden (spreek- en schrijfvaardigheid) was het nog zeer.onduidelijk hoe zo een peiling uitgevoerd moest worden, aan welke eisen het toetsinstrumentarium moest voldoen en in hoeverre een valide peiling praktisch realiseerbaar was. Inmiddels is er voor de basisschool (groep 8) al een peiling van taalvaardigheden uitgevoerd (Zwarts, 1990; Zwarts & Rijlaarsdam, 1991) en zijn er voor het voortgezet onderwijs peilingen in voorbereiding (Kuhlemeier & Van den Bergh, 1989). Voor het niveau eind basisschool is een tweede peiling van taalvaardigheden in voorbereiding (Sijtstra & Van den Bosch, 1991). Ook al is het peilingsonderzoek in volle gang, wil dat niet zeggen dat de moeilijkheden van een wetenschappelijk verantwoorde meting van taalvaardigheden nu volledig opgelost zijn. Voor een deel gaat het pm moeilijkheden die niet specifiek voor de context van peilingsonderzoek, maar algemeen van aard zijn. Men denke hierbij aan de beoordelingsmethodiek. Zowel voor de evaluatie van de schrijfvaardigheid (vgl. Van Schooien, 1988; Schoonen, 1991) als van de spreekvaardigheid valt aan beoordeling van prestaties (in tegenstelling tot 'objectieve' scoringsmethoden zoals bij meerkeuzetoetsen) niet te ontkomen. Wanneer we deze vaardigheden willen beproeven in een realistische communicatieve context is er vooralsnog geen alternatief. Diverse relevante aspecten van het gedrag in realistische spreek- en schrijfsituaties zijn niet of slechts met grote moeite te evalueren zonder tussenkomst van beoordelaars. Voorbeelden van dergelijke aspecten zijn: de relevantie van de inhoud van de tekst, de structuur van de tekst, de kwaliteit van de formulering, de adequaatheid van het register, de verstaanbaarheid, kortom allerlei aspecten die van belang zijn voor het realiseren van het communicatieve doel. Er zijn enkele kwesties die om opheldering vragen bij het gebruik van beoordelaars voor het evalueren van spreek- (of schrijf-) prestaties. Hoe betrouwbaar en valide zijn de oordelen, welke onderscheidingen kunnen beoordelaars precies maken in hun evaluatie, wat is de optimale instructie en beoordelingsprocedure en wat zijn de meest relevante criteria voor beoordeling? Voor het peilingsonderzoek zijn dit belangrijke vragen. Zowel betrouwbaarheid als validiteit en efficiëntie zijn hier in het geding. Beoordeling is duur en vereist een zekere tijdsinvestering van deskundige mensen. Het is dus zaak zoveel mogelijk waar voor ons geld te krijgen; dat betekent hier: zoveel mogelijk (betrouwbare) informatie bij een zo gering mogelijke tijdsinvestering van beoordelaars (vgl. De Groot, 1972, p. 287 e.v.). Een andere bron van moeilijkheden is meer specifiek voor peilingsonderzoek. Ik doel hier op het probleem van de domeinbepaling van taalvaardigheden die
5
aan de peiling ten grondslag ligt. Bij de peiling van spreek-, schrijf-, lees- en luistervaardigheid wordt het domein, zoals gezegd, bepaald door realistische communicatieve situaties, waarin componenten van de bedoelde vaardigheden op een geïntegreerde wijze getoetst worden. Het probleem is nu hoe uit alle mogelijke realistische taalgebruikssituaties een selectie kan worden gemaakt op grond waarvan een gegronde uitspraak kan worden gedaan over het taalvaardigheidsniveau van leerlingen. Dit probleem kan moeilijk overschat worden. Een extreem voorbeeld is de situatie waarin men leerlingen aan het eind van de basisschool een wetstekst uit het burgerlijk wetboek laat lezen en samenvatten. De uitkomsten zijn, gezien de moeilijkheidsgraad van de taak, voorspelbaar, en niemand zal geneigd zijn de conclusies van eën peiling waarin dergelijke taken zijn afgenomen serieus te nemen. Niet alleen de absolute moeilijkheidsgraad van taken vormt een belangrijk selectiecriterium, maar ook hun specifieke geaardheid. Welke taalgebruikssituaties zijn relevant voor de toetsing van taalvaardigheden bij leerlingen van een bepaalde leeftijd? Moeten zij een ander ergens van overtuigen, informatie inwinnen bij iemand, de krant lezen of een discussie kunnen voeren? Over welke onderwerpen moet het taalgebruik gaan en hoc formeel of informeel moet de communicatieve situatie zijn? Peilingsresultaten worden hoe dan ook beïnvloed door de soort opdrachten die de leerlingen moeten uitvoeren; een goede fundering van de selectie uit het domein van mogelijke opdrachten is daarom essentieel (vgl. Rijlaarsdam, Wesdorp & Wolfhagen, 1987; Sijtstra & Van den Bosch, 1991). De twee hierboven genoemde problemen: de beoordelingsmethodiek en de selectie van taken voor de peiling van taalvaardigheid, vormen de achtergrond van de studies die beschreven zullen worden. Alvorens meer specifiek in te gaan op de probleemstelling, moeten eerst twee kwesties verhelderd worden. De eerste is het begrip '(realistische) communicatieve situaties' dat in de voorafgaande tekst verschillende malen gebruikt is. De tweede kwestie betreft een meer precieze aanduiding van de problemen die zich bij de beoordeling van spreekprestaties blijken voor te doen, en waarvoor het onderhavige onderzoek een oplossing moet bieden.
1.2.1 Geïntegreerde taken voor de peiling van taalvaardigheden; een definitie In het voorafgaande zijn begrippen als 'realistische communicatieve situaties', 'taalgebruikssituaties' en 'geïntegreerde taken' door elkaar gebruikt. Om verdere verwarring op dit gebied te voorkomen, is een nadere definiëring gewenst. Het begrip 'geïntegreerde taak' is bedoeld om de tegenstelling aan te duiden met opdrachten die leerlingen krijgen voorgelegd om specifieke componenten van een vaardigheid (deelvaardigheden) te toetsen. In een geïntegreerde taak wordt een situatie nagebootst waarin een vaardigheid - meestal in samenhang met andere vaardigheden - aangewend wordt om een persoonlijk relevant doel te bereiken. Geïntegreerde taken worden meestal zo geconstrueerd dat ze een simulatie vormen van een - voor leerlingen als zodanig herkenbare - realistische communicatieve situatie. Zo een situatie bestaat minimaal uit een gedefinieerd communica-
6
Achtergrond en probleemstelling
tief doel (wat wil de spreker t.o.v. de luisteraar bereiken?), ingebed in een geloofwaardige communicatieve context, die de spreker uit het dagelijks leven kent. Het doel van dit soort taken is niet dat de leerling daadwerkelijk gelooft dat er sprake is van een situatie met reële consequenties voor hem- of haarzelf. Veeleer wordt een beroep gedaan op de bereidheid van de leerling de situatie als een spelvorm op te vatten. Proefleider en proefpersoon maken stilzwijgend de afspraak een rol te spelen in een toneelstuk. Hoe meer het scenario en het decor van het toneelstuk overeenstemmen met situaties uit het dagelijks leven, des te beter is de taak geschikt als instrument voor, de meting van taalvaardigheid in communicatieve situaties (vgl. Van Gelderen, 1991). Alhoewel dit soort taken dus meestal vereist dat leerlingen verschillende (geïntegreerde) vaardigheden tegelijkertijd beoefenen - bij een spreektaak moet vaak ook geluisterd, gelezen of geschreven worden, ook al worden de leerlingen daarop niet beoordeeld - is het gebruik ervan voor peilingsonderzoek goed te verdedigen. Het peilingsonderzoek dat het afgelopen decennium in Nederland, maar ook in het buitenland is uitgevoerd verschaft hiervoor goede argumenten (bijv. Bourke, 1980; Massachusetts State Deparurient of Education, 1980; Ontario Ministry of Education, ..1981; National Assessment of Educational Progress, 1981; Jeroski, 1982; Illinois State Board of Education, 1982; Gorman, White, Hargraeves e.a. 1981-1984 ). Het belangrijkste argument is de zogenaamde ecologische validiteit van geïntegreerde taken. In tegenstelling tot deelvaardigheidstoetsen, verschaffen de resultaten van deze taken ons inzicht in de mate waarin leerlingen in staat zijn zich in allerlei maatschappelijke situaties te weren of te redden. Aangezien het één van de hoofddoelstellingen van het onderwijs is de hiervoor benodigde kennis en vaardigheden te onderwijzen, is het de taak van peilingsonderzoek de informatie te leveren die aangeeft in hoeverre het onderwijs hierin slaagt. Tegenover dit inhoudelijke voordeel van geïntegreerde taken staan nadelen van vooral meettechnische aard (vgl. Blok, 1987, p. 183). Eén van de meest in het oog springende problemen is de vraag in hoeverre met dergelijke taken nog wel één soort vaardigheid 'gemeten' wordt. Zijn verschillen in kwaliteit bij een spreektaak waarin ook geluisterd wordt door de beoordeelde sprekers niet evenzeer het gevolg van verschillen in luister- als in spreekvaardigheid? Zijn kennis van het onderwerp, of algemene intelligentie niet belangrijke factoren om verschillen in kwaliteit te verklaren? Dergelijke vragen zijn zeker van belang wanneer men de resultaten van peilingsonderzoek terug wil vertalen naar de effecten van onderwijs, of aanbevelingen wil doen over veranderingen in dat onderwijs. Er is nog weinig empirisch onderzoek gedaan naar de validiteit van geïntegreerde taken voor de evaluatie van spreekvaardigheid. Bij de constructie en selectie van taken voor peilingsonderzoek wordt meestal getracht een zo groot mogelijke variatie in soorten taken te realiseren om het risico van eenzijdigheid zoveel mogelijk te vermijden. In de peiling eind basisschool van 1988 zijn bijvoorbeeld 21 spreektaken afgenomen, gespreid over zeven soorten taalgebruikssituaties (Zwarts & Rijlaarsdam, 1991). In dit proefschrift komen slechts vier taken aan ,
7
bod, zodat we weinig kunnen toevoegen aan de bestaande kennis over de validiteit van geïntegreerde taken. Wel zal aandacht besteed worden aan de relatie tussen taakkenmerken en de criteria die voor beoordeling relevant zijn. De beoordelingsmethodiek voor spreekvaardigheid in peilingsonderzoek zal immers bij allerlei soorten (geïntegreerde) taken toegepast moeten worden. Een verantwoording van de soorten taken waarmee men wel en niet uit de voeten kan bij gebruik van die methodiek, is dus van groot belang.
1.2.2 De beoordeling van spreekprestaties in peilingsonderzoek De evaluatie van spreekvaardigheid in peilingsonderzoek is gericht op de informatiebehoeften van diverse belanghebbenden (zie Wijnstra, 1991, p.8). De peilingsresultaten moeten bijvoorbeeld de scholen een referentiekader bieden, ze moeten indicaties leveren voor het verrichten van nadere studies voor de kwaliteitsbevordering van het onderwijs, ze moeten bijdragen aan de ontwikkeling van toetsen voor gebruik door scholen en ze moeten een (minimale) empirische basis bieden voor de meer algemene maatschappelijke discussie over kwaliteit en niveau van het onderwijs. Om voor zulke uiteenlopende doelen zinvol te zijn, moeten de resultaten nogal rijk aan' informatie zijn. De beoordeling van de prestaties van de leerlingen moet praktische betekenis hebben, zowel op het niveau van de afzonderlijke scholen, als op het niveau van het onderwijsbeleid, de leerplannen en de maatschappelijke discussie daarover. Het gegeven bijvoorbeeld dat het taalgebruik van veel leerlingen onvoldoende is, is voor onderwijsgevenden niet direct te vertalen naar didactische handelingen. Ook vakdidactici en curriculumontwikkelaars kunnen met zo een algemeen gegeven weinig aanvangen. Een gegeven waaruit blijkt in hoeverre leerlingen erin slagen bepaalde informatie ordelijk over te brengen aan de gesprekspartner, of in hoeverre leerlingen hun taalgebruik kunnen aanpassen aan de behoeften in een specifieke situatie, biedt meer aangrijpingspunten voor de onderwijspraktijk. Ook voor andere doelgroepen van peilingsonderzoek (bijvoorbeeld de overheid en het grote publiek) is een zekere gedifferentieerdheid van de resultaten van belang. De discussie over de spreekvaardigheid van leerlingen is niet gediend met algemeenheden als 'leerlingen basisonderwijs kunnen zich mondeling niet goed uitdrukken', of uitspraken van dien aard. Voor adequate meningsvorming is informatie over de specifieke beoordelingscriteria en de soorten situaties waarin de leerlingen getest zijn onontbeerlijk. In de hiervoor genoemde Voorstudie PPON zijn spreekprestaties beoordeeld op drie globale kenmerken te weten Inhoud, Opbouw en Taalgebruik. De Inhoud van de spreekprestaties werd geëvalueerd door twee beoordelaars die het aantal genoemde belangrijke inhoudselementen per prestatie telden. De beoordelaars (codeurs) maakten hierbij gebruik van een per taak vastgestelde lijst met inhoudselementen. De oordelen over Opbouw en Taalgebruik werden gegeven door een jury van drie beoordelaars. Criterium voor een goede Opbouw was een logische volgorde van hoofd- en bijzaken. Criteria voor Taalgebruik waren de kwaliteit van woordkeus, zinsbouw, articulatie, intonatie en tempo. De jury maakte gebruik van .
8
Achtergrond en probleemstelling
voorbeeldcassettes met spreekprestaties, waarmee vier verschillende schaalpunten voor Taalgebruik en Opbouw gedemonstreerd werden. Analyse van de beoordelingen van prestaties op drie verschillende spreektaken leidde tot de conclusie dat de overeenstemming van de beoordelaars hoog was (Van den Bergh, 1985). Bij analyse van de correlaties tussen de jury-oordelen per taak bleek echter dat de beoordeling van de drie kenmerken niet of nauwelijks gedifferentieerde informatie opleverde. De correlaties tussen de jury-oordelen over Opbouw en Taalgebruik waren zo hoog dat deze oordelen meettechnisch gesproken vrijwel hetzelfde uitdrukten. De•correlaties van deze oordelen met Inhoud waren eveneens erg hoog (zie Van Gelderen, 1986). Deze resultaten waren de directe aanleiding om een onderzoek uit te voeren naar de mogelijkheid om meer gediffersenticercie oordelen over spreekprestaties te verzamelen, zonder noemenswaardig in` te leveren qua betrouwbaarheid en efficiëntie van de beoordelingsprocedure. Daartoe is een schema ontworpen dat in principe toepasbaar leek voor de beoordeling van individuele sprekers in een grote diversiteit van taalgebruikssituaties en dat zo expliciet mogelijke evaluatiecriteria voor die situaties verschafte. Dit schema- voor de evaluatie van de communicatieve effectiviteit van sprekers in geïntegreerde taken is het onderwerp van studie. ,
1,3 Probleemstelling: betrouwbaarheid, validiteit en efficiëntie van gedifferentieerde spreekvaardigheidsbeoordeling Het probleem dat in de hierna te rapporteren studies centraal staat, is te omschrijven als het vinden van een optimum tussen twee moeilijk te verenigen wenselijkheden. Enerzijds willen we zo gedifferentieerd mogelijke informatie over de spreekvaardigheid van leerlingen aan beoordelaars ontlokken. Anderzijds moeten we ons realiseren dat zich niet alles meettechnisch betrouwbaar, valide en efficiënt laat beoordelen. Dit zijn echter wel randvoorwaarden waaraan een beoordelingsmethode voor peilingsonderzoek moet voldoen. Meer specifiek stellen we als eisen aan het beoordelingsschema, dat verschillende beoordelaars in bevredigende mate overeenstemmen in hun oordelen en tamelijk stabiel blijven in hun oordeel (betrouwbaarheid van de beoordeling), dat de oordelen gebaseerd zijn op relevante criteria voor communicatieve kwaliteit in de gegeven taalgebruikssituaties en dat elk afzonderlijk (jury-) oordeel ook een onderscheiden informatiewaarde heeft voor de evaluatie van spreekvaardigheid (validiteit) en dat het schema bruikbaar is voor een zo groot mogelijke diversiteit van spreektaken in peilingsonderzoek en zo min mogelijk inspanning en tijd van beoordelaars vergt (efficiëntie). De probleemstelling is dus vooral gericht op de realiseerbaarheid van een gedifferentieerde en valide beoordeling van spreekprestaties in de context van peilingsonderzoek (de zogenaamde oordeelsvaliditeit). Niettemin kan geconstateerd worden dat een en ander niet los staat van de problematiek van de taakselectie (de zogenaamde taakvaliditeit). De relatie tussen de beoordelingscriteria en
9
.de taken waarvoor sprekers gesteld worden zal ons zo nu en dan dwingen aandacht te besteden aan de specifieke taakkenmerken. De vergelijkbaarheid van prestaties op diverse soorten geïntegreerde taken voor de evaluatie van spreekvaardigheid speelt op de achtergrond steeds een rol.
1.4 Opbouw van het rapport Het rapport is in vier delen onderverdeeld. Het eerste deel bevat (behalve dit -hoofdstuk) nog één hoofdstuk waarin de dataverzameling voor alle studies beschreven wordt. De steekproeven die getrokken zijn en de spreektaken die de leerlingen vervulden komen daarin aan de orde (hoofdstuk 2). Het tweede deel bestaat uit vier hoofdstukken. Hel eerste hoofdstuk (hoofdstuk 3) geeft de theoretische fundering van het beoordelingsschema; het tweede (hoofdstuk 4) en het derde (hoofdstuk 5) doen verslag van enkele beoordelingsexperimenten en twee grootschaliger studies die ten doel hebben empirische informatie te krijgen over de meettechnische eigenschappen van het beoordelingsschema (onderscheidbaarheid van de onderdelen, stabiliteit van en overeenstemming tussen beoordelaars) en over de mogelijkheden ont op een efficiënte wijze van hei schema gebruik te maken. Het laatste hoofdstuk van het tweede deel (hoofdstuk 6) vat de conclusies over het beoordelingsschema uit de eraan voorafgaande hoofdstukken samen. Het derde deel behandelt de analyses die uitgevoerd zijn om de inhoudelijke informatiewaarde van jury-oordelen over de onderdelen van het schema te bepalen. Hiertoe is de predictieve validiteit van verschillende fonetische en linguïstische aspecten van de spraak voor de oordelen van een jury berekend. Deze aspecten maken deel uit van de definities die de beoordelaars voor elk onderdeel van het schema hebben gekregen. Door te onderzoeken of aspecten die deel uitmaken van de definitie van het ene oordeel dat oordeel ook beter voorspellen dan een ander, wordt duidelijk of dat oordeel ook een zekere diagnostische waarde heeft. De reden voor een zo gedetailleerde validering van de oordelen wordt uiteengezet in hoofdstuk 7. In hoofdstuk 8 staat beschreven wat de opzet van het valideringsonderzoek is en hoe de hypothesen ervan luiden. Hoofdstuk 9 bevat een gedetailleerde beschrijving van de wijze waarop predictoren voor de oordelen geselecteerd en geconstrueerd zijn. Aan de orde komen hier: de segmentering van de spraak in zogenaamde toongroepen als eenheid van analyse, dc codering van toonhoogtebewegingen en accenten, de metingen van akoestische variabelen (intensiteit, fundamentele frequentie, pauzeduur en spreeksnelheid) en de codering van lexicale functies, zelfcorrecties, pauzes en ernstige spraakfouten. De hoofdstukken 10 en 11 geven de resultaten weer van de predictie-analyses en in hoofdstuk 12 staan de conclusies die op grond hiervan getrokken zijn. Het vierde deel bestaat uit twee hoofdstukken. Hoofdstuk 13 gaat in op de implicaties van de studies voor vervolgonderzoek naar de validiteit van oordelen over communicatieve aspecten van spraak en naar de validiteit van (geïntegreerde) taken voor de evaluatie van spreekvaardigheid. Hoofdstuk 14 behandelt de
10
Achtergrond en probleemstelling
implicaties van het ontwikkelde beoordelingsschema bij gebruik in peilingsonderzoek en de praktijk van het onderwijs.
11
12
Hoofdstuk
17,!
De dataverz taken
II
eling; sprekers en spreeIci -
Samenvatting
De gegevens waarop de studies gebaseerd zijn waarover in de volgende hoofdstukken verslag wordt gedaan, zijn afkomstig uit twee verschillende steekproeven. In elke steekproef is een ander stel taken afgenomen. Dit hoofdstuk beschrijft hoe de steekproeven getrokken zijn (§ 2.1), welke de taken zijn die de leerlingen vervulden en hoe deze taken geselecteerd zijn (§ 2.2), onder welke condities de spreektaken zijn uitgevoerd en hoe de gesproken teksten zijn geregistreerd (§ 2.3)
2.1 De twee steekproeven De data in dit onderzoek zijn afkomstig uit twee steekproeven. Hiervoor waren twee redenen. Ten eerste was een tweede steekproef wenselijk om een nieuw soort taak in het onderzoek te betrekken (zie § 2.2). Ten tweede was een nieuwe dataverzameling nodig met het oog op de kwaliteit van de gemaakte geluidsopnamen voor de voorgenomen validatiestudie en de fonetische analyses (zie deel 3). De eerste steekproef is afkomstig uit de Voorstudie Periodieke Peiling van het Onderwijsniveau (PPON)(zie § 1.2). In het samenvattende rapport van deze voorstudie (Hoeksma, Wesdorp, Van den Bergh & Bos, 1985) staat beschreven hoe deze landelijk representatieve steekproef tot stand is gekomen. Voor de verzameling van spreekprestaties zijn vijftig scholen, verspreid over het land, aangezocht en bereid gevonden mee te werken. Per school participeerden vier aselect gekozen leerlingen, zodat in totaal 200 leerlingen uit het laatste leerjaar van het basisonderwijs (destijds lagere school) meewerkten aan het onderzoek. Het gaat dus in hoofdzaak om leerlingen in de leeftijdsgroep van 11 tot en met 12 jaar. De tweede steekproef is afkomstig uit twaalf basisscholen in en rond Amsterdam (Van Gelderen, 1987a). Per school participeerden zes á tien leerlingen uit groep 8, die aselect uit de klas gekozen waren (beurtelings een jongen en een meisje). Leerlingen die nog zeer gebrekkig Nederlands spraken (beginnende tweede-taalsprekers) werden van deelneming uitgesloten. In totaal bestaat de tweede steekproef uit 100 leerlingen uit het laatste leerjaar van de basisschool.
13
.Het belangrijkste verschil tussen de twee steekproeven is dat de eerste representatief is voor de landelijke populatie, terwijl de tweede regionaal gebonden is en geen beginnende tweede-taal sprekers bevat. Overigens moet opgemerkt worden dat deelname van de scholen aan het onderzoek op vrijwillige basis gebeurde, en dat de uitval als gevolg van non-respons, voor beide steekproeven meer dan 50% bedroeg. Het is niet duidelijk in hoeverre deze uitval de representativiteit van de steekproeven - op leerlingniveau - bedreigt.
-21 De selectie van spreektaken De leerlingen van de eerste steekproef kregen zes verschillende spreektaken voorgelegd. Deze taken waren geselecteerd (mede) op grond van de resultaten van een doelstellingsonderzoek onder ouders, leerkrachten en specialisten (zie Hoeksma, Wesdorp, Bergh e.a., 1985). Uit een lijst van 129 soorten taken gaven de respondenten aan hoe wenselijk en haalbaar zij deze taken als doelstelling voor het basisonderwijs achtten. De volgende zes taken zijn uit deze lijst geselecteerd: iets vertellen om iemand te amuseren: het navertellen van een gehoord verhaal aan een medeleerling; - rapporteren over gebeurtenissen: het snel melden van een ongeval aan de politie; - uitleggen aan leeftijdgenoten hoe een concreet proces zich voltrekt: hoe een spin zijn web weeft; - beschrijven van een concrete zaak: nauwkeurig een huis beschrijven om een medeleerling te helpen het te vinden; - verzoeken om informatie over procedures: vragen om reisinformatie bij de N.S.; - uitleg geven aan leeftijdgenoten over een concrete zaak: hoe je een nieuw spel moet spelen. Voor de beoordelingsstudies was het noodzakelijk uit deze zes taken een selectie te maken, omdat het budget niet toereikend was de prestaties op alle taken voor beoordelingsexperimenten te gebruiken. De drie eerstgenoemde taken zijn gekozen. Een belangrijk argument voor deze keuze is de variatie in inhoud, taakstructuur en taalgebruiksdoel die in deze drie taken gerealiseerd wordt. Het te ontwikkelen beoordelingsschema kan zo getoetst worden op zijn bruikbaarheid voor sterk uiteenlopende taken. Toch is er een belangrijk aspect dat alle zes de taken uit de Voorstudie met elkaar gemeen hebben: het gebrek aan inhoudelijke (thematische) vrijheid voor de spreker. De taken zijn zo gestructureerd dat de sprekers verplicht zijn een aantal concrete inhoudselementen aan de luisteraar mede te delen of te vragen. Het al of niet noemen van deze elementen bepaalt in hoge mate de geslaagdheid van de communicatie. Aangezien in realistische communicatie een grotere mate van thematische vrijheid voor de spreker eerder regel dan uitzondering is, is besloten voor het beoordelingsonderzoek een vierde taak te ontwerpen en af te nemen. Deze taak het afmaken van een verhaal ten overstaan van een medeleerling - biedt de
14
De dataverzameling
spreker gelegenheid de inhoud van de tekst zelf te genereren en te structureren, zoals hij verkiest. Deze taak is samen met de eerste taak (het navertellen van een verhaal) voorgelegd aan de leerlingen uit de tweede steekproef. Door herafname van de eerste taak konden enkele vergelijkingen uitgevoerd worden, zoals die tussen prestaties op de twee (verhalende) taken en tussen de prestaties van leerlingen uit de twee steekproeven op dezelfde taak (zie Van Gelderen, 1987a).
2.2.1 De vormgeving van de vier taken In taak 1 moet de leerling een verhaal dat hij heeft beluisterd van een band, doorvertellen aan een klasgenoot die het verhaal niet heeft gehoord. De voorbeeldband is een natuurgetrouwe weergave van een spontaan verteld verhaal. Er wordt niet voorgelezen en er wordt gesproken in typische spreektaalzinnen. De band duurt ruim zeven minuten. Het verhaal gaat over een rare oom van de spreker; het bevat onder andere een spannende climax en een grappige clou. Prestaties op deze taak duurden gemiddeld ongeveer vier minuten. Bij taak 2 heeft de leerling twee tekeningen van een ongeval bestudeerd (één vlak voor, de tweede direct na het ongeval) en krijgt hij de opdracht telefonisch de politie te waarschuwen. De rol van de politie wordt vervuld door de proefleider en deze reageert met standaardantwoorden op de melding. Wanneer aan de melding een essentieel onderdeel ontbreekt (zoals waar het ongeluk plaatsvond, en of er gewonden zijn), dan wordt hiernaar gevraagd. De prestaties op deze taak duurden gemiddeld ongeveer één minuut. Taak 3 bestaat uit een uiteenzetting van de wijze waarop een spin zijn web weeft. De leerling moet deze uiteenzetting (met behulp van zes tekeningen van verschillende stadia van de webconstructie) aan een medeleerling geven. Eerst beluistert de leerling een band waarop de uiteenzetting stap voor stap wordt voorgedaan. Hierbij legt hij de tekeningen in de volgorde die door de uiteenzetting wordt aangegeven. Deze procedure wordt eenmaal herhaald, waarna de leerling aan de eigenlijke opdracht begint. Ook hierbij legt de leerling de zes plaatjes tijdens zijn uiteenzetting in de goede volgorde. De prestaties op deze taak duurden gemiddeld iets langer dan één minuut. In taak 4 moet de leerling een verhaal, waarvan hij het begin heeft gehoord van een geluidsband, afmaken ten overstaan van een medeleerling. Het verhaal, getiteld "de belofte" gaat over een jongen die bang is dood te gaan en graag honderd jaar wil worden. Op een cruciaal moment, namelijk als een geheimzinnig persoon 's nachts aan hem verschijnt en hem zegt dat hij ervoor kan zorgen dat hij honderd jaar wordt, wordt het verhaal afgebroken. De leerling krijgt de tijd te bedenken hoe het verhaal moet aflopen en wordt hierbij, zonodig, geholpen door de proefleider. De luisteraar krijgt vervolgens eveneens het begin van het verhaal te horen. Op het moment dat de band stopt, maakt de spreker het verhaal af volgens zijn versie. Prestaties op deze taak duurden gemiddeld iets minder dan
15
twee minuten. Het materiaal (teksten, tekeningen) en de instructies voor de proefleider en de leerlingen voor de vier taken, zijn opgenomen in bijlage 1.
2.2.2 Parameters van spreektaken; een overzicht en vergelijking van de vier taken
Zoals in hoofdstuk 1 opgemerkt, is de selectie van (geïntegreerde) taken een van de bepalende factoren voor de validiteit van de spreekvaardigheidsmeting. Bovendien is een van de eisen aan het beoordelingsschema dat het op verschillende soorten taken van toepassing is. Om die reden- is het van belang inzicht te krijgen in de gevarieerdheid van de taken in dit onderzoek. Welke kenmerken van (realistische) communicatieve situaties zijn wel, en welke niet in de gekozen taken vertegenwoordigd? De taakkeuze in dit onderzoek is niet gebaseerd op een theoretisch verantwoorde systematiek. De selectie is gemaakt op grond van meningen van leerkrachten, ouders en specialisten op het gebied van het onderwijs en verder op grond van vrij intuïtieve noties over het realiseren van een zo groot mogelijke variatie in taakinhoud en -structuur. Het is zinvol deze selectie te vergelijken met een overzicht van de variabelen die in het algemeen bij de selectie en constructie van spreektaken een rol kunnen spelen. Alhoewel er vooralsnog geen algemeen aanvaarde taxonomie is die de belangrijkste parameters van taalgebruikssituaties definieert, zijn uit diverse modellen wel duidelijke punten van overeenstemming te halen. Deze modellen (bijvoorbeeld: Jakobson, 1960; Rubin, Daly, McCrosky e.a., 1982; Britton, Burgess, Martin e.a., 1975; Allen & Brown, 1976; Backlund, 1985; Zwarts & Tabel 1: Parameters van taalgebruikssituaties voor de selectie en constructie van spreektaken
Luisteraar(s)
Spreker Si - hoofddoel (amuseren, overtuigen, klagen,
Ll - belangstelling (wat is het specifieke belang van dc luisteraar?) L2 - kermis van het onderwerp L3 - vertrouwdheid met ontmoetingscontext
instrueren, samenwerken etc.) S2 - kennis van het onderwerp S3 - vertrouwdheid met ontmoetingscontext (school, straat, werk etc.)
Relatie S/L R1 - (maatschappelijke) rolgebondenheid van dc relatie R2 - gelegenheid tot beurtwisseling R3 - bekendheid met elkaar R4 - genegenheid tot elkaar R5 - (on)gelijkheid van status R6 - (in)formaliteit van conventie R7 - medium (rechtstreeks, massamedium, telefoon, andere ondersteunende middelen)
Onderwerp 01 - complexiteit van structuur 02 - emotionele lading voor spreker en/of luisteraar(s) 03 - benodigde voorbereiding (verzamelen van informatie e.d.) 04 - thematische vrijheid
16
De dataverzameling
Rijlaarsdam, 1991; Sijtstra, 1991) zijn vanuit diverse theoretische en praktische invalshoeken geformuleerd en leiden dan ook tot verschillende classificaties van taalgebruikssituaties. Wanneer we ons beperken tot een samenvatting van de situatieve parameters die in de meeste modellen genoemd worden (linguïstische variabelen zijn dus buitengesloten: ze hebben de status van afhankelijke variabele), dan biedt tabel 1 een voor ons doel bruikbaar overzicht. De weergave van parameters in tabel 1 refereert vooral aan de communicatiemodellen van Bdhler (1982) en Jakobson (1960), waarin een systematisch onderscheid tussen kenmerken van de zender (spreker), de ontvanger (luisteraar) en de onderwerpen van communicatie als uitgangspunt genomen wordt. De linguïstische kenmerken van het taalgebruik zijn in deze benadering te verklaren vanuit de situatieve parameters. Deze opsomming van parameters lijkt een zinvol uitgangspunt voor het kiezen en construeren van spreektaken voor de evaluatie van spreekvaardigheid. Elke parameter (S1-S3, L1-L3; 01-04 en R1-R7) dwingt tot de overweging of een bepaalde waarde gefixeerd moet worden of niet. Fixatie betekent dat generalisatie naar andere waarden voor de parameter niet nagestreefd wordt. Niet-fixeren betekent dat men een keuze moet maken uit de mogelijke waarden die voor de evaluatie relevant geacht worden. Voor de sprekerparameter S1 bijvoorbeeld, betekent dit dat men uit een overzicht van communicatieve doelen (amuseren, instrueren, gevoelens uitdrukken, overtuigen etc.) een gemotiveerde keuze moet doen. Ook de rol van de luisteraar zo blijkt uit tabel 1 - is van belang bij de taakselectie. Elk van de parameters voor de spreker heeft immers zijn tegenhanger bij de luisteraar. Nu zal het niet vaak voorkomen dat men alle mogelijke waarden voor bijvoorbeeld Ll voor de evaluatie relevant acht. Het amuseren of overtuigen van een luisteraar zonder de geringste belangstelling voor het onderwerp bijvoorbeeld, is een vorm van spreekvaardigheid die vooral bij vertegenwoordigers en colporteurs gewaardeerd wordt, maar waarschijnlijk geen doelstelling is in het basis- of voortgezet onderwijs. Het is nu mogelijk aan te geven welke parameters in de vier taken van dit onderzoek gevarieerd zijn en welke niet. Variatie is er op de volgende parameters: S1 (amuseren, waarschuwen, uiteenzetten), S3 (school, officiële instantie), Ll (neutraal, sterk beroepsmatig), L3 (zie S3), 01 (verhaal, proces, gebeurtenis), 02 (serieus, grappig, neutraal, spannend), 03 (luisteren, raadplegen van tekeningen), 04 (vastgesteld, vrij), R1 (klasgenoten, politie), R2 (monoloog, dialoog), R3 (bekend, onbekend), R4 (bevriend, neutraal), R5 (gelijk, ongelijk), R6 (informeel, formeel) en R7 (rechtstreeks, telefonisch, met gebruik van plaatjes). Alleen bij de parameters S2 (specifieke voorkennis is niet vereist) en L2 (idem) zijn de waarden gefixeerd voor de vier taken. Dat wil overigens niet zeggen dat verschillen in (voor-)kennis tussen sprekers (S2) geen invloed kunnen hebben op de resultaten. Het feit dat specifieke voorkennis niet vereist is om de taken te kunnen uitvoeren, sluit immers niet uit dat leerlingen met meer voorkennis (over
-
-
17
verhalen, spinnen of de functie van de politie bij ongevallen) betere prestaties leveren dan andere leerlingen. We kunnen concluderen dat de vier taken een zekere variatie te zien geven op verreweg het grootste deel van dc relevante parameters voor taalgebruikssituaties. Uiteraard vormt de selectie bij lange na nog geen systematische dekking van alle relevante typen situaties, maar binnen de beperkingen van dit onderzoek is zo een dekking ook niet haalbaar. De verschillen qua inhoud en structuur van de vier gekozen taken lijken voor de beproeving van een algemeen beoordelingsschema in ieder geval groot genoeg. Behalve bovenstaande situatieve verschillen, kunnen we ook de verschillen in (gemiddelde) duur van de prestaties op de vier taken als ' rbelangrijk aspect noemen. Zoals al aangegeven, duren de prestaties op de taken 1 en 4 gemiddeld veel langer dan die op de taken 2 en 3, en ook dat is een relevant verschil bij de beproeving van een beoordelingsmethode. Tenslotte kunnen we op grond van bovenstaand overzicht concluderen dat enkele veel voorkomende - en vermoedelijk, voor peilingsonderzock in basis- en voortgezet onderwijs relevante - taalgebruikssituaties hier noodgedwongen buiten .schot blijven. Te noemen vallen de zogenaamde vrije dialoog en polyloog, waarin `interactiepartners samenwerken (bijvoorbeeld hij het oplossen van een probleem), `-de argumentatieve situaties, waarin de spreker de ander moet overtuigen van een zienswijze, of overhalen tot een bepaalde handelwijze en het (formele) referaat waarin informatie-overdracht voor een publiek van gemengde belangstelling centraal staat. Voor de eerstgenoemde taalgebruikssituaties (vrije dia- en polylogen) berust de omissie op een bewuste keus: dergelijke taalgebruikssituaties vereisen een ander soort beoordelingsmethodiek dan de meer monologische situaties met beperkte mogelijkheden tot beurtwisseling. De andere situaties zijn om budgettaire redenen buiten het onderzoek gebleven. -
2.3 Condities voor taakuitvoering en kwaliteit van de registratie De leerlingen uit de twee steekproeven voerden de taken uit op lokatie (leegstaande lokalen of kamertjes in de school). Bij de taken 1, 3 en 4 werd als luisteraar een klasgenoot van de spreker gekozen. Deze werd pas binnengelaten wanneer de spreker zijn instructie had gehad. Vanaf het moment dat de spreker aan de taakuitvoering begon startte de geluidsopname. Hierbij werd gebruik gemaakt van een SONY TC D5M cassette recorder, met onafhankelijk plaatsbare microfoons (stereo-opname). De volgorde waarin leerlingen de taken uitvoerden rouleerde, zodat er van een systematisch leereffect bij prestaties op een taak geen sprake kan zijn. Elke taak werd immers ongeveer even vaak als eerste, als middelste of laatste afgenomen. Alle leerlingen in de eerste steekproef (200) voerden de taken 1, 2 en 3 uit; alle leerlingen in de tweede steekproef (100) voerden de taken 1 en 4 uit. Bij de opnames in de eerste (landelijke) steekproef deden zich soms problemen voor - vaak van logistieke aard - waardoor de geluidskwaliteit nogal wisselde. Enkele opnames (één tot vijf, afhankelijk van de taak) mislukten, andere hadden een ongunstige signaal-ruisverhouding die bij beoordeling problemen zou
18
De dataverzameling
kunnen veroorzaken. Om die reden zijn van alle opnames nieuwe banden geproduceerd, waarbij de bandverzadiging zoveel mogelijk gestandaardiseerd werd en de verstaanbaarheid gemaximaliseerd (Van Gelderen, 1987a). Door deze opwaarderingsoperatie werd weliswaar een aantal kwaliteitsverschillen in opname kunstmatig gladgestreken, maar zij had niet tot gevolg dat alle copiën even goed beluisterbaar werden. Opnames met een zeer ongunstige signaal/ruis verhouding kregen door de opwaardering van de bandverzadiging ook een storende hoeveelheid ruis toegevoegd. Bij acht van de prestaties op taak 1, zeven op taak 2 en vijf op taak 3 was dit het geval. Wijs geworden door de opnametechnische problemen die zich bij de eerste steekproef hadden voorgedaan, zijn bij de geluidsopnames voor de tweede steekproef enkele voorzorgen getroffen. De proefleiders oefenden zich in het gebruik van de apparatuur en hanteerden een standaardprocedure voor de instelling ervan. Er werd zorg voor gedragen dat positie en afstand van de spreker ten opzichte van de luisteraar ongeveer gelijk was in alle situaties. De spreker zat recht tegenover de luisteraar en de twee microfoons stonden tussen hen in, op ongeveer gelijke afstand in alle situaties. De instelling van het opnamevolume was bij alle sessies gelijk' en het functioneren van de apparatuur werd voortdurend gecontroleerd.' Deze voorzorgen hadden uiteindelijk hei gewenste gevolg: alle opnames waren van goede kwaliteit. Een prestatie is niet geregistreerd omdat de proefleider vergat het apparaat aan te zetten.
I. Ook bij het copiëren van de oorspronkelijke opnames werden de opname- en weergave-volumes gelijk gehouden, zodat verschillen in luidheid op de te beoordelen cassettes het gevolg zijn van verschillen in luidheid van spreken hij de oorspronkelijke opname.
19
20
Deel II
Constructie en beproeving van een beoordelingsschema
21
22
Hoofdstuk
3
TheoL e Asche grondslag
Samenvatting Dit hoofdstuk geeft weer welke de belangrijkste criteria zijn die deel uitmaken van het schema voor spreekvaardigheidsbeoordeling dat in dit onderzoek ontwikkeld is. In de eerste plaats wordt verduidelijkt wat hier precies onder het algemene criterium van communicatieve effectiviteit verstaan wordt. Er wordt ingegaan op de verschillende functies die volgens de theorie van Biihler (1934, 1982) fundamenteel zijn voor communicatieve effectiviteit, te weten de representationele, de expressieve en de appelatieve functies van spraak. In de tweede plaats wordt een overzicht gegeven van zogenaamde analytische schema's die in onderzoek naar spreekvaardigheidsbeoordeling ontwikkeld zijn. Deze schema's onderscheiden diverse gedragsaspecten die voor de beoordeling van spraak in communicatieve situaties relevant zijn. Op basis van het overzicht van deze aspecten worden vier dimensies gedefinieerd, te weten Referentie, Overdracht, Spreekgemak en Verstaanbaarheid. Referentie is een overkoepelend begrip voor de representationele functies die in verschillende taalgebruikssituaties de communicatieve effectiviteit bepalen; Overdracht verwijst naar de expressieve en appelatieve functies; Spreekgemak (vlotheid, vloeiendheid en beheerstheid van tempo en formulering) en Verstaanbaarheid (decodeerbaarheid van uitingen) duiden de meer spraaktechnische functies aan die moeten worden vervuld. Tenslotte komt de toepassing aan bod (in algemene zin) van de vier dimensies bij de beoordeling van prestaties op verschillende (geïntegreerde) spreektaken. Sommige spreeksituaties stellen andere eisen aan sprekers dan andere, en dit kan niet zonder gevolgen blijven voor de wijze van realisatie van communicatieve functies. Toepassing van het beoordelingsschema vereist dus een concretisering van de algemene dimensies in taakspecifieke criteria. In een overzichtsmodel wordt de relatie tussen communicatieve effectiviteit, beoordelingsdimensies, taakspecifieke criteria en gedragsaspecten, weergegeven.
23
3.1 Communicatieve effectiviteit als algemeen criterium voor spreekvaardigheid In algemene zin kunnen diverse criteria gehanteerd worden voor de evaluatie van spreekvaardigheid. Zo kan bijvoorbeeld bij deelvaardigheidstoetsing (zie hoofdstuk 1) geëvalueerd worden of sprekers een correcte (standaardtalige) uitspraak hebben, of zij grammaticaal aanvaardbare uitingen produceren en of zij complexe en gevarieerde zinsstructuren beheersen. Bij beoordeling van spreekvaardigheid in de context van geïntegreerde taken staat een ander criterium centraal, namelijk de mate waarin sprekers erin slagen een bepaald communicatief doel te realiseren (communicatieve effectiviteit). Dit is een van de uitgangspunten bij het gebruik van geïntegreerde taken zowel in Nederlands als in buitenlands peilingsonderzoek (vgl. Mead, 1980; Gorman, White, Hargraeves e.a., 1981-1984, Backlund, Brown, Gurry e.a., 1982, Zwarts & Rijlaarsdam, 1991). De keuze voor communicatieve effectiviteit als algemeen criterium voor de evaluatie van spreekvaardigheid ligt voor de hand, gezien de definitie en de rationale van het gebruik van geïntegreerde taken (zie § 1.2.1). De taken stellen immers de realisatie van een communicatief doel (in een spelsituatie) voorop. De middelen waarvan de sprekers zich bedienen zijn dus het voornaamste object van beoordeling; gedragsaspecten die met het (communicatieve) doel geen duidelijke relatie hebben, zijn voor de beoordeling niet relevant. Voor het te ontwikkelen beoordelingsschema in ons onderzoek was communicatieve effectiviteit derhalve het overkoepelende criterium. Alle andere criteria uit het schema zijn van dit algemene criterium afgeleid. Het zal duidelijk zijn dat hierbij een vrij brede definitie van communicatieve effectiviteit gehanteerd is. Zowel het vervullen van dominante functies in een specifieke taalgebruikssituatie, als het vervullen van meer ondersteunende functies valt hieronder. Een en ander zal in het navolgende verduidelijkt worden. Onder dominante functies in een taalgebruikssituatie versta ik de minimale voorwaarden voor het welslagen van de communicatie. Het stellen van de goede vragen wanneer men specifieke informatie wil krijgen, het overbrengen van proposities in een uiteenzetting, het uitdrukken van gevoelens in een conversatie en het geven van argumenten in een meningswisseling zijn voorbeelden van dergelijke minimale voorwaarden. In de meeste taalgebruikssituaties echter, wordt niet volstaan met het realiseren van dominante functies. Meestal wordt getracht met behulp van diverse middelen de kans op een geslaagde communicatie te vergroten. Dit is de rol van wat hierboven is aangeduid als de ondersteunende functies. Het vriendelijk bejegenen van de persoon aan wie men informatie vraagt, het boeiend maken van een uiteenzetting, het gebruik van duidelijke formuleringen in een conversatie en het geloofwaardig overkomen in een meningswisseling zijn voorbeelden van dergelijke ondersteunende functies. Ik sluit hiermee aan op een respectabele traditie van theorievorming over de functies van taalgebruik, zoals begonnen door Bader (1934) en voortgezet door auteurs als Jakobson (1960), Britton, Burgess, Martin e.a. (1975) en Schultz von Thun (1982). Een van de basisaannames in deze traditie is dat een communicatieve uiting altijd verschillende functies tegelijkertijd vervult.
24
Theoretische grondslag
Weliswaar is meestal één van deze functies in een gegeven situatie dominant, maar dat neemt niet weg dat de andere functies ook relevant zijn voor de geslaagdheid van de communicatie. Volgens Bilhler (1982) zijn drie van deze functies van het taalgebruik fundamenteel, te weten de representationele, de expressieve en de appelatieve functies. Jakobson (1960) onderscheidt zes functies: referentieel, emotief, conatief, poëtisch, fatisch en metacommunicatief; Schultz van Thun (1982) onderscheidt naast de drie van Bdhler nog een relationele functie. Ik zal me hier beperken tot de drie basisfuncties van Blihler; een meer gedifferentieerde° functieclassificatie is in deze context niet nodig. Het model waar Bijhler (o.c.) vanuit gaat, bestaat uit drie abstracte componenten van de communicatieve situatie: de zender, de ontvanger en het onderwerp. De talige uitingen die de zender tot de ontvanger richt, ontlenen hun betekenis aan deze componenten: De representationele betekenis verwijst naar het onderwerp (de symboolfunctie van de taal); de expressieve betekenis verwijst naar de zender (de indicerende functie); de appelatieve betekenis verwijst naar de ontvanger (de signalerende functie). Bdhler spreekt ook van het object- of derde-persoonsfacet (representationeel),'het eerste-persoonsfacet (expressief) en hei tweede-persoonsfacel (appelatief)(o.c. p. 153). Een brede definitie van communicatieve effectiviteit behelst dus de realisatie van alle drie de functies, ongeacht de vraag welke van de drie in een gegeven situatie nu dominant is. Dit betekent dat we bij beoordeling van spraak niet alleen geïnteresseerd zijn in de minimale condities voor het realiseren van een communicatief doel, maar dat ook de aspecten van het gedrag van sprekers die een meer indirecte (positieve of negatieve) invloed hebben, onze belangstelling verdienen. Voor een beoordeling van de communicatieve effectiviteit van de spraak zijn behalve de bovengenoemde taalgebruiksfuncties ook enkele meer technische kwaliteiten relevant. Met name vaardigheden op het gebied van de formulering en de uitspraak moeten in zekere mate beheerst worden om de luisteraar niet nodeloos voor begripsmoeilijkheden te plaatsen. Ook zijn deze vaardigheden van belang om de 'hogere' functies van representatie, expressie en appèl goed te kunnen vervullen. Het beschikken over een direct ophaalbare woordenschat met betrekking tot het onderwerp, een toereikende beheersing van syntaxis en idioom om vlotlopende en moeiteloos interpreteerbare uitingen te produceren en het kunnen aanpassen van de uitspraak aan de omstandigheden om in een gegeven situatie zo verstaanbaar mogelijk te zijn, zijn spraaktechnische voorwaarden voor een effectieve communicatie. Het zal duidelijk zijn dat dergelijke functies in een beoordelingsschema dat vooral voor de peiling van spreekvaardigheid in de context van het onderwijs bedoeld is, niet kunnen ontbreken. De volgende paragraaf geeft een overzicht van de criteria uit diverse schema's voor de beoordeling van spreekvaardigheid. Hierbij wordt in het bijzonder nagegaan op welke wijze in deze schema's getracht wordt de bovengenoemde functies te differentiëren, en hoe hieruit een algemeen beoordelingsschema kan worden afgeleid.
25
3.2 Vier dimensies voor de beoordeling van communicatieve effectiviteit Voor de beoordeling van de mate waarin sprekers diverse communicatieve functies realiseren zijn vele zogenaamde analytische beoordelingsschema's ontwikkeld. Dergelijke schema's definiëren verscheidene gedragsaspecten en stellen criteria vast voor de beoordeling daarvan. Een korte explicatie van de hierna te volgen terminologie is op zijn plaats. We onderscheiden gedragsaspecten die opgevat worden als de objecten van beoordeling, beoordelingscriteria die het functionele perspectief geven van waaruit de aspecten beoordeeld moeten worden en beoordelingscategorieën waarin, in het kader van een concrete beoordelingssituatie, de aspecten en de criteria voor een' beoordelingsuitspraak zijn geëxpliciteerd. In Wcsdorp (1981, p. 196 e.v.) wordt een uitgebreid overzicht gegeven van analytische schema's die in onderzoek zijn ontwikkeld en beproefd in onderwijscontexten. Daarnaast zijn er schema's uit recenter onderzoek naar spreckvaardig, heidsbeoordeling (Plattor e.a., 1979; Massachusetts State Department of Educati-on, 1980; Gorman e.a. 1981-1984; Bourkc e.a. 1980; Ontario Ministry of Education, 1981; Illinois State Board of Education, 1982; Rubin & Bazzle, 1981; Rubin, 1982; Rijlaarsdam, 1982; Backlund e.a., 1982; Rijlaarsdam & Bronkhorst, 1983; Backlund, 1985; Underhill, 1987). Hieronder volgt een overzicht van de aspecten en de criteria die in deze schema's voorkomen. Vervolgens wordt verduidelijkt hoe deze aspecten en criteria in algemene beoordelingsdimensies ondergebracht kunnen worden.
3.2.1 Analytische schema's; een overzicht
Bij verreweg de meeste studies in het overzicht van Wesdorp (o.c.) en in de bovenstaande opsomming gaat het om beoordelingsschema's waarvoor communicatieve effectiviteit van de spraak als min of meer impliciet (algemeen) criterium fungeert. Vele studies - vooral de oudere - zijn uitsluitend op één soort taalgebruikssituatie gericht. Vaak gaat het om een toespraak voor een meerhoofdig publiek (referaat of spreekbeurt voor de klas), het 'interview' met de examinator (waarbij de vragensteller ook als beoordelaar fungeert) of hel hardop lezen van tekst. In de recentere studies komt een veel grotere variatie van taalgebruikssituaties aan bod: (simulaties van) alledaagse gesprekken, informatie geven en vragen, spontane verhalen, beschrijvingen van een zaak of situatie, meningswisselingen en probleemoplossingsgesprekken. Het grootste deel van de schema's heeft betrekking op de beoordeling van de monoloog. In monologischc situaties is de interactie tussen spreker en luisteraar beperkt. De luisteraar is hier verplicht de spreker zijn beurt af te laten maken. Dialogen en polylogen, waarin sprekers elkaar voortdurend kunnen onderbreken en vaak geen 'afgeronde' beurten hebben, stellen bijzondere eisen aan een beoordelingsschema. Als men recht wil doen aan de cooperatieve doelen die in dialogen en discussies vaak centraal staan, zal niet volstaan kunnen worden met een individuele beoordeling van elk van de gesprekspartners. Bovendien is zo een
26
Theoretische grondslag
beoordeling niet goed uitvoerbaar in een situatie waarin het gedrag van de één dat van de ander voortdurend beïnvloedt (zie Clark & Wilkes-Gibbs, 1986). De beoordeling in dit soort gesprekssituaties laten we hier verder buiten beschouwing (zie § 2.2.2). Beschrijvingen van beoordelingsmethoden die hiervoor ontwikkeld zijn, zijn te vinden in o.a. Wesdorp (1981, p. 233 e.v.), Rijlaarsdam (1982) en Van Bezooijen (1979). Een en ander wil niet zeggen dat het te ontwikkelen beoordelingsschema bij voorbaat ongeschikt zal zijn voor dia- en polylogische taken. Zolang in dergelijke taken voorzieningen zijn getroffen dat beurten als min of meer afgeronde bijdragen aan het gesprek kunnen worden beschouwd, is een evaluatie van de effectiviteit van elke beurt niet uitgesloten. Overigens ben ik het met Wesdorp (o.c. p. 185) eens dat de concentratie op beoordeling van de monoloog gerechtvaardigd is, omdat de problemen die hierbij optreden tevens relevant zijn voor de dia- en polyloog. Aangezien de analytische schema's expliciteren welke aspecten van het gedrag beoordeeld moeten worden en met welke criteria, hebben deze schema's vaak een diagnostische functie. Wesdorp (o.c. p. 202) merkt op dat dit voor sommige schema's sterker geldt dan voor andere, afhankelijk van de gedetailleerdheid van de genoemde gedragsaspecten. In tabel 2 wordt een overzicht gegeven van de diverse soorten gedragsaspecten die in de analytische schema's in genoemde studies voorkomen. Het overzicht in tabel 2 bevat behalve de gedragsaspecten tevens de belangrijkste criteria uit de analytische schema's. Elke combinatie van een aspect en een criterium uit de tabel kan gebruikt worden voor de definitie van een beoordelingscategorie volgens één (linguistisch) principe: (criterium x) van (aspect y). Hierbij kan voor 'criterium x' één van de substantiva voor spraakfuncties worden ingevuld (duidelijkheid, vloeiendheid, gevarieerdheid etcetera) en voor 'aspect y' één van de bijbehorende aspecten (woordkeus, zinsbouw, tekststructuur etcetera). Aspecten die alleen in bijzondere situaties een zekere betekenis hebben voor de beoordeling van spreekvaardigheid zijn weggelaten. Op grond van dit overzicht kan men concluderen dat per aspect verschillende beoordelingscriteria worden geformuleerd en dat de criteria voor verschillende aspecten vaak veel op elkaar lijken. Zo zijn criteria voor de beoordeling van woordkeus bijvoorbeeld gericht op de acceptabiliteit van idioom, de gevarieerdheid, de duidelijkheid of de gepastheid van de gebruikte woorden. Vergelijkbare criteria zijn er bij Zinsbouw (acceptabiliteit van syntax), bij Intonatie, Tempo en Accenten (gevarieerdheid), bij Inhoud en Structuur (nauwkeurigheid en logica) en hij Stijl (registerkeus). Het zal duidelijk zijn dat het maken van een valide onderscheid tussen al deze aspecten met behulp van zulke subtiele criteria erg hoge eisen stelt aan de beoordelingsprocedure en de beoordelaars. Ook al zijn de onderscheidingen diagnostisch gezien interessant, toch moeten enkele voorbehouden gemaakt worden over het praktische nut ervan. In de eerste plaats lijken de onderscheidingen niet altijd van belang. Zo is het de vraag of we (met name in het kader van peilingsonderzoek) wel precies willen weten welke van de volgende gedragsaspecten de expressieve functies ten goede komen: pauzes, tempo, intonatie, volume,
27
Tabel 2: Een overzicht van gedragsaspecten (vetgedrukt) en criteria voor de beoordeling van spreekvaardigheid in analytische schema's' )
1. Inhoud - genoemde essentiële elementen - relevantie van de elementen (rekeninghoudend met voorkennis van de luisteraar) - originaliteit van inhoud - nauwkeurigheid/waarheidsgetrouwheid van inhoud 2. Structuur - logica van tekstopbouw (organisatie) - samenhang tussen de elementen van de tekst - het volgen van een gegeven (tekstspecifiek) opbouwpatroon 3. Zinsbouw - acceptabiliteit van syntaxis - complexiteit van structuur - vloeiendheid van formulering 4. Woordkeus - duidelijkheid van de gebruikte woorden - acceptabiliteit van idioom - gevarieerdheid van woordkeus - gepastheid (in de communicatieve situatie) vammoordkeus 5. Stijl
- "toon", 'Worm", registerkeuze, gerichtheid op luisteraar (gericht op globale tekstkenmerken) .
6. Spraaktechnische aspecten
- duidelijkheid en standaardzaligheid van uitspraak - functioneel gebruik van pauzes - storendheid van haperingen - vlotheid en gevarieerdheid van tempo - gevarieerdheid, functioneel gebruik en standaardzaligheid van intonatie - gevarieerdheid, duidelijkheid en passendheid van accenten - acceptabiliteit van klemtoon - gevarieerdheid en doeltreffendheid van volume 7. Non-verbale aspecten
- functioneel gebruik van oogcontact - gepastheid van houding en mimiek - functionaliteit van gebaren en andere ondersteunende middelen ') Criteria voor typerende aspecten van de (cooperatieve) dia- en polyloog (beurtwisselingsgedrag, rolverdeling e.d) zijn niet opgenomen.
oogcontact, houding, mimiek, gebaren, woordkeus of stijlkenmerken. Het is waarschijnlijk dat we (in een peilingscontext) al heel tevreden zijn met informatie over de mate waarin de expressieve functies iiberhaupt vervuld worden in verschillende soorten (geïntegreerde) taken. In de tweede plaats valt te betwijfelen of een genuanceerd onderscheid naar verschillende gedragsaspecten zoals boven `bedoeld, in meettechnische zin wel haalbaar is. Wesdorp (o.c. p. 208 en p. 226) merkt op dat beoordelaars waarschijnlijk niet in staat zijn tot het maken van de gewenste onderscheidingen: "Vaak bestaan analytische schema's uit véél subcategorieën, die elkaar overlappen, niet echt onafhankelijk kunnen worden beoordeeld, waardoor een schijnprecisie wordt gesuggereerd. Bij nadere analyse blijken dan 28
Theoretische grondslag
bijvoorbeeld in het gunstigste geval slechts 3 (Becker, 1962) of 4 (Lashbrook, 1968) factoren te onderscheiden waaruit volgt dat waarschijnlijk vaak overbodig werk wordt verricht: onder invloed van het halo-effect tot stand gebrachte herhalingen van reeds eerder gevelde oordelen." (o.c. p. 226) Het doel van ons onderzoek indachtig - te weten het ontwikkelen van een efficiënt beoordelingsschema - was er dus goede reden te zoeken naar mogelijkheden het grote aantal aspecten en criteria uit de analytische schema's samen te vatten in een wat grover en robuuster schema.
3.2.2 De dimensies van Becker Wesdorp (o.c.) merkt op dat - ook al zijn er in de terminologie en gebruikscontext van analytische schema's aanzienlijke verschillen - het merendeel van de gebruikte schalen in drie hoofdgroepen valt in te delen. Hij baseert zich hierbij op een factoranalytisch onderzoek van Becker (1962) die drie factoren vond voor tien beoordelingscategorieën bij de beoordeling van toespraken. Becker (o.c.) duidde deze factoren aan als 'Content-Analysis', 'Delivery' en 'Language'. In het (Angelsaksische) beoordelingsonderzoek (bijv. Wilkinson & Stratta, 1969; Skull & Wilkinson, 1969; Backlund e.a., 1982) nemen deze factoren ook een prominente plaats in (zie ook Rijlaarsdam & Bronkhorst, 1983 voor een empirische replicatie). Wesdorp (o.c.) benoemt deze factoren als Inhoud, Voordracht en Taalgebruik en deelt de categorieën van zeventien verschillende schema's op conceptuele gronden hiernaar in. Ook de schema's uit de recentere studies uit de inleiding van deze paragraaf zijn met enige goede wil in deze drie factoren (of dimensies) in te delen. Ter illustratie kunnen de aspecten uit tabel 2 dienen. Inhoud en Structuur vallen onder de dimensie Inhoud; Zinsbouw en Woordkeus kunnen bij Taalgebruik ingedeeld worden en de overige aspecten (Stijl, Spraaktechnische aspecten en Non-verbale middelen) horen bij Voordracht thuis. Zodra we onze blik echter richten op de criteria voor beoordeling in plaats van de te beoordelen aspecten, stelt de driedeling ons voor moeilijkheden. Zoals al opgemerkt, zijn de criteria voor beoordeling van de diverse aspecten vaak begripsmatig nauw verwant. Woordkeus bijvoorbeeld kan beoordeeld worden op de acceptabiliteit van idioom (een correctheidsnorm), of op de gepastheid in de communicatieve situatie (een criterium voor communicatieve effectiviteit). In het eerste geval is de beoordeling vergelijkbaar met de acceptabiliteit van syntaxis; in het tweede geval met de registerkeuze (bij het aspect Stijl) of met het functioneel gebruik van Tempo of Intonatie (bij Spraaktechnische aspecten). Welke van deze criteria nu tot het Taalgebruik en welke tot de Voordracht behoren is niet duidelijk.
29
We moeten concluderen dat de drie dimensies van Becker niet toereikend zijn voor een theoretisch verantwoorde indeling van beoordelingscriteria. Ook Wesdorp (o.c. p. 219 e.v.) signaleert dat de interpretatie van de drie dimensies in verschillende studies nogal uiteen loopt. Dit geldt vooral de dimensies Voordracht ('Delivery') en Taalgebruik ('Language'). Allerlei beoordelingscategorieën (zoals voor aspecten als Woordkeus, Zinsbouw, Stijl, Articulatie, Uitspraak, Stem en 'Fluency') worden nu eens tot de ene en dan weer tot de andere dimensie gerekend.
3.2.3 De definitie van dimensies voor het beoordelingsschema Voor een theoretisch eenduidige onderscheiding tussen beoordelingsdimensies is Beckers driedeling geherformuleerd, waarbij de betekenis van de dimensies gericht is op de realisatie van verschillende soorten communicatieve functies. Zodoende ontstond een vierdeling, waarin twee dimensies voorkomen (Referentie en Overdracht) die de effectiviteit van de communicatie substantieel bepalen en twee dimensies (Spreekgemak en Verstaanbaarheid) die vooral voorwaardelijk zijn voor de effectiviteit. Elke dimensie wordt opgevat als een conglomeraat van verwante communicatieve functies die in diverse taalgebruikssituaties relevant kunnen zijn. De verwantschap van functies voor Referentie wordt gedefinieerd door, Buhlers representatiebegrip; functies voor Overdracht hebben met elkaar gemeen dat zij expressie en appèl betreffen. Spre,ekgemaksfuncties betreffen de continuïteit van spraak (Crystal & Davy, 1979) en Verstaanbaarheid wordt door één globale functie gedefinieerd, te weten de decodeerbaarheid van uitingen.
1. Referentie (vgl. Beckers Content-Analysis) Deze dimensie is identiek aan BUhlers representatiefunctie. Biihler (o.c. p. 164) duidt deze aan als de symbool-functie van de taal. Waarnaar verwijzen de uitingen van de spreker, wat is de betekenis van hun onderlinge samenhang in onderscheiden delen van de gesproken tekst en welk belang hebben ze voor de luisteraar? Dat zijn de centrale vragen die bij de beoordeling van Referentie aan de orde komen. We nemen aan dat sprekers een model hebben van de luisteraar de kennisbehoeften en de informatie waarover deze reeds beschikt - op grond waarvan zij de te vervullen referentiële functies in een specifieke spreeksituatie selecteren (vgl. Levelt, 1989). Beoordeling van Referentie richt zich zowel op het globale als op het locale tekstniveau, al is het eerstgenoemde in de context van geïntegreerde taken meestal belangrijker. Op het globale niveau gaat het er vooral om of de spreker een duidelijk onderscheid maakt tussen belangrijke en onbelangrijke informatie over het onderwerp, of de passages logisch op elkaar volgen en of de informatie waarheidsgetrouw is. Op het locale niveau gaat het vooral om het gebruik van (qua betekenis) duidelijke woorden en verwijzingen tussen zinnen. Aspecten als Inhoud, Structuur, Zinsbouw en Woordkeus (zie tabel 2) zijn dus relevant voor de beoordeling van Referentie.
30
Theoretische grondslag
Veel onderzoek naar spreekvaardigheid richt zich voornamelijk op deze dimensie van communicatieve effectiviteit. Een voorbeeld is het onderzoek van Dickson (1979, 1982) en Dickson & Patterson (1981) naar zogenaamde referentiële communicatie bij vooral jongere kinderen (vier tot negen jaar). Enkele peilingsonderzoekingen (Gorman e.a., 1981-1984; Van den Bergh, 1985; Massachusetts State Department of Education, 1980) leggen veel nadruk op categorieën voor de beoordeling van Referentie, zoals duidelijkheid en volledigheid van Inhoud en Organisatie. Ook in een toetspakket van het CITO (Schreuder, 1989) wordt veel gewicht gegeven aan Referentiecategorieën voor de beoordeling van spreekvaardigheid. In de eerste taalpeiling voor het basisonderwijs (Zwarts, 1990) maakt Referentie zonder twijfel een belangrijk deel uit van de beoordeling van communicatieve effectiviteit, aangezien informatie-uitwisseling meestal het hoofddoel is van de spreker in de gebruikte taken. De algemene toepasbaarheid van de dimensie Referentie is in overeenstemming met Btihlers opvattingen. Volgens hem is de representationele functie de 'dominante functie van taal (o.c. p. 153) boven de expressieve en de appèl-functie. Crystal & Davy (1979, p. 111-112) vestigen er echter de aandacht op dat in sommige conversationele situaties de representationele functie van uitingen van veel minder gewicht is dan de sociaal-relationele functie ervan. Bovendien moeten we opmerken dat de precieze eisen die men aan de referentiële waarde van uitingen kan stellen, sterk bepaald worden door de aard van het onderwerp en de spreeksituatie. De volgende paragraaf gaat hier dieper op in.
2. Overdracht (vgl. Beckers Delivery) De Overdrachtsdimensie heeft betrekking op al het taalgebruik en het non-verbale gedrag dat bedoeld is om de relaties tussen spreker enerzijds en luisteraar en onderwerp anderzijds uit te drukken. Hiermee worden de door Bhler onderscheiden expressieve en appelatieve taalfuncties onder één noemer gebracht. Dit betekent niet dat ik het systematische onderscheid dat Blihler hierin aanbrengt (respectievelijk de gerichtheid op het innerlijk van de spreker en die op het (uiterlijke) gedrag van de luisteraar) verwerp. In de context van een beoordelingsschema zie ik echter geen kans dit systematische onderscheid in concreet gedefinieerde categorieën te vertalen. Zo een onderscheid zou immers vereisen dat we (oprechte) zelfexpressie en effectbejag uit elkaar kunnen houden in elke concrete beoordelingssituatie. Ik acht dit praktisch gezien onmogelijk; bovendien valt te betwijfelen of zo een onderscheid in de context van de beoordeling van spreekvaardigheid in (gespeelde!) communicatieve situaties wenselijk is (vgl. Lammers, 1983). De Overdrachtsdimensie is zeer veel omvattend. Zo omvat zij enerzijds al het gedrag waarin sprekers hun waardering voor of hun gevoelens over een onderwerp tot uiting brengen of waarin hun betrokkenheid bij de luisteraar en hun houding tegenover de gesprekssituatie zich verraadt. (Voor deze laatstgenoemde zaken onderscheidt Schultz von Thun (1982) nog een 'relationele' functie.)
31
Anderzijds omvat zij ook de appelatieve kanten van het gesprek, zoals de mate waarin sprekers erin slagen de luisteraar te boeien en een passend register gebruiken voor de betreffende taalgebruikssituatie, teneinde door de ander als een serieus te nemen gesprekspartner te worden beschouwd of als een geloofwaardige bron van informatie. Als we de verschillende communicatieve functies van Overdracht bezien, dan blijken vele gedragsaspecten voor de beoordeling ervan relevant te zijn. Niet alleen Stijl, Spraaktechnische en Non-verbale aspecten, maar ook Woordkeus, Zinsbouw en Inhoudelijke aspecten zijn van belang. Een passend register, het boeien van de luisteraar en het tot uitdrukking brengen van de betrokkenheid tot het onderwerp en de luisteraar kan immers -moeilijk zonder dergelijke middelen gerealiseerd worden. Terwijl bij de beoordeling van Referentie de duidelijke representatie van het onderwerp het belangrijkste criterium vormt, is bij Overdracht de gepastheid in de communicatieve context het voornaamste (vgl. Crystal & Davy, 1979, p. 110-116). Er zijn bijvoorbeeld vele referentieel equivalente uitingen voor eenzelfde te beschrijven stand van zaken (bijvoorbeeld "het regent", "het regent hard", "het regent pijpestelen", "kijk eens hoe hard het regent!") die in verschillende communicatieve situaties meer of minder gepast zijn en daarmee bepalen in hoeverre de spreker erin slaagt expressieve of appelatieve functies te vervullen. Overdrachtsfuncties zijn - onder verschillende benamingen en met een verschillende graad van algemeenheid - gebruikt in vrijwel alle beoordelingsstudies die ik heb bestudeerd (zie de inleiding van deze paragraaf). Wesdorp (1981, p. 226) concludeerde op grond van zijn overzicht dat de 'Delivery'-categorieën verreweg het sterkst vertegenwoordigd zijn in de beoordelingsschema's. Sommige schema's bleken zelfs uitsluitend uit categorieën voor 'Delivery' te bestaan. Wesdorp (o.c. p. 208) betwijfelt of deze 'overwaardering' in het onderzoek wel gerechtvaardigd is. Ook in de praktijk van het basisonderwijs blijkt bij beoordeling van spreekvaardigheid de meeste aandacht gegeven te worden aan Overdracht. Uit de eerste taalpeiling bleek dat 'presentatie' en 'stijl' door leerkrachten sterker benadrukt worden dan 'inhoud' en 'opbouw' (Zwarts, 1990, p. 108-109). De vraag welke van de twee dimensies - Referentie of Overdracht - meer gewicht moet krijgen bij de evaluatie van spreekvaardigheid zal ik hier niet verder aansnijden. De vraag is relevant in een doelstellingsdiscussie voor het onderwijs, terwijl in dit onderzoek vooral.de fundering van het onderscheid tussen de dimensies aan de orde is. Het expliciteren van dit onderscheid in verschillende soorten taalgebruikssituaties is een complexe taak. Per situatie kunnen de middelen voor de realisatie van enerzijds representationele en anderzijds expressieve en appelatieve functies variëren. De concrete criteria waarmee de geslaagdheid van Overdracht beoordeeld wordt, verschillen ook van taak tot taak (analoog aan de criteria voor Referentie): een felicitatie gaat 'van harte?, een condoléance 'met diep leedwezen', een verhaal wordt 'spannend en levendig' verteld, een zakelijke mededeling is 'serieus', etcetera. .
-
32
Theoretische grondslag
3. Spreekgemak (vgl. Beckers Language) Onder Spreekgemak versta ik het gebruik van middelen om de continuïteit van spraak te behouden, naar analogie van de definitie die Crystal & Davy (1979, p. 85) geven van het begrip 'Fluency' (zie ook Riggenbach, 1991). Sprekers moeten in het algemeen de indruk vestigen over voldoende beheersing van vocabulaire en syntax van de taal te beschikken om aan het woord te kunnen blijven, en aldus de 'hogere' functies van Referentie en Overdracht te kunnen vervullen. Uit deze definitie blijkt dat Spreekgemak - evenals de laatste dimensie (Verstaanbaarheid) - niet substantieel, maar voorwaardelijk met het -criterium communicatieve effectiviteit verbonden is. Het beschikken over een - direct ophaalbare woordenschat met betrekking tot het onderwerp, en over geautomatiseerde technieken om moeiteloos interpreteerbare uitingen te produceren, zijn noodzakelijke, maar nog niet voldoende, voorwaarden voor een adequate Referentie en Overdracht. Analoog aan de onderscheiden functies die onder Referentie of Overdracht vallen, kunnen we deelfuncties van Spreekgemak definiëren. De drie volgende qua betekenis overlappende - begrippen vatten de functies van Spreekgemak goed samen. Onder vlotheid versta ik vooral het vermijden van lange pauzes, opdat de luisteraar de greep op de globale tekstsamenhang niet verliest; tevens heeft vlotheid - met name in wat langduriger beurten - de functie dat de luisteraar niet te gemakkelijk in de verleiding komt te interrumperen (het zogenaamde 'floorholding', zie Levelt, 1989, p. 32 e.v.). Onder beheerstheid versta ik het zodanig aanpassen van het tempo dat woorden en woordgroepen (uitingen) die (qua bedoeling) bij elkaar horen, ook zo in de tijd gerangschikt worden. Op deze wijze wordt voor de luisteraar duidelijk wat het begin en het eind van elke uiting is, en waar nieuwe passages in de tekst beginnen. Vloeiendheid wordt gedefinieerd door het produceren van uitingen zonder merkbare haperingen en zelfcorrecties. Het moeiteloos vinden van (idiomatisch en structureel) passende woorden om de gedachten te formuleren is hiervoor de voornaamste vereiste. Een 'perfecte' vloeiendheid is in de meeste taalgebruikssituaties waarschijnlijk geen belangrijke voorwaarde voor de productie van goed begrijpelijke tekst, maar bij een groot aantal haperingen en zelfcorrecties binnen uitingen wordt het voor de luisteraar steeds moeilijker deze uitingen direct te interpreteren. Om die reden is ook vloeiendheid in zekere zin een voorwaarde voor communicatieve effectiviteit. De aspecten die voor beoordeling van Spreekgemak in het algemeen relevant zijn, zijn in het bovenstaande al de revue gepasseerd. Het zal duidelijk zijn dat voor de realisatie van vlotheid, beheerstheid en vloeiendheid vooral de aspecten Woordkeus, Zinsbouw, Pauzes, Haperingen en Tempo (zie tabel 2) van belang zijn. Spreekgemak, of in Beckers driedeling: Language, heeft in de meeste bestudeerde beoordelingsschema's een bescheiden plaats. Wesdorp (o.c. p. 211) wijt de geringe uitgewerktheid van deze dimensie aan de specialisatie van degenen die meestal beoordelingsschema's maken. Niet de taalwetenschap, maar de voordrachtskunst is hun vakgebied. We kunnen daaraan toevoegen dat de beoorde-
33
lingscriteria die onder de 'Language'-dimensie vallen niet erg eenduidig zijn. Vaak worden criteria als correctheid van taalgebruik of standaardtaligheid van uitspraak en woordkeus gebruikt zonder dat een verband met het communicatieve doel van de spreker wordt gelegd. Ook criteria als complexiteit van zinsbouw worden soms gebruikt zonder dat de functionaliteit van dit aspect in de gegeven situatie duidelijk is. Tenslotte worden beoordelaars bij de beoordeling van Taalgebruik ook vaak geïnstrueerd expressieve en appelatieve functies mee te wegen (vaak: gevarieerdheid van Woordkeus en Zinsbouw, of de gepastheid van het register). Het zal duidelijk zijn dat dit een conceptuele overlap veroorzaakt tussen de criteria voor de verschillende dimensies ('Language' en 'Delivery'). Om dit soort conceptuele problemen bij de beodtdeling te vermijden is in dit onderzoek Spreekgemak zo strikt mogelijk beperkt tot aspecten die van belang zijn voor de communicatieve effectiviteit, of meer specifiek de continuïteit van de spraak. Verschillende studies van spreektaal hebben -aangetoond dat ongrammaticaal lijkende constructies tot gevolg hebben dat de continuïteit van de spraak behouden blijft (Jansen, 1981; Levelt, 1989; Crystal & Davy. 1979). Zogenaamde spreektaalconstructies, die in schrijftaal als niet-acceptabel gelden, vervullen in de communicatie vaak een nuttige functie. Ook voor slordigheden in uitspraak, gebruik van dialect en het benutten van eenvoudige -zinsconstructies kan worden aangetoond dat zij -vaak een positieve functie vervuilen, in plaats van de effectiviteit te schaden (Crystal & Davy, 1979). Een beoordeling van spraak op criteria als correctheid, standaardtaligheid en complexiteit dient dus gescheiden gehouden te worden van de beoordeling van Spreekgemak. Wanneer dergelijke criteria van belang zijn voor de communicatieve effectiviteit - zoals in formele taalgebruikssituaties - dan vallen zij onder de dimensie Overdracht (gepastheid in de communicatieve situatie) en verdient het de voorkeur ze ook vanuit dat perspectief te beoordelen. -
,
4. Verstaanbaarheid Verstaanbaarheid wordt bepaald door de mate waarin de luisteraar de uitingen van de spreker moeiteloos kan herkennen als betekenisvolle lexemen. Crystal en Davy (o.c. p. 85) noemen dit Evenals Spreekgemak is Verstaanbaarheid voorwaardelijk voor de effectiviteit van de communicatie (zie hierboven). Terwijl er bij de beoordeling van Spreekgemak vooral gelet wordt op de moeiteloze interpreteerbaarheid van (reeksen van) uitingen en -op hun globale temporele organisatie, gaat het bij Verstaanbaarheid in eerste instantie om de herkenbaarheid van de lexemen per uiting. Dat betekent niet dat elk woord zorgvuldig en luid moet worden uitgesproken. De redundantie van spraak en de semantische en syntactische voorspelbaarheid maakt dat overbodig. Per uiting zal er echter een minimum aan lexemen goed gearticuleerd moeten zijn om moeiteloze herkenning van de hele uiting mogelijk te maken. Meestal zal het dan gaan om dat deel waarvan de spreker veronderstelt dat het nieuwe informatie voor de luisteraar bevat (Chafe, 1976; Clark & Haviland, 1977). Verstaanbaarheid als voorwaarde voor communicatieve effectiviteit vervult - in tegenstelling tot de drie andere dimensies - dus maar één functie: het vrijwaren
34
Theoretische grondslag
van de luisteraar van 'decodeerproblemen'. In principe zijn hier allerlei aspecten van de spraak in het geding, zoals structurele (redundantie), spraaktechnische (articulatie, tempo, intonatie, klemtoon en volume) en zelfs non-verbale (tipbewegingen). Voor de beoordeling van Verstaanbaarheid bij 'normale' spraak in communicatieve situaties zijn deze aspecten vermoedelijk niet alle even relevant. In de grote meerderheid van gevallen zullen intonatie en tempo bijvoorbeeld niet zulke extreme waarden aannemen dat daardoor de Verstaanbaarheid in gevaar komt. De Verstaanbaarheid is waarschijnlijk vooral in het geding bij een bijzonder ongunstige combinatie van omstandigheden, bijvoorbeeld een weinig redundante tekst, een gering spraakvolume en een gebrekkige articulatie of uitspraak. Een 'functionele' beoordeling van Verstaanbaarheid vereist dus dat beoordelaars attent zijn op dergelijke combinaties. Ook al wordt Verstaanbaarheid in de meeste studies naar beoordelingsschema's niet als aparte dimensie genoemd, toch is het belang ervan niet omstreden. Meestal wordt Stem, Luidheid of Articulatie opgenomen als een aspect voor de beoordeling van 'Delivery'. Behalve correctheid of standaardtaligheid van uitspraak wordt vaak ook helderheid of duidelijkheid beoordeeld (vgl. Becker, 1962; Wesdorp, 1981; Rijlaarsdam & Bronkhorst, 1983). Ook hier dreigt dus een zekere vermenging van criteria zoals correctheid en communicatieve effectiviteit evenals bij Spreekgemak. Het zal duidelijk zijn dat in ons beoordelingsschema correctheid van uitspraak geen criterium is voor Verstaanbaarheid, maar - in situaties waarin dit van toepassing is - voor Overdracht (bij de toelichting van Spreekgemak hierboven is een analoge situatie behandeld). In het algemeen kunnen we concluderen dat van de vier dimensies Verstaanbaarheid de minst complexe is. De beoordeling gebeurt vanuit één vrij duidelijk te definiëren criterium dat luisteraar/beoordelaars vermoedelijk goed kunnen onderscheiden van andere criteria. Luisteraars die goed thuis zijn in de gesproken taal kunnen vrij direct bepalen of uitingen van een spreker makkelijk of moeilijk te decoderen zijn. Wanneer men als norm stelt dat de spraak verstaanbaar moet zijn voor standaardtaal-sprekers (en dit is een relevante norm voor het basisonderwijs) dan is het wellicht voldoende de Verstaanbaarheid te laten beoordelen door standaardtalige luisteraars. De eisen die men aan de Verstaanbaarheid van spraak kan stellen variëren wel enigszins van situatie tot situatie. In formele voordrachten voor een publiek bijvoorbeeld, liggen de eisen qua zorgvuldigheid van Articulatie en adequaatheid van Volume hoger dan in informele interacties. Vaak zullen dergelijke verschillen samenhangen met verschillen in redundantie van de tekst en in afstand (zowel fysiek als sociaal) tussen de spreker en de luisteraar(s). Samenvattend, zijn nu vier dimensies voor het beoordelingsschema gedefinieerd, waarin diverse spraakfuncties worden geëxpliciteerd die voor de communicatieve effectiviteit van belang zijn. Voor Referentie en Overdracht is dit belang substantieel: deze dimensies zijn direct gerelateerd aan de betekenissen die de spreker wil overbrengen. Ook kan men stellen dat de zogenaamde dominante taalge-
35
bruiksfuncties (zie § 3.1) altijd uit één van deze twee dimensies afkomstig zijn. Tegelijkertijd zijn de specifieke vereisten van deze dimensies sterk onderhevig aan variaties in taalgebruikssituatie. De eisen waaraan men moet voldoen in een -'zakelijke' toespraak zijn bijvoorbeeld niet in dezelfde termen te omschrijven als in een 'opbeurende' toespraak. Zelfs bij vergelijking van een lange met een korte mededeling zullen de categorieën voor de beoordeling van Referentie en Overdracht vaak niet dezelfde zijn. De twee resterende dimensies, Spreekgemak en Verstaanbaarheid, zijn vooral voorwaardelijk met communicatieve effectiviteit verbonden. Hier gaal het om de geautomatiseerde toepassing van taalfuncties als articulatie, lexicale selectie en syntactische codering zonder welke een monologische beurt slechts moeizaam te volgen zal zijn. Het voorwaardelijke - of basale - karakter van deze twee dimensies maakt dat zij minder afhankelijk zijn van de specifieke spreeksituatie dan de eerste twee. Niettemin geldt ook voor Spreekgemak en Verstaanbaarheid dat zij situatie-afhankelijke eisen impliceren. Niet in alle situaties is het van belang vloeiend te spreken. In de context van een beschouwelijke mono- of dialoog is het zonder meer geoorloofd om lange pauzes te laten vallen en om vele malen uitingen af te breken of te haperen. Ook de eisen die gesteld worden aan bijvoorbeeld de zorgvuldigheid van-articulatie zijn in sommige situaties anders dan in andere (vgl. Crystal & Davy, o.c. p. 107-109). :
3.3. Van algemene dimensies naar taakspecifieke beoordelingscategorieën De vier dimensies die in paragraaf 3.2 zijn gedefinieerd vormen alleen nog maar het theoretisch uitgangspunt voor de constructie van beoordelingsschema's voor specifieke spreektaken. Men kan beoordelaars beter niet opzadelen met abstracte definities van beoordelingscategorieën als men het risico van misinterpretaties, gebrekkige onderscheidingen en psychometrische onbetrouwbaarheid zo klein mogelijk wil maken. In hoofdstuk 7 wordt nader ingegaan op de beoordelingsproblemen (halo-effect en signifisch effect) die het gevolg kunnen zijn van gebrekkig of te abstract gedefinieerde categorieën. Om per spreektaak een zinvolle selectie van beoordelingscategorieën te maken, vervullen de vier dimensies een belangrijke heuristische functie. Enerzijds maken ze het mogelijk allerlei bestaande beoordelingscategorieën te groeperen en daaruit een gemotiveerde keuze te doen (zie Van Gelderen, 1986 en 1987a). Anderzijds dwingen ze tot een systematische reflectie op de specifieke eisen die elke spreektaak stelt aan een effectieve communicatie. Als ondersteuning van dit proces is het nuttig een overzicht te hebben van de belangrijkste criteria en de bijbehorende gedragsaspecten die onder elk van de vier dimensies vallen. In tabel 3 wordt dit overzicht gegeven. De genoemde criteria in tabel 3 zijn nog vrij algemeen van aard. Hetzelfde geldt voor de gedragsaspecten waarop de criteria moeten worden toegepast, alhoewel bij Overdracht een voorbeeldsgewijze opsomming van aspecten is gegeven - die dus zeker niet in alle soorten taalgebruikssituaties van toepassing is. Er is naar gestreefd relevante criteria en aspecten te benoemen voor een zo groot mogelijke variatie van
36
Theoretische grondslag Tabel 3:
Overzicht van de belangrijkste criteria (deelfuncties) en bijbehorende aspecten per dimensie van het beoordelingsschema
Referentie goed onderscheid tussen hoofd- en bijzaken; relevantie, waarheidsgetrouwheid en volledigheid van informatie; logische opeenvolging van passages; duidelijkheid van woordbetekenissen en verwijzingen tussen zinnen. Overdracht
adequaatheid van register; gebruik van middelen ter versterking van expressie en appèl (bijv. variatie van intonatie, tempo en volume; ondersteunende gebaren en frequent oogcontact; humor, nuancering van beweringen, persoonlijke evaluaties, controleren van begrip bij de luisteraars, extra uitleg, directe aanspreekvormen) )
-
Spreekgemak continuïteit van spraak; goede afbakening van uitingen; vlotheid van zinsbouw en tempo; moeiteloosheid van woordkeus; vermijden van lange pauzes, veelvuldige haperingen en zelfcorrecties; directe interpreteerbaarheid van uitingen; vloeiende opeenvolging van woorden en zinnen. Verstaanbaarheid directe herkenbaarheid ("decodeerbaarheid") van Lexemen; voldoende articulatie en volume; tempo, intonatie en uitspraak aangepast aan de luisteromstandigheden, waaronder: redundantie van de tekst, (fysieke en sociale) afstand tot de spreker en (vooral in de onderwijscontext) standaardtaligheid ') Deze functies kunnen op hun beurt onderverdeeld worden in meer situatie-specifieke, zoals geloofwaardigheid, betrokkenheid tot onderwerp en tot luisteraar, boeiendheid, zakelijkheid, etcetera.
taalgebniikssitualies. Voor Spreekgemak en Verstaanbaarheid is dit relatief eenvoudig, omdat de criteria voor beoordeling hier niet zo sterk taakafhankelijk zijn. Voor Referentie en Overdracht echter kunnen er grote verschillen zijn in toepasbaarheid van de criteria. Zo zijn er in tabel 3 criteria en aspecten opgenomen die in narratieve communicatie relevant zijn (bijvoorbeeld logische opeenvolging van passages en intonatievariatie als indicatie voor een levendige spreektrant) en er zijn criteria en aspecten voor zakelijke communicatie (bijvoorbeeld relevantie van informatie en het nuanceren van beweringen), voor argumentatieve communicatie (bijvoorbeeld onderscheid tussen hoofd- en bijzaken en gebruik van persoonlijke evaluaties) en voor informatieve uiteenzettingen (bijvoorbeeld waarheidsgetrouwheid en controleren van begrip bij de luisteraars). We onderscheiden grofweg drie groepen aspecten die voor de beoordeling van spreekvaardigheid relevant zijn, te weten linguïstische aspecten (lexicale en syntactische middelen met een semantisch effect), fonetische aspecten (zoals accentuering, intonatie, pauzes, tempo en intensiteit) en non-verbale aspecten (vooral mimiek, gebaren, lichaamshouding en oogcontact). In tabel 3 is te zien welke soorten aspecten van belang zijn bij beoordeling van elk van de vier dimensies. Zo kan men vaststellen dat voor de beoordeling van Referentiefuncties
37
(relevantie, waarheidsgetrouwheid, volledigheid, logische opeenvolging, etcetera) uitsluitend linguïstische aspecten van belang zijn. Bij de drie andere dimensies zijn naast linguïstische aspecten (bijvoorbeeld lexicale middelen bij Overdracht, _zinsbouw bij Spreekgemak, uitspraak bij Verstaanbaarheid) ook fonetische _aspecten aan de orde (bijvoorbeeld intonatievariatie bij Overdracht, pauzes bij Spreekgemak en foneemrealisatie bij Verstaanbaarheid). Non-verbale gedragsaspecten worden - zo blijkt uit tabel 3 - alleen bij Overdracht beoordeeld. Behalve de genoemde aspecten (ondersteunende gebaren en oogcontact), kunnen ook andere aspecten van non-verbale aard in een gegeven taalgebruikssituatie voor Overdracht relevant zijn, zoals het gebruik van extra materiaal (grafische informatie of demonstratie-materiaal), mimiek en lichaamshouding. Bij de definitie van de dimensie Verstaanbaarheid (§ 3.2) is ook gerept van een non-verbaal aspect (lipbewegingen), dat een rol bij de beoordeling kan spelen. Aangezien dit in de meeste situaties waarschijnlijk geen belangrijk aandachtspunt is - zodra men op iemands lippen moet' letten om hein te kunnen verstaan, is er al het nodige mis wordt dit aspect hier verder achterwege gelaten. Per specifieke taalgebruikssituatie kunnen nu beoordelingscategorieën geformu`. leerd (en beproefd) worden door voor elk van de vier dimensies de relevante criteria te selecteren , en te bepalen van welke middelen de sprekers in de gegeven situatie zinvol gebruik kunnen maken voor de vervulling van de geïmpliceerde functies. Aldus geformuleerde categorieën hebben meestal l de volgende vorm: - een naam: een substantief waarin het object van beoordeling (een globaal gedragsaspect) of het criterium van beoordeling (een (deel)functie) wordt aangeduid; - een verklarende toelichting: een zo bondig mogelijke omschrijving van de gedragsaspecten die tot de categorie gerekend worden en de (dcel)functies die als criterium gebruikt dienen te worden; - een cijferschaal waarop de waardering kan worden uitgedrukt met een indicatie van de betekenis van de schaalpunten. Beoordeling van dit soort categorieën vereist dat de beoordelaars zich als een 'ideale' luisteraar opstellen. Het gaat immers om beoordeling van het effect van het communicatieve gedrag van de spreker, uitgaande van de veronderstelling dat de luisteraar zich opstelt zoals onder de gegeven omstandigheden - de (gesimuleerde) taalgebruikssituatie - verwacht mag worden. Bij een monologische situatie plaatst de beoordelaar zich in de positie van de toegesprokene(n). Als er meer gesprekspartners beoordeeld moeten worden (dia- of polyloog) verplaatst de beoordelaar zich beurtelings in één van de gesprekspartners om de bijdrage van de ander aan de communicatie te evalueren. Ter afsluiting van de - vooral theoretische - excursie in dit hoofdstuk geeft figuur 1 een overzicht van de verschillende stappen die tot nu gezet zijn. In deze figuur worden de taakspecifieke categorieën genoemd naar de (deel) functies die beoordeeld worden. Het zal duidelijk zijn dal deze hier alleen als voorbeeld dienen, en dat functies die in de ene taalgebruikssituatie essentieel zijn in een
2
Dat wil zeggen: meestal in andere beoordelingsstudies. In het onderhavige onderzoek hebben
categorieën altijd deze vorm.
38
Theoretische grondslag Figuur 1: Een overzicht van de theoretische fundering van het beoordelingsschema voor spreekprestaties
andere situatie niet relevant zijn voor de communicatieve effectiviteit of zelfs een negatieve invloed kunnen hebben. In figuur 1 wordt ook schematisch weergegeven op welke soorten gedragsaspecten de (deel)functies per dimensie betrekking hebben, zoals hierboven is beschreven.
39
40
Hoofdstuk
4
Beoordeling v prestaties op vier en; een eerste beproeving v het beoordelingsschema
Samenvatting In het vorige hoofdstuk is het theoretische kader gegeven voor een algemeen beoordelingsschema, bestaande uit vier dimensies: Referentie, Overdracht, Spreekgemak en Verstaanbaarheid. In dit hoofdstuk worden enkele beoordelingsexperimenten beschreven die ten doel hadden na te gaan of uit dit schema zinvolle categorieën afgeleid kunnen worden voor de beoordeling van prestaties op de vier taken (zie hoofdstuk 2), of deze categorieën tot een bevredigende overeenstemming tussen beoordelaars leiden en in hoeverre de resulterende jury-oordelen meettechnisch onderscheidbaar zijn. Bovendien is getracht indicaties te krijgen voor de optimalisering van de beoordelingsprocedure. Kunnen beoordelaars verschillende categorieën bij beluistering van een prestatie simultaan beoordelen, zonder noemenswaardig validiteitsverlies? Of is het aan te bevelen per beluistering elke categorie afzonderlijk te beoordelen? De resultaten van de experimenten zijn eenduidig te interpreteren. De meeste categorieën worden met een bevredigende overeenstemming beoordeeld. Categorieën die bedoeld zijn als representant van één dimensie zijn meettechnisch gesproken niet of nauwelijks onderscheiden door de jury. Categorieën voor verschillende dimensies correleren meestal lager met elkaar. Dit patroon doet zich voor bij drie van de vier taken, waarvoor telkens een andere steekproef van 40 prestaties beoordeeld is. De vergelijking tussen de simultane en de afzonderlijke beoordelingsprocedure is uitgevoerd voor 40 prestaties op één taak en geeft geen aanwijzingen voor een verlies aan betrouwbaarheid of validiteit bij een simultane beoordeling. Uit deze resultaten worden conclusies getrokken voor de te volgen beoordelingsmethodiek in een grootschaliger opzet. Uit efficiëntie-overwegingen is gekozen voor een simultane beoordeling van vier categorieën per taak - voor elke dimensie één representant. Deze opzet wordt verder beschreven in hoofdstuk 5. 41
4.1 Inleiding Dit hoofdstuk doet verslag van enkele experimenten waarin getracht is de bruikbaarheid van het schema bij de beoordeling van prestaties op vier taken te bepalen. Deze taken en dc wijze waarop de prestaties verzameld zijn, zijn beschreven in hoofdstuk 2. Het betreft het navertellen van een verhaal (taak 1), het melden van een ongeval (taak 2), uitleggen hoe een spin zijn web weeft (taak 3) en het afmaken van een verhaal (taak 4). Om budgettaire redenen is gekozen voor een kleinschalige beproeving, waarbij voor elke taak veertig prestaties beoordeeld zijn. Voor elke taak werd een andere steekproef uit het bestand getrokken. Zodoende zijn de resultaten per taak statistisch gesproken met enige onzekerheid omgeven. We kunnen echter het beoordelen van telkens veertig prestaties bij vier verschillende taken als vier replicatiestudies opvatten, waardoor systematisch terugkerende patronen bij de verschillende taken met meer zekerheid geïnterpreteerd kunneryworden. De experimenten waren bedoeld om inzicht te krijgen in de toepasbaarheid van categorieën die uit de vier dimensies van het schema zijn afgeleid bij de beoordeling voor verschillende taken. Is het mogelijk beoordelaars zo,te instrueren dat zij een bevredigende mate van overeenstemming bereiken over de diverse categorieën? In hoeverre zijn jury-oordelen over verschillende categorieën meettechnisch van elkaar onderscheiden? Welke aanbevelingen zijn te doen voor een efficiënte beoordelingsprocedure waaruit met zo min mogelijk inspanning zoveel mogelijk onderscheiden informatie over de spreekvaardigheid resulteert? Dat zijn de belangrijkste kwesties die besproken worden. In de beoordelingsexperimenten werden jury's (van vier of vijf beoordelaars) geïnstrueerd en geoefend in het gebruik van beoordelingscategorieën voor prestaties op de vier taken. Voor elke taak waren acht à tien categorieën geselecteerd uit het beoordelingsschema. Voor de dimensies Referentie, Overdracht en Spreekgemak waren er telkens twee of drie representanten per taak; voor Verstaanbaarheid was er slechts één goede kandidaat. Beoordeling van de spreekprestaties gebeurde vanaf geluidscassettes.
4.2 Vraagstellingen -
De beoordelingsexperimenten hadden ten doel antwoord te krijgen op de volgende drie .vragen: 1. Is de overeenstemming tussen (getrainde) beoordelaars over elk van dc geselecteerde categorieën per taak voldoende voor peilingsonderzock? 2. In hoeverre geven jury-oordelen over afzonderlijke categorieën meettechnisch onderscheiden informatie over de spreekvaardigheid? 3. Kunnen beoordelaars verschillende categorieën simultaan beoordelen, zonder aantoonbaar verlies aan betrouwbaarheid en validiteit? Het zal duidelijk zijn dat de relevantie van deze vragen vooral van praktische aard is. De eerste vraag gaat vooral in op de betrouwbaarheid van oordelen over spreekprestaties in de context van peilingsonderzoek. Overeenstemming tussen
42
Een eerste beproeving
beoordelaars is een belangrijke indicatie hiervoor. De tweede vraag gaat in op de gedifferentieerdheid van informatie die resulteert bij gebruik van verschillende beoordelingscategorieën. Wanneer zou blijken dat er nauwelijks meettechnisch onderscheid bestaat tussen de verschillende jury-oordelen, is er gegronde reden om met een kleiner aantal categorieën te werken. Ook de derde vraag betreft een overweging van efficiëntie. Hoe meer categorieën door beoordelaars simultaan beoordeeld kunnen worden, des te meer informatie kan worden verkregen in één beoordelingsronde. Tevens is er een theoretisch belang gemoeid met deze beproeving van het beoordelingsschema. In hoofdstuk 3 is duidelijk gemaakt dat de verdeling over vier dimensies gebaseerd is op de aanname dat de criteria die uit één dimensie afgeleid worden onderling 'verwant' zijn, terwijl criteria uit verschillende dimensies juist minder 'verwant' zijn. Op grond hiervan moeten we dus verwachten dat categorieën die fungeren als representanten van dezelfde dimensie eveneens sterk met elkaar verwant zijn. Jury-oordelen over deze categorieën zouden dus relatief hoog met elkaar moeten correleren, terwijl jury-oordelen over categorieën voor verschillende dimensies lager met elkaar moeten samenhangen. De beoordelingsexperimenten die hier gerapporteerd worden, stellen ons in staat deze verwachtingen globaal te toetsen.
4.2.1 Enkele praktische overwegingen bij de inrichting van de beoordelingsexperimenten Het zal duidelijk zijn dat in de context van grootschalige beoordeling van spreekprestaties de efficiëntie van de procedure van doorslaggevend belang kan zijn. We definiëren de efficiëntie in navolging van De Groot (1972, p. 287 e.v) als de optimale doelmatigheid van het (meet)instrument. In onze context is een optimale doelmatigheid gedefinieerd als een zo gedifferentieerd mogelijke informatiewaarde (over een zo gevarieerd mogelijke verzameling van taken) bij een zo gering mogelijke tijdsinvestering van beoordelaars (zie § 1.3). Overwegingen van efficiëntie hebben dus bij de inrichting van de beoordelingsprocedure en bij de vraagstelling van het onderzoek een belangrijke rol gespeeld. Daarom zal hier een overzicht gegeven worden van de keuzes die op grond van deze overwegingen in dit onderzoek gemaakt zijn. Het gaat om de vaststelling van het moment van beoordeling: ter plekke, naderhand uit het geheugen, of bij beluistering van geluidsopnames en om het optimale aantal te onderscheiden beoordelingscategorieën. In de studies die hier gerapporteerd worden, is stelselmatig gekozen voor de beluistering van geluidsopnames. Doorslaggevende argumenten hiervoor zijn de controleerbaarheid van de beoordelingsprocedure en de mogelijkheid om in verschillende luisterrondes verschillende categorieën te laten beoordelen (vgl. Hitchman & Daniels, 1971). In vergelijking met beoordeling ter plekke of naderhand uit het geheugen, zijn dit belangrijke voordelen van het gebruik van .
43
geluidsopnames. We nemen hiermee het verlies aan visuele informatie op de koop toe, hetgeen een beoordeling van de non-verbale aspecten (zie § 3.3) bij voorbaat uitsluit. Het gebruik van video-opnames zou dit probleem oplossen, maar dat is in grootschalig onderzoek budgettair niet realistisch. Het aantal te onderscheiden beoordelingscategorieën is het volgende punt van overweging. Enerzijds kan men stellen dat hoe meer en hoc gedetailleerder categorieën beoordeeld worden, des te gedifferentieerder de informatie is die het beoordelingsschema levert. Anderzijds moeten we rekening houden met de hoeveelheid tijd die een erg gedetailleerde beoordeling kost en met de vraag wat de meettechnische informatiewinst per saldo zal zijn. Wesdorp (1981, p. 226) wijst er bijvoorbeeld op dat zeer gedetailleerde en diagnostisch bedoelde beoordelingsschema's vaak geen informatieve meerwaarde geven. De categorieën overlappen elkaar conceptueel en halo-effecten bij de beoordeling doen vermoedelijk de rest. Wesdorp (o.c.) schat dat in feite niet meer dan drie á vier factoren door beoordelaars te onderscheiden zijn. Tevens moeten we rekening houden met de soms erg korte duur van spreekprestaties op bepaalde taken. Een gemiddelde tijdsduur van één minuut, waarvan een deel ook nog in beslag wordt genomen door reacties van een interactiepartner, zoals de 'politie' in taak 2 (zie hoofdstuk 2), is erg weinig om allerlei verschillende categorieën te kunnen beoordelen. Niet zozeer de tijdsduur zelf is hierbij het probleem - we kunnen de geluidsopname immers zo vaak afhoren als we willen maar de geringe hoeveelheid tekst die in die korte tijd geproduceerd wordt. Minder tekst betekent immers ook minder materiaal om oordelen op te baseren. Tenslotte moeten we ons realiseren dat de cognitieve verwerkingscapaciteit van beoordelaars niet onbeperkt is. In verschillende studies (Moore & Kennedy, 1971; Hitchman, 1966) wordt opgemerkt dat het beoordelen van spreekvaardigheid een uiterst complexe aangelegenheid is. Gezien de verscheidenheid van gedragsaspecten en criteria die hierbij in het geding zijn (zie § 3.2 en 3.3) behoeft dat niet te verbazen. Het is daarom verstandig beoordelaars zoveel mogelijk te ontlasten en hen een beperkt aantal gedragsaspecten met een beperkt aantal criteria tegelijk te laten beoordelen. Aangezien we theoretisch vier beoordelingsdimensies onderscheiden, ligt het voor de hand om op een beoordelingsschema te mikken dat minimaal informatie verschaft over deze vier. In de beoordelingsexperimenten is uitgegaan van een maximum van tien beoordelingscategorieën per prestatie, te beoordelen in twee beluisteringsronden. In een apart experiment is nagegaan of er indicaties zijn dat beoordeling van minder categorieën de voorkeur verdient (zie vraag 3 in § 4.2). Dit experiment is uitgevoerd voor de beoordeling van prestaties op één taak (taak 4) die in vergelijking met de prestaties op andere taken in dit onderzoek noch zeer kort (taak 2) noch zeer lang (taak 1) duren (zie § 2.2.1).
4.3 Opzet van de experimenten In deze paragraaf geef ik weer op welke wijze de beoordelingsexperimenten zijn uitgevoerd: welke prestaties beoordeeld zijn (4.3.1), wie de beoordelaars waren
44
Een eerste beproeving
(4.3.2), welke beoordelingscategorieën zijn geselecteerd (4.3.3) en hoe de beoordelaars geoefend en geïnstrueerd zijn (4.3.4).
4.3.1 Selectie van prestaties De experimenten zijn uitgevoerd voor de vier taken die in hoofdstuk 2 beschreven zijn, te weten een verhaal navertellen (taak 1), een ongeval melden (taak 2), beschrijven hoe een spin zijn web weeft (taak 3) en een verhaal afmaken (taak 4). Voor de taken 1 tot en met 3 zijn 40 prestaties geselecteerd uit de landelijke steekproef van 200 leerlingen van de Voorstudie PPON (Van den Bergh, 1985). Voor taak 4 zijn 40' prestaties geselecteerd uit de Amsterdamse steekproef. van 100 leerlingen (Van Gelderen, 1987a) (zie hoofdstuk 2). Per taak is telkenS' een afzonderlijke selectie uit het totale bestand gemaakt, waarbij gestreefd is naar een normaalverdeling voor de globale kwaliteit van de prestaties. Voor de prestaties op de taken 1 tot en met 3 is hiervoor gebruik gemaakt van eerder gegeven jury-oordelen (over taalgebruik) uit de Voorstudie PPON (Van den Bergh, o.c.; zie § 1.2.2). Voor de prestaties op taak 4 is een willekeurige steekproef getrokken. Voor selectie van prestaties op de taken 1 tot en met 3 is eveneens rekening gehouden met de opnamekwaliteit. De geluidsopnames voor taak 4 waren zonder uitzondering van goede kwaliteit. De geselecteerde prestaties zijn per taak in een aselecte volgorde op cassettes gecopieerd, in welke volgorde ze ook vervolgens beoordeeld zijn.
4.3.2 De beoordelaars De prestaties op de taken 1, 2 en 3 werden beoordeeld door vijf beoordelaars (drie vrouwen en twee mannen). De prestaties op taak 4 zijn door vier van hen beoordeeld (drie vrouwen en één man). De beoordelaars waren afkomstig uit Amsterdam en wijde omgeving (Noord-Holland) en zijn standaardtaalsprekers. Alle beoordelaars op één na hadden ervaring als leerkracht in het (lager) onderwijs. Geen van hen had specifieke deskundigheid voor spraakbeoordeling. Allen ontvingen een honorarium voor hun medewerking.
4.3.3 De beoordelingscategorieën per taak De beoordelingscategorieën in dit onderzoek benoemen de gedragsaspecten en omschrijven de criteria waarop die aspecten beoordeeld moeten worden. Ze bestaan uit een naam, een verklarende toelichting en een cijferschaal (zie verder § 3.3). Per dimensie zijn verschillende kandidaatcategorieën beproefd. Hierbij werd uiteraard uitgegaan van de functies uit de definitie van deze dimensies. Per taak werd gespecificeerd welke criteria voor de realisatie van deze
45
functies het meest relevant zijn, en op welke gedragsaspecten zij toegepast moeten worden. Op deze wijze zijn per dimensie (en per taak) categorieën geformuleerd die de aandacht van beoordelaars op verschillende aspecten en criteria richten. Vlotheid van Zinsbouw en beheerstheid van Tempo vormden bijvoorbeeld de kern van enkele categorieën voor Spreekgemak; duidelijkheid van Inhoud en logica van Tekstopbouw vormden de kern van categorieën voor Referentie, etcetera. In een aparte selectieronde zijn aldus geconstrueerde beoordelingscategorieën beproefd op hun bruikbaarheid. De selectieprocedure van beoordelingscategorieën voor de taken 1 tot en met 3 wordt beschreven in Van Gelderen (1986). Voor taak 4 is een analoge selectieprocedure uitgevoerd, gebaseerd op een eerste proefbeoordeling. Om verschillende redenen konden bepaalde aspecten bij de beoordeling voor de ene of de andere taak niet betrokken worden. Sommige gedragsaspecten konden eenvoudig niet beoordeeld worden (zoals de non-verbale aspecten en de mate waarin de luidheid -van de spraak de verstaanbaarheid beïnvloedt) omdat de geluidsopnames deze informatie niet verschaffen. Andere aspecten zijn in de ene taak wel relevant, maar in de andere niet of beduidend minder. In een taak waarin de sprekers in hoge mate gebruik maken van de woorden van een Voorbeeldspreker (zoals bij het navertellen van een verhaal; taak 1) is de beoordeling van de woordkeus nauwelijks relevant. Een ander voorbeeld is de beoordeling van de samenhang (Verbanden) tussen diverse delen van een tekst. In :prestaties die vooral uit korte - één propositie - mededelingen bestaan (zoals in het telefonisch melden van een ongeval; taak 2) kan dit aspecr niet beoordeeld worden. In tabel 4 staat een overzicht van de categorieën die voor de beoordelingsexperimenten zijn geselecteerd na de selectieronde. In de tabel staan behalve de namen waarmee de categorieën aangeduid worden ook parafrases van de criteria voor de beoordelaars. De naamgeving van de categorieën is uitsluitend op praktische gronden bepaald. Meestal is de naam ontleend aan de gedragsaspecten die beoordeeld moeten worden (bijvoorbeeld Woordkeus, Intonatie of Organisatie), soms aan de criteria waarop beoordeeld moet worden (Relevantie en Oriëntatie op luisteraar). Dit kan verwarrend zijn, omdat uit-de naam van de categorie niet altijd kan worden afgeleid tot welke dimensie hij behoort. Het zijn immers niet de gedragsaspecten als zodanig die aan dimensies gekoppeld zijn. In § 3.3 is uiteengezet dat alleen de combinatie van gedragsaspecten met een beoordelingscriterium bepaalt wat de bedoelde relatie met een dimensie is. De beoordelaars kregen in ieder geval altijd deze combinatie voor ogen, doordat zij behalve de -naam van de categorie ook omschrijvingen hadden van drie (van de vijf) punten -op de cijferschaal waarop zij hun oordeel gaven (zie § 4.2.4). In tabel 4 voinien de parafrases telkens een omschrijving van de positieve kant van deze cijferschalen. Uit de tabel valt af te leiden dat voor Referentie, Overdracht en Spreekgemak minimaal twee categorieën per taak zijn geselecteerd, terwijl voor Verstaanbaarheid slechts één categorie (Articulatie) geselecteerd is. Pogingen om meer kandidaten voor deze dimensie te formuleren strandden telkens op het verschijnsel dat op een andere manier naar hetzelfde gevraagd werd. Ten dele is dit het gevolg van het feit dat geluidsopnames slechts een beperkte indicatie van de Verstaanbaarheid geven. Maar de relatieve eenduidigheid van de criteria voor Verstaan-
46
Een eerste beproeving Tabel 4: De beoordelingscategorieën per dimensie voor de vier taken met de (taakspecifieke) parafrasen; niet=in de betreffende taak niet beoordeeld
REFERENTIE
OVERDRACHT
RELe-
ORGa-
VER.
INTo-
vantie
nisatie
banden
natie
SPReektrant
ORlëntatie op luisteraar
Taak 1
onderscheid
logische
aaneen-
gevari-
levendig-
gebruik
(verhaal
hoofd- en
volgorde
schakeling
cerdheid
heid
theatrale
navertellen)
bijzaken
Taak 2
zie taak 1
van delen zie taak 1
niet
effecten zie taak 1
(ongeval melden) Taak 3
belangrijke
(spin)
informatie
Taak 4
zie taak 1
voorkómen van vragen
zie taak 1
niet
zie taak 1
zie taak 1
niet
zie taak 1
aansluiting
zie taak 1
zie taak 1
zie taak 1
(verhaal
op eerste
afmaken)
deel SPREEKGEMAK ZIN sbouw
zakelijkheid
TEMpo
VERSTAANBAARHEID WOOrd-
ARTiculatie
keus Taak 1
Taak 2
vlot/goed te
beheerst/
volgen
geen lange pauzes
zie taak 1
zie taak 1
niet
goed verstaanbaar
duidelijk/
zie taak 1
kort maar krachtig' ) Taak 3
zie taak 1
zie taak 1
zie taak 2
zie taak 1
Taak 4
zie taak 1
zie taak 1
moeite-
zie taak 1
loos/zonder haperingen a) Deze parafrase berust op een denkfout (duidelijkheid is een deelfunctie van Referentie); de fout is hersteld bij de beoordeling van taak 4.
baarheid (zie § 3.2.3) beperkt de mogelijkheid om verschillende categorieën te formuleren ook sterk. De vier taken stelden bovendien geen bijzondere eisen aan de articulatie of de luidheid, zodat criteria als zorgvuldigheid van articulatie en 47
aangepastheid van uitspraak aan de situatie (zie § 3.3, figuur 1) niet van toepassing zijn.
4.3.4 Instructie en beoordelingsprocedure De beoordelaars kregen een instructie waarin de taken werden uiteengezet en de beoordelingscategorieën toegelicht. De oriëntatie op de taken gebeurde door een bestudering van de precieze opdrachten die de leerlingen hadden gekregen en het bijbehorende materiaal (zie bijlage 1). De beoordelaars kregen een schriftelijke toelichting van de betekenis van de beoordelingsdimensies en enkele voorbeelden van beoordelingscategorieën voor elk van die dimensies. Bij de beoordeling voor de taken 1, 2 en 3 werd de verdere toelichting van categorieën mondeling gegeven tijdens de oefensessie (zie hieronder). Voor de beoordeling van taak 4 was de toelichting per categorie op schrift gesteld, en hadden de beoordelaars deze tekst ook tijdens het beoordelen ter beschikking (zie bijlage 2). Alle categorieën zijn aan de beoordelaars gepresenteerd in de vorm van vijfpuntschalen. De extremen en het midden van deze schalen waren gemarkeerd door korte omschrijvingen, zoals de parafrasen in tabel 2. De categorie Relevantie bij taak 1 bijvoorbeeld had als omschrijvingen: "hoofd- en bijzaken zijn goed onderscheiden", "vergeet wel wat" en "de grote lijn komt er niet uit". Gelegenheid tot oefening in de toepassing van de categorieën werd gegeven door per taak vier geselecteerde prestaties te beoordelen. Deze prestaties waren uit het bestand gelicht om een indruk te geven van de voorkomende verschillen tussen goede, middelmatige en slechte prestaties. Eén prestatie die in eerdere beoordelingen als 'goed' was aangemerkt, één die als 'slecht' was aangemerkt en twee 'middelmatige' prestaties zijn voor proef beoordeeld. De scores op de (negen á tien) categorieën per taak van elke individuele beoordelaar werden vervolgens vergeleken met voorbeeldscores, die de onderzoeker (AvG) van tevoren had gegeven. De afwijkingen van de scores van de beoordelaars ten opzichte van elkaar èn van de voorbeeldscores werden plenair besproken, zodat onduidelijkheden in de toepassing van de categorieën verhelderd konden worden. Tevens werd op deze wijze benadrukt dat - gezien de kwaliteitsverschillen tussen de voorbeeldprestaties - het gehele bereik van de vijf-puntschalen moest worden gebruikt. Een en ander was bedoeld als een voorzorg tegen zogenaamde sequentie-effecten en centrale tendenties bij de beoordeling (vgl. De Groot, 1972; Guilford, 1954; Saai, Downey & Lahey, 1980). Nadat deze procedures doorlopen waren, overhandigde de proefleider aan alle beoordelaars een cassette met de veertig spreekprestaties op de betreffende taak. Ze beluisterden elke prestatie tweemaal met behulp van een cassettespeler en een koptelefoon. Bij de eerste beluistering gaven ze hun waardering voor de helft van de categorieën, bij de tweede beluistering (direct volgend op de eerste per prestatie) beoordeelden ze de rest. De beoordelaars waren vrij zelf de volgorde te bepalen waarin ze oordelen over de categorieën gaven. Er vond geen overleg plaats tussen de individuele beoordelaars. Na elke beluistering konden beoorde-
48
Een eerste beproeving
laars de band stilzetten om hun scoring af te maken. De instructieprocedure (inclusief oefening) nam per taak ongeveer drie uur in beslag. De beoordeling van de veertig prestaties op één taak werd ter plekke uitgevoerd en nam, afhankelijk van de duur van de prestaties op de taak, een halve of een hele werkdag in beslag.
4.4 Resultaten In deze paragraaf worden achtereenvolgens de resultaten voor de drie vraagstellingen behandeld. Eerst komt de beoordelaarsovereenstemming aan bod (4.4.1), vervolgens de correlaties tussen de jury-oordelen over de categorieën (4.4.2) en tenslotte volgt een vergelijking tussen een simultane en een afzonderlijke procedure van beoordelen (4.4.3).
4.4.1 Beoordelaarsovereenstem ming In tabel 5 worden de maten voor beoordelaarsovereenstemming per taak en categorie weergegeven. Deze maten zijn respectievelijk de jury-alpha (Cronbachs alpha berekend over de individuele oordelen per categorie per taak) en de gemiddelde intercorrelatie tussen de individuele oordelen per categorie per taak. Deze laatste maat is toegevoegd, omdat deze niet wordt beïnvloed door de grootte van de jury, terwijl de jury-alpha in het algemeen hoger wordt naarmate er meer beoordelaars meedoen. Deze alpha's zijn een index voor de homogeniteit van het jury-oordeel en vormen een schatting van de betrouwbaarheid, onder aanname dat de beoordelaars parallelle metingen van de spreekvaardigheid geven (varianties, gemiddelden en covarianties met de ware score zijn dan gelijk). Aangezien dit vrijwel nooit het geval is, moeten we ervan uitgaan dat alpha een onderschatting van de betrouwbaarheid van de jury-oordelen geeft. Bij de categorieën voor taak 1 zijn de scores van één beoordelaar niet meegeteld, omdat deze scores de jury-overeenstemming systematisch verlaagden. Vermoedelijk ontwikkelde deze beoordelaar eigen - van de instructie afwijkende criteria voor toepassing van de beoordelingscategorieën bij deze taak. Men kan over de verwijdering van een beoordelaar verschillend denken, maar in onze context is het onderzoeksdoel - het vinden van onderscheid tussen beoordelingscategorieën - gediend met een zo homogeen mogelijk jury-oordeel. Een beoordelaar die afwijkende criteria hanteert, vermindert de kans op het vinden van juryoordelen die meettechnisch onderscheiden zijn. Bij de overige taken zijn de scores van alle beoordelaars (vijf voor taak 2 en 3; vier voor taak 4) in de analyse betrokken.
49
Tabel 5: De beoordelaarsovereensternming: jury-alpha's en gemiddelde intercorrelaties (tussen haakjes) per categorie per taak; N=40
Taak 1
Taak 2
Taak 3
Taak 4
Categorieën
(4 bcoord.)
(5 bcoord.)
(5 bcoord.)
(4 bcoord.)
RELevantie ORGanisatie VERbanden
.92 (.73) .90 (.71) .92 (.71)
.90 (.65) .79 (.45)
.89 (.65) .86 (.56)
.89 (.67) .86 (.61) .84 (.57)
SPReektrant INTonatie
.92 (.75) .92 (.74) .91 (.71)
.76 (.42) .83 (.50) .91 (.67)
.84 (.52) .78 (.41)
.91 (.71) :89 (.68) .94 (.79)
WOOrdkeus
.81 (.55) .81 (.55) -
.64 (.27) .79 (.44) .78 (.36)
.86 (.56) .85 (.54) .83 (.41)
.87 (.63) .90 (.69) .82 (.54)
ARTiculatie
.92 (.76)
.87 (.59)
.83 (.49)
.87 (.64)
()Mutatie
ZINsbouw TEMpo
In hetalgemeen kan men stellen dat de overeenstemming bij de categorieën voor de taken 1 en 4 vrij hoog is'. Bij de taken 2 en 3 echter zijn de overeenstemmingen soms aan de lage kant. Bij sommige categorieën zou men niet met kleine jury's kunnen volstaan, wanneer men belang hecht aan een betrouwbaar juryoordeel. Wellicht is de korte duur van de prestaties op deze taken hieraan debet. Prestaties op de: taken 1 en 4 duren in ieder geval gemiddeld veel langer, zodat beoordelaars ook meer materiaal hebben om hun oordeel op te baseren. Andere verklaringen voor het verschil in overeenstemming bij de verschillende taken zijn ook mogelijk. Bij de conclusies van dit hoofdstuk wordt op het één en ander nader ingegaan. De overeenstemmingsindiees in tabel 5 zijn - op de genoemde uitzonderingen na - tamelijk bevredigend. De hoogte van de jury-alpha's maakt duidelijk dat beoordelaars onder de meeste categorieën ongeveer hetzelfde verstaan. Voor de analyse van de correlaties tussen de jury-oordelen is dit een goed uitgangspunt. Homogeniteit van de jury-oordelen is een voorwaarde voor hun meettechnische onderscheidbaarheid.
4.2 De meettechnische onderscheidbaarheid van de categorieën In de tabellen 6, 7, 8 en 9 worden per taak de intercorrelaties van de juryoordelen over elke categorie gepresenteerd. De beoordeelde categorieën zijn gerangschikt naar de dimensie waartoe ze behoren. Behalve de correlaties (boven de diagonaal in elke tabel) zijn tevens de coëfficienten gecorrigeerd voor attenuatie gepresenteerd (onder de diagonaal). Deze corrigeren de correlaties tussen juryoordelen voor hun geschatte (on)betrouwbaarheid. Naarmate metingen onbetrouw-
3 Wesdorp (1981) noemt op grond van zijn overzicht van een groot aantal studies naar spreekvaardigheidsbeoordeling een gemiddelde intercorrelatie van .50 tot .60 normaal.
50
Een eerste beproeving
baarder zijn, zullen de gevonden correlaties lager uitvallen, en daarmee een sterkere onderschatting geven van de correlatie tussen de 'ware scores'. Nunnally (1967) geeft de volgende formule voor de correctie voor attenuatie: r12 P12 j-ri, j-r22 In deze formule stelt p 12 de geschatte ware correlatie tussen de variabelen 1 en 2 voor en r12 de geobserveerde correlatie. Als schatting van de betrouwbaarheid van de jury-oordelen (r11 en r22 uit voorstaande formule) zijn de jury-alpha's uit tabel 5 gebruikt. Er zijn twee redenen voor het gebruik van de correctie voor attenuatie. In de eerste plaats zijn niet alle jury-oordelen even betrouwbaar, zoals bleek bij bestudering van de overeenstemmingsindices in tabel 5. De gecorrigeerde coëfficiënten maken de correlaties tussen jury-oordelen beter vergelijkbaar. In de tweede plaats geven de correcties een betere indicatie van de meettechnische onderscheidbaarheid van de jury-oordelen. Wanneer beoordelingen van verschillende categorieën voor attenuatie gecorrigeerd perfect blijken de correleren, dan bevatten deze oordelen praktisch gesproken geen onderscheiden informatie. Voor een interpretatie van de hoogte van de correlaties in de tabellen 6 tot en met 9 moet rekening worden gehouden met de geringe steekproefomvang. Bij een gevonden correlatie van .50 in een steekproef van 40 en een betrouwbaarheidsinterval van 95% ligt de geschatte populatiewaarde tussen de .70 en .24. Het zal dus duidelijk zijn dat we per taak voorzichtig moeten zijn met het generaliseren van de gevonden correlaties. Meer zekerheid valt te verkrijgen wanneer zich systematisch terugkomende patronen voordoen bij de beoordeling over de vier taken heen. Hier zijn immers vier verschillende steekproeven (van 40 prestaties) beoordeeld. De beoordeling van prestaties op de ene taak is te zien als een replicatie van die op de andere. Interpretatie van de hoogte van de gecorrigeerde coëfficiënten in de tabellen geeft een extra complicatie, aangezien de steekproefverdeling van deze coëfficienten onbekend is. We kunnen dus niet aangeven wat de geschatte populatiewaarden zijn bij een gegeven betrouwbaarheidsinterval. Om een indruk te krijgen van de variabiliteit van de voor attenuatie gecorrigeerde correlaties in de steekproeven van 40 is een zogenaamde bootstrap-procedure gevolgd. Hierbij zijn voor zes gevallen de gecorrigeerde coëfficiënten berekend in duizend steekproeven van 40. Deze zijn met teruglegging getrokken uit de oordelen over 40 prestaties bij taak 3 4 . In deze steekproeven is een gemiddelde, een hoogste en een laagste gevonden waarde van de coëfficiënt berekend, alsmede de standaardfout. De gevonden gemiddelde waarden zijn vrijwel gelijk aan de waarde van de coëfficiënt zoals weergegeven in de tabel. De hoogste en de laagste waarde geven het bereik aan
4 Met dank aan dr. Mindert Eiting voor deze suggestie en voor het ontwerpen van een programma dat de steekproeven trekt en de noodzakelijke berekeningen uitvoert.
51
Tabel 6: Intercorrelaties (boven de diagonaal) en correcties voor attenuatie (onder
de diagonaal)
van de jury-oordelen over categorieën; 4 beoordelaars, N=40
taak 1
REFERENTIE
OVERDRACHT
SPREEKGE-
Vstb
MAK ORG ORG
REL
VER
INT
SPR
ORI
ZIN
TEM
ART
.94
.95
.75 .72 .77
.75 .72 .75
.78 .77 .79
.55 .56 .57
.34 .37 .33
.42 .45 .41
.65 .60 .60
.60 .57 .53
.67 .59 .61
.80
.66 .59
.68
-
REL
1°
VER
P
1°
INT
.82 .82 .86
.78 .78 .84
.84 .81 .86
.93 1'
.92
l' l'
TEM
.64 .40
.65 .43
.66 .38
.75 .69
.69 .66
.70 .62
.99
ART
.46
.49
.45
.73
.64
.67
.76
SPR ORI ZIN
.95
.96
a ) Deze gecorrigeerde correlaties zijn 1 of hoger, tengevolge van de correctieformule; uitleg in de tekst.
waarbinnen de coëfficiënt in vergelijkbare steekproeven kan variëren. Zo blijkt een coëfficiënt die de gemiddelde waarde van één heeft een minimum van .81 en een maximum van 1.20 te hebben (standaardfout: .05). Een coëfficiënt van .46 (één van de laagste gevonden waarden in onze beoordelingen) heeft een maximum van .88 en een minimum van -.11 (standaardfout: .15) in dc duizend steekproeven • . Eén en ander betekent dat we hij een relatief lage gevonden waarde van een coëfficiënt zeker kunnen zijn dat de waarde 1 in ieder geval niet in het interval ligt. Vanaf waardes boven de .80 neemt echter de waarschijnlijkheid dat een perfecte correlatie bestaat toe. De correctie voor attenuatie, zo kan men in deze tabellen zien, leidt nogal eens tot geschatte correlaties van één of hoger. Deels is dit te wijten aan het geringe aantal waarnemingen (40) (zie Nunnally, o.c. 218), deels aan het feit dat de beoordelingen van één categorie niet geheel parallel zijn, waardoor de jury-alpha's onderschattingen van de oordeelsbetrouwbaarheid zijn. De vetgedrukte getallen aan weerszijden van de diagonaal in de vier tabellen zijn de correlaties tussen categorieën die bedoeld zijn voor dezelfde dimensie. Wanneer onze verwachting gewettigd is dat verschillende oordelen voor één dimensie meer met elkaar verwant zijn dan met oordelen over andere dimensies, dan moeten dus de vetgedrukte correlaties voor een categorie telkens hoger zijn dan zijn niet-vagedrukte correlaties. Door de rijen en kolommen in de tabellen per categorie af te lopen kan men deze vergelijking makkelijk uitvoeren. Boven de diagonaal vergelijkt men dan de ongecorrigeerde, onder de diagonaal de gecorrigeerde
5 De andere vier coëfficiënten in dc bootstrapprocedure geven de volgende resultaten: gemiddelde waardes: 1.12, 1.05, .74, .68; maxima: 1.33, 1.21, 1.12, .98; minima: 1.00, .98, .21, -.04; standaardfout: .05, .03, .11 en .11
52
Een eerste beproeving
Tabel 7: Intercorrelaties (boven de diagonaal) en correcties voor attenuatie) onder de diagonaal) van de jury-oordelen over categorieën; 5 beoordelaars, N.40 taak 2
REFERENTIE
OVERDRACHT
SPREEKGEMAK
Vstb
ORG
REL
INT
SPR
ORI
ZIN
WOO
TEM
ART
ORG REL
P
.84
.38 .37
.74 .80
.69 .84
.75 .73
.83 .84
.44 .47
.31 .38
INT SPR GRI
.47 .95 .81
.43 .97 .93
.84 .45
.67 .83
.39 .69 -
.54 .75 .65
.54 .81 .70
.48 .52 .41
.71 .50 .38
ZIN WOO TEM
1' I' .56
.96 P .56
.74 .67 .59
I' 1' .67
.85 .83 .70
1' .83
- SI .64
.59 .50 -
.46 .47 .53
ART
.53
.43
.83
.61
.43
.62
.57
.64
-
a) zie bij tabel 6
correlaties. (Dit leidt overigens bijna niet tot verschillende conclusies.) Zodoende wordt het mogelijk in te zien of de vier beoordelingsdimensies meettechnisch aantoonbaar zijn en of elke geselecteerde categorie een goede representant voor de bedoelde dimensie is. Aangezien de correlaties per taak niet zo betrouwbaar geïnterpreteerd kunnen worden, zijn we hier vooral geïnteresseerd in patronen die zich over de verschillende taken heen manifesteren. Als we de correlaties in de vier tabellen met elkaar vergelijken dan is één conclusie algemeen geldig: jury-oordelen voor categorieën van Referentie zijn meettechnisch niet of nauwelijks van elkaar onderscheiden. Verder blijken er bij drie van de vier taken (1, 3 en 4) enkele algemene conclusies te trekken. Ik zal eerst de resultaten voor deze taken bespreken en vervolgens ingaan op de situatie bij taak 2. Jury-oordelen over categorieën van één dimensie in de taken 1, 3 en 4 correleren in de meeste gevallen hoger met elkaar dan met oordelen over categorieën van een andere dimensie. Hierop is slechts één uitzondering: Woordkeus in taak 3 correleert hoger met categorieën voor Referentie dan met die voor Spreekgemak. Dit is naar alle waarschijnlijkheid terug te voeren op een fout in de omschrijving van het evaluatiecriterium van de categorie. Gevraagd werd naar duidelijkheid en beknoptheid (beide gerelateerd aan Referentie) in plaats van naar vlotheid of vloeiendheid (zie tabel 4). Op deze uitzondering na, kunnen we voor de taken 1, 3 en 4 concluderen dat niet alleen de categorieën voor Referentie, maar ook die voor Spreekgemak en Overdracht zo hoog correleren dat zij niet of nauwelijks meettechnisch onderscheiden informatie bevatten; alle gecorrigeerde coëfficiënten hebben een waarde
53
Tabel 8: Intercorrelaties (boven de diagonaal) en correcties voor attenuatie (onder de diagonaal) van de jury-oordelen over categorieën; 5 heoordelaars, N=40
taak 3
REFERENTIE ORG
OVERDRACHT
SPREEKGEMAK
Vstb
REL
INT
SPR
ZIN
WOO
TEM
ART
.92
.49 .39
.60 .49
.72 .60
.85 .88
.58 .46
.36 .31
.90
.60 .74
.47 .56
.61 .69
.59 .63
.71
.85 .55
.49 .39 .56
ORG REL
1°
INT SPR
.60 .71
.47 .57
1.
ZIN WOO TEM
.84 1° .68
.69 1'. .53
.73 .58 .75
.87 .67 .82
.84 .99
.65
ART
.43
.36
.73
.75
.58
.47
.67
a) zie bij tabel 6
Tabel 9: Intercorrelaties (boven de diagonaal) en correcties voor attenuatie (onder de diagonaal) van de jury-oordelen over categorieën; 4 heoordelaars, N.40
taak 4
REFERENTIE ORG
OVERDRACHT
SPREEKGEMAK
Vstb
REL
VER
INT
SPR
ORI
ZIN
TEM
WOO
ART
.89
.87 .81
.47 .56 .44
.57 .69 .52
.60 .72 .52
.67 .66 .59
.60 .68 .48
.61 .68 .59
.27 .25 .29
.91
.86 .93
.57 .55 .64
.58 .63 .66
.69 .71 .72
.41 .32 .33
.73
.90 .74
.70 .47 .61
ORG REL VER
1° 1'
.94
INT SPR ORI
.54 .64 .67
.63 .77 .79
.51 .59 .58
1° .94
I'
ZIN TEM WOO
.77 .68 .73
.75 .76 .80
.69 .55 .71
.65 .65 .81
.62 .70 .82
.71 .72 .82
.82 1°
.86
.31 ART a) zie bid ta be
.28
.34
.46
.36
.36
.80
.53
.72
groter dan .80. Voor de categorie Articulatie - de enige representant van Verstaanbaarheid - geldt dat de gevonden correlaties met andere categorieën in het algemeen niet zo hoog zijn. De gecorrigeerde correlatie komt in ieder geval niet boven de .80 uit. Voor andere 'tussen-dimensie' correlaties geldt dat zij vaak niet boven de .80 uitkomen, bij correctie voor attenuatie. Hier doen zich echter wel uitzonderingen voor, zoals, categorieën voor Referentie en Overdracht in taak 1, en de categorieën Zinsbouw en Tempo in taak 3 en taak 4. Of de dimensies per
54
Een eerste beproeving
taak meettechnisch onderscheiden beoordeeld worden, valt dus niet met zekerheid te zeggen op grond van deze gegevens. De correlatiematrix voor taak 2 (tabel 7) geeft een afwijkend beeld te zien. De categorieën voor de dimensies Overdracht en Spreekgemak blijken niet het bovengenoemde patroon te vormen. Spreektrant en Oriëntatie (beide voor Overdracht) blijken sterker met Referentie-categorieën samen te hangen dan met die voor Overdracht. Intonatie (Overdracht) correleert hoger met Articulatie (Verstaanbaarheid) dan met de categorieën voor Overdracht. Zinsbouw en Woordkeus (beiden voor Spreekgemak) blijken zelfs niet onderscheiden beoordeeld te worden van Referentie-categorieën als Organisatie en Relevantie. Uiteraard is de relatief geringe overeenstemming waarmee de categorieën voor Overdracht en Spreekgemak in deze taak beoordeeld zijn (zie tabel 5) hiervoor mede verantwoordelijk. In elk geval kan voor taak 2 (het_melden van een ongeval) geconcludeerd worden dat deze twee dimensies in de beoordelingen niet tot hun recht komen. Bij de conclusies zullen we op dit resultaat nader ingaan. 4.4.3 Simultane en afzonderlijke beoordeling
De resultaten van de beoordelingsexperimenten zijn verkregen met behulp van een zogenaamde simultane beoordelingsprocedure. Dat wil zeggen: de beoordelaars hadden overzicht over de negen á tien categorieën en beoordeelden deze - in vrije volgorde - in twee luisterrondes per prestatie (zie § 4.3.4). Het is mogelijk dat deze procedure invloed heeft op de gevonden correlaties tussen categorieën en dat een procedure waarbij elke categorie apart beoordeeld wordt leidt tot andere (lagere?) correlaties. Het verkrijgen van meer inzicht in verschillen tussen simultane en afzonderlijke beoordelingsprocedures is hier relevant, omdat deze van invloed kunnen zijn op de oordeelsvaliditeit. Het is bijvoorbeeld niet duidelijk hoeveel categorieën door beoordelaars tegelijkertijd beoordeeld kunnen worden zonder dat validiteitsverlies optreedt. Het beoordelen van verschillende categorieën bij het beluisteren van een spreekprestatie vereist immers het afwegen van onderscheiden gedragsaspecten voor elke categorie afzonderlijk. Het zal duidelijk zijn dat er een limiet is aan het aantal categorieën dat zo (simultaan) kan worden beoordeeld. Wanneer deze limiet overschreden wordt, kan men verwachten dat beoordelaars de cognitieve complexiteit van de beoordelingstaak reduceren door minder onderscheid te maken tussen de categorieën dan gewenst (vgl. Tversky, 1977; Wesdorp, 1981, p. 225226). Een extremere interpretatie van spreekvaardigheidsbeoordeling in dit verband treft men aan bij Knower (1929) en Hitchman (1965) (zie ook: Wesdorp, 1981 p. 193). Zij stellen dat bij de beoordeling van spraak de delen principieel ondergeschikt zijn aan het 'geheel'. Hitchman formuleert het als volgt:
55
"A speaking performance is a complex unitary act which many assessors and most laymen will perceive as a gestalt, an unfragmented whole which is much more than the sum of its parLs." (o.c. p. 70) Ook al hebben bovenstaande experimenten enige steun gegeven voor een onderverdeling in vier waarderingsdimensies, toch zijn de correlaties tussen veel categorieën vrij hoog. Dit kan worden uitgelegd als (gedeeltelijke) steun voor bovenstaande holistische (of Gestalt-)interpretatie. Een andere mogelijkheid is dat de (hoge) correlaties het gevolg zijn van de simultane beoordelingsprocedure die de beoordelaars onvoldoende gelegenheid geeft zich op elke categorie afzonderlijk te concentreren. In dat geval zou bijvoorbeeld ook de vondst dat categorieën voor één dimensie door beoordelaars nauwelijks meettechnisch onderscheiden worden een artefact van de (simultane) bec)ordelingsprocedure kunnen zijn. OM te bepalen of er een groot verschil bestaat tussen beoordeling in een simultane .en een afzonderlijke beoordelingsprocedure is voor taak 4 een experiment uitgevoerd. De volgende vragen moesten worden beantwoord: 1. Leidt aparte beoordeling per categorie door een jury tot een hogere overeenstemming dan simultane beoordeling? 2. Geven de correlaties tussen jury-oordelen over (dezelfde) categorieën reden om te veronderstellen dat bij aparte beoordeling andere informatie over de spreekvaardigheid gegeven wordt dan bij simultane beoordeling? 3. Zijn oordelen over verschillende categorieën beter onderscheiden bij aparte dan bij simultane beoordeling? Aangezien aparte beoordeling per categorie een tijdrovende activiteit is, is besloten deze voor slechts vijf (van de tien) categorieën voor taak 4 uit te voeren. De vijf geselecteerde categorieën zijn Relevantie, Intonatie, Oriëntatie op luisteraar, Zinsbouw en Articulatie. Op deze wijze werd voor elke dimensie minstens één categorie gekozen. Drie dimensies worden dus door één categorie gerepresenteerd en één dimensie (Overdracht) wordt door twee categorieën gerepresenteerd (Intonatie en Oriëntatie op luisteraar). Drie van de vier beoordelaars voor taak 4 participeerden in het experiment. Elke categorie z- uiteraard met dezelfde schaalmarkeringen en toelichtingen (bijlage 2) - werd in één beluisteringsronde apart beoordeeld voor de veertig prestaties voor taak 4. De resultaten van het experiment zullen we hier per onderzoeksvraag weergeven. Vraag 1 Om een vergelijking te maken met de beoordelaarsovereenstcmming in de simultane beoordeling is voor elk van de vijf apart beoordeelde categorieën de gemiddelde intercorrelatie tussen beoordelaars berekend. Deze bedragen .80 (Relevantie), .65 (Intonatie) .77 (Oriëntatie op luisteraar), .63 (Zinsbouw) en .73 (Articulatie). De corresponderende intercorrelaties bij simultane beoordeling (zie tabel 5) zijn: .67, .68, .79, .63 en .64. Vergelijking van deze intercorrelaties in de twee beoordelingscondities leert dat de gevonden verschillen klein zijn en niet systematisch in dezelfde richting wijzen: sommige intercorrelaties zijn hoger in de ene, andere zijn hoger in de andere conditie. Gezien de geringe steekproefomvang kunnen we slechts concluderen dat er in ieder geval geen groot verschil bestaat in
56
Een eerste beproeving Tabel 10: Correlaties tussen de jury-oordelen over categorieën in de simultane en de aparte conditie voor taak 4 (N=.40)
Apart (3 beoordelaars) REL
INT
ORGanisatie
.77
RELevantie
.86
VERbanden INTonatie
ORI
ZIN
ART
.43
.57 .72
.33 .40
.21
. 52
.72
.40
.52
.33
.21
.45 .60
.90
.87
.64
.41
SPReektrant
.87
.92
.61
.37
ORIëntatie
.63
.84
.92
. 62
.35
Simultaan (4 beoordelaars)
.18
ZINsbouw
.61
.57 .68
.73
.74
.65 .64
.75
TEMpo
.76
.53
WOOrd keus
.63
.75
.69
.74
.68
ARTiculatie
.25
.54
.35
.52
.87
overeenstemming tussen beoordelaars in heide condities. Vraag 2 Om de tweede vraag te kunnen beantwoorden zijn correlaties berekend tussen de jury-oordelen over de categorieën in de twee beoordelingscondities. In tabel 10 zijn deze correlaties weergegeven. Voor de overzichtelijkheid zijn de categorieën, analoog aan de voorgaande tabellen, gegroepeerd naar de dimensie waarvoor ze als representant dienen. Vetgedrukt zijn de correlaties tussen categorieën voor dezelfde dimensie. De gecursiveerde getallen duiden de correlatie aan tussen de apart beoordeelde categorieën en hun simultane tegenvoeters. Als we willen weten of aparte beoordeling andere informatie over de spreekvaardigheid verschaft dan simultane, dan is de hoogte van deze gecursiveerde correlaties uiteraard relevant. De absolute hoogte zegt ons iets over de mate waarin de jury-oordelen in de twee condities hetzelfde uitdrukken. De relatieve hoogte ten opzichte van andere correlaties in dezelfde kolom zegt ons iets over de mate waarin de apart beoordeelde categorieën (factorieel) tot dezelfde dimensie behoren als hun simultane tegenvoeters. Dit is - gezien het doel van ons onderzoek (het testen van een beoordelingsschema met minimaal vier onderscheiden dimensies), onze voornaamste interesse. De correlaties tussen dezelfde categorieën uit de simultane en aparte condities (de gecursiveerde correlaties) zijn hoog tot zeer hoog te noemen. Wanneer we deze correlaties - analoog aan de correlatie-analyse in de voorafgaande experimenten - corrigeren voor de onbetrouwbaarheid van de jury-oordelen (met de juryalpha's als benadering) dan worden de meeste 1 of bijna 1. Alleen de gecorrigeerde correlatie voor de categorie Zinsbouw beoordeeld in de twee condities, is 'slechts' .88.
57
Wanneer we - kolomsgewijs - de correlaties van de apart beoordeelde categorieën met de simultaan beoordeelde categorieën onderling vergelijken, dan blijkt telkens dat de correlaties binnen dimensies de hoogste zijn (de vetgedrukte correlaties). In sommige gevallen, zoals bij Oriëntatie en Zinsbouw zijn de correlaties van de apart beoordeelde categorieën met andere categorieën voor dezelfde dimensie, zelfs even hoog als met dezelfde (simultane) categorie (de gecursiveerde correlaties). Wanneer we - rijgewijs - voor elk van de simultaan beoordeelde categorieën dezelfde vergelijking uitvoeren geldt in grote -lijnen hetzelfde. Een uitzondering vormt de categorie Woordkeus; bovendien geldt voor de drie categorieën voor Spreekgemak dat de correlaties met categorieën voor een andere dimensie soms wel erg dicht aanliggen tegen de 'binnen-dimensie' correlaties. Onze conclusie op grond van bovenstaande resultaten luidt dat er geen indicaties gevonden zijn dat de apart beoordeelde categorieën andere informatie- over de sprgkvaardigheid verschaffen dan de simultane. Vraag 3 Rest -nog de vraag of het juist is dat bij simultane beoordeling de beoordelaars minder geneigd zijn categorieën onderscheiden te beoordelen. Dit zal resulteren in hogere correlaties tussen categorieën dan bij een aparte beoordeling. Indien een simultane beoordeling inderdaad leidt tot dergelijke halo-effecten, is er aanleiding ornjte kiezen voor afzonderlijke beoordeling per categorie. Vergelijking van de correlaties tussen de categorieën in de simultane beoordeling voor taak 4 (tabel 9; boven de diagonaal) met de correlaties in tabel 10 (aparte en simultane oordelen) laat zien dat eerstgenoemden vaak hoger zijn. Een zuiverder vergelijking is echter die tussen correlaties in de simultane conditie (tabel 9) en correlaties die in de aparte conditie verkregen zijn. Teneinde na te gaan of de ene conditie leidt tot hogere intercorrelaties tussen categorieën dan de andere, is de gemiddelde intercorrelatie berekend voor de juryoordelen over de vijf categorieën in beide condities. In de simultane conditie bedraagt deze .57 en in de aparte conditie .56. Als we aannemen dat de betrouwbaarheid van de jury-oordelen in beide condities gelijk is (en daarvoor geven de hiervoor gerapporteerde resultaten wel enige grond), dan kunnen we concluderen dat de jury-oordelen in beide condities evenveel onderscheiden zijn. Dit resultaat is in overeenstemming met een conclusie die Cooper (1981, p. 233) trekt op grond van een viertal studies naar verschillen tussen simultane en afzonderlijke beoordeling in uiteenlopende situaties. In die studies werd geen verschil in hoogte van de correlaties tussen jury-oordelen gevonden. Kort samengevat komen de conclusies over het experiment erop neer dat er geen grote verschillen zijn gevonden tussen de aparte en de simultane oordelen qua homogeniteit, informatiewaarde en onderscheidenheid. De complexiteit van de beoordelingstaak bij taak 4 - het beoordelen van tien categorieën in twee luisterrondes - lijkt dus niet te groot om elke categorie afzonderlijk de aandacht te geven die nodig is. Wel moet bedacht worden dat hel statistische onderscheidingsvermogen van het hier gerapporteerde experiment tamelijk gering is. Effecten van de beoordelingscondities van een middelmatige of geringe omvang kunnen dus niet aangetoond worden. Bovendien valt te bezien of de conclusie generaliseerbaar
58
Een eerste beproeving
is naar de beoordeling van prestaties op andere taken, met name die waarvan de duur aanmerkelijk korter is dan bij taak 4 (taken 2 en 3).
4.5 Conclusies en discussie Doel van de beoordelingsexperimenten was vooral het verkrijgen van indicaties voor een efficiënt gebruik van het beoordelingsschema voor de beoordeling van prestaties op vier verschillende spreektaken. Acht á tien categorieën per taak werden beoordeeld om te achterhalen of deze categorieën goede representanten vormen voor de vier beoordelingsdimensies van het schema. Hiertoe werd geanalyseerd wat de overeenstemming tussen beoordelaars was en in hoeverre jury-oordelen over elke categorie meettechnisch onderscheiden informatie over de spreekvaardigheid geven. In een apart experiment is geanalyseerd of er een aantoonbaar verschil bestaat in de kwaliteit van oordelen in twee verschillende beoordelingscondities: een simultane beoordeling van verschillende categorieën per beluistering en een afzonderijke beoordeling per_ categorie. Aangezien de resultaten per taak statistisch gesproken op vrij weinig waarnemingen berusten (veertig beoordeelde sprekers) en daarom met de nodige voorzichtigheid gegeneraliseerd moeten worden, richten we ons bij het trekken van conclusies eerst op de meer algemene patronen die bij de beoordelingsexperimenten opgetreden zijn. We houden de drie hoofdvragen uit het onderzoek aan, te weten die naar de beoordelaarsovereenstemming, de meettechnische onderscheidbaarheid van de jury-oordelen en het effect van simultane en afzonderlijke beoordelingscondities (zie § 4.2). De overeenstemming tussen beoordelaars over de verschillende categorieën blijkt in het algemeen tamelijk hoog in vergelijking met wat in andere studies naar spreekvaardigheidsbeoordeling gevonden wordt (Wesdorp, 1981). Voor het merendeel van de categorieën zou men bij een gewenste betrouwbaarheid van het jury-oordeel van .80 kunnen volstaan met een jury van drie beoordelaars. Slechts bij enkele categorieën, met name voor beoordeling van Overdracht en Spreekgemak bij de taken 2 (ongeval) en 3 (spin) zou een grotere jury nodig zijn. Een jury van drie beoordelaars en een betrouwbaarheid van .80 lijken voor peilingsonderzoek realistische streefgetallen te zijn (vgl. Zwarts & Rijlaarsdam, 1991). De meettechnische onderscheidbaarheid van jury-oordelen over de diverse categorieën blijkt in grote lijnen gering te zijn. Voor alle vier de taken geldt dat de jury-oordelen nogal hoog correleren en in veel gevallen blijkt bij correctie voor attenuatie dat er zelfs getwijfeld moet worden of de jury-oordelen over verschillende categorieën Uberhaupt verschillende informatie verschaffen. Dit gegeven is in overeenstemming met de bevindingen uit ander onderzoek naar spreekvaardigheidsbeoordeling (Wesdorp, 1981; zie ook § 3.2.1). Ook geeft het steun aan de zogenaamde Gestalt-interpretatie van spreekvaardigheidsbeoordeling zoals bijvoorbeeld weergegeven door Hitchman (1965) en Knower (1929). Niettemin geven de resultaten enige hoop dat het mogelijk is in deze algemene Gestalt
59
geleding aan te brengen met een meerwaarde aan informatie. Bij drie van de vier taken kon aangetoond worden dat jury-oordelen over categorieën voor verschillende dimensies in ieder geval niet perfect correleren. Beoordelingscategorieën voor dezelfde dimensie echter, bleken bij deze taken zo hoog te correleren dat een perfecte correlatie in de populatie niet uitgesloten kan worden (gecorrigeerde coëfficiënt groter dan .80). De analyse van simultane en afzonderlijke beoordelingscondities geeft te zien dat er geen grote verschillen zijn in kwaliteit van de jury-oordelen. Noch qua overeenstemming, noch qua informatiewaarde en gecorrele,erdheid met andere oordelen kon een significant verschil worden gevonden tussen de gegeven oordelen in de twee condities. Ook al zijn de absolute verschillen die gevonden Zijn erg klein en niet-systematisch, en is er ook in ander onderzoek geen verschil gevonden tussen de twee condities (Cooper, 1981), toch moeten we waarschuwen voor overgeneralisatie. In ons onderzoek werd slechts een klein aantal prestaties '(40) op één taak beoordeeld. Middelmatige of kleine verschillen in nauwkeurigbeid of validiteit van de oordelen kunnen niet betrouwbaar opgespoord warden in zb een opzet. Ook kan niet uitgesloten worden dat (zelfs grote) verschillen optreten bij beoordeling van prestaties op een korter durende taak, zoals de taken 2 en 3 in ons onderzoek. Twee kwesties verdienen hier nog aparte aandacht. De eerste betreft de indicaties die we hebben gekregen over de algemene bruikbaarheid van het schema voor beoordeling van prestaties op verschillende soorten taken. De tweede kwestie is de praktische gevolgtrekking van de hier gerapporteerde bevindingen voor een grootschaliger onderzoek naar het gebruik van het beoordelingsschema. De beoordelingsexperimenten geven de indruk dat het schema voor sommige taken beter geschikt is dan voor andere. Bij de taken 1 en 4 (beide narratieve taken) is de beoordelaarsovereenstemming tamelijk hoog en blijken de geselecteerde categorieën door de jury zo beoordeeld te worden dat het onderscheid tusen de vier dimensies ook meettechnisch tot uitdrukking komt: categorieën voor dezelfde dimensie hangen.onderling sterker samen dan categorieën voor verschillende dimensies. Bij prestaties op taak 3 blijkt dit laatste in grote lijnen ook op te gaan, maar is de jury-overeenstemming over verscheidene categorieën aan de lage kant. De beoordeling van prestaties op taak 2 lijkt de meeste moeilijkheden op te roepen. Hier is de jury-overeenstemming over categorieën meestal het laagst en is er van een 'vier-dimensiepatroon' in de correlaties tussen jury-oordelen geen sprake. Er zijn verschillende verklaringen voor het feit dat prestaties op de taken 2 (ongeval) en 3 (spin) moeilijker beoordeelbaar zijn. Eerder is al gewezen op de relatief korte duur (gemiddeld ongeveer een minuut) - en daarmee samenhangende geringe hoeveelheid tekst - van prestaties op deze taken (zie § 4.4.1). Overigens kan elk van de zogenaamde taakparameters leiden tot verschillen in beoordeelbaarheid (zie § 2.2.2). Voor de taken 2 en 3 zal ik enkele van deze parameters noemen. Zowel bij taak 2 als bij taak 3 wordt het taalgebruik van de meeste leerlingen gekenmerkt door een geringe samenhang. Bij taak 2 is dit het gevolg van het
60
Een eerste beproeving
praktische karakter van het taalgebruiksdoel (het verschaffen van die informatie die nodig is om de politie ervan te overtuigen dat zij zich naar de plaats van het ongeval moet spoeden) en van het vaak voorkomen van beurtwisselingen waarin de politie om verduidelijking of aanvulling van de informatie vraagt. Deze kenmerken van de taak - in combinatie met de structuur van het onderwerp: de beschrijving van het ongeval - hebben tot gevolg dat het taalgebruik meestal opsommend is. Bij taak 3 is de gebrekkige samenhang van het taalgebruik waarschijnlijk het gevolg van de afwezigheid van voorkennis in combinatie met de complexiteit van de structuur van het onderwerp (het proces van webbouw van een spin). Dit kan ertoe leiden dat de meeste leerlingen het proces niet voor zichzelf conceptualiseren - wat een voorwaarde is voor een expressieve en vloeiende uiteenzetting - maar alleen de tekst memoriseren die ze hebben beluisterd, en deze zo goed mogelijk proberen na te zeggen. Deze tekst (zie bijlage 1) wordt ook tweemaal achtereen beluisterd, hetgeen een dergelijke taakopvatting bij dc leerlingen kan hebben aangemoedigd. Het zal duidelijk zijn dat wanneer er sprake is van een geringe tekstuele samenhang hij een groot aantal te beoordelen prestaties, dit het beoordelen van expressieve (Overdracht) en formuleringsfuncties (Spreekgemak) sterk kan bemoeilijken. In dc beoordelingsexperimenten zijn per taak relatief kleine aantallen prestaties beoordeeld om een aantal praktische keuzes te kunnen maken voor een beproeving van het schema in een grootschaliger opzet. In de eerste plaats is zo een grootschaliger toetsing van belang om meer betrouwbare informatie te krijgen over de bruikbaarheid van het schema per afzonderlijke taak. In de tweede plaats zal zo een grootschaliger onderzoek ook een betere afspiegeling zijn van de context van peilingsonderzoek: er moet gekozen worden voor een zo efficiënt mogelijke beoordelingsprocedure. Hieronder zal ik de keuzes die op grond van de resultaten van de experimenten gemaakt zijn, toelichten. Drie punten zijn van belang: het aantal beoordelaars, het aantal te beoordelen categorieën en de beoordelingscondities (simultaan of afzonderlijk). Gekozen is voor een jury-omvang van drie beoordelaars. De resultaten van de experimenten maken het aannemelijk dat voor de meeste beoordelingscategorieën dan een betrouwbaarheid van .80 haalbaar is en dat lijkt voor de meeste peilingsdoeleinden zeker voldoende. Zelfs voor analyse (voor wetenschappelijke doeleinden) van de peilingsresultaten op individueel niveau is een betrouwbaarheid van .80 voldoende. In verband hiermee is ook het aantal te beoordelen categorieën vastgesteld. Gekozen is voor de selectie van één categorie per dimensie. Weliswaar zou per dimensie wellicht een betrouwbaarder score verkregen kunnen worden door meer categorieën te laten beoordelen, maar het is de vraag wat deze betrouwbaarhaarheidswinst waard is. Gezien de twijfels die er zijn over de mogelijkheid om bij kortdurende prestaties (zoals bij de taken 2 en 3) nauwkeurig verschillende categorieën (simultaan) te beoordelen, lijkt het verstandig het aantal te beoordelen categorieën tot een miminum te beperken. Uiteraard zou men kunnen kiezen voor afzonderlijke beoordeling per categorie, maar dit is erg tijdrovend en derhalve budgettair meestal niet haalbaar. De meest efficiënte
61
procedure lijkt dus Le bestaan uit de simultane beoordeling van vier categorieën voor elke dimensie de beste, meest relevante kandidaat hij de betreffende taak. Bij taken waarvoor de prestaties gemiddeld kort duren, kan men dan een extra beluisteringsronde inlassen, zodat per beluistering niet meer dan twee categorieën beoordeeld moeten worden. In hoofdstuk 5 wordt onderzoek gerapporteerd waarin van deze procedure gebruik is gemaakt. Hierbij zijn de overige beoordelingscondities uit de experimenten overigens ongewijzigd overgenomen (beluistering van geluidsopnames, instructie en oefening van beoordelaars). De resultaten van de experimenten geven immers geen aanleiding deze Le wijzigen.
62
Hoofdstuk
5
De tieve Ileproev g v het beoordelir;ssehema; twee studies
Samenvatting Dit hoofdstuk bevat het verslag van twee studies naar het gebruik van het schema voor beoordeling van prestaties op de vier spreektaken (zie hoofdstuk 2). Het belangrijkste doel van deze studies is te bepalen of (en in hoeverre) de vier beoordelingsdimensies meettechnisch onderscheiden informatie over de spreekvaardigheid bij elke taak geven. Gebruikmakend van de inzichten die verkregen zijn in de beoordelingsexperimenten uit hoofdstuk 4, is een jury van drie beoordelaars geïnstrueerd. Deze beoordeelde vervolgens de tweehonderd prestaties uit de landelijke steekproef op de taken 1, 2 en 3 (studie 1) en de honderd prestaties uit de Amsterdamse steekproef op de taken 1 en 4 (studie 2). Per dimensie werd één categorie beoordeeld, geselecteerd uit de categorieën die in de beoordelingsexperimenten uit hoofstuk vier gebruikt zijn. Om indicaties te krijgen over de beoordelaarsstabiliteit is op kleine schaal een herbeoordeling uitgevoerd van prestaties op de taken 1, 2 en 3. De correlaties tussen de oordelen zijn geanalyseerd met behulp van LISREL, een programma voor de analyse van lineaire structurele relaties (Rireskog & Sffi-bom, 1986). Per taak is een vierfactormodel getoetst. De resultaten maken duidelijk dat het model redelijk past voor drie van de vier taken; voor taak 3 lijkt de passing minder goed. De geschatte correlaties tussen de beoordelingsdimensies per taak zijn soms tamelijk hoog, maar in alle gevallen kan gesteld worden dat de oordelen meettechnisch onderscheiden informatie over de spreekvaardigheid geven. De betrouwbaarheid en stabiliteit van de oordelen blijken in het algemeen bevredigend te zijn.
51 Vraagstellingen De twee beoordelingsstudies waren hoofdzakelijk bedoeld om duidelijkheid te krijgen over de vraag of een beoordeling van spreekprestaties op de vier dimen63
sies, meettechnisch gesproken, zinvol is. In de experimenten uit het vorige hoofdstuk is gebleken dat verschillende categorieën voor dezelfde dimensie meettechnisch niet of nauwelijks van elkaar onderscheiden werden door een jury. Jury-oordelen over categorieën van verschillende dimensies leken meestal lager te correleren, maar gezien het geringe statistische onderscheidingsvermogen in de experimenten per taak, bleef er onzekerheid over de -vraag of het onderscheid tussen de dimensies houdbaar is en hoe hoog de dimensies correleren, Door nu een veel groter aantal prestaties per taak te laten beoordelen wordt het mogelijk nauwkeuriger te schatten in hoeverre de dimensies zich per taak goed laten onderscheiden in de populatie van elf- en twaalfjarigen. Behalve door het aantal beoordeelde prestaties, onderscheiden de beoordelingsstudies zich van de experimenten uit hoofdstuk vier doordat elke dimensie slechts door één categorie wordt gerepresenteerd. Hiervoor is vooral uit effici,entie overwegingen gekozen en _ omdat uit de beoordelingsexperimenten is ,gebleken dat de beoordeling van [neer categorieën per dimensie niet meer "'informatie over de spreekvaardigheid van de leerlingen verschaft (zie § 4.5). Vooral voor de beoordeling van kort durende,prestaties (zoals bij de taken 2 en 3) dijkt het van belang zo min mogelijk categorieën simultaan te laten beoordelen. Op grond van de gevonden jury-overeenstemmingen in de experimenten is hier gekozen voor een jury van drie beoordelaars • (zie § 4.5). Naar verwachting kan hiermee per dimensie een betrouwbaarheid van .80 gerealiseerd worden, hetgeen voor de doeleinden van peilingsonderzoek voldoende geacht wordt. Als aanvulling op de betrouwbaarheidsgegevens is voor de beoordeling van veertig prestaties op de taken 1, 2 en 3 een herbeoordeling uitgevoerd, twee maanden na de eerste beoordeling. Kort samengevat komen de vraagstellingen van de beoordelingsstudies hierop neer: 1. In hoeverre zijn jury-oordelen over de vier dimensies bij elk van de onderzochte spreektaken meettechnisch onderscheiden? 2. Zijn de indicaties voor de betrouwbaarheid van de jury-oordelen (overeenstemming en stabiliteit) bevredigend voor peilingsonderzoek? ,
5.2 Opzet van de twee studies Zoals gezegd is er sprake van twee beoordelingsstudies, die identiek van opzet en vraagstelling zijn. In de eerste studie worden prestaties van leerlingen uit de landelijke steekproef voor de Voorstudie PPON (Van den Bergh, 1985) beoordeeld. Deze tweehonderd leerlingen voerden de taken 1 (verhaal navertellen), 2 (ongeval melden) en 3 (uiteenzetting spin) uit. In de tweede studie worden prestaties van leerlingen uit scholen in en rond Amsterdam beoordeeld (Van Gelderen, 1987a). Deze honderd leerlingen voerden de taken 1 (verhaal navertellen) en 4 (verhaal afmaken) uit. Voor een beschrijving van de steekproeven en de taken verwijs ik naar hoofdstuk 2. Als beoordelaar fungeerden drie van de vijf beoordelaars die aan de experimenten hadden meegewerkt (zie hoofdstuk 4); alledrie zijn vrouwen met ervaring als leerkracht in het lager onderwijs. Voor hun medewerking ontvingen ze een
64
Definitieve beproeving
honorarium. De instructie en beoordelingsprocedure waren vrijwel identiek aan die beschreven in § 4.3.4. Gezien de omvang van de beoordelingstaak zijn de volgende aanpassingen in de beoordelingsprocedure gemaakt. De lange duur van prestaties op taak 1 (gemiddeld ongeveer vier minuten) maakte het wenselijk hiervoor niet meer dan één beluisteringsronde te gebruiken. Aangezien niet meer dan vier categorieën beoordeeld moesten worden, leek dit ook voldoende voor het geven van overwogen oordelen. De prestaties op de andere taken werden - evenals bij de experimenten - tweemaal beluisterd en hier waren de beoordelaars weer vrij zelf te bepalen in welke volgorde ze de vier categorieën beoordeelden. Na de instructie kregen de beoordelaars de cassettes en de cassettedecks mee naar huis ter beoordeling van de spreekprestaties. Bij de beoordeling van de prestaties uit de Amsterdamse steekproef kregen zij de instructie deze met een standaard volume-instelling af te luisteren (zie § 2.3) Ook maakten de beoordelaars in de tweede studie gebruik van een geschreven toelichting op de categorieën voor. taak 1 en taak 4. Dit was een uittreksel uit (c.q. aanpassing van) de schriftelijke toelichting die bij de eerdere beoordeling van prestaties op taak 4 gebruikt is (bijlage 2). In de eerste studie is een dergelijke toelichting per categorie alleen mondeling gegeven bij de beoordeling van voorbeeldprestaties. De beoordeling van de 300 prestaties op taak 1 nam per beoordelaar 26 uur in beslag; de 200 prestaties op taak 2 vergden ongeveer acht uur, die op de taak 3 tien uur en de 100 prestaties op taak 4 kostten elke beoordelaar ongeveer 9.5 uur. Bij de selectie van beoordelingscategorieën is rekening gehouden met de resultaten van de beoordelingsexperimenten (hoofdstuk 4). De scoringsformulieren Tabel 11: De geselecteerde beoordelingscategorieën voor de vier taken per dimensie
Referentie
Overdracht
Spreekgemak
Verstbh.
1
Relevantie (onderscheid hoofd- en bijzaken)
Spreektrant (levendigheid)
Spreektempo (weinig hapering, beheerst, vlot)
Articulatie (scherp, helder)
taak 2
Relevantie (vermeldt voornaamste zaken)
Spreektrant (ernstigheid)
Zinsbouw (vlot)
Articulatie (scherp, helder)
taak 3
Relevantie (juiste aanvullende informatie)
Intonatie (gevarieerdheid)
Zinsbouw (vlot)
Articulatie (scherp, helder)
taak 4
Relevantie (onderscheid hoofd-en bijzaken)
Spreektrant (levendigheid)
Spreektempo (weinig hapering, beheerst, vlot)
Articulatie (scherp, helder)
taak
65
voor de beoordeling van de categorieën zijn gebruikt, zijn te vinden in bijlage 3. Daarop zijn ook de schaalmarkeringen te vinden voor elke categorie (positief, midden en negatief). In tabel 11 wordt een overzicht gegeven van de geselecteerde categorieën per. taak. Bij elke categorie wordt een omschrijving van het positieve schaaluiteinde gegeven. Men kan in tabel 11 zien dat de categorieën voor de twee verhalende taken (1 en 4) geheel identiek zijn, terwijl voor de taken 2 en 3 (met name bij de dimensies Overdracht en Spreekgemak) andere categorieën gekozen zijn. .Een en ander is het gevolg van het feit dat de beoordelingsexperimenten aanleiding gaven tot zo een aparte behandeling van de taken 2 en 3 (zie § 4.5). De geringe omvang van de teksten en het feit dat uitingen (en beurten) weinig letale samenhang vertoonden in het taalgebruik van de leerlingen, was de voornaamste reden om alleen de vlotheid van zinsbouw als criterium te nemen voor de beoordeling van Spreekgemak. Voor de beoordeling van Overdracht zal het duidelijk zijn dat de criteria in de taalgebruikssituaties die in deze laken gesimuleerd worden (het melden van een ongeval en- het uiteenzetten hoc een spin zijn web weeft) van elkaar (en van de andere taken) afwijken. Daarom wordt bij taak 2 nadruk gelegd op de passendheid (geloofwaardigheid) van de melding door het gebruik van een 'ernstige' toon, terwijl bij taak 3 de Overdracht vooral met expressiviteit van de uiteenzetting in verband wordt gebracht; criteria hiervoor zijn het gebruik van een gevarieerde intonatie en het vermijden van monotonie.
5.2.1 De modelspecificaties Het specificeren van modellen met behulp van LISREL stelt ons in staat relaties tussen zogenaamde manifeste (direct gemeten) en latente (afgeleide) variabelen te evalueren. Deze evaluatie houdt rekening met de mate waarin de scores van de beoordelaars (de manifeste variabelen) betrouwbare metingen van de dimensies in kwestie (de latente variabelen) geven (de zogenaamde correctie voor attenuatie, zie § 4.4.2). De variantie van elke latente variabele (een dimensie) wordt gedefinieerd door de gemeenschappelijke variantie van de manifeste variabelen (de scores van drie beoordelaars op de bedoelde dimensie). Het vier-factormodel voor de beoordelingen per taak is als volgt gespecificeerd. Er zijn twaalf manifeste variabelen voor de vier oordelen van elk van de drie beoordelaars per taak (4x3=12). Deze variabelen worden verklaard door zeven latente variabelen. Vier hiervan zijn de vier dimensies (Referentie, Overdracht, Spreekgemak en Verstaanbaarheid). Elke dimensie verklaart uiteraard alleen de drie oordelen die daarvoor bedoeld zijn. Drie latente variabelen zijn beoordelaarsspecifieke factoren. De veronderstelling hierbij is dat in de oordelen van elke beoordelaar niet alleen iets wordt uitgedrukt over het gedrag van de beoordeelde sprekers, maar ook over individuele kenmerken van de beoordelaar die andere beoordelaars niet hebben. De ladingen van de oordelen van een beoordelaar op haar beoordelaarsspecifieke factor zijn aan elkaar gelijk gesteld. Dit is een conceptueel heldere formalisatie van de notie van beoordelaarsspecificiteit (de
66
Definitieve beproeving Figuur 2: Het vier-factormodel voor de beoordeling van spreekprestaties op de taken 1 tot en met 4
Bco1 R I Beo 1 0 r
Beo 1
[Beo 1 S
Referentie
Beo 1 V
Beo2R
Overdracht
Beo2O Beo 2 S
Verstaanbaarheid
■
Beo 2
LlEleo 2 V
Beo 3 R ." Beo 3 0 L"' Beo 3 S 1 Beo 3 V -44. L
specificiteit geldt dan voor elk oordeel van een beoordelaar in even sterke mate). Bovendien bleek dat een model waarin deze ladingen vrij geschat worden, niet geïdentificeerd is. In figuur 2 is het model dat voor de oordelen op de vier taken getoetst wordt in zijn algemene vorm schematisch weergegeven. De correlaties tussen de vier dimensies per taak worden vrij geschat. Dit zijn uiteraard de correlaties waarin we geïnteresseerd zijn bij het bepalen van de meettechnische onderscheidbaarheid. Er zijn (uiteraard) geen correlaties toegelaten tussen de beoordelaarsspecifieke factoren onderling en met de andere latente variabelen.
5.3 Resultaten
Hieronder zullen we eerst ingaan op de modeltoetsing per taak in de twee studies. Vervolgens behandelen we de gegevens die betrekking hebben op de betrouwbaarheid van de oordelen. Tenslotte geven we weer wat de gevonden correlaties zijn tussen de factoren in elk van de getoetste modellen.
67
5.3.1 De modeltoetsing De analyses zijn uitgevoerd met de methode van de 'maximum likelihood'schattingen. Het voordeel van deze methode is dat hiermee schattingen van de standaardfouten van de parameters verkregen worden, zodat de populatiewaarden (voor met name de. correlaties tussen factoren) beter geëvalueerd kunnen worden. Een aanname bij het gebruik van de methode is dat de geanalyseerde variabelen multivariaat-normaal verdeeld zijn. Het is niet waarschijnlijk dat de oordelen in de populatie van sprekers multivariaat-normaal verdeeld zijn (Van Gelderen, I987a), maar de methode is redelijk bestand tegen afwijkingen (16reskog & ,R5rborn, 1986). De resultaten van de modeltoetsingen zijn weergegeven in tabel 12. Om een indruk te krijgen van de mate waarin de gevonden correlaties tussen de oordelen per taak passen bij het gepostuleerde model kan men enkele vuistregels hanteren op de indices in tabel 12. Een veel gebruikte regel is dat de passing redelijk te noemen is wanneer de ratio Chi,kwadraat/df niet groter dan twee is. In tabel 12 blijkt dit alleen voor de taken I en 4 in de Amsterdamse steekproef te ;gelden. In de landelijke steekproef blijkt de ratio voor de taken 1 en 2 iets groter dan twee te zijn en voor taak 3 is zij-zelfs ruim 3.5. Het verschil in passing van het model tussen de twee studies is overigens niet erg betekenisvol, gezien het verschil in steekproefgrootte. Het zal duidelijk zijn dat het statistisch onderscheidingsvermogen bij de grotere steekproef van studie 1 beter is, zodat kleinere verschillen tussen geobserveerde en geprediceerde correlaties significant zijn. Ook een andere vuistregel (goodnes of fit (gofi) minimaal .90) geeft aan dat het model bij taak 3 slechter past dan bij de andere taken. Inspectie van de matrix met residuele varianties voor de vier taken gaf aan dat bij taak 3 ook hogere residuen aanwezig zijn (RMSR=.08, tegen .05 in de andere modeltoetsingen). Omdat in het model al voorzien is in beoordelaarsspecifieke factoren en omdat ad hoc aanpassingen in het model theoretisch zinloos en praktisch van twijfelachtige betekenis zijn, is besloten het bij dit model te laten. Bij de andere taken gaf inspectie van -
Tabel 12: Indicaties voor de passing van het vier-factormodel in de twee studies (de landelijke, N=200 en de Amsterdamse, N=100; df=45) a
Chi-kw.
Chi-kw./ df
p-waarde
gofi
190 195 194
109.00 107.85 158.95
2.42 2.40 3.53
.000 .000 .000
.92 .92 .89
99 96
64.90 57.83
1.44 1.29
.028 .095
.92 .91
Taak
N
Studie 1 1. (verhaal navertellen) 2. (ongeval melden) 3. (spin) Studie 2
1. (verhaal navertellen) 4. (verhaal afmaken) a)
De ontbrekende aantallen uit de steekproef van 20( (studie 1) respectievelijk 100 (studie 2) zijn het gevolg van mislukte geluidsopnames of van ontbrekende scores bij één of meer beoordelingscategorieën.
68
Definitieve beproeving
de residuen geen aanleiding om model-specificaties te veranderen. De geringere passing hij taak 3 impliceert dat we de parameterschattingen uit deze toetsing voorzichtig moeten interpreteren. Voor de andere toetsingen luidt onze conclusie dat de passing zeker niet slecht te noemen is, zodat we de parameterschattingen uit deze modellen met enig vertrouwen kunnen interpreteren.
5.3.2 Betrouwbaarheid van de oordelen In bijlage 5 zijn de ladingen van de beoordelaars op de dimensies in de vijf getoetste modellen weergegeven. Kwadratering van deze ladingen geeft de betrouwbaarheid voor elke individuele beoordelaar per dimensie. Met behulp van de zogenaamde Spearman-Brown formule voor testverlenging (Nunnally, 1967, p. 193) kan men hieruit de betrouwbaarheid van het jury-oordeel van drie beoordelaars berekenen. Door de betrouwbaarheden per taak te middelen en de formule toe te passen, is de gemiddelde betrouwbaarheid van de jury-oordelen berekend. Voor de taken 1 en 4 bedraagt deze .87, voor taak 2 .78 en voor taak 3 .79. Uitgaande van het streefgetal van .80 voor peilingsdoeleinden (zie § 4.5) is dit een bevredigend resultaat. Twee maanden na de beoordeling van de prestaties op de taken 1, 2 en 3 uit de landelijke steekproef is een herbeoordeling uitgevoerd op veertig, aselect uit het bestand getrokken prestaties per taak. De herbeoordeling werd voorafgegaan door een verkorte versie van de instructie en trainingsprocedure die de beoordelaars in eerste instantie hadden doorlopen (§ 5.2). De correlaties van deze oordelen met de Tabel 13: Stabiliteit van de beoordelingen; correlaties tussen de eerste en de tweede beoordeling per beoordelaar (131-113), taak en dimensie, N=40
Dimensie
Referentie Overdracht Spreekgemak Verstaanbaarheid
B1
Taak 1 B2
B3
BI
Taak 2 B2
133
B1
Taak 3 B2
B3
.82 .82 .71 .80
.91 .90 .86 .73
.90 .87 .79 .59
.83 .62 .69 .80
.86 .72 .85 .88
.89 .75 .79 .86
.85 .67 .86 .83
.79 .88 .76 .83
.82 .70 .86 .77
eerder gegeven oordelen voor elke beoordelaar geven een indruk van haar stabiliteit. In tabel 13 staan deze correlaties (p.m.c.) per beoordelaar, dimensie en taak. Uit tabel 13 blijkt dat de stabiliteit van de beoordelaars in het algemeen vrij hoog is. De beoordelaars ontlopen elkaar ook weinig qua stabiliteit. De verschillen tussen de correlaties moeten met voorzichtigheid geïnterpreteerd worden vanwege het relatief geringe aantal waarnemingen waarop zij gebaseerd zijn. Ter illustratie: een gevonden correlatie van .80 bij een n=40, betekent dat de populatiewaarde van de correlatie (met een waarschijnlijkheid van 95%) tussen de .65 en de .93 ligt.
69
Tabel 14: In het model geschatte correlaties tussen beoordeelde dimensies in de spreekprestaties en schattingen van de percentages beoordelaarsspecifleke variantie per taak; tussen haakjes: de standaardfouten; landelijke steekproef (N=200)
Referentie
Overdracht
Spreekgemak
T a
Ref
1
a
Ove
.78(.04)
1
Spr
.69(.05)
.83(.03)
1
Ver
.51(.06)
.66(.05)
.65(.05)
T
Ref
1
a a
Ove
.66(.05)
1
Spr
.78(.04)
.86(.04)
1
Ver
31(.08)
.55(.07)
.61(.06)
Reff
1
Ove
.57(.06)
1
Spr
.85(.03)
.76(.05)
1
Ver
.45(.07)
.72(.05)
.73(.05)
Verstaanbaarheid
Bcol: 6.4
k
Beo2: 7.6
1
Beo3: 1.1 1
Beol:
k
Bco3:
a a
6.8
Beo2: 13.2
2
T
Beoordelaarsspecificiteita
1.4
1
Beol: 19.6
k
Beo2: 15.9 Beo3:
3
0
a) uitgedrukt in variantiepercentages van de scores van een beoordelaar
Gezien de hoogte van de correlaties in tabel 13 en de vrij lange tijd die tussen de twee beoordelingen lag, is de stabiliteit van de beoordeling zeer bevredigend te noemen. Kennelijk is de wijze waarop de beoordelaars de criteria voor de vier dimensies toepassen, weinig aan verandering onderhevig.
5.3.3 De correlaties tussen de factoren Om te bepalen in hoeverre de vier dimensies psychometrisch onderscheiden zijn bij de beoordeling in de twee steekproeven, worden de geschatte correlaties tussen de dimensies in de vijf analyses gepresenteerd. In tabel 14 staan deze correlaties voor de beoordelingen in de landelijke steekproef (studie 1). In tabel 15 staan ze voor de beoordelingen in de Amsterdamse steekproef (studie 2). In deze tabellen worden tevens de volgens het model geschatte beoordelaarsspecificiteiten gegeven. De eveneens in de tabellen gegeven standaardfouten voor elke geschatte correlatie stellen ons in staat de intervallen waarin de populatiewaarden liggen, met een bepaalde waarschijnlijkheid te bepalen. Bij een 95% betrouwbaarheidsinterval worden de standaardfouten met twee vermenigvuldigd en van de gevonden
70
Definitieve beproeving Tabel 15: In het model geschatte correlaties tussen beoordeelde dimensies in de spreekprestaties en schattingen van de percentages beoordelaarsspecifieke variantie per taak; tussen haakjes: de standaardfouten; Amsterdamse steekproef (N=100)
Referentie
Overdracht
Spreekgemak
Verstaanbaarheid
T
Ref
1
Ove
.66(.07)
1
Spr
.60(.07)
.75(.05)
1
Ver
.38(10)
.31(.10)
.47(.09)
Ref
1
Ove
.63(.08)
1
Spr
.46(.09)
.74(.06)
1
Ver
.25(.11)
.41(.10)
.46(.09)
a
a
Beo2: 0
1
Beo3: 1.7 1
a a
specificiteita
Beol: 5.2
k
T
Beoordelaars-
Beol: 3.0
k 4
Beo2:
4.6
Beo3:
2.8
1
a) zie bij tabel 13
correlatie afgetrokken en erbij opgeteld. Zodoende blijkt dat bij géén van de correlaties in tabel 14 en 15 de waarde 1 in het interval ligt. We kunnen dus concluderen dat de vier dimensies voor elke taak een meettechnisch onderscheiden betekenis hebben, ook al bestaan er soms hoge correlaties tussen de jury-oordelen. De hoogste correlatie blijkt in alle analyses op één na, die tussen Overdracht en Spreekgemak te zijn. De geschatte correlaties variëren van .74 (taak 4) tot .86 (taak 2). De laagste correlatie blijkt in alle analyses op één na, die tussen Referentie en Verstaanbaarheid te zijn. Deze geschatte correlaties variëren van .25 (taak 4) tot .51 (taak 1). De correlatiepatronen variëren overigens nogal van taak tot taak. Dimensies die relatief hoog correleren in een taak doen dat soms niet in een andere. Als we echter de correlatiepatronen voor de taken 1 en 4 (beide verhalend) met elkaar vergelijken dan is er een opmerkelijke overeenkomst, zowel in absolute hoogte (in de Amsterdamse steekproef) als in relatieve hoogte (beide steekproeven). Als we de resultaten voor taak 1 in de twee steekproeven met elkaar vergelijken dan worden de correlaties in de Amsterdamse steekproef in het algemeen lager geschat. Ook de correlaties tussen de dimensies bij taak 4 in de Amsterdamse steekproef lijken wat lager dan de rest. Eén en ander kan een indicatie zijn voor een verschil in homogeniteit van de steekproeven; de Amsterdamse steekproef kan qua spreekvaardigheid homogener zijn dan de landelijke. Aangezien de schalen waarop de prestaties beoordeeld zijn geen geijkte meetpunten bevatten, maar alleen een relatieve ordening per steekproef geven, zeggen de varianties van de jury-oordelen ons weinig over dergelijke verschillen in homogeniteit. 71
De beoordelaarsspecificiteiten in de tabellen 14 en 15 variëren ook nogal van taak tot taak en van beoordelaar tot beoordelaar. In grote lijnen zijn ze bij de taken 1 en 4 niet hoog te noemen (0 tot 7.6% van de variantie van de oordelen); bij de taken 2 en (vooral) 3 zijn deze specificiteiten zeker niet verwaarloosbaar, met percentages tot bijna 20. Dit vormt een indicatie dat beoordelaars bij deze taken tot op zekere hoogte idiosyncratisch te werk gaan. Zoals al opgemerkt kunnen deze specificiteiten het gevolg zijn van de korte duur van de prestaties op deze taken of van diverse taakinhoudelijke kenmerken die de beoordeling bemoeilijken (zie § 4.5).
5,4 Conclusies De twee beoordelingsstudies die in dit hoofdstuk gerapporteerd zijn, waren vooral bedoeld om meer zekerheid te krijgen over de meeuechnische onderscheidbaarheid van de vier dimensies van spraakwaardering. De experimenten die in tiet vorige hoofdstuk gerapporteerd zijn, lieten zien dat categorieën voor dezelfde dimensie niet of nauwelijks onderscheiden zijn in het jury-oordeel, ook alerichten die categorieën de aandacht op verschillende criteria voor beoordeling van die dimensie. Categorieën voor verschillende dimensies bleken echter ook soms erg hoog met elkaar te correleren en in één taak (taak 2) zelfs niet onderscheiden te worden in het jury-oordeel. Gezien het geringe aantal waarnemingen in de experimenten (n=40) was het nodig de onderscheidbaarheid van de dimensies in grotere steekproeven te onderzoeken. In twee steekproeven, één van 200 (studie 1) en één van 100 (studie 2) zijn prestaties op vier taken beoordeeld door een jury van drie beoordelaars. Voor elke taak was per dimensie één beoordelingscategorie geselecteerd op basis van de resultaten van de beoordelingsexperimenten. Per beluistering werden twee (taken 2, 3 en 4) of vier (taak 1) categorieën simultaan beoordeeld. Met behulp van LISREL is een vier-factormodel getoetst voor de correlaties Lussen de oordelen per taak. De vier factoren corresponderen met de vier dimensies van het beoordelingsschema. De correlaties tussen deze dimensies zijn in dit model (per taak) geschat. Bovendien zijn de betrouwbaarheden van de oordelen bepaald. Het vier-factormodel blijkt voor drie van de vier taken redelijk te passen. Alleen bij taak 3 (uitleggen hoe een spin zijn web weeft) is er een zekere frictie tussen de geobserveerde en voorspelde correlaties. De resultaten van de uitgevoerde modeltoetsingen laten zien dat er geen reden is om te twijfelen aan de onderscheidbaarheid van de vier dimensies in de juryoordelen op de vier onderzochte spreektaken. Voor alle taken kan, uitgaande van een 95% betrouwbaarheidsinterval, uitgesloten worden dat oordelen over de dimensies in de populatie perfect correleren. Aangezien de standaardfouten voor de geschatte correlaties meestal niet groot zijn, is het mogelijk vrij nauwkeurige schattingen te geven van de populatiewaarden van de correlaties tussen oordelen over de vier dimensies. De correlaties tussen Overdracht en Spreekgemak blijken in het algemeen het hoogst te zijn (.74 - .86, afhankelijk van de mak), die tussen Referentie en Verstaanbaarheid het laagst (.25 - .51, afhankelijk van de taak). -
72
Definitieve beproeving
Indicaties voor de betrouwbaarheid van de oordelen komen in dit onderzoek uit diverse bronnen. In de eerste plaats zijn de betrouwbaarheden van de individuele beoordelaars in de modeltoetsingen bepaald. Hieruit blijkt dat een betrouwbaarheid van ongeveer .80 voor de jury-oordelen bij alle taken gerealiseerd wordt. In de tweede plaats zijn in de modellen indicaties verkregen voor beoordelaarsspecificiteit. Bij taak 2 (maximaal 13%) en bij taak 3 (maximaal bijna 20% van de variantie) is deze specificiteit van de oordelen van een individuele beoordelaar niet te verwaarlozen. Dit is een aanwijzing dat bij deze taken de oordelen deels een idiosyncratische betekenis hebben. De reeds aangeduide moeilijkheden voor de beoordeling van prestaties op de taken 2 en 3 (zie § 4.5) zijn hiervoor de belangrijkste verklaringsmogelijkheden. Tenslotte is op kleine schaal (40 prestaties) een herbeoordeling uitgevoerd bij drie taken. De correlaties tussen de eerste beoordeling en de tweede (na twee maanden) vormen een indicatie voor de stabiliteit van de oordelen. Deze correlaties blijken voldoende hoog om er vertrouwen in te hebben _dat de criteria voor de beoordeling van de vier dimensies weinig aan verandering onderhevig zijn.
73
74
Hoofdstuk
envattende conclusies
In 'deel twee is verslag gedaan van enkele kleinschalige experimenten en grootschalige studies die ten doel hadden een beoordelingsschema te ontwikkelen voor een betrouwbare, valide en efficiënte evaluatie van spreekvaardigheid van leerlingen aan het eind van de basisschool, ten behoeve van peilingsonderzoek. Zoals in hoofdstuk 1 uiteengezet, is zulk peilingsonderzoek bedoeld om informatie te verschaffen aan diverse groepen belanghebbenden, waaronder de overheid, de onderwijsgevenden, onderzoekers en het grote publiek. Er worden dus hoge eisen gesteld aan de gedifferentieerde bruikbaarheid van de resultaten van de evaluatie. Zowel op landelijk niveau (beleidsindicaties), als op het niveau van de scholen (didactiek) en zelfs op individueel niveau (wetenschappelijke analyses) moeten de resultaten interpreteerbaar zijn. Daarom is veel nadruk gelegd op het efficiëntieaspect van het evaluatie-instrument: het verkrijgen van een maximum aan (betrouwbare en valide) informatie over de spreekvaardigheid met een minimum aan inspanning. De ontwikkeling van het beoordelingsschema is samen te vatten in drie stappen. Hieronder worden deze stappen uiteengezet. De eerste stap is de theoretische onderbouwing van het schema (hoofdstuk 3). Er is een definitie gegeven van het begrip 'communicatieve effectiviteit' als overkoepelend beoordelingscriterium. Hierbij is ervan uitgegaan dat beoordelaars in staat zijn zich op te stellen als 'ideale' luisteraars en zodoende een waardering kunnen geven van de geslaagdheid van de communicatieve functies die een spreker vervult. Deze functies zijn vervolgens onderverdeeld in vier hoofdgroepen ('dimensies'). Hier is gebruik gemaakt van de theorie van Miller (1934, 1982) en van een overzicht van een groot aantal empirische studies naar analytische schema's voor spreekvaardigheidsbeoordeling (Wesdorp, 1981). De vier dimensies geven aan welke inhoudelijk onderscheiden informatie het schema (minimaal) moet verschaffen over de spreekvaardigheid. De dimensies zijn de volgende: 1. Referentie verwijst naar de representationele functies van de spraak. 2. Overdracht verwijst naar het gebruik van bij de situatie passende middelen voor expressie en appèl.
75
3. Spreekgemak verwijst naar de spraaktechnische functies voor behoud van continuïteit qua tempo en formulering. 4. Verstaanbaarheid verwijst naar dc decodeerbaarheid van de uitingen. De tweede stap bestaat uit de afleiding van taakspecifieke beoordelingscategorieën voor elk van de vier dimensies (zie § 3.3). Deze stap is noodzakelijk omdat de wijze van realisatie van de (deel)functies die onder een dimensie vallen - zoals het geven van belangrijke informatie bij Referentie, of een geloofwaardig indruk maken bij Overdracht - van situatie tot situatie varieert. Middelen die in dc ene situatie zeer geschikt zijn voor een adequate Referentie, zoals het geven van definities in een formele voordracht voor een publiek, zijn dat in een andere situatie vaak niet, zoals in een meningswisseling met klasgenoten. Een bcoordelingsschema moet dus categorieën bevatten die zo concreet mogelijk toegespitst zijn op de spreeksituatie en de gelegenheid die deze biedt om effectief te communiceren. De categorieën moeten specificeren welke (deel)functies van een dimensie als criterium voor evaluatie. fungeren en welke gedragsaspecten daarbij van belang zijn. Om de selectie van taakspecifieke categorieën te vergemakkelijken is een overzicht gemaakt van de belangrijkste criteria en bijbehorende aspecten per dimensie (§ 3.3). Dit maakt het mogelijk om voor elke laalgebruikssituatie:waarvoor leerlingen geplaatst worden, de meest relevante categorieën te selecteren. De relevante gedragsaspecten zijn onderverdeeld in drie groepen: linguïstische, fonetische en non-verbale. Linguïstische aspecten worden beoordeeld bij ,categorieën voor alle vier de dimensies; fonetische aspecten zijn alleen bij categorieën voor Referentie niet relevant en non-verbale aspecten zijn alleen bij Overdracht relevant. De derde stap bestaat uit de empirische beproeving van het schema door prestaties op verschillende taken te laten beoordelen door (geoefende) jury's. Worden categorieën door beoordelaars op een zodanige wijze beoordeeld, dat zij meettechnisch gesproken een onderscheiden betekenis hebben? Blijken de beoordelaars voldoende overeen te stemmen in hun oordelen over elke afzonderlijke. categorie? Hoe stabiel zijn de beoordelaars in hun oordelen? In hoeverre verschillen de resultaten van taak tot taak? Hoeveel categorieën kunnen in één beluistering beoordeeld worden zonder verlies aan betrouwbaarheid en validiteit? Dit zijn de belangrijkste vragen die in het empirische deel (hoofdstuk 4 en 5) beantwoord moesten worden. Eerst zijn in enkele kleinschalige experimenten indicaties gezocht voor een zo efficiënt mogelijke beoordelingsprocedure (hoofdstuk 4). Daarna is op grond van de resultaten van deze experimenten een grootschaliger beproeving verricht, waarbij prestaties van tweehonderd (studie 1) en honderd (studie 2) leerlingen eind basisschool op in totaal vier spreektaken zijn beoordeeld door drie beoordelaars. De spreektaken zijn zogenaamde geïntegreerde taken, wat wil zeggen dat gestreefd is naar een simulatie van realistische communicatieve situaties. Beoordeling vond plaats vanaf geluidscassettes. De resultaten, samengevat over de experimenten en de definitieve beproeving van het -beoordelingsschema, komen op het volgende neer. Betrouwbaarheid van de jury-oordelen over de categorieën is in grote lijnen bevredigend voor diverse peilingsdoelen. Bij een jury van drie geoefende en geïnstrueerde beoordelaars is een betrouwbaarheid van .80 van het jury-oordeel realiseerbaar. Ook blijken de
76
Samenvallende conclusies
oordelen, bij een herbeoordeling na twee maanden, voldoende stabiel te zijn. De correlaties tussen jury-oordelen over de categorieën blijken in het algemeen tamelijk hoog te zijn; het meettechnische onderscheid tussen de categorieën is derhalve tamelijk gering. Bij toetsing van een vier-factormodel voor de oordelen per taak blijkt echter dat categorieën, geselecteerd als representant van één van de dimensies in de populatie zeker niet perfect correleren. Voor drie van de vier taken beschrijft het vier-factormodel de beoordelingsdata redelijk. Voor één taak (uitleggen hoe een spin zijn web weeft) is de passing van het model minder overtuigend. Een experiment om de invloed van simultane en afzonderlijke beoordeling van categorieën op de kwaliteit van de oordelen te vergelijken, geeft geen indicaties voor een verlies aan betrouwbaarheid en validiteit bij een simultane beoordeling van vijf categorieën hij prestaties met een gemiddelde duur van bijna twee minuten. Uit deze resultaten is de conclusie getrokken dat de evaluatie van spreekvaardigheid met een onderscheid tussen de vier dimensies realiseerbaar is. Onderscheid binnen dimensies blijkt met de gebruikte beoordelingscategorieën meettechnisch nauwelijks betekenisvol. Derhalve is het voldoende per dimensie één categorie te selecteren, die in de betreffende taalgebruikssituatie de criteria en de te beoordelen aspecten goed typeert. Wat de beoordelingsprocedure betreft lijkt niets een simultane beoordeling van verschillende categorieën per beluistering in de weg te staan. Het is evenwel verstandig het aantal simultaan te beoordelen categorieën zo beperkt mogelijk te houden met het oog op de cognitieve belasting van de beoordelaars en de moeilijkheden die kunnen optreden bij prestaties van korte duur. De conclusies over de bruikbaarheid van het beoordelingsschema voor prestaties in verschillende soorten (gesimuleerde) taalgebruikssituaties zijn in het algemeen positief, ook al zijn er enkele indicaties dat het schema niet bij elke taak even goed past. In enkele verhalende situaties (taken 1 en 4), waarin een spreker gedurende enige tijd aan het woord blijft, is het schema goed bruikbaar gebleken. Prestaties op twee taken (het melden van een ongeval en uitleggen hoe een spin zijn web weeft; taken 2 en 3) blijken wat minder betrouwbaar beoordeelbaar; de oordelen bevatten soms niet-verwaarloosbare variantieproporties die specifiek voor de beoordelaar in plaats van de beoordeelde prestaties zijn. Ook het feit dat de oordelen bij taak 3 minder goed passen in het vier-factor model, is te zien als een indicatie voor beoordelingsproblemen. Als verklaringsgronden hiervoor zijn de korte duur van de prestaties en de geringe samenhang van hei taalgebruik van de meeste leerlingen aan te wijzen (zie § 4.5). Vermoedelijk zijn het vooral de dimensies Overdracht en Spreekgemak die hierdoor moeilijk te beoordelen zijn. Meer in hei algemeen kan over de toepasbaarheid van hei schema voor diverse soorten taken hel volgende opgemerkt worden. In principe is het schema bedoeld om het gedrag van individuele sprekers te beoordelen op communicatieve effectiviteit. Dit is alleen mogelijk in situaties waarin sprekers binnen hun beurt een of ander (bij de beoordelaars bekend) communicatief doel nastreven en de
77
gelegenheid krijgen deze beurt ook af te maken. In situaties waarin snelle beurtwisselingen en/of onverwachte veranderingen van doel plaatsvinden, of waarin het doel vooral cooperatief van aard is, zal het schema in zijn huidige vorm niet voldoen. Zolang de beurtwisseling in de taakomschrijving enigermate gereglementeerd is, zal het schema vermoedelijk ook in dialogen en polylogen brbikbaar zijn, zolang men alleen de individuele spreker beoordeelt. Overigens zal voor elke taak waarop het schema wordt toegepast een aparte beproeving van categorieën noodzakelijk zijn; op een andere manier zal geen zekerheid verkregen kunnen worden over de relevantie van elke dimensie in de specifieke taalgebruikssituatie. De resultaten van deze beproeving hebben laten zien dat aan de meeste eisen (§ 1.3) in grote lijnen voldaan kan worden. Beoordelaars stemmen met elkaar voldoende overeen in hun oordelen en zijn voldoende stabiel; de beoordelingscategorieën zijn gebaseerd op relevante criteria voor communicatieve effectiviteit en hebben meettechnisch onderscheidbare informatiewaarde voor de evaluatie van spreekvaardigheid; het schema blijkt bruikbaar voor de beoordeling van prestaties op verschillende soorten taken en is tamelijk efficiënt in gebruik. Er is echter een eis die tot nu toe niet voldoende uit de verf is gekomen. Benadrukt is dat het schema het mogelijk moet maken zo gedifferentieerd mogelijke informatie te krijgen over de spreekvaardigheid. Zulke informatie is immers voor de diverse gebruikers van peilingsonderzoek van meer waarde dan globale waarderingen van 'het' niveau van spreekvaardigheid. Wat echter de precieze, inhoudelijke informatiewaarde is van oordelen over Referentie, Overdracht, Spreekgemak en Verstaanbaarheid is tot nu toe alleen per definitie vastgesteld. Of jury-oordelen over deze dimensies ook de in de definitie genoemde gedragsaspecten betreffen, en wat zij daar precies over zeggen, is nog niet onderzocht. De soms hoge correlaties tussen dimensies die gevonden zijn - met name voor de dimensies Overdracht en Spreekgemak - kunnen een indicatie zijn voor beoordelingsproblemen die tot gevolg hebben dat de oordelen een overlap in betekenis hebben. Aangezien de reden van een beoordeling op vier dimensies - in plaats van één globaal oordeel over alle dimensies tegelijk - juist haar informatieve en diagnostische meerwaarde is, is de precieze betekenis van jury-oordelen op elk van de vier dimensies van uitzonderlijk belang. Wat zeggen oordelen over Overdracht ons over de spreekvaardigheid,- wat andere oordelen ons niet zeggen; hoe zit dat met de oordelen over de andere dimensies? .Dat zijn de vragen die in het volgende deel behandeld worden.
78
Deel 1.1I
Oordeelsvaliditeit
79
80
Hoofdstuk
7
De redenen voor predictieve validering
Samenvatting Deel twee bevatte een verantwoording van een schema voor de beoordeling van spreekprestaties bestaande uit vier zogenaamde dimensies, te weten Referentie, Overdracht, Spreekgemak en Verstaanbaarheid, Toepassing van de beoordelingsdimensies bij verschillende spreektaken vereiste dat per taak elke dimensie "vertaald" werd naar de voornaamste functies die de sprekers geacht worden te vervullen. Deel drie doet verslag van empirisch onderzoek naar de relaties tussen enerzijds de gegeven jury-oordelen over de beoordelingsdimensies en anderzijds de gedragsaspecten uit de definitie van de dimensies. Doel van dit onderzoek is te bepalen of oordelen over de vier dimensies de bedoelde differentiële en concrete informatie over de spreekvaardigheid geven. In dit hoofdstuk worden de redenen uiteengezet voor een dergelijke "predictie" van de beoordelingsdimensies. Er wordt ingegaan op de gebrekkige theoretische kennis over de relatie tussen communicatieve functies en concrete gedragsaspecten in diverse spreeksituaties. Daarnaast wordt gewezen op de invloed van beoordelingsproblemen waardoor de validiteit van oordelen bedreigd kan worden. Beide omstandigheden maken het wenselijk meer duidelijkheid te krijgen over de precieze informatiewaarde van de jury-oordelen in termen van de beoordeelde gedragsaspecten. Tot slot worden de vraagstellingen van het onderzoek geformuleerd.
7.1 Inleiding
In deel twee is besproken op welke wijze het beoordelingsschema voor spreekprestaties ontwikkeld is en welke empirische evidentie er is gevonden voor de vier beoordelingsdimensies, te weten Referentie, Overdracht, Spreekgemak en Verstaanbaarheid. Deze evidentie bestond uit de samenhang van oordelen van een jury over diverse categorieën die - van taak tot taak variërende - criteria voor de dimensies specificeren. Bij elke categorie werden niet alleen de criteria voor beoordeling gespecificeerd, maar ook de gedragsaspecten waarop die criteria
81
toegepast moesten worden. Op grond van de correlaties tussen jury-oordelen kon geconcludeerd worden dat de vier dimensies door de beoordelaars onderscheiden zijn. Ook bleek dat de oordelen over verschillende dimensies soms sterk correleerden. In onderzoek naar de validiteit van oordelen wordt vaak volstaan met het aantonen van de meettechnische onderscheidbaarheid van de gehanteerde oordeelscategorieën. Indien dit criterium in bevredigende mate is bereikt (wat minimaal betekent dat de categorieën niet perfect correleren), dan worden de - vaak hoge intercorrelaties voor lief genomen. Men gaat er dan stilzwijgend vanuit dat de beoordelaars precies dat beoordeeld hebben wat hen opgedragen is, dat ze hierbij geen tegenstrijdigheden moesten oplossen en dat hoge intercorrelaties het gevolg zijn van de gecorreleerdheid van de beoordeelde aspecten zelf. In dit onderzoek is getracht meer zekerheid te krijgen over de informatiewaarde van de gegeven jury-oordelen door na te gaan in hoeverre zij geprediceerd kunnen worden door de beoordeelde aspecten. Het principe van deze aanpak is identiek met wat - meer in het algemeen - bekend is als de predictieve validering van meetinstrumenten. "Hoe beter'cle voorspeller de variaties van het criterium blijkt te voorspellen, des te hoger is de predictieve validiteit. De correlatie tussen voorspeller en criterium is dus van beslissende betekenis en kan dienen als een operationele definitie van predictieve validiteit." (De Groot, 1972, p. 265, accentuering van de auteur) In dit onderzoek zullen de jury-oordelen over de vier dimensies de rol van criterium vervullen en gemeten gedragsaspecten die van voorspellers. Op deze wijze wordt bepaald in welke mate het oordeel over elke dimensie voorspeld kan worden door de bedoelde aspecten (de convergente predictie) en tevens of deze aspecten dat oordeel beter voorspellen dan andere oordelen (de divergente predictie). Beide soorten informatie - de con- en de divergente - zijn van belang om te kunnen vaststellen in hoeverre de beoordeling van de vier dimensies zinvol is voor de evaluatie van spreekvaardigheid. Hieronder zullen we ingaan op de redenen voor een gedetailleerde predictie van de jury-oordelen. Uiteengezet zal worden waarom getwijfeld kan worden aan de precieze betekenis van deze oordelen en hoe deze twijfel opgeheven kan worden door een analyse van de beoordeelde gedragsaspecten.
7.2 De relatie tussen communicatieve functies en gedragsaspecten Voor de beoordeling van de dimensies in verschillende spreeksituaties was het noodzakelijk per situatie specifieke criteria te formuleren die voor elke dimensie relevant geacht werden. Dit had tot gevolg dat de beoordelingscategorieën voor een dimensie van taak tot taak verschillend geformuleerd waren. Getracht is dus bijvoorbeeld de referentiële functies die sprekers geacht worden te vervullen bij het melden van een ongeval aan de politie (taak 2) te onderscheiden van de
82
De redenen voor predictieve validering
referentiële functies die relevant zijn bij het geven van een uiteenzetting aan een klasgenoot over de wijze waarop een spin zijn web weeft (taak 3). Ook functies die onder de dimensies Overdracht en Spreekgemak vallen, zijn taakspecifiek geformuleerd om de beoordelaars zo concreet mogelijke criteria voor de beoordeling te verschaffen. Om die reden zijn ook de beoordeelde gedragsaspecten bij verschillende taken niet dezelfde. Deze operationalisering van de vier dimensies om beoordeling van sprekers in verschillende taken mogelijk te maken is niet zonder gevaren. Taakspecifieke definities van de te realiseren communicatieve functies en de daarbij horende linguïstische en fonetische middelen die sprekers kunnen gebruiken, stellen hoge eisen aan onze kennis over de relatie tussen beiden. Of de beoordeelde sprekers in de betreffende situaties inderdaad de bedoelde middelen gebruiken om die functies te realiseren, is een empirische vraag, waarover op voorhand - dat wil zeggen: bij de instructie van de beoordelaars - geen zekere informatie beschikbaar was. Onderzoek naar fonetische en linguïstische kenmerken van spraak toont vaak aan dat zowel gebruik als functie afhankelijk zijn van situationele determinanten en individuele verschillen (bijvoorbeeld in vaardigheid of leeftijd) tussen groepen sprekers. Bijvoorbeeld de frequentie en functie van specifieke soorten pauzes en soorten zelfcorrecties kunnen verschillen al naar gelang de mate van betrokkenheid ("involvement") tussen spreker en luisteraar (Redeker, 1986), de mate waarin sprekers vrij en spontaan uitingen genereren (Butcher, 1981; Boves, 1986), de mate waarin de spreker uit zijn geheugen moet putten om de inhoud van zijn uitingen te structureren (Levelt, 1983) en de leeftijd (c.q. vaardigheid) van de sprekers (Kowal e.a., 1975). Ook het gebruik van bepaalde lexicale (en structurele) middelen en hun functies blijken af te hangen van dergelijke situationele en individuele variabelen (Loban, 1976; Crystal & Davy, 1979; Tannen, 1982; Redeker, 1986; Chafe, 1991; De Temple, Wu & Snow, 1991; Segal, Duchan & Scott, 1991). Ook het gebruik van intonatieve middelen is sterk situationeel bepaald (Bolinger, 1985; Boves, 1986, 't Hart, Collier & Cohen, 1990). Het feit dat deze kenmerken van taalgebruik sterk afhangen van situationele en individuele determinanten mag dan vrij algemeen erkend zijn, de vaststelling van de concrete invloed van een situatie op de spraak van een bepaalde groep vindt meestal post hoc plaats. Dat wil zeggen: er is geen theorie die voorspellingen doet over de fonetische en linguïstische middelen die het meest relevant zijn voor een groep sprekers in diverse situaties of taken. Alleen in bijzondere gevallen - met name wanneer reeds enige experimentele ervaring met een specifieke taak is opgedaan - is men in staat te voorspellen welke kenmerken van de spraak bepaalde functies zullen vervullen. De moeilijkheid is niet alleen het voorspellen van variaties in afzonderlijke gedragsaspecten (tussen sprekers), zoals de frequentie van specifieke soorten pauzes, bepaalde soorten toonhoogtebewegingen, de spreeksnelheid, het voorkomen van bepaalde syntactische structuren of het gebruik van bepaalde soorten woorden, maar ook de covariatie tussen deze aspecten in het taalgebruik is op voorhand vaak onbekend.
83
Indien we willen weten welke onderscheiden informatie de jury-oordelen over de vier dimensies geven met betrekking tot de spreekvaardigheid, dan is het van belang deze oordelen te relateren aan de variaties in de concrete aspecten van het taalgebruik van de beoordeelde leerlingen. Immers deze variaties - en de covariaties tussen de afzonderlijke aspecten - vormen de grondslag van de beoordeling. Pas wanneer duidelijk is welke gedragsaspecten meetellen hij beoordeling van de ene dimensie (en in mindere mate bij de beoordeling van de andere), kunnen we vaststellen wat de specifieke informatiewaarde van het oordeel is. Dit is ook van belang omdat bij beoordeling van een dimensie verschillende gedragsaspecten tegelijk relevant geacht worden. Aangezien de covariatie van deze aspecten in de beoordeelde spreekprestaties vantevoren onbekend was, is ook niet duidelijk of dit tot moeilijkheden bij de beoordeling kan hebben geleid. Indien er geen empirisch verband is tussen het gebruik van verschillende middelen voor dezelfde (te beoordelen) functie, zullen beoordelaars een weging moeten uitvoeren om tot een oordeel -te kunnen komen. Zij komen dan voor vragen 'te staan als: in hoeverre compenseert het gebruik van veel luidheidsvariaties het vrijwel ontbreken van variatie in zinsmelodie (bij de dimensie Overdracht), of in hoeverre weegt het gebruik van een logische volgorde op tegen de vele onduidelijke verwijzingen naar persönen (bij Referentie)? Of dit soort wegingsproblemen zich werkelijk voordoen, en wat de consequenties ervan zijn voor de, betekenis van de juryoordelen, kan alleen bepaald worden wanneer we de correlaties kennen tussen de oordelen en de gedragsaspecten die - per definitie (in de instructie voor de beoordelaars) - in de beoordeling betrokken zouden moeten zijn. Kort samengevat is er zowel een wetenschappelijke als een praktische reden voor een gedetailleerde predictie van de jury-oordelen. De wetenschappelijke reden is dat onze kennis over de relatie tussen communicatieve functies en specifieke kenmerken van het taalgebruik vergroot wordt. De praktische reden is dat kan worden vastgesteld wat de informatiewaarde van het beoordelingsschema voor de beoordeling van spreekvaardigheid is. Indien blijkt dat de dimensies niet op de verwachte wijze samenhangen met de gemeten gedragsaspecten, is er gegronde reden de definities van de dimensies te heroverwegen, of om de dimensies als zodanig in twijfel te trekken (vgl. bijvoorbeeld Hitchman, 1965 en Knower, 1929; zij hangen een holistische interpretatie van spreekvaardigheidsbeoordeling aan; zie § 4.3.1). ,
7.3 Beoordelingsproblemen; het signifisch en het halo-effect In de voorgaande paragraaf is vooral ingegaan op de relatie tussen de beoordeelde gedragsaspecten en de communicatieve functies die deze geacht worden te vervullen. Het feit dat deze relatie ons onvoldoende duidelijk is, is een probleem bij de interpretatie van de jury-oordelen. In het hiernavolgende gaat het om problemen die de beoordelaars mogelijkerwijs ondervinden. Het is niet uitgesloten dat de beoordelaars bij het bepalen van hun oordeel dezelfde soorten interpretatieproblemen hebben als wij, wanneer we de betekenis van hun oordelen trachten te
84
De redenen voor predictieve validering
ontcijferen. Indien dit het geval is, is de validiteit van de jury-oordelen direct in het geding. In de literatuur worden twee soorten beoordelingsproblemen genoemd die in dat geval kunnen optreden: het signifisch effect (De Groot, 1972; Wesdorp, 1981) en het halo-effect (Thorndike, 1920; De Groot, o.c.; Guilford, 1954; Saal, Downey & Lahey, 1980; Cooper, 1981; Wesdorp, o.c.). Het signifisch effect dankt zijn naam aan het feit dat de betekenis van beoordelingscategorieën voor beoordelaars onduidelijk is. Het halo-effect dankt zijn naam aan de veronderstelling dat bepaalde aspecten van het beoordeelde gedrag zo prominent zijn dat zij in de evaluatie van de beoordelaars uitstralen naar andere aspecten. Het signifisch effect wordt door De Groot (1972) gedefinieerd met behulp van een voorbeeldsituatie: de beoordeling van antwoorden_ op een open vraag in een geschiedenis-examen door de leraar (L) én door de gecommitteerde (C). Het cijfer dat beide beoordelaars moeten geven drukt het 'getoonde begrip' van de leerling uit. Van een signifisch effect is in deze situatie sprake, wanneer de vraag: 'Wat is getoond begrip?' door beide beoordelaars verschillend wordt beantwoord. "L zal waarschijnlijk de nadruk leggen op een verstandige reproduktie van gedachten, die hij in zijn eigen onderwijs naar voren heeft gebracht. C echter ziet deze zaken anders, hij legt andere accenten, en zal er misschien vooral op letten dat 'tenminste geen onzin' wordt gedebiteerd door de leerlingen. Hij leest en beoordeelt wat er staat, en is minder geneigd met 'goede bedoelingen' te rekenen; nog afgezien van het feit dat hij minder gegevens heeft dan L om zulke goede bedoelingen te interpreteren. De vaagheid van de instructie (het gaat om 'getoond begrip') kan trouwens behalve de intersubjectieve overeenstemming ook de betrouwbaarheid per beoordelaar ongunstig beïnvloeden, doordat de opvatting over wat 'getoond begrip' is en waaruit het blijkt, zich tijdens het beoordelen onwillekeurig verschuift." (o.c., 242-243, accentuering van de auteur) Volgens De Groot kan het signifisch effect zich dus manifesteren op twee verschillende niveaus: (1) het niveau van de jury, waarbij elk van de beoordelaars zijn eigen interpretatie heeft ("andere accenten legt") van de aspecten die voor het oordeel relevant zijn en (2) het niveau van de individuele beoordelaar die door de vaagheid van de instructie onvoldoende houvast heeft om zijn oordeel telkens op dezelfde aspecten te baseren. Op het niveau van de jury is er dus sprake van systematisch afwijkende interpretaties van verschillende beoordelaars. Wesdorp (1981) sluit op dit probleem aan en noemt verschillende studies waaruit blijkt dat dit effect inderdaad optreedt, vooral bij erg open beoordelingssituaties waarin de criteria nauwelijks zijn gedefinieerd. Uit onderzoek van Wolowitsj (1975) blijkt bijvoorbeeld dat docenten sterk verschillen in het gewicht dat zij toekennen aan aspecten als organisatie, communicatie, conventies, stijl en inhoud bij de beoordeling van drie soorten schrijfprodukten. Diederick e.a. (1961) rapporteren onderzoek waarin vijf typen beoordelaars onderscheiden konden worden, al naar gelang
85
de aspecten die zij voor een goed schrijfprodukt van belang achten ("Ideas", "Form", "Flavour", "Mechanics" of "Wording"). Het mogelijke gevolg van het signifisch effect op het niveau van de individuele beoordelaar is niet zo specifiek. Zoals De Groot (hierboven) al opmerkt, leidt het signifisch effect hier tot een verlaging van de betrouwbaarheid van de beoordelaar; het is niet meer dan één van de vele factoren die de betrouwbaarheid kunnen aantasten (bijvoorbeeld gebrek aan concentratie, vermoeidheid, onvoldoende gemotiveerdheid, humeur etcetera). Dit gevolg is even plausibel als het ontstaan van verschillende interpretaties tussen verschillende beoordelaars. Bovendien sluit het ene gevolg het andere niet uit. Aangezien de vaagheid van de betekenisomschrijving van het oordeelscriterium de oorzaak van het probleem is, zal het meest waarschijnlijke gevolg zijn dat zowel verschillende interpretaties bij verschillende beoordelaars ontstaan, als dat per beoordelaar de oordeelsbetrouw'klaarheid wordt aangetast. ' We kunnen het signifisch effect karakteriseren als een wegingsprobleem. Elk oordeel van een individuele beoordelaar bestaat uit een weging van diverse gedragsaspecten van de beoordeelden. Een perfect betrouwbare beoordelaar geeft -voor -alle beoordeelden telkens hetzelfde gewicht aan dezelfde aspecten. Een perfect betrouwbare jury bestaat niet alleen uit perfect betrouwbare beoordelaars, maar ook uit beoordelaars die onderling niet verschillen in de weging van aspecten. Bij een signifisch effect ontstaan er verschillen in de gehanteerde gewichten, zowel op individueel niveau (waardoor beoordeelden op ongelijke criteria worden vergeleken door dezelfde beoordelaar), als op juryniveau (waardoor de ene beoordelaar anders weegt dan de andere). Het halo-effect doet zich voor in situaties waarin het oordeel van een jury beïnvloed blijkt te zijn door aspecten die - gegeven de definitie van de oordeelscategorie - niet relevant geacht worden. Dit is vooral een probleem wanneer hel de bedoeling is om de beoordeelden op verschillende kwaliteiten te evalueren. Volgens Thorndikes (1920) definitie hebben beoordelaars de neiging om mensen in het algemeen als 'goed' (good) of als 'minderwaardig' (inferior) te beoordelen. Deze algemene evaluatie werkt door in de beoordeling van allerlei onderscheiden gedragsaspecten. Hierdoor zullen de oordelen over deze onderscheiden aspecten hoog met elkaar correleren; niet omdat zij ook een reëel empirisch verband hebben, maar omdat het algemene 'goedheidseffect' de beoordelaars verblindt en ten onrechte - meetelt bij de beoordeling van alle gedragsaspecten. Halo-effecten kunnen ook optreden als gevolg van minder algemene evaluaties. Wesdorp (1981) merkt bijvoorbeeld op dat in diverse studies een invloed is aangetoond van de kwaliteit van het handschrift op de beoordeling van essayexamens. Ook spellingfouten en grammaticale fouten blijken volgens Wesdorp (o.c.) een dergelijke invloed te kunnen hebben. Ook bij de beoordeling van spraak, zoals in de onderhavige studie, kunnen sommige aspecten (bijvoorbeeld de inhoud van het gesprokene, stemkwaliteit, vloeiendheid) invloed uitoefenen op de beoordeling van andere aspecten. De gevonden hoge correlaties tussen de juryoordelen over sommige dimensies kunnen hiervan het gevolg zijn. Er worden verschillende theoretische verklaringen geopperd voor het optreden van halo-effecten. Diverse onderzoekers huldigen de hypothese dat beoordelaars ;
86
De redenen voor predictieve validering
zich laten leiden door vooronderstellingen omtrent het verband tussen verschillende aspecten van het te beoordelen gedrag (Newcomb, 1931; Guilford, 1954; Saal e.a., 1980; Shweder & D'Andrade, 1980; Murphy & Reynolds, 1988). Er zijn verschillende namen voor deze hypothetische bron in omloop. Cooper (1981) spreekt van 'category-covariance beliefs', Schweder en D'Andrade (o.c.) hebben het over de 'systematic distortion hypothesis' en Newcomb (o.c.), Guilford (o.c.) en Saal e.a. (o.c.) noemen hei een 'logica! error'. Cooper (1981) geeft een overzicht van de mogelijke oorzaken van het haloeffect en wijst erop dat één van die oorzaken gelegen is in te vage definities van de oordeelscategorieën: "Insufficiently concrete instruments may force raters to lump vaguely related observations. together, which may produce illusory halo if observations used to rate Category A are included in ratings on Category B, and so on. The product is category ratings that are partially redundant and overlapping." (o.c., p. 220) Het zal duidelijk zijn dat deze oorzaak dezelfde is als die hierboven is aangeduid als de oorzaak voor het signifisch effect. Dit hoeft niet te verbazen, want in geval van onduidelijke beoordelingscategorieën is het gedrag van beoordelaars in zekere . mate onbepaald. Dit kan zich uiten in onbetrouwbaarheid van de individuele oordelen, in verschillende interpretaties door verschillende beoordelaars, of - in geval van een halo-effect - in ongewenste overlap bij de beoordeling van verschillende categorieën. Het is belangrijk om op te merken dat de gevolgen van het halo- en het signifisch effect voor de correlatie tussen jury-oordelen over onderscheiden categorieën tegengesteld zijn. Het halo-effect heeft immers als kenmerk dat bij verschillende jury-oordelen dezelfde aspecten zijn meegewogen; dit heeft tot gevolg dat de oordelen -hoger correleren dan bij afwezigheid van het effect. Bij een signifisch effect wordt de betrouwbaarheid van de beoordelaars negatief beïnvloed en/of wordt de overeenstemming tussen beoordelaars verlaagd. Dan kan men verwachten dat de correlatie tussen verschillende jury-oordelen lager is dan bij afwezigheid van het effect'. Indien we informatie hebben over de empirische verbanden tussen de aspecten die voor verschillende beoordelingsdimensies relevant geacht zijn, kunnen we de
6 Verlaging van de betrouwbaarheid van de individuele oordelen heeft volgens de aannames van de klassieke testleer altijd tot gevolg dat de correlaties met andere variabelen verlaagd worden (De Groot, & Van Naerssen, 1969; Nunnally, 1967). Indien beoordelaars systematisch verschillen in de wijze van weging van gedragsaspecten is aantoonbaar dat zij per definitie verschillen in betrouwbaarheid. Gaan we uit van twee beoordelaars die elk twee aspecten in hun oordelen laten meewegen (het eenvoudigste geval waarin een wegingsverschil kan optreden), dan valt te bewijzen dat de correlatie tussen de twee oordelen maximaal is, wanneer de beoordelaars gelijke gewichten aan de aspecten toekennen. Met dank aan Dr. Mindert Eiting die de algebraïsche afleiding van deze stelling heeft gegeven. Dit impliceert overigens wel dat het signifisch effect op jury-niveau pas volledig afwezig is in het - uitzonderlijke - geval dat beoordelaars even betrouwbaar zijn.
87
sterkte van deze verbanden vergelijken met die tussen de jury-oordelen over de dimensies. Uit deze vergelijking kunnen dan conclusies getrokken worden over de vraag of de oordelen beïnvloed kunnen zijn door het halo- of het signifisch effect (zie § 11.4.1). Wanneer de oordelen beduidend hoger correleren dan de gedragsaspecten behorend bij verschillende dimensies, is dit een indicatie voor het haloeffect. Indien zij lager correleren - en dus de gevonden hoge correlaties tussen dimensies zelfs een onderschatting vormen van de correlaties tussen de beoordeelde gedragsaspecten (vgl. Murphy & Reynolds, 1988; Murphy & Jako, 1989; Nathan & Tippins, 1990) - is dit een indicatie voor een signifisch effect. Het daadwerkelijk optreden van één van beide beoordelingsproblemen zou aanleiding zijn om de beoordelingsprocedure en de definities van de categorieën kritisch te herzien. In geval van ongewenste overlap tussen oordelen (halo-effect) moet worden nagegaan of de definities van de categorieën niet verscherpt kunnen worden en of de beoordelingsinstructie moet worden veranderd. In, geval van onderschatting van de correlaties tussen.. gedragsaspecten (signifisch effect) is verscherping van de definities eveneens een mogelijke remedie, maar tevens moet worden bezien of het gedefinieerde onderscheid tussen de dimensies wel kan worden gehandhaafd.
7.4 De vraagstellingen De redenen voor een predictieve validering van de jury-oordelen over de vier dimensies van het beoordelingsschema zijn hierboven nader toegelicht. Gebrekkige theoretische kennis over de relatie tussen de precieze kenmerken van het taalgebruik en de functie die deze kenmerken kunnen vervullen (in verschillende taalgebruikssituaties en voor verschillende groepen sprekers), maakt het wenselijk de jury-oordelen te relateren aan de gedragsaspecten uit de definitie van de dimensies. Daarnaast is het mogelijk dat de beoordelaars onvoldoende houvast hadden aan deze definities, of gedwongen werden om het belang van verschillende gedragsaspecten af te wegen bij het bepalen van hun oordeel. Dit zou diverse negatieve gevolgen kunnen hebben voor de validiteit van de jury-oordelen. Samengevat komen de genoemde redenen neer op de volgende twee globale vraagstellingen: 1. Zijn de jury-oordelen over de vier dimensies van communicatieve effectiviteit (bij prestaties op een gegeven taak) goede indicatoren voor de gedragsaspecten die in de definitie van deze dimensies zijn opgenomen? 2. Zijn er indicaties dat de jury-oordelen over de vier dimensies beïnvloed worden door beoordelingsproblemen zoals het signifisch en het halo-effect? De eerste vraag zal in dit onderzoek op hypothese-toetsende wijze beantwoord worden. De hypothese-toetsing vindt in twee onderscheiden stappen plaats. In de eerste stap worden de jury-oordelen gecorreleerd met de gedragsaspecten die in de definitie van de betreffende dimensie (voor de gegeven taak) zijn opgenomen. Deze stap geeft inzicht in de vraag of de genoemde gedragsaspecten van belang zijn geweest voor de beoordeling van de bedoelde dimensie, (de convergente predictie). In de tweede stap worden de jury-oordelen gecorreleerd met gedragsas-
88
De redenen voor predictieve validering
pecten die in de definitie van andere dimensies van het beoordelingsschema (wederom: voor de gegeven taak) zijn opgenomen. Op deze wijze kan vastgesteld worden in hoeverre de oordelen over elke afzonderlijke dimensie unieke informatie verschaffen over de spreekvaardigheid van de beoordeelde leerlingen (de divergente predictie). De specifieke hypothesen die getoetst worden zijn geformuleerd in § 8.2 (voor de dimensies Overdracht en Spreekgemak) en in § 10.1 en § 10.2 (voor de dimensies Referentie en Verstaanbaarheid). De tweede vraagstelling zal in dit onderzoek exploratief benaderd worden. De reden hiervoor is dat onze kennis over de relatie tussen communicatieve functies en specifieke gedragsaspecten te beperkt is om te kunnen bepalen wat de juiste weegverhouding is die beoordelaars zouden moeten hanteren. We kunnen slechts vaststellen welke correlaties er bestaan tussen bepaalde (belangrijk geachte) fonetische en linguïstische variabelen en hoe die correlaties zich verhouden tot correlaties tussen oordelen waarin de functie van die variabelen geëvalueerd wordt. Ook al geeft een dergelijke vergelijking indicaties om te bepalen of de jury-oordelen vertekend zijn door een signifisch of halo-effect, een doorslaggevend bewijs is dit zeker niet.
89
90
Hoofdstuk
8
De opzet van het onderzoek ar de 3ordelen over Overdracht en Spr kgemak
Samenvatting
Dit hoofdstuk behandelt de stappen die gezet zijn voor de predictieve validering van de oordelen over Overdracht en Spreekgemak. Ten eerste is het onderzoek naar deze dimensies beperkt tot de beoordelingen bij één taak: het afmaken van een verhaal. De redenen voor deze beperking worden besproken. Ten tweede zijn twee selecties gemaakt van 60 van de beschikbare 99 prestaties voor de gedetailleerde analyse van fonetische en linguïstische variabelen. De wijze waarop geselecteerd is en de verantwoording van de gekozen steekproefgrootte komen aan bod. Ten derde wordt uitgebreid toegelicht hoe de hypothesen voor de predictieve validering tot stand zijn gekomen. Uit de beoordelingscategorieën voor de dimensies Overdracht en Spreekgemak zijn aspecten gekozen die goed kwantificeerbaar zijn en zinvol gerelateerd kunnen worden aan de bedoelde dimensies. Tot slot gaat het hoofdstuk kort in op de wijze van hypothesetoetsing, de gebruikte methoden voor statistische analyse, de transcriptie van de beoordeelde teksten, de methoden voor codering en meting van de fonetische en linguïstische variabelen en op de data-invoer.
8.1 Inleiding
Verreweg de meeste aandacht bij de predictieve validering van de jury-oordelen gaat in dit onderzoek uit naar de dimensies Overdracht en Spreekgemak. De reden hiervoor is dat de conceptuele problemen hier het grootst bleken. Dit geldt zowel voor de wijze waarop deze dimensies in de literatuur gedefinieerd zijn (zie § 3.2), als voor de resultaten van de correlationele analyse van de beoordelingen. In vrijwel alle analyses bleken de beoordeelde dimensies Overdracht en Spreekgemak de hoogste onderlinge correlatie te hebben. Er is dus veel te zeggen voor de redenering dat, wanneer we erin slagen aan te tonen dat deze dimensies - ondanks de hoge intercorrelatie - een onderscheiden functie in de spreekprestaties vervullen, dit voor de andere twee dimensies met minder moeite kan worden aangetoond. Het onderzoek naar de dimensies Referentie en Verstaanbaarheid is derhalve minder omvangrijk opgezet dan de predictie van Overdracht en Spreekgemak. De opzet en de resultaten ervan zijn te vinden in hoofdstuk 10.
91
De validering van Overdracht en Spreekgemak is uitgevoerd voor de prestaties op één taak: het afmaken van een verhaal (taak 4, zie hoofdstuk 2). De reden voor deze beperking is vooral van praktische aard: de grote hoeveelheid tijd die nodig is bij een zorgvuldige meting en analyse van de beoogde linguïstische en fonetische variabelen. De beperkte generaliseerbaarheid van de resultaten - naar de validiteit van de dimensies bij andere spreektaken - zullen we op de koop toe moeten nemen. Er waren verschillende redenen om de prestaties op taak 4 te kiezen, in plaats van één van de andere drie taken. In de eerste plaats is taak 4 dc enige taak waarin leerlingen zelf inhoud genereren, hetgeen de taak meer ecologische validiteit geeft dan de andere taken. In de tweede plaats is bij deze taak een gedetailleerde schriftelijke instructie gebruikt voor de definitie van de verschillende categorieën (zie bijlage 2). Dit heeft het voordeel dat de selectie van gedragsaspecten die voor de beoordeling van belang geacht worden, eenvoudig te funderen is 7 . Een derde reden-Noor de keuze van taak 4 is van meer praktische aard. De prestaties op deze taak beslaan relatief veel - maar ook niet teveel - tijd (gemiddeld 111 seconden, standaarddeviatie: 118; de scheefheid van de verdeling is het gevolg van een relatief klein aantal prestaties van extreem lange duur), zodat enerzijds beoordelaars genoeg gelegenheid hebben zich op de kwaliteit van het gesprokene te concentreren en anderzijds de meting en analyse van de prestaties in hun geheel haalbaar blijven.
8.2 Selectie van prestaties
Aangezien de voorgenomen analyses van de gedragsaspecten van de spreekprestaties op taak 4 zeer tijdrovend zijn, was het nodig het aantal te analyseren prestaties te beperken. Hierbij is gestreefd naar een zo groot mogelijke en gelijkmatige spreiding van de scores voor Overdracht en Spreekgemak. Ook al betekende dit dat de scoreverdeling in de oorspronkelijke steekproef van 99 leerlingen gewijzigd werd, toch was dit noodzakelijk. Gezien het beperkte aantal prestaties dat voor het valideren van de oordelen kon worden opgenomen, zou een geringere of ongelijkmatiger spreiding de kans een duidelijk verband tussen oordelen en aspecten te vinden, aanzienlijk verkleinen. Om die reden zijn twee selecties gemaakt: één met een optimale scoreverdeling van de jury-oordelen op Spreekgemak en één met een optimale verdeling van de jury-oordelen op Overdracht. De benodigde omvang van de selecties is als volgt bepaald. In de eerste plaats is een ondergrens bepaald voor de grootte van de verwachte verschillen tussen correlaties van enerzijds de beoordelingscategorieën en de bijbehorende aspecten, en anderzijds van de beoordelingscategorieën en de niet-bijbehorende aspecten. Deze ondergrens is op .30 gesteld. In het onderzoek kunnen dus alleen verschillen van deze omvang en groter betrouwbaar geïnterpreteerd worden. We gingen vervolgens uit van de situatie dat de nulhypothese wordt
7 Voor de beoordeling van prestaties op de taken 2 en 3 is volstaan met een mondelinge toelichting van de beoordelingscategorieën (zie § 5.2).
92
Opzet van het onderzoek
getoetst dat een aspect .50 correleert met een beoordeling tegen het alternatief van .20. We stelden alpha (de kans op het ten onrechte verwerpen van de nulhypothese) op .10 en bèta (de kans op het ten onrechte aanvaarden van de nulhypothese) eveneens op .10. Dan volgt hieruit een steekproefgrootte van 58 (Hays, 1977, p. 622). Afgerond naar hoven zijn dus twee selecties van 60 spreekprestaties uit het bestand van 99 gemaakt. Deze twee selecties vertonen uiteraard een overlap; het totale aantal geselecteerde prestaties bedraagt 85. In tabel 16 is te zien wat de verschillen zijn qua scoreverdeling tussen de jury-oordelen op Overdracht en Spreekgemak in de oorspronkelijke steekproef (N=99) en in de selecties daaruit. Tabel 16: Beschrijvende statistiek voor de jury-oordelen op Overdracht en Spreekgemak in de oorspronkelijke steekproef (N=99) en in de twee selecties voor de validatie•studie. De jury-oordelen gaan van 3 (negatief oordeel) tot 15 (positief oordee1)
8
Spreekgemak
Spreekgemak
Overdracht
Overdracht
(N=99)
(N=60)
(N=99)
(N=60)
gemiddelde
10.24
9.62
8.50
8.88
standaarddeviatie
3.20
3.61
3.29
3.87
scheefheid
-.76
-.26
.21
-.01
Uit tabel 16 blijkt dat het doel van de selecties - een meer gelijkmatige verdeling van de scores over de extremen van de schalen en het gemiddelde - ook bereikt is. Zowel voor de jury-oordelen voor Overdracht als voor die voor Spreekgemak is de spreiding van scores in de selecties groter geworden en de scheefheid van de verdelingen afgenomen 9 .
8.3 Een overzicht van de hypothesen Voor de validering van de dimensies Overdracht en Spreekgemak wordt een groot aantal aspecten van spraak geanalyseerd. Een uitvoerige verantwoording van de keuze van de aspecten en de precieze wijze van meting vindt plaats in hoofdstuk 9. Hier zal per dimensie een omschrijving van de aspecten worden gegeven, waarmee (krachtens de definitie van de beoordelingscategorieën) een verband wordt voorspeld.
8 Elke beoordelaar gaf een oordeel op een schaal van 1 tot en met 5; sommering over drie beoordelaars geeft een schaal van 3 tot en met 15. 9 Bij de samenstelling van de selecties zijn enkele prestaties al bij voorbaat uitgesloten. Het ging hier om prestaties met extreem weinig taalgebruik ("en ze leefden nog lang en gelukkig")(4 prestaties) en één prestatie waarin de spreker geplaagd werd door de slappe lach. Er waren van de 99 prestaties dus slechts 94 werkelijk voor selectie beschikbaar.
93
De Overdrachtsdimensie in taak 4 is vertegenwoordigd door drie beoordelingscategorieën, waarvoor de jury-oordelen zeer sterk samen blijken te hangen (zie hoofdstuk 4), te weten: 1. Intonatie (variatie van zinsmelodie en volume); 2. Spreektrant (levendigheid, plezier in voordracht, betrokkenheid); 3. Oriëntatie op luisteraar (gepastheid van lexicale middelen, theatrale middelen, directe aanspreekvormen, gerichtheid op luisteraar). De Spreekgemaksdimensie in taak 4 is vertegenwoordigd door drie eveneens sterk samenhangende beoordelingscategorieën, te weten: 1. Zinsbouw (vlotheid, moeiteloze intemreteerbaarheid, vrij van haperingen, weinig herfoonuleringen, duidelijkheid over begin en eind); 2. Spreektempo (vloeiendheid, beheerste opeenvolging zinnen en passages, niet te snel of te langzaam, geen lange pauzes); 3. Woordkeus (moeiteloze selectie). In deze opsomming zijn telkens de namen van de beoordelingscategorieën voorop geplaatst, gevolgd door een parafrase van de toelichting van de aspecten waaraan ze refereren, die de beoordeláars hebben gekregen (zie bijlage 2). Bij de keuze van gedragispecten voor de validering van de twee dimensies is uiteraard in eerste instantie uitgegaan van deze expliciete aanwijzingen. Daarbij moest tevens rekening gehouden worden met de onderscheiden functies die de genoemde aspecten vervullen. Zo kan voor de drie beoordelingscategorieën voor Overdracht gesteld worden dat zij zich richten op de mate van expressiviteit van de spraak, de boeiendheid van het vertelde en de betrokkenheid die de spreker tot zijn luisteraar toont. Expressiviteit, boeiendheid en betrokkenheid zijn dus de criteria voor Overdracht waarop de prestaties op taak 4 beoordeeld zijn (zie verder §§ 3.2 en 3.3 voor de afleiding van functies uit de dimensie Overdracht). De aspecten die genoemd zijn in de beoordelingscategorieën Intonatie, Spreektrant en Oriëntatie op luisteraar verhouden zich tot dc hiervffir genoemde functies als middelen tot hun doelen'. Zo kunnen we ook voor de drie beoordelingscategorieën voor Spreekgemak expliciteren wat hun functies zijn. Hier gaat het vooral om vlotheid, beheerstheid en vloeiendheid van tempo en formulering. Zowel bij de beoordeling van Zinsbouw als bij de beoordeling van Woordkeus en Spreektempo spelen deze functies de rol van criteria, ook al worden deze criteria op verschillende tekstaspecten toegepast en ligt de nadruk nu eens meer op het ene, en dan weer meer op het andere criterium (zie verder §§ 3.2 en 3.3 voor de afleiding van functies uit de dimensie Spreekgemak). Aangezien het helderder is om de validering van de oordelen direct te verbinden met de beoordeelde functies dan met de indeling die dc drie beoordelingscategorieën per dimensie geven, zal ik hier de keuze van te analyseren aspecten vooral met een beroep op die functies motiveren.
10 Het zal duidelijk zijn dat hier geen één op één relatie wordt bedoeld: elke beoordelingscategorie heeft elk van de (deel)functies als criterium. In de geparafraseerde toelichtingen voor de beoordelaars lopen aspecten (bijvoorbeeld variatie van volume, of gebruik van theatrale middelen) en functies (bijvoorbeeld levendigheid en betrokkenheid) door elkaar heen.
94
Opzet van het onderzoek
8.3.1 De relatie tussen de beoordeelde functies en gedragsaspecten De genoemde functies voor Overdracht zijn expressiviteit, bociendheid en betrokkenheid. Onder expressiviteit versta ik dat de spreker zijn persoonlijke interpretatie en stijl aan de luisteraar meedeelt. Er is veel beeldend taalgebruik, waardoor de spreker de indruk geeft zo niet uit eigen ervaring dan toch uit eigen verbeelding te spreken. Afstandelijk en vlak taalgebruik, waarmee de spreker de indruk geeft alleen maar iets door te geven wat hij van een ander gehoord of gelezen heeft, wordt bij een expressieve Overdracht vermeden. Onder boeiendheid versta ik dat de spreker erin slaagt de luisteraar te motiveren om te blijven luisteren. Hiervoor staan hem diverse middelen ter beschikking, zoals een gevarieerde (verrassende) woordkeus, spanningsopbouw, theatrale middelen, humor en variatie in intonatie, spreekvolume en tempo. Een spreker die z'n betrokkenheid bij de luisteraar tot uiting brengt, heeft eveneens verschillende middelen ter beschikking. Behalve met allerlei non-verbale signalen (oogcontact, gebaren, mimiek; kortom aspecten die in dit onderzoek noodgedwongen buiten beschouwing blijven):kan de spreker de verstandhouding met zijn communicatiepartner ook uitdrukken door de keuze van directe aanspreekvormen, het stellen van directe vragen en het refereren aan gemeenschappelijke elementen uit de ervaringswereld van spreker en luisteraar. Ook intonatievariatie is hier waarschijnlijk van belang. Bovenstaande bespreking is bedoeld om de veronderstelde verbanden van verschillende functies van Overdracht met diverse aspecten van de spraak te verduidelijken. Eenzelfde aspect kan niet één maar meer van deze functies vervullen. Zo is het gebruik van humor niet alleen bevorderlijk voor de boeiendheid, maar kan het ook de expressiviteit of de betrokkenheid bevorderen. De (deel)functies overlappen elkaar conceptueel. Het onderscheid is uitsluitend bedoeld om een garantie te hebben dat de dimensie Overdracht als geheel voldoende gedekt wordt. In figuur 3 is schematisch samengevat welke aspecten gekoppeld zijn aan de deelfuncties voor Overdracht. In deze figuur worden de middelen waarmee de deelfuncties gerealiseerd worden in twee kwantificeerbare gebieden opgedeeld: lexicale middelen en fonetische middelen. Grote afwezige is dus het gebied van de non-verbale middelen; niet omdat dit gebied onbelangrijk wordt geacht voor Overdracht, maar omdat deze middelen in dit onderzoek niet geanalyseerd kunnen worden en ook niet bij de beoordeling zijn inbegrepen. De lexicale middelen worden onderverdeeld in twee groepen aspecten: registerverzwakkers - met een negatief effect op de Overdracht - en registerversterkers met een positief effect. De termen drukken uit dat adequaatheid van de lexicale middelen in de context van de narratieve communicatie een criterium voor beoordeling vormt (vgl. Tannen, 1982; Redeker, 1986). We kunnen lexicale items in de communicatie op drie niveaus classificeren: 1. passend (of neutraal); het item doet geen inbreuk op de stilzwijgende veronderstellingen die in de communicatie gelden (bijvoorbeeld het samenwerkingsbeginsel van Grice, 1975), maar het heeft tevens geen versterkende invloed op
95
de communicatie; 2. registerversterkend; het item is niet alleen passend binnen de narratieve communicatie, maar het bevordert tevens de expressiviteit, boeiendheid en/of betrokkenheid tussen spreker en luisteraar; 3. registerverzwakkend; het item doet afbreuk aan de stilzwijgende veronderstellingen die ten grondslag liggen aan de narratieve communicatie (passendheid, boeiendheid, expressiviteit en betrokkenheid). Voor de validering van Overdrachtsoordelen zullen de registerversterkende en de registerverzwakkende lexicale middelen in de beoordeelde spraak gecodeerd worden; neutrale items blijven verder buiten beschouwing. De fonetische aspecten die genoemd zijn in figuur 3 verwijzen deels naar objectief meetbare zaken, zoals de variatie in grondtoon (fundamentele frequentie) en in intensiteit van de spraaksignalen. Voor een ander deel gaat het om aspecten die een, abstractieniveau hoger liggen, namelijk dc perceptief relevante aspecten van intonatie en accentuering ('t Hart & Collier, 1975). Het zal duidelijk zijn dat lang niet alle meetbare verschillen in grondtoon en energie waargenomen worden. Figuur 3.. van Overdracht, de gebieden waarop ze betrekking hebben en dc aspecten die gebruikt worden voor de vaiidering van Overdrachtsoordelen
L
Keuze van lexicale
middelen
`Fonetische middelen
registerverzwakkers registerversterkers
grondtoonvariatie intonatiecontouren accenten intensiteit
Verder is het goed mogelijk dat wel waarneembare verschillen functioneel niet relevant zijn in de communicatie; de luisteraar - en dus ook de beoordelaar - zal aan dergelijke verschillen 'geen aandacht schenken (vgl. 't Hart, Collier & Cohen, 1990, p. 48-55). Om die reden kunnen we ons niet beperken tot fysische metingen van het spraaksignaal, maar is het nodig deze aan te vullen met auditieve analyse van de als relevant gepercipieerde toonhoogtebewegingen en accenten. Van de gedragsaspecten die bij de functies van Overdracht bij taak 4 genoemd zijn, is één belangrijk aspect achterwege gelaten. Geen van de fonetische aspecten in figuur 3 betreft het expressief of boeiend gebruik van spreektempo. Niet te 96
Opzet van het onderzoek
ontkennen valt dat met name het gebruik van pauzes en tempowisselingen van belang is voor een geslaagde Overdracht. Men denke aan spanningsopbouw en aanpassing van de spreeksnelheid aan het belang van een uiting of passage. Het ontbreken van dit aspect in figuur 3 is dan ook alleen het gevolg van het feit dat ik er in dit onderzoek niet in ben geslaagd een goede operationalisatie van dit soort tempovariaties te ontwikkelen (zie § 9.3.2). Laten we overgaan op de deelfuncties voor Spreekgemak, te weten beheerstheid, vlotheid en vloeiendheid van tempo en formulering. Beheerstheid van tempo en formulering komt vooral tot uitdrukking in het adagium "niet te snel en niet te langzaam". Te snelle spraak wekt de indruk van onzekerheid over de plaats in de tekst waar het best gepauzeerd kan worden en maakt het voor de luisteraar moeilijker begin en eind van verschillende uitingen te identificeren (vgl. de beoordelingscategorieën Zinsbouw cn Spreektempo). Te langzame spraak kan dezelfde gevolgen hebben, bijvoorbeeld omdat het moeilijker wordt om functionele (grensmarkerende) pauzes te onderscheiden van niet-functionele. Het kan ook de indruk wekken dat de spreker problemen heeft met het kiezen van de juiste formuleringen (vgl. de beoordelingscategorieën Zinsbouw en Woordkeus). Met vlotheid van tempo en formulering bedoel ik vooral het vermijden van lange pauzes en andere grove inbreuken in de continuïteit van de spraak. Door voortdurend "geluid te blijven maken" wekt de spreker de indruk over voldoende stof te beschikken om aan het woord te blijven. Door elke begonnen uiting af te maken (ook al gaat dat met verschillende haperingen gepaard) wekt de spreker de indruk ook zinvol gebruik te maken van zijn linguïstisch repertoire. Onder vloeiendheid van tempo en formulering versta ik juist de meer subtiele continuïteit binnen elke uiting, hetgeen tot uitdrukking komt in het vrijwel haperingsloos kunnen formuleren van hele reeksen van uitingen. Een vloeiend formulerende spreker wekt de indruk een onberispelijke beheersing van vocabulaire en syntaxis van de taal te hebben en bovendien over technieken te beschikken om de planning van volgende uitingen zo te 'maskeren' dat een luisteraar nauwelijks merkt dat zij plaatsvindt. Evenals bij de deelfuncties van Overdracht kan voor de deelfuncties van Spreekgemak aangetoond worden dat zij elkaar overlappen en dat aspecten die voor de ene deelfunctie van belang zijn, dat ook voor een andere kunnen zijn. Zo is een aspect als spreeksnelheid zowel voor beheerstheid als voor vlotheid van tempo van belang en het gebruik van grensmarkerende pauzes zowel voor beheerstheid als voor vloeiendheid. Analoog aan het schema in figuur 3 geven we de relaties tussen de aspecten en deelfuncties voor Spreekgemak weer in figuur 4. Er zijn drie kwantificeerbare gebieden voor de deelfuncties van Spreekgemak gedefinieerd: het optreden van zelfcorrecties, het gebruik van pauzes en het tempo. Dit is een dekkende samenvatting van alle aspecten die genoemd zijn als bepalend voor de drie deelfuncties van Spreekgemak, alsmede van de genoemde aspecten bij de beoordelingscategorieën Zinsbouw, Spreektempo en Woordkeus.
97
Figuur 4: Deelfuncties van Spreekgemak, de gebieden waarop ze betrekking hebben en de aspecten die gebruikt worden voor de validering van Spreekgemaksoordelen
Kwantificeerbare gebieden:
Functies:
Beheerstheid
/ I Zelfcorrecties
Vlotheid
Aspecten: aantal & duur zelfcorrecties aantal & duur nietfunctionele pauzes
Pauzes
Vloeiendheid
spreeksnelheid articulatiesnelheid
De aspecten die in at onderzoek geanalyseerd worden voor de validatie van Spreekgemaksoordelen zijn uit de kwantificeerbare gebieden geselecteerd. De zelfcorrecties worden in verschillende soorten, geclassificeerd. Hierbij wordt gebruik gemaakt van het onderscheid tussen openlijk herstel (wanneer een spreker een woord of woordgroep vervangt door een ander woord of een andere woordgroep) en verborgen herstel (wanneer het te vervangen woord niet uitgesproken wordt, maar wel een hapering optreedt) (Levelt, 1983, 1989). Zowel het aantal als de duur van deze zelfcorrecties is relevant voor het Spreekgemaksoordeel (vloeiendheid en vlotheid). De pauzes in figuur 4 worden alleen voor de validatie gebruikt voorzover ze als niet-functioneel geclassificeerd kunnen worden. Het Spreekgemaksoordeel moet immers vooral uitdrukken of sprekers erin slagen niet-functionele verstoringen in de continuïteit te vermijden; het aantal functionele pauzes (grensmarkerende pauzes) is hiervoor niet relevant. We kunnen dus volstaan met een codering van het aantal en een meting van de duur van de niet-functionele pauzes in elke spreekprestatie. Het gebied 'tempo' in figuur 4 wordt in twee verschillende maten geoperationaliseerd. Spreeksnelheid wordt gemeten in aantal syllaben per seconde inclusief de pauzeduur; articulatiesnelheid wordt gemeten in aantal syllaben per seconde exclusief pauzeduur. •De reden voor deze alternatieve operationalisaties van tempo is dat in de beoordelingscategorieen zelf niet is verduidelijkt welke van deze twee maten precies bedoeld is. Naar intentie is spreeksnelheid belangrijker dan articulatiesnelheid. De spreeksnelheid geeft immers de globale verdeling van de spraaksignalen over de tijd weer, en de beheerstheid van tempo, alsook de vloeiendheid en vlotheid hebben vooral te maken met deze globale verdeling, waarin pauzeduur en pauzepositie een belangrijke rol spelen. Een mogelijke invloed van articulatiesnelheid op het Spreekgemaksoordeel kunnen we echter op voorhand niet uitsluiten. ,
-
98
Opzet van het onderzoek
Een laatste opmerking moet gemaakt worden over de vorm van de relaties tussen de beoordeelde spraakfuncties en de te meten/coderen aspecten. In bijna alle gevallen worden lineaire verbanden voorspeld, dat wil zeggen: hoe meer een bepaald aspect (bijv. intonatievariatie, intensiteitsvariatie, registerversterkers) voorkomt in de spraak, des te positiever zal het oordeel, zoals bedoeld, uitvallen, of: hoe meer een bepaald aspect (bijv. lange niet-functionele pauzes, aantallen zelfcorrecties) voorkomt des te negatiever zal het oordeel, zoals bedoeld, uitvallen. Een belangrijke veronderstelling bij de hypothese van lineaire verbanden tussen de beoordeelde functies en de gedragsaspecten is dat in de spraak van de beoordeelde populatie (leerlingen eind basisschool) de variantie van de gedragsaspecten binnen bepaalde grenzen blijft. Het is bijvoorbeeld niet plausibel dat extreme variaties in toonhoogte of intensiteit, of het overdadig gebruik van registerversterkers bevorderlijk zijn voor de Overdracht. Indien wel dergelijke extreme variaties voorkomen, zal dit overigens blijken uit de resultaten van het predictie-onderzoek: één of meer van de hypothesen kan dan niet aanvaard worden. Alleen voor de tempomaten is niet duidelijk of het voorspelde verband met het oordeel lineair of curvilineair is. Beheerstheid van tempo is gedefinieerd met de regel 'niet te langzaam en niet te snel'. Aangezien we niet weten of in onze steekproef zich ook sprekers bevinden die 'te snel' en/of met 'te weinig' pauzes spreken, zullen we rekening moeten houden met de mogelijkheid van curvilineaire verbanden tussen Spreekgemak en de maten voor spreeksnelheid en articulatiesnelheid. -
8.3.2 De hypothesen De hypothesen over de relatie tussen de dimensies Overdracht en Spreekgemak en de bijbehorende aspecten die in dit onderzoek getoetst zullen worden, zijn de volgende: 1. Er is een sterker positief lineair verband van aantal registerversterkers, variatie van fundamentele frequentie, intensiteit en intonatiecontouren en aantal accenten met de oordelen over Overdracht dan met één van de andere oordelen. 2. Er is een sterker negatief lineair verband van het aantal registerverzwakkers met de Overdrachtsoordelen dan met één van de andere oordelen. 3. Er is een sterker negatief lineair verband van de duur en de frequentie van zelfcorrecties en niet-functionele pauzes met de Spreekgemaksoordelen dan met één van de andere oordelen. 4. Er is een sterker positief lineair of curvilineair verband van spreeksnelheid en articulatiesnelheid met de Spreekgemaksoordelen dan met één van de andere oordelen.
99
8.4 Methode van toetsing De hierboven genoemde hypothesen zullen getoetst worden met behulp van multipele regressie-analyse. Hierbij functioneren de jury-oordelen over Overdracht en Spreekgemak beurtelings als criteria en de gemeten aspecten als predictoren. Aangezien de predictoren voor Overdracht in een selectie van de prestaties worden gemeten en die voor Spreekgemak in een andere, zullen twee multipele regressies uitgevoerd worden; voor elke selectie een. Voor de hypothesetoetsing zullen twee onderscheiden stappen genomen worden, die tezamen antwoord moeten geven op de eerste onderzoeksvraag: zijn de jury-oordelen goede indicatoren voor de gedragsaspecten die in de definitie van de dimensie zijn opgenomen (zie § 7.4)? In -de eerste stap worden de regressiegewichten van de afzonderlijke predictoren op hun criteriumvariabele (het Overdrachts- of het Spreekgemaksoordeel) geanalyseerd. In de tweede stap wordt de multipele correlatie van de predictoren mot hun criterium vergeleken met hun multipele: correlatie met dc andere oordelen. Voor de beantwoording van de tweede onderzoeksvraag (de invloed van halb-effecten en signifische effecten op de beoordeling; zie § 7.4) zullen enkele oexploratieve analyses uitgevoerd worden, waarmee kan worden bepaald wat de correlaties zijn tussen dc predictoren voor verschillende juryoordelen, hoe deze correlaties zich verhouden tot de correlaties tussen de juryoordelen en of er indicaties zijn dat beoordelaars bepaalde gedragsaspecten systematisch verschillend wegen bij het bepalen van hun oordeel.
8.5 Methoden van data-analyse: transcriptie, codering, meting en invoer
In deze paragraaf wordt kort weergegeven in welke stappen de data-analyses voor het predictie-onderzoek uitgevoerd zijn. Een gedetailleerde beschrijving van de wijze waarop de diverse variabelen zijn gemeten en gecodeerd wordt in hoofdstuk 9 gegeven. Om de analyses op de spreekprestaties naar behoren te kunnen uitvoeren zijn alle teksten getranscribeerd. Hierbij zijn enkele eenvoudige conventies gehanteerd om in de transcripten zoveel mogelijk van de auditieve informatie te behouden. Ongevulde pauzes zijn (op het gehoor) naar hun lengte ingedeeld in drie soorten: - net hoorbare pauzes - normale pauzes - uitzonderlijk lange pauzes. Gevulde pauzes (eh, oh, ah, e.d.) zijn zoveel mogelijk naar hun klank getranscribeerd, en duurverlengingen van syllaben zijn eveneens gemarkeerd door de betreffende klinkers of medeklinkers in de tekst te du- of tripliceren. De toonhoogtebewegingen zijn beschreven door boven de getranscribeerde tekst per syllabe met diverse symbolen aan te geven of de toonhoogte op de hoge (een hoog geplaatst rondje) of op de lage (een laag geplaatst rondje) declinatielijn lag, dan wel of er een hoorbare beweging omhoog ( 6 ) of omlaag ( ®1 ) was. Toonhoogte-accenten zijn gecodeerd als 'primaire' accenten; wanneer het gerealiseerde accent niet zo duidelijk hoorbaar was, is dit aangeduid als een
100
Opzet van het onderzoek
,
'secundair' accent. Soms was er sprake van een accent-waarneming zonder dat een toonhoogtebeweging werd gehoord; dit soort 'accenten' wordt waarschijnlijk veroorzaakt door een toename van intensiteit en/of door een verlenging van de syllabeduur. Wanneer de syllaben daardoor als prominent ervaren worden, werd een zogenaamd sterk metrisch accent gecodeerd. Alle coderingen zijn op aparte formulieren voor elke toongroep afzonderlijk (zie § 9.1 voor de definitie van toongroepen) geschreven. Voor de codering van toonhoogtebewegingen is dit gedaan met de symbolen uit de intonatiegrammatica van het Nederlands, zoals weergegeven in 't Hart en Collier (1975). Voor de codering van zelfcorrecties, pauzes, registerversterkers en registerverzwakkers is een eigen symbolensysteem gebruikt. De metingen van fundamentele frequentie (afgekort: F0), intensiteit, pauzeduur, spreeksnelheid en articulatiesnelheid zijn verricht met behulp van computerprogrammatuur die op het IFA (Instituut voor Fonetische Wetenschappen, Amsterdam) aanwezig was. Gezien de tijdrovendheid van deze metingen was het nodig de hoeveelheid te analyseren spraak per spreker te beperken tot twintig toongroepen. Alle codeergegevens zijn in databestanden ingevoerd voor het programmapakket SPSS-PC. Hiervoor is gebruik gemaakt van een programma dat in BASIC geschreven is door Dr. M. Eiting. Dit programma is in staat de verschillende soorten coderingen te herkennen, hen op verschillende manieren te groeperen (patroonherkenning), over toongroepen per spreker te sommeren en de gewenste sommen te schrijven in een voor SPSS-PC toegankelijke vorm. Zodoende zijn alle coderingen (toonhoogtebewegingen, accenten, registerversterkers, registerverzwakkers, zelfcorrecties en pauzes) in twee bestanden opgeslagen: één voor de 60 prestaties geselecteerd voor Spreekgemak en één voor de 60 prestaties geselecteerd voor Overdracht. De bovengenoemde meetgegevens zijn uiteraard aan deze twee bestanden toegevoegd. Bijna alle statistische analyses zijn uitgevoerd met SPSS-PC. Alleen de multipele regressie-analyses zijn uitgevoerd met LISREL VI (.10reskog & SCirbom, 1986) (zie § 11.2).
10 1
102
Hoofdstuk
9
Selectie en operatio lisatie v pretlictoren
Samenvatting Dit hoofdstuk bevat een uiteenzetting van de wijze waarop de in hoofdstuk 8 genoemde aspecten van de dimensies Overdracht en Spreekgemak zijn vertaald in meetbare (of codeerbare) variabelen. Waar mogelijk wordt een en ander verduidelijkt met behulp van voorbeelden uit de transcriptie van de teksten van de leerlingen. Tevens wordt informatie gegeven over de betrouwbaarheid van de codeeranalyses die telkens door twee onafhankelijk werkende codeurs zijn uitgevoerd na een intensieve trainingsfase. Achtereenvolgens komen aan de orde de segmentering van de spreekprestaties in zogenaamde toongroepen als eenheid van analyse (§ 9.1), de codering van toonhoogte-bewegingen en accenten met behulp van de basisbewegingen uit de zogenaamde intonatiegrammatica van het Nederlands ('t Hart, Collier & Cohen, 1990) (§ 9.2), de variatie van intensiteit, fundamentele frequentie en tempo (§ 93), de codering van registeradequaatheid (§ 9.4), de codering van zelfcorrecties en pauzesoorten met behulp van een classificatie van Levelt (1983, 1989) (§ 9.5) en de meting van spreeksnelheid en articulatiesnelheid (§ 9.6). Tot slot wordt ingegaan op de codering van ernstige taalfouten die geen deel uitmaken van de definitie van de dimensies Overdracht en Spreekgemak, maar mogelijkerwijs toch invloed hebben op de jury-oordelen. Eén van de soorten taalfouten is van belang voor de predictie van Verstaanbaarheidsoordelen (§ 9.7).
9.1 De toongroep als eenheid van analyse Om diverse redenen is het zeer wenselijk om in een onderzoek als dit, waarbij in dezelfde teksten een groot aantal verschillende variabelen geanalyseerd wordt, te kunnen refereren aan een eenheid van analyse. In de eerste plaats geeft dit een waarborg voor de vergelijkbaarheid van de verschillende variabelen; ze verwijzen dan immers naar eenzelfde niveau van de tekst (woord, zin, alinea). In de tweede plaats heeft het ook een theoretische functie, omdat ermee wordt aangegeven welke eenheden van spraak een belangrijke rol spelen bij de beoordeling van de kwaliteit. In de derde plaats vervult het enkele praktische functies, zoals het kunnen uitvoeren van dezelfde correcties voor verschillen in tekstlengte bij
103
verschillende variabelen en bet vereenvoudigen van diverse complexe codeeractiviteiten, zoals het afbakenen van intonatiecontouren, het aanwijzen van zogenaamde valse starts en het onderscheiden van pauzesoorten naar hun positie. Aangezien geen van de voorgenomen analyses syntactisch van aard is, ligt een syntactische eenheid, zoals de zin niet voor de hand. Dit nog afgezien van de onduidelijke status die dit soort eenheden in spraak hebben (Crystal, 1980; Quirk e.a., 1985; Rcdeker, 1986). Ook een eenheid als de 'clausc', die meer semantisch dan syntactisch gedefinieerd is (Clark & Clark, 1977), is niet zo geschikt voor ons doel, omdat deze eenheid geen rekening houdt met de prosodische indelingen die sprekers gebruiken om hun informatie in onderscheiden stukjes te genereren en formuleren. Er worden in de literatuur diverse voorstellen gedaan om betekenisvolle • eenheden in de spraak -te definiëren die wel rekening houden met de prosodische realisatie (Crystal, 1969; Chafe, 1980; Selkirk, 1984; Halliday, 1989). Levelt (1989) geeft een opsomming van maar liefst achttien verschillende eenheden van • spraakproduktie die irae literatuur genoemd worden en die betrekking hebben op • de intonatieve geleding. Een grove tweedeling tussen deze verschillende voorstellen kan worden • gemaakt door het onderscheid tussen de fonologisch/syntactische en fonetisch/semantische definities. ,Een typisch voorbeeld van de fonologisch/syntactische benadering geeft Crystal (1969): "Given that each tone-unit will have one peak of prominence in the form of a nuclear pitch movement, dien it is the case that after this nuclear tone there will be a tone-unit boundary which is indicated by two phonetic factors. Firstly, there will be a perceivable pitch-change, either stepping up or stepping down, depending on the direction of nuclear tone movement (...). The second criterion is the presence of junctural features at the end of every tone-unit. This usually takes the form of a vcry slight pausc, but there are frequcntly accompanying segmental phonetic modifications (variations in length, aspiration, etc.) which reinforce this." (o.c., p. 205-206) Crystal geeft als belangrijke beperking dat deze definitie van de 'tone-unit' alleen opgaat in normale (niet te snelle) spraak. Anderen (Gussenhoven, 1984; Halliday, 1989; Cruttenden, 1986; Lcvelt, 1989) geven benaderingen die grotendeels overeenstemmen met Crystals aanpak. Ladd (1986) analyseerde deze fonologische definities van de 'intonational phrase' en concludeerde dat zij tot aanvechtbare beslissingen leiden bij het bepalen van de grenzen in concrete uitingen: "In short, the empirical problem with Intonational Phrases (IP) runs some[hing like this: IP's are supposed to be dclimited by boundary phenomena of some intuitively definable sort, but they are also supposed to have welldefined internal phonological structure and to match up with the syntax in well-defined ways. So any stretch of speech set off by audible boundaries is assumed to be an intonational phrase, and at the same time any stretch of speech identifiable on structural grounds as intonational phrase is assumed to 104
Selectie en operationalisatie van predictoren
be set off by boundaries. S ince there are not always obvious boundaries in the later case, notions like 'potential for pause' creep into most definitions of boundary in order to keep the assumptions working, and hypotheses about intonational phrasing thereby become virtually unfalsifiable." (o.c., p. 314) Ladd (o.c.) stelt dan ook voor om de interne fonologische structuur en de grenzen van 'intonatiefrasen' onafhankelijk van elkaar te maken. Hierdoor ontstaan twee verschillende niveaus van intonatiefrasen: de 'tonc group' die gedefinieerd is door een nucleair accent en de 'major phrase' die afgebakend wordt door hoorbare prosodische grenzen. Deze grenzen omschrijft Ladd als "rhythmically organized pauses marked by actual silence and/or the prolongation of the pre-pause syllable, accompanied, in many cases, by additional pitch movements (...) such as a rise following an accentual fall" (o.c., p. 316-317). Het zal duidelijk zijn dat deze laatste definitie van de intonatiefrase voor de empirische analyse van gesproken teksten veel bruikbaarder is dan de definities á la Crystal, die ons dwingen om van twee of meer accenten te bepalen welke daarvan 'nucleair' is en in geval van niet-hoorbare grensmarkeringen te bepalen waar gepauzeerd had 'moeten' worden li . Bovendien sluit Ladds analyse ook goed aan bij de fonetisch/semantische definities van de toongroep (of intonatie-unit) van Chafe (1980, 1986) en Selkirk (1984). Typisch voor deze analyses is dat de bepalende invloed van de oppervlaktestructuur van de zin op de intonatiecontour van de hand wordt gewezen. Zo stelt Selkirk: "A central fact that any treatment of sentence intonation must account for is that a given sentence, with a given syntactic structure, may have many linguistically distinct (contrasting) realizations. This fact alone necessitates a thcory of FO contours appealing to some linguistic representation other than the syntactic - namely, a representation of intonational phrasing, intonational contours, and the association of tonal elements with syllables of the sentence, or what we have been calling 'intonational structure'." (o.c., p. 285) Chafe (1986) geeft de grenzen van de 'intonation unit' aan met dezelfde soorten fonetische kenmerken die Ladd (hierboven) voor de 'major phrase' vaststelde; vervolgens stelt hij vast wat volgens hem de relatie is met de cognitieve processen bij de spreker: "Each intonation unit is uttered with a coherent intonation contour, ending usually with one of a small set of pitch patterns of the kind associated with the ends of phrases or clauses. Each typically bcgins with a pause. It is
11 Een ander empirisch probleem waarin de fonologische definities niet voorzien, maar dat Ladd niet noemt, is de situatie waarin een duidelijk prosodisch afgegrensde uiting helemaal geen pitchaccent bevat.
105
natural to view an intonation unit as a linguistic expression of the particular information that is active in the speaker's mind at the time it is uttered. If that is a valid interpretation, then intonation units provide us with a unique window into the nature of information flow within the minds of speakers." (o.c., p. 15) 12 We concluderen dat de fonetisch/semantische definitie van de intonatie-unit - of zoals we hem vanaf nu zullen aanduiden: de toongroep - om diverse redenen tegemoet komt aan onze wensen: 1. De definitie omschrijft - op een niet-restrictieve wijze - de waarneembare fonetische kenmerken op grond waarvan de grenzen tussen toongroepen in spontane spraak kunnen worden gecodeerd. 2. Zij geeft grond aan de veronderstelling dat de toongroep niet alleen een belangrijke eenheid voor de spraakproduktie, maar ook voor de receptie van spraak is; het gaat immers om de communicatie van stukjes betekenisvolle informatie, zoals die door de spreker worden gerepresenteerd. Tot nu toe is in vrij vage termen gesproken over de waarneembare kenmerken van toongroepen. Voor de codering van toongroepen is het .,noodzakelijk dat deze kenmerken zorgvuldig worden beschreven. Daarom zal ik hieronder weergeven op welke wijze de toongroep in dit onderzoek is gedefinieerd.
9.1.1 De definitie van de toongroep Om misverstanden te vermijden over dc betekenis van het woord 'definitie', zoals hier gebruikt, het volgende. Het gaat hier om een instrumentele definitie, dat wil zeggen een definitie die als uitgangspunt dient voor het coderen van toongroepen in spontane spraak. Niet bedoeld is dus een taalkundige definitie, die op een theoretisch niveau vastlegt wat de precieze aard van de toongroep is. Een belangrijk kenmerk van de fonetisch/semantische opvattingen over de toongroep is immers dat de wijze waarop een toongroep gerealiseerd wordt, onderworpen is aan de communicatieve intenties van de spreker (wat wordt beaccentueerd, wat is 'nieuwe' informatie, welke informatie is belangrijk) en aan de volgorde waarin de informatie-elementen bewuste aandacht krijgen van de spreker (wat wordt 'in één adem' uitgesproken, waar vallen grensmarkerende pauzes en hoe lang mogen die duren) (vgl. Levelt, 1989, p. 3 t/m 10; Chafe, 1980, p. 11 e.v.). Dit betekent dat we bij de codering van toongroepen in essentie niets anders doen dan vastleggen op welke onderscheiden wijzen sprekers de grenzen van toongroepen markeren. Een centrale assumptie hierbij is dat deze grenzen zowel voor sprekers als voor luisteraars een belangrijke functie vervullen. Voor sprekers hebben de grenzen de functie om op gepaste momenten planningspauzes in te kunnen lassen, die de continuïteit van de spraak niet verstoren. Voor luisteraars hebben zij de functie dat duidelijk gemaakt wordt in welke brokjes de informatie
12 In Chafe (1980) geeft dc auteur een meer uitgewerkte theoretische uiteenzetting van wat hij toen nog 'idea-units' noemde en hun relatie met tekstuele foei in gesproken tekst.
106
Selectie en operationalisatie van pretlictoren
verwerkt moet worden. Elke zin kan dus door de spreker op diverse manieren in toongroepen onderverdeeld worden, zoals in de voorbeelden (1), (2) en (3) is weergegeven. (1) I Dus I je kan gerust weer I met je vriendjes gaan spelen I (2) I Dus je kan gerust weer met je vriendjes gaan spelen I (3) I Dus je kan gerust I weer I met je vriendjes gaan spelen I
Andere variaties van de segmentering van deze gesproken zin zijn mogelijk, maar deze drie voorbeelden maken voldoende duidelijk dat sprekers een grote vrijheid hebben bij het segmenteren van een zin. Dat neemt niet weg dat sommige segmenteringen in bepaalde situaties geslaagder zijn dan andere. In (1) wordt de zin in drieën gedeeld, waardoor elk van deze delen afzonderlijk nadruk krijgt. De eerste toongroep bestaat alleen uit het woordje 'Dus'. Dit woordje krijgt dan een eigen 'melodie' of intonatiecontour mee en wordt waarschijnlijk ook gerekt of gevolgd door een korte pauze. De intonatiecontour kan verschillende vormen aannemen, bijvoorbeeld een enkele stijging, of een hoge inzet gevolgd door een halve daling; eventueel kan ook een complexe contour gerealiseerd worden waarbij een (accentverlenende) stijging gevolgd wordt door een hele daling en een (niet-accentverlenende) stijging aan het eind. Zo een complexe contour zal gepaard gaan met een aanzienlijke verlenging van de duur van de syllabe. In (2) is de gehele zin als één toongroep uitgesproken, hetgeen een minder nadrukkelijk (tekstueel) effect heeft dan (1). Vaak zullen er twee duidelijk waarneembare accenten hoorbaar zijn in een toongroep van deze lengte en structuur (één op rust en één op vriend). Wanneer slechts é,én prominent accent in deze toongroep voorkomt, heeft dit vaak een contrastfunctie (niet met je vijanden, maar met je vriendjes; niet angstig maar gerust). In (3) wordt een nogal uitzonderlijke segmentering aangebracht, waarin zowel de geruststelling als de herhaling ("weer") sterk benadrukt worden. Het effect (en waarschijnlijk ook de bedoeling) van (3) is nogal theatraal. De principes voor het coderen van toongroepen die in dit onderzoek zijn toegepast, zijn ontwikkeld na een uitvoerige beproeving van verschillende codeerinstructies en in verschillende rondes met verschillende codeurs getest. Kort samengevat komen ze op de volgende regels neer: 1. Er wordt altijd een nieuwe toongroep begonnen bij een hernieuwde declinatie ('reset') of na een niet-accentverlenende stijging ('eind- of continuatiestijging'). 2. Andere indicaties voor het eind van een toongroep zijn: - een korte pauze (gédn hapering); - een verlenging van de duur van de prepausale syllabe; één van de volgende toonhoogtebewegingen: uitgestelde daling, finale daling, halve daling.
107
Voor een precieze fonetische definitie van de hier genoemde toonhoogtebewegingen verwijs ik naar paragraaf 9.2, alwaar deze bewegingen volgens dc intonatie-grammatica van 't Hart en Collier (1975) en 't Hart, Collier en Cohen (1990) uiteengezet worden. Hier volstaat het te concluderen dat met behulp van bovengenoemde regels een zo objectief mogelijke codering van toongroepgrenzen is gewaarborgd. Voor regel 1 spreekt dit voor zich. Voor de indicaties onder regel 2 is een korte toelichting noodzakelijk. Het zal duidelijk zijn dat de soorten pauzes en duurvcrlengingen die het eind van een toongroep markeren niet op puur fonetische gronden gedefinieerd zijn. Met name het onderscheid tussen haperingen binnen een toongroep (die zich eveneens manifesteren als pauzes en duurverlengingen) en grensmarkerende pauzes is niet altijd even duidelijk. Als vuistregel werd hier gehanteerd dat bij haperingen de intonatiecontour na dc hapering wordt waargenomen als een - voortzetting van de ingezette contour vóór de breuk. Bij grensmarkerende pauzes en dit geldt ook voor zogenaamde valse startgroepen (zie hieronder) - wordt na de (gevulde of ongevulde) pauze een nieuwe contour ingezet; dat wil zeggen: ze wordt waargenomen als discontinu met de voorgaande 'zinsmelodie'. De in regel 2 genoemde wonhoogtebewegifigen zijn vrijwel nooit alken ...bepalend voor de waarneming van een toongroepsgrens. In vrijwel alle voorko-.mende gevallen warden ze gecombineerd met (gevulde of ongevulde) pauzes of met een hernieuwde declinatie in de volgende syllabe.
9.1.2 Valse en neutrale startgroepen Niet alle uitingen die de kinderen produceren, zijn in volwaardige toongroepen ingedeeld. Het gaat hier om fonetisch afgebakende uitingen (intonatief en/of qua pauzering) die syntactisch niet afgemaakt worden (valse startgroepen) of die niet betekenisvol zijn, maar syntactisch wel passen bij hun vervolg (neutrale startgroepen). Een voorbeeld van een valse startgroep is in (4) hieronder gegeven. (4) en Jfm is. 1 die Jim stond te klappertanden 1 In (4) is de tweede toongroep geen syntactisch mogelijke voortzetting van de eerste. Oók wanneer in de eerste toongroep het woordje "is" niet was uitgesproken, zou dit als een valse startgroep gecodeerd zijn, omdat de opeenvolging "en Jim die Jim ..." niet grammaticaal is. We hebben hier te maken met zogenaamde zelfcorrecties, oftewel breuken in de continuïteit van de spraak. Voor een uitgebreidere behandeling van deze fenomenen verwijs ik naar paragraaf 9.5. Overigens is de codering van de eerste groep in (4) als valse startgroep volkomen afhankelijk van de in 9.1.1 genoemde fonetische grensmarkeringen. Bij de aanwezigheid van een doorlopende intonaticcontour (zoals een doorgezette daling over "en Jim is die Jim stond ...) wordt uiting (4) als één toongroep (met hapering) gecodeerd. Neutrale startgroepen onderscheiden zich van de valse starts, doordat ze wel syntactisch passen bij hun vervolg, zoals in (5):
108
Selectie en operationalisatie van predictoren
(5) nou chh
I toen ging ic naar huis I
In veel gevallen waarin woorden en woordgroepen als "nou", "en toen", "en ehh" en dergelijke als afgebakende uitingen voorkomen, hebben zij geen specifieke betekenisfunctie, maar vormen ze een extra gelegenheid voor de spreker om de gedachten te ordenen, of om dc formulering van de volgende uiting te overwegen. Deze woorden zijn daarvoor bij uitstek geschikt (in een narratieve context), omdat zij vrijwel door elke uiting gevolgd kunnen worden zonder dat de syntactische continuïteit verstoord wordt. Om die reden kunnen woorden als "nou", ''en" en "en toen" ook opgevat worden als de ideale stoplappen". Neutrale startgroepen worden alleen gecodeerd als zodanig, wanneer de kenmerken van een toongroepgrens aanwijsbaar zijn. 9.13 De codeursovereenstemming Teneinde te bepalen of toongroepen volgens de hierboven beschreven principes op een consistente wijze kunnen worden gecodeerd door verschillende codeurs, is een kleine test uitgevoerd. Twee codeurs oefenden zich in het aanbrengen van toongroepgrenzen door acht spreekprestaties van wisselende kwaliteit en lengte te coderen. 1-lierbij werd de hele tekst - inclusief valse startgroepen en neutrale startgroepen - van toongroepgrenzen voorzien. De oefencoderingen werden gecontroleerd en, voorzover dat aanleiding gaf, nabesproken om code,erverschillen op te heffen. Tenslotte werden dertien spreekprestaties, wederom van wisselende kwaliteit en lengte door beide codeurs, -onafhankelijk van elkaar, van toongroepgrenzen voorzien. De ene codeur kwam tot 346 toongroepen, de andere tot 321 toongroepen (inclusief valse startgroepen en neutrale startgroepen). In totaal was 93% van de toongroepen van de eerste codeur identiek aan die van de tweede. Dit is een ruim voldoende garantie voor de consistentie van de codering van toongroepgrenzen. 9.1.4 De definitieve codering van toongroepen en de correcties voor tekstlengte
Voor de dertien spreekprestaties uit bovengenoemde test is dc definitieve codering vastgesteld door de eerste codeur (AvG). De overige teksten (uit het totaal van 85) zijn eveneens door hem in toongroepen gesegmenteerd. De gemiddelden en standaarddeviaties van het aantal toongroepen per spreker in de twee (gedeeltelijk
13 Eén en ander wil niet zeggen dat alle instanties waarin sprekers deze woorden gebruiken ook betekenisloos zijn. Voor een uiteenzetting van de zogenaamde tekststructurerende neutrale starts verwijs ik naar paragraaf 9.4.
109
overlappende) steekproeven (N=60) bedragen respectievelijk 60.9 (gem.) en 63.4 (sd) voor de prestaties geselecteerd voor Overdracht en 57.9 (gem.) en 68.8 (sd) voor de prestaties geselecteerd voor Spreekgemak. Het aantal toongroepen per tekst wordt gebruikt als correctiefactor voor tekstlengte voor alle variabelen waarin ruwe tellingen (bijvoorbeeld toonhoogtebewegingen, accenten, zelfcorrecties, pauzes, etcetera) een rol spelen. Bij deze correctie worden de zogenaamde onvolwaardige toongroepen (valse en neutrale startgroepen) niet meegerekend. Aangezien bij alle bovengenoemde variabelen de toongroep als analyse-eenheid geldt, is de keuze van het aantal toongroepen als correctiefactor de meest voor de hand liggende. Sommige van deze variabelen echter, worden beïnvloed door de loongroeplengte (het gemiddeld aantal syllaben per toongroep varieert van spreker 'tot spreker). Dit geldt voor het aantal toonhoogtebewegingen en accenten (langere toongroepen kunnen meer bewegingen en meer aecenten bevatten), voor het aantal :pauzes en zelfcorrecties en voor sommige lexicale items (zie § 9.4). Men kan daarom betwijfelen of voor deze variabelen het aantal toongroepen wel de geëigende correctiefactor is. Daarom is de correlatie tussen het aantal toongroepen n de spreektijd (totale duur in seconden) berekend. Deze blijkt .99 respectievelijk 98 te zijn in de twee steekproeven. Deze correlaties zijn zo hoog dat er voldoen=de reden is om vast te houden aan het aantal toongroepen per tekst als tekstlengteindicator. —
9.2 Toonhoogtebewegingen en accenten voor de predictie van Overdracht Zoals al eerder (zie § 8.3.1) opgemerkt, is er een belangrijk verschil tussen de fysische eigenschappen van een intonatiecontour (het verloop van de fundamentele frequentie) en de aspecten van de intonatie die door luisteraars relevant warden gevonden voor de communicatie. De meest uitgewerkte beschrijving van de perceptief relevante toonhoogtebewegingen voor het Nederlands wordt gegeven in 't Hart, Collier en Cohen (1990). Deze beschrijving wordt ondersteund door descriptief en experimenteel onderzoek waarin in verschillende stappen geabstraheerd is van dc fysisch gemeten fundamentele frequenties ('t Hart e.a., o.c.). Hierbij zijn gemeten intonatiecontouren vergeleken om hun perceptieve gelijkwaardigheid te bepalen, en perceptief gelijkwaardige contouren zijn onderzocht op dc perceptief relevante kenmerken. Deze kenmerken zijn aan een acceptabiliteitstest onderworpen en er zijn regels voor hun produktie opgesteld, waarbij naar analogie van de syntactische woordvolgorderegels van een taal een intonatiegrammatica is ontwikkeld die vaststelt in welke opeenvolging toonhoogtebewegingen in het Nederlands kunnen voorkomen. In het onderhavige onderzoek is uitsluitend gebruik gemaakt van de descriptieve kenmerken van deze intonaticgrammatica, oftewel de basisbewegingen volgens welke de Nederlandse intonatie in het systeem van 't Hart c.s. afdoende beschre-
110
Selectie en operationalisatie van predictoren
ven kan worden. De normatieve aspecten 14 van de intonatiegrammatica zijn hier niet relevant, omdat in geen van de beoordelingscategorieën een uitspraak gedaan wordt over de acceptabiliteit van de intonatiecontouren die de kinderen produceren. De basisbewegingen kunnen we dus beschouwen als de (perceptief relevante) bouwstenen van de intonatiecontouren in het Nederlands. Dit betekent dat deze bewegingen tevens de grondslag vormen voor de perceptie van gevarieerdheid van intonatie. In grote lijnen kunnen we stellen dat een frequenter gebruik van verschillende basisbewegingen ook zal worden waargenomen als gevarieerder dan een minder frequent gebruik. Alvorens de precieze predicties voor het onderzoek te formuleren (zie § 9.2.6) zullen we hier de fonetische definitie van de basisbewegingen geven.
9.2.1 De basisbewegingen voor Nederlandse intonatie In 't Hart, Collier en Cohen (1990) worden de onderscheidingen tussen de bewegingen gebaseerd op de volgende vier dimensies: 1. De richting van de beweging (stijgend of dalend); 2. De positie in relatie tot de syllabegrenzen (vroeg, laat en zeer laat); 3. De snelheid waarmee de toonhoogteverandering plaatsvindt (snel of langzaam); 4. De grootte van de verandering (volledig of half). In tabel 17 zijn de tien bewegingen en hun kenmerken volgens bovenstaande dimensies weergegeven. De betekenis van kwalificaties als 'snel' en 'laat' in tabel 17 is niet zo impressionistisch als men wellicht zou denken. Door middel van stilering van toonhoogtebewegingen in het Nederlands zijn 't Hart c.s. erin geslaagd gestandaardiseerde fysische eigenschappen voor elke beweging te bepalen. Afwijkingen van deze standaardisaties in spontane spraak - zo wordt verondersteld - hebben geen invloed op de perceptief relevante eigenschappen van de bewegingen (hier wordt de zogenaamde melodische impressie bedoeld). Zo worden de eigenschappen van stijging 1 uit tabel 17 ('snel', 'volledig' en 'vroeg') gestandaardiseerd als "an increment of 50 semitones per second, with a duration of 120 milliseconds (thus amounting to a rise of 6 semitones), and timed in such a way that the peak of the excursion is reached 50 milliseconds after the onset of the vocatie nucleus of the syllable" ('t Hart, Collier & Cohen, 1990, p. 73). Een aspect van de basisbewegingen dat in tabel 17 niet is opgenomen, is dat zij tevens een belangrijke functie hebben bij het verlenen van perceptieve prominentie aan bepaalde syllaben. De stijgingen 1 en 3 en de daling A gaan altijd gepaard met de waarneming van een accent; de stijging 2 en de dalingen B en C gaan nooit met een accent gepaard. Volgens 't Hart e.a. (o.c. p. 96) is deze relatie
14 Zie bijvoorbeeld Collier en 't Hart (1981). De regels voor opeenvolging van de 'intonational blocks° (uit 't Hart en Collier, 1975) hebben eveneens zekere normatieve implicaties.
111
tussen positie van de toonhoogtebeweging in dc syllabe met de accentfunctie oorzakelijk en geen coïncidentie. Inderdaad kan men in verschillende situaties demonstreren dat het veranderen van de positie van een toonhoogtebeweging directe gevolgen heeft -voor dc waargenomen prominentie van de syllaben. Het accent kan op deze wijze van de ene naar de volgende syllabe verplaatst worden, Tabel 17: De basisbewegingen van de Nederlandse intonatie (uit: 't Hart, Collier & Cohen, 1990)
transcriptie symbool
1 4richting
stijging
2
+
3
4
5
+
+
+
daling
positie
+
+
snel
+
D
E
+
+
+ +
+ +
+
+
+
+
+
+
+
langzaam volledig
C
-1
zeer laat
grootte
B
vroeg laat
, snelheid
A
+
half
het kan plotseling waarneembaar worden, of het kan totaal verdwijnen. Een en ander betekent echter niet dat toonhoogtebewegingen dc enige manier zijn om prominentie te verlenen. Ook verlenging van de duur van een syllabe, of vergroting van hel volume waarmee de syllabe wordt uitgesproken, hebben een duidelijk effect op de waargenomen prominentie.
9.2.2 De codering van intonatie en accenten De beschrijving van de tien basisbewegingen is als uitgangspunt genomen voor de coderingsprocedure. In verschillende rondes en door verschillende codeurs zijn instructies die daarop gebaseerd waren beproefd op hun uitvoerbaarheid. Het zal duidelijk zijn dat de gestandaardiseerde versies van toonhoogtebewegingen die in zorgvuldig experimenteel onderzoek zijn geverifieerd, niet zomaar aangetroffen kunnen worden in de spontane spraak van elf- en twaalfjarige leerlingen in en rond de stad Amsterdam. Niet alleen vormen de basisbewegingen een abstracte beschrijving van de melodische eigenschappen van 'normale' uitingen, maar tevens moesten we rekening houden met de mogelijke invloed van onnauwkeurige
112
Selectie en operationalisatie van predictoren
uitspraak, dialect en andere niet-standaardtalige 15 aspecten, zoals bijvoorbeeld de intonatiegewoonten van een niet-verwaarloosbare groep sprekers van Nederlands als tweede taal. Om te voorkomen dat de codeurs voor schier onoplosbare keuzeproblemen gesteld zouden worden, bleek het noodzakelijk enkele versimpelingen aan te brengen in de definities van de toonhoogtebewegingen. De versimpelingen hadden betrekking op het aantal te onderscheiden basisbewegingen (acht in plaats van tien) en op het verband tussen de precieze plaats van inzet van de toonhoogtebeweging en de soort code. Ik zal deze versimpelingen, en de observaties die er de aanleiding toe waren, hieronder kort weergeven. Om te beginnen is afgezien van een onderscheid tussen stijgingen van het type 1 en 3, en dalingen van het type B en C. De reden hiervoor is dat het onmogelijk bleek goed aan te geven waar de grenswaarden voor het onderscheid 'vroeg'/ 'laat' op basis van een puur auditieve analyse moeten worden gelegd. Bovendien hebben wij geen specifieke voorspellingen voor het onderscheiden belang van een vroege en een late accentverlenende stijging, respectievelijk een vroege en een late niet-accentverlenende daling. Het leek daarom zinvoller om nadruk te leggen op het onderscheid accentverlenend/niet-accentverlenend, dan op het onderscheid vroeg/laat. In de tweede plaats zijn alle positie-regels volgens welke een bepaalde toonhoogtebeweging_kan worden geclassificeerd, sterk versoepeld. De reden voor deze versoepeling was een zuiver empirische: de kinderen bleken zich er gewoon niet aan te houden. Dit geldt bijvoorbeeld voor uitingen als (6) en (7). o 0 (6) in bómerillimmen (1-5; 9) 16 o 0 6-'1 (7) 8'n Verzinsel ging naar huis (3-10; 30) 1 1 De intonatie is hier gecodeerd per syllabe. Aangegeven wordt of de toonhoogte bij elke syllabe op de hoge of de lage declinatielijn ligt door een hoog of laag geplaatst cirkeltje. Hoorbare bewegingen omhoog of omlaag worden aangeduid door vanuit het cirkeltje een lijn te trekken in de richting van de toonhoogteverandering. Primaire accenten worden aangegeven met '1' onder de betreffende syllabe. Zo kan men in (6) zien dat de syllabe 'bo' beaccentueerd wordt. De
15 Ik ga niet in op de problematiek van het normatieve aspect van de basisbewegingen. Zijn ze werkelijk een limitatieve opsomming van acceptabele toonhoogtebewegingen in het standaardNederlands, of vormen ze daar slechts een selectie uit? Eén en ander vereist een grootschalige descriptie van de toonhoogtebewegingen van standaardtaal-sprekers. 16 In deze - en alle volgende - voorbeelden van uitingen van sprekers uit dit onderzoek, verwijzen de tussen haakjes geplaatste getallen naar de precieze locatie van de uiting.
113
regels voor de basisbewegingen worden hier echter met voeten getreden. De enige toonhoogtebeweging bij deze syllabe is een vroege daling (B), hetgeen blijkt uit het feit dat de voorgaande syllabe nog op de hoge declinatielijn wordt uitgesproken. Een vroege daling is echter nooit accentverlenend. In de volgende syllabe 'men' wordt bovendien een stijging ingezet, die volgens Bartjes accentverlenend zou moeten zijn (1 of 3). Dit is hij echter niet. We hebben hier te maken met een typisch geval van 'veel te late' stijging. Hiermee bedoel ik dat volgens de regels die aan de basisbewegingen van 't Hart e.a. ten grondslag liggen, deze stijging een syllabe te laat is ingezet. Een andere interpretatie is dat hij van zijn plaats geduwd wordt door de vroege daling B vóór "bo". Inderdaad komen deze 'veel te late' stijgingen vaak in vergelijkbare situaties voor, waarin zij voorafgegaan °worden door een daling B. Anderzijds is er geen enkele reden te bedenken, ?waarom de stijging 1 (of 3) niet op zijn' 'bestemde' plek kart worden uitgevoerd, :wanneer ze voorafgegaan wordt door B. In (7) kan men bovendien een voorbeeld zien van een 'veel te late' stijging zonder, enige voorafgaande toonhoogtebeweging "bp de syllabe "sel". Wederom is een accent duidelijk hoorbaar op de voorafgaande syllabe ''zin", alwaar ook de klemtoon van het woord "Verzinsel" gesitueerd is. Ik wil graag benadrukken dat het hier gaat om zeer acceptabel klinkende uitingen van Nederlandstalige kinderen; vergelijkbare voorbeelden van gerealise,er• toonhoogtebewegingen zijn in het bestand vrij regelmatig te horen. Een soortgelijke inbreuk op het verband tussen positie van de toonhoogtebeweging en realisatie van een accent, zoals geformuleerd door 't Hart e.a., bleek op te treden bij sommige vroege dalingen. In diverse situaties kon waargenomen worden dat deze dalingen gepaard gingen met een primair accent op de volgende syllabe, zoals in uitingen (8) en (9): 0
0 0 g
"
g? 9,
(8) je moet gewoon proberen ... (1-1; 15) 1 1 o o (9) nee weInge ... (4-5; 43) 1 Het is mogelijk dat in deze situaties het accent niet 'veroorzaakt' wordt door de toonhoogteverandering, zoals door 't Hart e.a. wordt verondersteld, maar dat er sprake is van coïncidentie. Het accent wordt dan vooral geëffectueerd door volumevergroting en verlenging van de syllabeduur, alhoewel tevens gedemonstreerd kan worden dat het verwijderen van de toonhoogteverandering (in resynthese) leidt tot een minder duidelijke accentwaarneming. 't Hart (schriftelijke communicatie, 1992) meldt overigens dat op dit moment onderzoek wordt gedaan dat aannemelijk maakt dat dalingen van het type A (laat en accentverlenend) soms in een 'vroege' vorm voorkomen. Samenvattend kunnen we hier de conclusie trekken dat de gecodeerde toonhoogtebewegingen een wat andere betekenis hebben gekregen dan de gegeven definities in tabel 17. In tabel 18 zijn de nieuwe definities, zoals ze in dit onderzoek zijn gebruikt, weergegeven. Men kan uit deze tabel opmaken dat voor de
114
Selectie en operationalisatie van predictoren Tabel 18: De definitie van de acht basisbewegingen in dit onderzoek
Symbool
Naam
Omschrijving eigenschappen
Accentverlenend?
fl
Accentverlenende stijging
elke positie/snel/volledig (óók: veel te laat)
altijd
2
Eind- of continuatiestijging
zeer laat/snel/volledig
nooit
4
Inclinatie
langzaam/volledig
vaak
5
Extra stijging
vroeg/snel/half
vaak
A
Finale daling
elke positie/snel/volledig
altijd
B
Niet-finale of uitgestelde daling
vroeg/snel/volledig
nooit
D
Langzame daling
langzaam/volledig
nooit
E
Halve daling
vroeg/snel/half
soms
bepaling van het type toonhoogtebeweging vaak niet de specifieke positie van inzet (vroeg, laat, of veel te laat), maar de waarneming van een accent doorslaggevend was. Hierbij is ook het onderscheid tussen de twee soorten 'punthoeden' (1 & A en 1 & B), gedefinieerd door een - subtiel - verschil in de positie van de daling direct na een accentverlenende stijging ('t Hart & Collier, 1975), komen te vervallen. Tot slot zijn nog twee aanpassingen gemaakt bij de codering van accenten. De reden hiervoor was vooral van praktische aard. Het bleek namelijk nogal moeilijk om 'alles of niets' beslissingen te nemen wanneer er twijfel bestond over de vraag of een bepaalde syllabe beaccentueerd werd. Soms werd een duidelijk accent gehoord, maar was geen duidelijke toonhoogtebeweging aanwezig. In dit soort gevallen werd een 'sterk metrisch accent' gecodeerd. Hiermee werd aangeduid dat de prominentie vermoedelijk tot stand werd gebracht door volumevergroting en/of duurverlenging van de syllabe. Soms was een toonhoogtebeweging wel duidelijk hoorbaar, maar bestond er twijfel over het accentverlenende karakter ervan. Zulke gevallen werden gecodeerd als 'secundaire accenten'.
9.2.3 De codeerprocedure Nadat alle transcripten in toongroepen waren gesegmenteerd, werd de intonatie gecodeerd. Hierbij werd dus gebruik gemaakt van de toongroepgrenzen. Twee codeurs beluisterden de cassettes met spreekprestaties met behulp van een SANYO memo-scriber (TRC 8070 A), waarbij ze met behulp van de voetschakelaar telkens kleine stukjes van de tape terug konden spoelen en opnieuw beluiste-
115
ren. Op deze wijze kon dus het toonhoogteverloop over syllaben zo vaak als gewenst herbeluisterd worden. Ook konden moeilijk hoorbare toonhoogleveranderingen opgespoord worden door de band op strategische plekken (bijvoorbeeld midden in een gerekte syllabe) stil te zetten en vervolgens weer door te laten spelen. Tevens is de memo-scriber uitgerust met een afspeelsnelhcidsregelaar, zodat alle spraak langzamer kon worden afgedraaid wanneer dat gewenst was. Elke geïntoneerde syllabe werd gecodeerd door aan te geven of er één of meer toonhoogtebewegingen hoorbaar waren. Indien geen toonhoogtebeweging hoorbaar was, werd bepaald of de syllabe op de hoge of de lage declinatielijn werd geïntoneerd. Het hoog/laag onderscheid werd alleen binnen de grenzen van de toongroep bepaald. Wat 'hoog' was in de ene toongroep kon dus 'laag' zijn in de andere. Een en ander is in overeenstemming met de vrij algemene aanname onder fonetici dat voor een beschrijving van Nederlandse intonatie slechts twee declinatielijnen nodig zijn: de hoge en de lage (vgl, 't Hart e.a., 1990). De beperking tot twee declinaties brengt tegelijkertijd een aantal restricties met zich mee betreffende de mogelijke opeenvolging van toonhoogtebewegingen. Zo kunnen twee 'volledige, accentverlenende' bewegingen in dezelfde richting (daling Of stijging) niet na elkaar komen, zonder dat er een beweging in tegenovergestelde richting tussen komt. 'Halve' bewegingen hebben echter een geringere excursie en deze kunnen dus wel direct na elkaar komen. Halve dalingen (E) kunnen dus in een soort terrasstructuur voorkomen. Extra stijgingen (5) kunnen nog 'bovenop' een accentverlenende stijging komen, maar daarna dient wel direct gedaald te worden. De eind- of continuatiestijging (2) kan, hoewel hij een 'volledige' excursie heeft, 'bovenop' een accentverlenende stijging komen. Ook de regels voor de codering van toongroepgrenzen (zie § 9.1.1) hebben enkele restricties tot gevolg. Zo kunnen eindstijgingen uitsluitend in de laatste syllabe van een toongroep voorkomen, en hernieuwde declinaties (die zich manifesteren als een plotselinge verhoging van de fundamentele frequentie zonder dat dit een accent bewerkstelligt) kunnen alleen in de eerste syllabe voorkomen. Gezien de tijdrovendheid van de codeerprocedure was het noodzakelijk de spreekprestaties die langer dan ongeveer drie minuten duurden in drie delen te splitsen: eenbegin, een midden en een eind, elk van ongeveer één minuut. De rest van deze lange prestaties werd niet gecodeerd. ,
9.2.4 De codeursovereenstemming Het zal duidelijk zijn dat de codering van toonhoogtebewegingen en accenten in spontane spraak een activiteit is die veel ervaring en concentratie eist. Bovendien is in onderzoek wel eens afgedongen op de mogelijkheid om overeenstemming te krijgen over de waargenomen intonatie (vgl. Lieberman, 1965). Daarom is in dit onderzoek bijzondere aandacht besteed aan de oefening en instructie van de codeurs. Eerst is een half jaar lang een vooronderzoek uitgevoerd naar de haalbaarheid van de intonatiecodering. Hierin beproefde de onderzoeker (AvG) verschillende instructies en besprak deze met een tweede codeur. Beiden oefenden zich in de intonatiecodering door een grote hoeveelheid spraak te analyseren.
116
Selectie en operalzonalisatie van predictoren
Bovendien werden coderingen van beide codeurs gecontroleerd door gestileerde contouren van de geresynthetiseerde spraak te beluisteren, en te beoordelen of de codes leidden tot een contour die de perceptief relevante aspecten van de oorspronkelijke intonatiecontour goed nabootste. Pas nadat al deze procedures doorlopen waren, is een instructie opgesteld voor de definitieve codering waarin rekening gehouden werd met de moeilijkheden die zich hadden voorgedaan. Vervolgens zijn alle prestaties opnieuw gecodeerd. Een tweede codeur werd geoefend in de nieuwe codeerinstructies door negen spreekprestaties te coderen; de codes werden nabesproken en eventuele onduidelijkheden werden opgelost door de stukken tekst gezamenlijk te beluisteren. Van elk van de resterende 51 prestaties codeerde de tweede codeur de eerste 15 toongroepen. Hierbij voerde zij geen overleg meer met de eerste codeur. De eerste 15 toongroepen van de genoemde prestaties werden dus door beide codeurs onafhankelijk van elkaar gecodeerd. Vervolgens is bepaald welke proporties van de gegeven codes voor toonhoogtebewegingen én accenten van beide codeurs identiek waren. Gezien de onderlinge verwevenheid van de beslissingen over de soort toonhoogtebeweging en het al of niet beaccentueerd zijn van een syllabe, is ervan afgezien deze aspecten van de codering van elkaar te scheiden. Er is dus één maat voor de codeursovereenstemming berekend, waarin tegelijkertijd de soort toonhoogtebeweging en de beaccentueerdheid verdisconteerd Van de in totaal 5905 gegeven codes waren er volgens deze berekeningswijze 4782 identiek, een overeenstemmingspercentage van bijna 81. Dit percentage is vrij bevredigend en komt in de buurt van het percentage overeenstemming dat Van Bezooijen (1989) rapporteert voor geoefende codeurs die uitsluitend zinsaccenten codeerden (87%) (een aanzienlijk eenvoudiger taak dan de codering van toonhoogtebewegingen én accenten, want hij dit laatste worden tevens beslissingen genomen over de vorm van de intonatiecontour per uiting). Een redelijke overeenstemming tussen codeurs is echter nog geen garantie voor de validiteit van de codes. De vraag is immers: in hoeverre drukken de codes de perceptief relevante toonhoogtebewegingen adequaat uit? Om hier meer zekerheid over te krijgen is de volgende procedure doorlopen.
9.2.5 Validiteit van de codering van intonatie In de eerste plaats overlegden de twee codeurs over elke niet-identieke code, teneinde een definitieve beslissing te nemen over de van toepassing zijnde
17
Een concreet voorbeeld zal de berekening van de codeursovereenstemming verduidelijken. Ten eerste werd zorg gedragen voor een perfecte correspondentie tussen gecodeerde syllaben van beide codeurs. Vervolgens werd per syllabe bepaald of de gegeven codes identiek waren. Indien de ene codeur een accentloze daling (13) had gecodeerd, terwijl de andere codeur een accentverlenende daling meende te horen, was de code evenzeer niet-identiek als wanneer de één een stijging en de ander een daling hoorde. Wanneer beide codeurs het eens waren dat géén toonhoogtebeweging en géén accent in de syllabe hoorbaar waren, werden de codes (hoge of lage declinatie) als identiek gezien.
117
toonhoogtebeweging. Hierbij luisterden ze uiteraard weer naar de uitingen waarover verschil van mening was. Van de 1123 niet-identieke codes bleven er na dit overleg nog 77 over, waarover de twee codeurs niet tot overeenstemming konden komen. De 77 codes waren verdeeld over dertig toongroepen van verschillende sprekers. In deze toongroepen waren tevens 198 codes waarover de codeurs het wel eens waren. Deze dertig toongroepen werden instrumenteel geanalyseerd, teneinde te bepalen: - of een gestileerde FO-contour, volgens de codes waarover de codeurs het eens waren, de relevante toonhoogtebewegingen uit de niet-gestileerde contour goed nabootste; - of een gestileerde FO-contour uitsluitsel kon geven over de juiste codering van de toonhoogtebewegingen waarover de codeurs het niet eens waren geworden. De dertig toongroepen werden één voor één ingelezen met het programma SESAM (een zogenaamde golfvormediter; Broeder, 1989) met een samplefrequentie van. 10 kHz. Vervolgens werden de resulterende spraakbestanden geanalyseerd met een programma voor formantanalyse en een programma voor extractie van ete fundamentele frequentiecontour (AAB en PDT, beiden uit het programmapakket LVS (Vogten, 1985)). Tenslotte werd (met CHIP eveneens uit LVS) de FO-contour zodanig gestileerd dat op de twee hierboven gestelde vragen een antwoord gevonden werd. Hierbij werd elke stilering (analoog aan de procedure die 't Hart e.a. (1990) beschrijven) zorgvuldig vergeleken met de nietgestileerde resynthese én met de oorspronkelijke (niet-geresynthetiseerde) spraakbestand. De twee codeurs beluisterden tezamen deze drie versies van elke toongroep en beslisten (bij unanimiteit) of een bepaalde stilering de relevante aspecten van de intonatiecontour tot zijn recht deed komen. In figuur 5 is een voorbeeld gegeven van een niet-gestileerde contour (boven) en een gestileerde contour die goed aan de eisen voldoet bij de toongroep "hij vroeg aan zijn moeder". De tijdas is verdeeld in stapjes van een tiende seconde. De gestippelde delen van de contour zijn stemloos, zoals ook de lijn onder de gestileerde contour aangeeft. Onder de contouren is de amplitude van het spraaksignaal weergegeven en daaronder is - zoveel mogelijk in overeenstemming met hel werkelijke tijdsverloop - de gesproken tekst uitgezet met de symbolen voor de basisbewegingen die blijkens de gestileerde contour van toepassing zijn. Het meningsverschil in dit specifieke geval betrof de vraag of voor de syllabe 'vroeg' een daling B werd gerealiseerd, dan wel of er sprake was van een langzame daling D over de vier eerste syllaben, zoals uit de stilering blijkt. Op grond van deze analyses kon in alle voorkomende gevallen bepaald worden wat de meest passende codering van de toonhoogtebewegingen was. Bovendien konden de codes waarover de codeurs het al eens waren op hun validiteit gecontroleerd worden. Van de 198 identieke codes in de dertig onderzochte toongroepen moesten er 28 veranderd worden (14%) omdat bij stilering bleek dat een relevante beweging niet gecodeerd was, dan wel beter met een andere beweging kon worden beschreven. In vrijwel al deze gevallen gold echter dat de detectie van het verschil een zeer nauwgezette beluistering vereiste. De excursie van een nietgecodeerde beweging, was meestal zeer gering en/of er was sprake van een lage intensiteit - en erg korte duur - van de syllabe. We kunnen concluderen dat de .
118
Selectie en operationalisatie van predictoren Figuur 5: Niet gestileerde en gestileerde contouren van de toongroep: "hij vroeg aan zijn moeder". De FO-schaal is in Hertz uitgedrukt en beslaat in totaal twee octaven 0.0
159.0
512
127 512
LL
127 2048
,
2048
Hij vro e g a an z i j nrnoed e r D D D1 A 2 D validiteit van de codering in de grote meerderheid van de gevallen gewaarborgd is.
9.2.6 Specifieke predicties voor toonhoogtebewegingen en accenten In hoofdstuk 8 is in grote lijnen uiteengezet om welke reden intonatie en accentuering belangrijk zijn voor de predictie van de Overdrachtsoordelen. Nu we echter over een uitgewerkt coderingssysteem beschikken, zal nauwkeuriger aangegeven worden op welke wijze intonatievariatie in dit onderzoek geoperationaliseerd is. In eerste instantie is getracht een maat te ontwikkelen die uitdrukt in hoeverre in opeenvolgende toongroepen verschillende contouren door de spreker gerealiseerd worden; hoe meer afwisseling in contour, des te groter is de intonatievariatie immers. Deze poging is echter gestrand, omdat het onmogelijk bleek eenduidige criteria voor 'gelijksoortigheid' van contouren te formuleren. Men moet bedenken dat - letterlijk genomen - vrijwel geen contour identiek is aan een andere, zelfs niet wanneer we uitgaan van gestileerde contouren volgens de acht basisbewegingen. De voornaamste reden hiervoor is de grote variatie in lengte en structuur van de toongroepen. Ook indelingen van toongroepen in begin-, midden- en einddelen leken geen soelaas te bieden en uiterst bewerkelijk te zijn. Een en ander ontbeerde een gedegen theoretische basis en daarom is op dit spoor ook niet verder gegaan. 119
Bij het operationaliseren van intonatievariatie is daarom voor een erg simpele gedachtengang gekozen: meer gebruik van percepticf relevante bewegingen is gevarieerder dan minder gebruik ervan (ofwel 'monotone' intonatie). Hetzelfde kan gezegd worden voor de functie van accenten: hoe meer duidelijk waarneembare accenten, des te gevarieerder is de spraak. Immers het contrast tussen niet en wel beaccentueerde syllaben wordt groter door het gebruik van primaire (toonhoogte-) accenten. Zwakkere accenten (de gecodeerde 'secundaire' accenten en sterk-metrische accenten) vervullen deze contrastfunctie voor de luisteraar waarschijnlijk op een minder uitgesproken wijze l8 . Op bovenstaande redenering moet echter één uitzondering gemaakt worden. Niet alle relevante toonhoogtebewegingen bevorderen de perceptie van gevarieerdheid. Reeds bij de beoordeling van de prestaties is aan de jury als aandachtspunt voor een. monotone intonatie gegeven het bij herhaling omhoog gaan van de toonhoogte aan het eind van 'uitingen'. Dit heeft uiternard betrekking op de zogenaamde eind- of continuatiestijging (2). Iedereen die een opeenvolging van toongroepen hoort die alle met zo een stijging eindigen, kan zich van de overheersende indruk van 'saaiheid' en monotonie vergewissen. Ook Chafe (1980) maakt melding sart. dit fenomeen in het Amerikaans-Engels en in het Duits (o.c., p. 2224). Het ,voortdurend herhalen van de continuatiestijging geeft de indruk van een opsomming, ofwel zoals Chafe het noemt: het legen van het gehele geheugen. "The insertion of intermediate closure is evidently something to be leamed. All our evidence suggests that learning to exploit intermediate closure effectively in speaking is a slow process, and in fact that adults never fully learn it either. Effective division of a narrative into sentences remains a problem at all ages." (o.c., p.23) Het telkens herhalen van de continuatiestijging als grensmarkering en het relatief weinig gebruiken van signalen dat een passage of gedachte wordt afgesloten (Chafes 'intermediate closure') door een Finale daling (A), of van andere soorten grensmarkering (eindigen op de hoge declinatie en laag hernemen, eindigen op een halve daling, of eindigen met een accentverlenende stijging (1) gevolgd door een zogenaamde uitgestelde daling (B)) was in het databestand het enige direct herkenbare patroon dat als saai gepercipieerd werd. Het is niet duidelijk of dit samenhangt met de narratieve tekstsoort, of met de populatie van leerlingen'. Diverse exploraties naar de aanwezigheid van andere saaie patronen hebben niets
18 Dat neemt niet weg dat een gebruik van secundaire accenten, naast primaire, andere belangrijke communicatieve functies kan vervullen (Bolinger, 1985). Aangezien we ons hier echter beperken tot ruwe tellingen van aantallen accenten, en secundaire accenten slechts gedefinieerd zijn als 'zwak accent', kunnen wij over het mogelijke adequate gebruik van secundaire accenten in dit onderzoek niets zinvols zeggen. Overigens geldt de regel 'hoe meer, hoe gevarieerder' uitsluitend binnen de beperkingen van 'normale' spraak. Zie verder § 8.3.1. 19 't Hart (schriftelijke communicatie, 1992) geeft een voorbeeld van een ander type grensmarkering dat als saai gepercipieerd kan worden in voetbalverslagen voor de radio. Deze door hem genoemde 'emergency contours' gebeuren onder tijdsdruk, hebben een '1' voor de grens en blijven hoog tot de grens.
120
Selectie en operationalisatie van predictoren
opgeleverd. Alleen voor het aantal '2-tjes' per toongroep bleek de correlatie met het jury-oordeel over Overdracht negatief te zijn (-.52). Samenvattend hebben we één predictor voor inlonatievariatie (de proportie gecodeerde basisbewegingen - minus continuatiestijgingen - van alle gegeven codes: syllaben met en zonder toonhoogtebewegingen, vgl. voorbeelden 6 tot 9 in § 9.2.2), en één predictor voor 'contrastiviteit' (het relatieve aantal gecodeerde primaire accenten); deze is te beschouwen als een aparte component van intonatievariatie. Dit aantal wordt berekend over toongroepen, als correctie voor tekstlengte (zie § 9.1.4). Voor intonatievariatic vindt deze correctie al plaats door het totaal aantal gegeven codes voor toonhoogte.
9.3 Variatie van intensiteit, fundamentele frequentie en tempo voor de predictie van Overdracht De metingen van fundamentele frequentie en intensiteit zijn per toongroep uitgevoerd met behulp van het programma FORM (Van Son, 1992). Dit programma is bedoeld voor 'speech-editing' en is in staat meetgegevens over diverse parameters te verschaffen. Van alle 60 prestaties geselecteerd op Overdracht zijn de 15 eerste en de 5 laatste toongroepen geanalyseerd. De metingen zijn verricht nadat de contouren van de fundamentele frequentie handmatig gecorrigeerd waren (zie verderop in deze paragraaf). Aangezien niet alleen intensiteitsvariatie binnen een prestatie, maar ook verschillen in intensiteit tussen prestaties relevant zijn voor de beoordeling van Overdracht, moesten enkele voorzorgen genomen worden bij de analyses. In de eerste plaats was bij de afname van taak 4 (zie hoofdstuk 2) erop toegezien dat de opnamecondities over leerlingen zoveel mogelijk gelijk gehouden waren (gelijke afstand tot de microfoon en gelijke opnamevolumes). In de tweede plaats zijn de volume-instellingen bij opname van de spraakbestanden voor de meetanalyses eveneens zoveel mogelijk gestandaardiseerd. Niet uitgesloten kon echter worden dat de intensiteitsverschillen tussen prestaties beïnvloed werden door (kleine) verschillen in opnamevolume, omdat de regeling hiervan continu was, in plaats van discreet. Ter controle zijn de gemeten gemiddelde intensiteiten per prestatie gecorreleerd met globale meteraflezingen van de oorspronkelijke cassettes. Deze correlatie (p.m.c.) bedraagt .89, een voldoende indicatie dat de intensiteit van de spraakbestanden qua variantie weinig afwijkt van de oorspronkelijke opnames. Voordat de eigenlijke akoestische metingen plaatsvonden, zijn de te analyseren prestaties opgenomen met een golfvormeditor (SESAM; Broeder, 1989) met een sample-frequentie van 10 kHz en geanalyseerd met programma's voor formantanalyse en toonhoogte-extractie (AAB en PDT uit het programma LVS; Vogten, 1985). De uitvoer van deze twee analyses is een spraakbestand met de gemeten contour van de fundamentele frequentie. Aangezien het algoritme voor de bepaling van deze contour niet foutloos werkt, moest de contour 'met de hand' gecorrigeerd worden. Hierbij werd het gecorrigeerde signaal auditief vergeleken
121
met de resynthese. Als regel voor deze correctie gold dat octaaffouten in de overgang van stemhebbende naar stemloze delen (en vice versa) werden verwijderd door de betreffende delen stemloos te maken. Octaaffouten midden in een stemhebbend deel werden ongedaan gemaakt door de fundamentele frequentie met een half of met twee te vermenigvuldigen. Andere fouten in de geanalyseerde grondtoonfrequenties (met een andere vermenigvuldigingsfactor) werden ongedaan gemaakt door het stemloos maken van de spraaksignalen. Het resultaat van deze correcties was altijd een vloeiende contour, zonder abrupte veranderingen in grondtoon. Zowel voor deze correcties als voor hel opvragen van meetgegevens is gebruik gemaakt van het (bovennoemde) 'speech-editing' programma FORM. Dit programma bleek voor deze activiteiten de meest efficinte procedure te bieden. "_ Met behulp hiervan werd voor elke toongroep - vanaf de eerste inzet van de eerste syllabe tot de eerste inzet van de volgende toongroep - de duur in milliseconden, de gemiddelde fundamentele frequentie, de standaarddeviatie van de tindamentele frequentie en de deviatie van de regressielijn van de FO-contour alle in Hz), de gemiddelde intensiteit en de standaarddeviatie van de intensiteit (in dB)-gemeten. Het was de bedoeling op deze wijze zes akoestische predictorcoaten te construeren, te weten: 1,, standaarddeviatie van FO-gemiddelde over toongroepen; 2: gemiddelde standaarddeviatie van FO binnen toongroepen; 3. gemiddelde standaarddeviatie van de regressielijn van F0 binnen toongroepen; 4. gemiddelde intensiteit over toongroepen; 5. standaarddeviatie van gemiddelde intensiteit over toongroepen; 6. gemiddelde standaarddeviatie van intensiteit binnen toongroepen. De nummers 1 en 2 zijn uiteraard alternatieve manieren om variatie van fundamentele frequentie over een tekst te meten. De eerste manier geeft een vrij globale indicatie van FO-verschillen tussen toongroepen; de tweede manier meet FOvariatie op een meer microscopische wijze binnen toongroepen en drukt deze variatie uit in een gemiddelde voor de hele tekst. Nummer 3 hierboven is bedoeld als een benadering van de gemiddelde excursiegrootte binnen toongroepen (Tieten, 1989). De gewone standaarddeviatie van FO (nummer 2) lijkt hiervoor een minder geschikte benadering, omdat deze geen rekening houdt met de declinatie, die in veel toongroepen aanwezig is. Predictor nummer 4 spreekt voor zich: een groter gemiddeld volume is waarschijnlijk gerelateerd aan een expressievere - meer op de luisteraars gerichte - Overdracht. Alhoewel dit aspect niet expliciet is opgenomen bij de beoordeling en het waarschijnlijk een beperkte rol speelt (alleen erg zachtsprekende kinderen zullen qua Overdracht tekort schieten) is het interessant de predictieve waarde ervan te kunnen bepalen. De predictoren 5 en 6 zijn analoog geconstrueerd aan de predictoren 1 en 2 voor FO-variatie. Nummer 5 is een globale maat voor intensiteitsvariatie over toongroepen; nummer 6 geeft een meer microscopische benadering. We moeten bedenken dat het opnemen van predictoren met erg hoge intercorrelaties (zeg groter dan .90) in een regressievergelijking niet zinvol is. Door deze hoge intercorrelaties kunnen we toch niets ontdekken over de afzonderlijke bijdrage van de predictoren aan de verklaring van het criterium, en wat de één nog toevoegt aan wat de ander al verklaart, is statistisch gezien verwaarloosbaar.
122
Selectie en operationalisatie van predictoren
Om die reden zijn eerst de intercorrelaties tussen de zes predictoren berekend, om de definitieve selectie te kunnen maken. In tabel 19 zijn deze intercorrelaties (produkt-moment correlaties) gegeven. Uit tabel 19 blijkt dat we zonder noemenswaardig informatieverlies twee van de zes predictoren kunnen schrappen, namelijk één van het paar 2 en 3 (gemiddelde sd F0 binnen ~groepen en gemiddelde deviatie van regressielijn FO binnen toongroepen) en één van het paar 4 en 6 (gemiddelde energie en gemiddelde sd van de intensiteit binnen toongroepen). Vrij arbitrair heb ik besloten 3 en 6 te schrappen. Een laatste opmerking wil ik nog wijden aan de keuze van meeteenheden. Zoals gezegd wordt de fundamentele frequentie in Hertz gemeten; een alternatief is het gebruik van semitonen (ST) als meeteenheid. Hiervan is afgezien omwille van de eenvoud en omdat bleek dat - binnen het bereik waarin de leerlingen variëren (grofweg van 180 tot 360 Hz) - de scores in Hz ongeveer .99 correleren met de in ST getransformeerde scores. Ook in ander onderzoek is om vergelijkbare redenen gekozen voor de Hertz-schaal (Boves, 1984; Van Bezooijen, 1984). De keuze voor de decibel als meeteenheid voor de intensiteit ligt voor de hand, omdat een verschil van één dB voor het menselijk gehoor nog net waarneembaar is. 'fabel 19: intercorrelaties tussen zes potentiële predictoren voor fundamentele frequentie en intensiteit (1 sd van FO over toongroepen; 2 = gemiddelde sd FO binnen toongroepen; 3 = gemiddelde deviatie F0; 4 = gemiddelde intensiteit; 5 sd van intensiteit over toongroepen; 6 = gemiddelde sd intensiteit binnen toongroepen); N = 60
1
1
2
3
4
5
6
1.00
.77
.70
.49
.41
.53
1.00
.96
.49
.22
.55
-
1.00
.46
.19
.52
1.00
.14
.95
1.00
.21
2 3
-
4 5
6
1.00
-
9.3,1 Stabiliteit van de geselecteerde maten Aangezien de akoestische metingen slechts op een deel van de meeste prestaties zijn gedaan (de 15 eerste en 5 laatste toongroepen) is het van belang te weten in hoeverre deze maten over de gehele prestatie stabiel zijn. Wanneer ze immers in hoge mate onstabiel zijn, dan zijn ze als predictoren voor de jury-oordelen (die gebaseerd zijn op de hele prestatie) minder geschikt. Om hier meer inzicht in te krijgen zijn de metingen per prestatie apart gesommeerd over drie onderscheiden delen: de 5 eerste, de 10 volgende en de 5 laatste 123
toongroepen. Vervolgens zijn t-tests verricht om te bepalen of in de steekproef significante verschillen tussen de akoestische kenmerken in de onderscheiden delen te vinden waren. Van de 12 uitgevoerde t-tests (drie voor eik van de vier akoestische predietoren) gaf slechts één een significant verschil te zien bij een tweezijdige toets (alpha = .05). Hieruit bleek dat de intensiteit in de eerste vijf toongroepen gemiddeld bijna twee decibel hoger lag dan in de laatste vijf. Een en ander is begrijpelijk als we bedenken dat de kinderen in het begin vaak vol enthousiasme praten, maar aan het eind enigszins uitgeput raken, zowel qua enthousiasme als qua fantasie, hetgeen zich vaak uit in een afnemend volume van de spraak. De resultaten van de t-tests geven geen aanleiding om te twijfelen aan de stabiliteit van de akoestische maten over langere spreekprestaties of aan de representativiteit van de geselecteerde delen van de teksten. Door de middeling van de meetresultaten voor alle twintig toongroepen wordt het hierboven genoemde 'nachtkaarseffect' meegerekend in de variaties van de gemiddelde intensiteit over de beoordeelde leerlingen.
9.3.2 Tempovariatie We zullen hier nog kort ingaan op enkele pogingen om functionele tempovariaties te operationaliseren. Dergelijke variaties spelen een rol bij het realiseren van spanningsopbouw en kunnen het belang van passages en uitingen uitdrukken. Daarom zou een maat voor tempovariatie een belangrijke predictor zijn voor het Overdrachtsoordeel (zie § 8.3.1), Het is evenwel niet gelukt een bevredigende maat te construeren. De variatie van spreeksnelheid over toongroepen - een voor de hand liggende eerste keus - wordt sterk beïnvloed door de aantallen nietfunctionele: pauzes en zelfcorrecties en houdt bovendien geen rekening met de linguïstische realisatie. Door alleen variatie in duur van functionele pauzes (grensmarkerende pauzes, zie § 9.5) te meten, zijn we weliswaar van het eerste probleem af, maar het tweede - de specifieke betekenisfunctie van de variatie blijft onopgelost. Eigenlijk kan functionele tempovariatie alleen goed geoperationaliseerd worden wanneer we beschikken over een manier om de relatieve samenhang tussen uitingen (toongroepen) in een tekst te kwantificeren. Dit vereist de specificatie van grotere-teksteenheden dan onze toongroepen, vergelijkbaar met zinnen, alinea's en passages in geschreven teksten. Aangezien dit een theoretisch vrijwel onontgonnen terrein betreft (zie Chafe, 1986; Butcher, 1981), is hier verder van afgezien. De gevonden correlaties (p.m.c.) tussen bovengenoemde variatiematen en de oordelen over Overdracht zijn (zoals te verwachten) erg laag, te weten .16 (variatie van spreeksnelheid) en .05 (variatie in duur van grensmarkerende pauzes). De eerste correlatie is berekend in de steekproef van 60 sprekers geselecteerd voor Overdracht; de tweede bij de 60 sprekers geselecteerd voor Spreekgemak, omdat pauzeduur alleen bij deze selectie gemeten is (zie § 9.6).
124
Selectie en operationalisatie van predictoren
9.4 Registerversterkers en -verzwakkers voor de predictie van Overdracht In hoofdstuk 8 (§ 8.3.1) zijn de belangrijkste redenen genoemd om tot een classificatie van lexicale middelen naar hun registerfunctie te komen. Hieronder zal nauwkeuriger aangeduid worden hoe deze lexicale middelen geclassificeerd en gecodeerd zijn en hoe hun operationalisatie verantwoord kan worden. Eerst wordt de classificatie van de zogenaamde registerversterkers (met een positief effect op Overdracht) behandeld (§ 9.4.1). Daarna komen de registerverzwakkers (met een negatief effect op Overdracht aan bod (§ 9.4.2).
9.4.1 Ce classificatie van registerversterkers Tabel 20 geeft een overzicht van alle soorten gecodeerde registerversterkers. De tabel bevat vier hoofdcategorieën die grofweg corresponderen met vier onderscheiden tekstuele functies, te weten modificatie, specificatie, directe rede en tekststructtiurmarkering. Ik zal deze functies hieronder nader toelichten. De modificerende elementen verwijzen naar lexicale middelen die sprekers ter beschikking staan om de puur informatieve aspecten van een verhaal te voorzien van een meer persoonlijke connotatie (emotief en/of evaluerend). Het zal duidelijk zijn dat dit soort modificaties de boeiendheid en de expressiviteit (zie § 8.3.1) van het register bevorderen. Quirk, Gree,nbaum, Leech en Svartik (1972) maken een globale indeling in drie soorten lexicale modificatie: benadrukkers ('emphasizers'), versterkers ('amplifiers') en verzwakkers ('downtoners'). Als voorbeeld van een benadrukker geven zij 'definitely', als voorbeeld van een versterker 'completely' en als voorbeeld van een verzwakker 'partly' (o.c., p. 439). Het onderscheid tussen deze drie 'klassen van intensivering' is echter met onzekerheden omgeven. Zo stellen Quirk e.a.: "The classification is merely a rough guide to semantic distinctions. This is because (a) the varying effects of intensifiers represent a semantic gradient, which is obscured by a cleareut division into classes; (b) some intensifiers are sometimes used for different effects; and (c) speakers vary in their use of intensifiers." (o.c., p. 439) Deze opmerkingen betreffen niet alleen het onderscheid tussen benadrukkers en versterkers, maar ook dat tussen deze twee en de verzwakkers, zoals uit het volgende voorbeeld kan blijken. (10) hij was helemaal niet bang In (10) is "helemaal niet" logisch gesproken een 'verzwakker', een extreme verzwakker zelfs, want deze modificatie heeft tot gevolg dat het erop volgende adjectief in zijn geheel 'niet van toepassing' wordt verklaard. Beschouwen we
125
Tabel 20: De vier hoofdcategorieën van registerversterkers 1. a. b', c. d.e. f. g.
Modificerende elementen Modale adjectiva en adverba met een versterkende functie ("drukke" straten, "erg bang", " zeker", "echt", "volkomen") Modale adjectiva en adverba niet een verzwakkende functie ("een soort", "een beetje", "nauwelijks", "misschien") echter niet wanneer zij onzekerheid uitdrukken (zie tabel 20). Werkwoorden met een versterkende functie ("hij bibberde van de angst", "hij tuimelde naar beneden", "hij vloog naar de deur") Versterkende herhalingen ("hij werd steeds ouder, steeds ouder") Theatrale uitingen ("nja nja nja", "sim sala bim", humor bijvoorbeeld in directe rede) Originele metaforen ("hij liep al met een stok en die geest ook") Lexicale anaforen ("dan komt eeg-hond hem achterna, en dat beest bijt hem in zijn kuiten") -
-
.c.
Toelichtingen, specificaties en op de luisteraar gerichte uitingen Zijdelingse onderbrekingen van de verhaallijn en corrigerende elaboraties ("ik bedoel ...", ''ik geloof ...", "hij werd heel erg ziek, nou ja het leek erger dan het was") Vragen, aansporingen, aandachttrekkers, beroep op begrip van de luisteraar ("weet je ...", "en wat denk je ...", "let op", "hè", "of zoiets", "en al die andere dingen", "dat spook dus", "nee?", "kijk!", "natuurlijk", "wacht effe") Expansies/toelichtingen (vervangen van een uiting door een meer specifieke omschrijving)
3.
Directe rede
4.
Pragmatische connectieven en tekststructuurmarkering (voorbeelden in de tekst)
2. a. - b.
echter de tekstuele functie van deze modificatie, dan is er veel voor te zeggen deze als een 'versterker' op te vatten: "bang" is immers "niet moedig" en dc dubbele ontkenning maakt de verzwakking tot een versterking. Om deze redenen is besloten geen principieel onderscheid te maken tussen de drie soorten modificatie; en zo is het onderscheid tussen la en lb uit tabel 20 door de codeurs ook niet als belangrijk gezien. Het ging er uitsluitend om dat dc adjectiva en adverba met een versterkende of verzwakkende functie onderscheiden werden van het gebruik van deze woordsoorten zonder zo een tekstuele functie. Als hulp bij de codering is een lijst gemaakt van woorden die in de teksten van de leerlingen minstens eenmaal met de bedoelde functie zijn gebruikt. Deze lijst is opgenomen in bijlage 7. De modificaties die in le tot en met lg in tabel 20 zijn uitgedrukt, zijn gebaseerd op de intensiverende functies die hierboven genoemd zijn. In sommige gevallen heeft de keuze van een werkwoord dit effect ("hij liep naar de deur" is neutraal en passend; "hij vloog naar de deur" is intensiverend en passend). Andere middelen voor intensivering zijn 'boven' het lexicale niveau gesitueerd en hebben betrekking op de betekenis van complete uitingen (versterkende herhalingen, theatrale uitingen, originele metaforen en lexicale anaforen). De tweede hoofdcategorie van registerversterkers in tabel 20 betreft dc lexicale middelen voor specificatie (toelichtingen, specificaties en op de luisteraar gerichte uitingen). Bij de classificatie van deze uitingen heb ik me laten inspireren door werk van Redeker (1986). In dat onderzoek is op exploratieve wijze gezocht naar linguïstische indicatoren voor betrokkenheid tussen spreker en luisteraar ('involvemene)(vgl. Chafe, 1982; Tannen, 1982; De Temple, Wu Snow, 1991). Redeker
126
Selectie en operationalisatie van predictoren
(o.c., p. 60-61) vond dat bekenden die elkaar een verhaal vertellen bepaalde lexicale middelen vaker gebruiken dan mensen die elkaar niet kennen. Het betreft het gebruik van zogenaamde 'text comments' (weet je; ik bedoel ..; denk erom .., nota bene ...), de directe rede en pragmatische connectieven waarmee relaties tussen uitingen of taalhandelingen in de gesprekssituatie uitgedrukt worden. De hierboven genoemde 'text comments' zetten mij op het spoor van de linguïstische signalen die de spreker kan geven om het communicatieve belang van de inhoudselementen - en hun 'status' in de interactie - aan de luisteraar mede te delen. Deze functie heb ik in drie - enigszins overlappende - deelfuncties ondergebracht in het hoofdje 'toelichtingen etc' in tabel 20. Bij de eerste deelfunctie voorziet de spreker hetgeen hij net te berde gebracht heeft van een nuancerende kwalificatie. Soms signaleert de spreker dit vrij expliciet met "ik bedoel ..." of "ik geloof ...". Maar ook gebeurt dit zonder expliciete markering of met een onopvallender markering, zoals "maar ...", "wel ...", of "dus ...", zoals in voorbeeld (11). (11) en hij was alles vergeten . 1 alleen nog 'niet die stem ...1 (3-1; 7) Soms geeft de spreker een meer persoonlijke kwalificatie, zoals in (12), waarin de hoofdpersoon net een crossmotor voor z'n verjaardag gekregen heeft. (12) (...) blij was die dermee enzo . 1 zou ik meteen crossen enzo (3-1; 40) In weer andere gevallen neemt de kwalificatie de vorm aan van een uitvoerige uiteenzetting - buiten de chronologische orde van het verhaal om - die verscheidene toongroepen in beslag neemt cn die bedoeld is om de luisteraar uitgebreider te informeren, zoals in (13). (13) hij was dood gegaan omdat iemand hem dóód had gestoken ... (...) hij was hij die réchter 1 en hij was voor de góecle . 1 de schilldige 1 die had een andere advocaat . 1 en die schtildige had em eh na de rechtszaal (bedoeld is: rechtszitting) 1 hè want . die schuldige was scháldig . en eh 1 toen heeft die em doodgestoken 1 (5-5; 20-31) In (13) valt op dat binnen de zijdelingse onderbreking van de verhaallijn weer opnieuw onderbrekingen worden ingelast ("he want . die schuldige was scháldig"). De tweede deelfunctie van "toelichtingen etc" doet een beroep op de gedeelde kennis- en ervaringswereld van spreker en luisteraar. In dergelijke gevallen geeft de spreker een linguïstisch signaal, waarmee hij aangeeft dat de betekenis van wat hij gezegd heeft in verband staat met de relatie tussen spreker en luisteraar. Het gaat hier om vragen en aansporingen, zoals "weet je ...", "en wat denk je ...",
127
"let op", "kijk!" en "he", om de aanduiding van een script 20 (Schank & Abelson, 1977), zoals met "of zoiets", "of weet ik veel allemaal" en "en al die andere dingen" en om aandachttrekkers zoals "nee", "natuurlijk" en "wacht effe". De derde deelfunctie = expansies/toelichtingen - onderscheidt zich van de eerste in één enkel opzicht, namelijk dat voor het geven van een toelichting de verhaallijn niet onderbroken wordt. Ogenschijnlijk is het soms niet de spreker, maar één van de hoofdpersonen uit het verhaal die de toelichting geeft. In (14) bijvoorbeeld wordt de ene hoofdpersoon - die bang is voor dieren - toegesproken door een andere. (14) en hij zei ... 1 je moet gewoon bijvoorbeeld naar de dierentuin gaan . want . 1 die'›dieren zitten achter de tralies . (1-1; 12) In (15) is het weliswaar de spreker die de toelichting geeft, maar hiervoor wordt het verhaal niet onderbroken. De hoofdpersoon uit (15) heeft net het aanbod gekregen om met een onbekende man mee Le gaan die belooft hem gelukkig te maken. (15) nou . 1 dat'wil ie wel 1 want hij wil heel erg graag gelukkig worden ... 1 (10-3; 13) De derde hoofdcategorie in tabel 20 is het gebruik van de directe rede. De directe rede heeft als voornaamste voordeel boven de indirecte rede dat de luisteraar geconfronteerd wordt met een als actueel gepresenteerde realiteit in het verhaal, hetgeen de spreker de gelegenheid biedt de hoofdpersonen meer tot leven te brengen. Zowel voor het verhogen van de boeiendheid van het verhaal, als voor de mogelijkheden voor expressiviteit is de directe rede een bijna onmisbare techniek. De vierde hoofdcategorie in tabel 20 heeft betrekking op de lexicale middelen voor structuurmarkering (pragmatische connectieven en tekststructuurmarkering). Deze middelen zijn op te vatten als signalen voor de luisteraar die hem opmerkzaam maken op een specifieke wending in de tekst die direct erna plaatsvindt, of die al aan de gang is. Over de mogelijke betekenisvolheid van allerlei connectieven (en, dus, omdat, dan, toen, maar, wel, zo) en tussenwerpsels (zoals nou, nou ja en okee) doen verschillende lezingen de ronde. Segal, Duchan en Scott (1991) noemen vier zienswijzen die in de literatuur naar voren zijn gekomen. Deze visies op de betekenis van connectieven vormen een soort graduele schaal: het ene extremum stelt dat connectieven voor lezers of luisteraars helemaal geen betekenis hebben ("the empty view"); het andere extremum stelt dat connectieven zowel op locaal als op globaal niveau informatie verschaffen die relevant is voor de representatie van de tekst en voor de verplaatsing van de aandacht van het ene naar het andere "deistische centrum".
20 Een verloop van gebeurtenissen of stand van zaken die in de ervaring van de interactiepartners altijd ongeveer hetzelfde is.
128
Selectie en operat onalisatie van predictoren
"Ome within the world of the story, the reader may be required to shift from one established deictic center to another, as when the story events shift to a new time, place, or character focus." (o.c., p. 31) Als we aannemen dat de laatstgenoemde visie op de betekenis van connectieven juist is - en de resultaten van het onderzoek van Segal e.a. (1991) en Redeker (1986) geven daar wel enige reden toe - dan moet het mogelijk zijn vast te stellen in welke concrete gevallen connectieven de bedoelde communicatieve functies vervullen. Bestudering van de teksten maakte al gauw duidelijk dat de leerlingen inderdaad in een aantal gevallen gebruik maakten van de genoemde pragmatische en tekststructurerende functies van connectieven. In (16) heeft de hoofdpersoon lenige tijd geleden een kettinkje gekregen met beschermende (magische) kracht. In -de dierentuin besluit hij het hok van de panters binnen te gaan. (16) hij had wél z'n ketting vergeten ... 1 (4-9; 34) De lezer mag raden naar het verdere verloop van het verhaal! De functie van de connectief "wel" is in dit geval waarschijnlijk corrigerend: hij maakt de luisteraar erop attent dat de spreker iets zegt dat eigenlijk al eerder gezegd had moeten worden. In een vergelijkbare situatie, maar met een iets gelukkiger 'timing'; kan "wel" ook als een middel voor 'suspense' gebruikt worden. Een voorbeeld van de 'deictic shift' vinden we vaak bij gebruik van het tussenwerpsel "nou" ("nou ja", "nou okee", soms ook "dus" en "zo"). In (17) heeft de spreker net een passage in de directe rede afgesloten. (17) nou ... 1 en de volgende dag . 1 (...) (1-1; 20) In (18) vinden we een ander type deistische verschuiving, waarin de aandacht van de ene naar de andere persoon verplaatst wordt, gesignaleerd door de connectief "maar". (18) en toen ging die dood ... 1 maar die ene man die . James wil dood maken 1 die was nog levend (...) (4-1; 56) Bij de codering van pragmatische connectieven en tekststructuurmarkeringen zijn drie verschillende situaties van voorkomen gedefinieerd: - 'Pop en push' van de verhaallijn (vgl. HofstacIter, 1985) middels "dus", "want", "maar", "wel", "omdat", "zo" + moraal (soms ook "nou", "nou ja" en hij accentuering "en"); niet in directe rede; - Interpersoonlijke functie, bijvoorbeeld als waarschuwing voor de luisteraar ("maar ze gingen naar de dierentuin") of als openbaring van het eigen denkproces (vgl. Redeker, 1986);
21 'Push' betekent dat men de verhaallijn verlaat; 'pop' duidt aan dat men er weer in terugkeert.
129
Markering van overgangen in de tekst (van directe rede naar vertelvorm, grens tussen twee passages, groot tijdsverloop tussen twee delen, verandering van "decor" etc.) middels "nou", "nou ja", "okee", "nou okee", "zo"; vaak in de vorm van (tekststructurcrende) neutrale startgroepen (zie § 9.1.2; vgl. Schiffrin, 1987).
9.4.2 De classificatie van registerverzwakkers In tabel 21 is een overzicht gegeven van de onderscheiden soorten registerverzwakkers. Deze lexicale middelen die afdoen aan de pasendheid van het taalgebruik in de narratieve communicatie (zie § 8.3.1), zijn onderverdeeld in zes hoofdcategorieën, te weten stoplappen, onzekerheid, onverschilligheid etc., indirecte rede, niet gericht .op luisteraar en herhaling van frases zonder functie. Tabel 21: De zes hoofdcategorieën van registerverzwakkers ‹i
1. Stoplappen a. , Woordkeusmonotonie ("dus", "nou'', "zei die", "enne", "en zo"); alleen in betekenisloze instanties; ook zogenaamde niet-tekststructurerende neutrale startgroepen b. ' Monotonie van tijdsindicatoren ("en", "en dan", "en toen"); hij herhaling van dezelfde tijdsindicator in een opeenvolging van twee ',1. drie toongroepen 2.
Onzekerheid, wanneer de spreker duidelijk maakt te twijfelen aan zijn eigen bron-zijn van het verhaal of wanneer personen in het verhaal opgevoerd worden die ten onrechte onzekerheid uitdrukken (niet bij modificatie of correctie van te stellige beweringen).
3. a.
Onverschilligheid, betekenisloosheid en vaagheid ,Onverschilligheid ("gewoon ...", "normaal ...", "... was wel leuk"); spreker wekt de indruk .weinig belang te hechten aan wat hij vertelt. Betekenisloosheid; woorden die van zichzelf een uitdrukkelijke betekenis hebben, worden in een betekenisloze context geplaatst. Vaagheid ("van die dingen", "... en zo"); wanneer de spreker hierdoor de kans misloopt 'kleur' aan het verhaal te geven. Ook hele uitingen kunnen vaag zijn ("hij ging ergens heen").
h. c. 4.
Indirecte rede ("hij zei dat ..." in plaats van "hij zei . . . " )
5.
Niet gericht op luisteraar; voor zich uit praten, 'off-topic', uit z'n rol vallen.
6.
Herhaling van frases zonder functie
In grote lijnen spreken de hoofdcategorieën uit tabel 21 voor zich. Zowel een erg monotone woordkeus, waardoor de luisteraar slechts met moeite zijn aandacht bij het vertelde kan houden (stoplappen; hieronder rekenen we ook de niet-tekststructurerende neutrale startgroepen, zoals "nou chh ...", "en eh ...", "en toen ...") als andere inbreuken op de stilzwijgende veronderstellingen van de narratieve communicatie zijn tot de registerverzwakkers gerekend. Eén daarvan is dat de spreker zich voordoet als de bron van het verhaal. Ofwel het verhaal komt voort uit ervaring, ofwel uit verbeelding, maar in ieder geval kan de spreker altijd uit de eigen kennis putten als het erom gaat onduidelijkheden of inconsistenties op te 130
Selectie en operationalisatie van predictoren
lossen. Uitingen als (19) schenden deze regel: (19) Ehh ik dacht dat die geest . 1 ehm helpen 1 (2-2; 1)
I zei van ... I nou ik kan je wel
Andere veronderstellingen van de narratieve communicatie betreffen vooral de verplichting die de spreker op zich neemt om de luisteraar te amuseren en duidelijk te informeren. Het openlijk tonen van onverschilligheid ten aanzien van het belang van een vertelde passage, het gebruik van woorden zonder dat hun betekenis goed in de context past, het vaag laten van gebeurtenissen die juist enige kleur aan het verhaal kunnen geven, of het herhalen van frasen zonder dat duidelijk wordt voor de luisteraar welke functie dit heeft, zijn allemaal tekenen dat de spreker zich niet aan z'n verplichting houdt. Ook het gebruiken van een afstandelijke niet-geactualiseerde verteltrant (het gebruik van de indirecte rede in plaats van de directe rede) is te zien als een registerverzwakker. In tabel 21 is ook de categorie "niet gericht op luisteraar" opgenomen. Dit is uiteraard de tegenhanger van de lexicale middelen die de sociale betrokkenheid tussen spreker en luisteraar benadrukken. In sommige gevallen richt de spreker zich niet meer op de klasgenoot, maar op de proefleider, of valt op één of andere wijze uit zijn rol als verhaalverteller. Enkele voorbeelden van 'onverschilligheid', 'betekenisloosheid' 'vaagheid' en 'herhaling van frases'zonder functie' volgen hier.
(20) en dan vluchten ze weer en zo ... (2-5; 165)
(21) hij trouwde later met een ma . met een vrouw 1 die hem alles beloofde I om hem niets te doen 1 (2-8; 45)
(22) maar ja . 1 hij deed de rest nog . 1 (2-8; 26)
(23) toen ging ie ook nnaar Libië ... 1 toen ... Li (12-5; 43)
1 Libiëee
I
Het zal duidelijk zijn dat voor de bepaling van de tekstuele functie van dit soort uitingen (registerverzwakkend, passend of registerversterkend) de uiting zelf meestal onvoldoende houvast biedt. Eén en ander is afhankelijk van de vraag of de weggelaten informatie elders in de tekst - of in de gemeenschappelijke kennis van spreker en luisteraar - wel aanwezig is. Als bijvoorbeeld in (20) al eerder gevlucht is door de bedoelde personen en als dat vluchten de vorm heeft aangenomen van een standaard-ritueel (script), dan is "enzo" hier zeker niet betekenisloos of onverschillig. Hetzelfde geldt uiteraard voor de mogelijke antecedenten van
131
"alles" en "niets" in (21) en de "rest" in (22). Het feit dat deze uitingen gecodeerd zijn als registerverzwakkers, impliceert dat deze antecedenten kennelijk afwezig waren. In (23) is wel te zien waar het om gaat, te weten de betekenisloze herhaling van het woord Libië, waarschijnlijk bedoeld als een soort gevulde pauze.
9.4.3 De coderingsprocedure Bij het coderen van de registerversterkers en -verzwakkers is het belangrijkste aandachtspunt dat eenzelfde lexicaal element tot zeer verschillende categorieën uit het codeerschema kan behoren, afhankelijk van de bijzondere tekstuele inbedding ervan. Het element "enzo" bijvoorbeeld kan een stoplap zijn (indien het geen betekenis toevoegt), het kan onverschilligheid of betekenisloosheid uitdrukken (indien het suggereert dat de spreker zijn specificatie-verplichting niet nakomt), en herkan ook de aanduiding zijn van een, voor spreker en luisteraar, gemeenschappelijke kennis (dus registerversterkend). Het element "dus" kan in dezelfde categorieën' voorkomen, maar komt bovendien voor als pragmatische connectief, waarmee gemarkeerd wordt dat de verhaallijn tijdelijk onderbroken wordt om de één-of andere conclusie te verwoorden ('push') of om juist aan te geven dat men weer terugkeert naar de oorspronkelijke verhaallijn ('pop'). Tot slot moet nog een opmerking gemaakt worden-over de eenheid van analyse bij de codering van registerversterkers en -verzwakkers. Enkelvoudige lexicale items (modale adjectieven en adverba, connectieven, werkwoorden, stoplappen, e.d.) zijn per lexeem gecodeerd. Wanneer het ging om woordgroepen ("heel erg", "zo mooi", "of weet ik veel allemaal") werd dit opgevat, als één instantie, dus er werd slechts één code voor gegeven. Andere soorten registerversterkers (theatrale uitingen, originele metaforen, zijdelingse onderbrekingen, expansies, directe rede) en -verzwakkers (alle hoofdcategorieën, uitgezonderd stoplappen) zijn op toongroepniveau gecodeerd, omdat deze categorieën niet op afzonderlijke woorden of woordgroepen, maar op de uiting betrekking hebben. Deze codes konden dus niet meer dan éénmaal per toongroep gegeven worden. 9.4.4 De codeursovereenstemming De overeenstemming tussen twee codeurs is bepaald over 20 prestaties in hun geheel (1299 toongroepen) na een vrij intensieve trainingsfase waarin zeventien andere prestaties gecodeerd en nabesproken waren. De codeurs werkten uiteraard onafhankelijk van elkaar bij de codering van prestaties waarover de overeenstemming is berekend. Voor het bepalen van een overeenstemmingsindex moest rekening worden gehouden met de geringe frequentie van bepaalde soorten lexicale middelen (zie bijlage 6). Bovendien is voor ons doel (het samenstellen van predictormaten voor registerversterkers en -verzwakkers) uitsluitend informatie op globaal niveau (de som van gecodeerde elementen per beoordeelde spreker) relevant (zie § 9.4.5). Daarom is als indicatie voor de codeursovereenstemming de correlatie tussen de
132
Selectie en operationalisatie van predictoren
somscores van de twee codeurs per spreker gekozen. Deze correlatie (p.m.c.) bedraagt .89 voor de gecodeerde registerverzwakkers en .93 voor de registerversterkers (N=20). Deze maten zijn hoog genoeg om de somscores voor registeradequaatheid te gebruiken voor de predictie van de jury-oordelen, met een zeker vertrouwen in hun betrouwbaarheid. Een gedetailleerd inzicht in de overeenstemming tussen de codeurs per hoofdcategorie wordt gegeven in kruistabellen in bijlage 8. Daaruit blijkt dat verschil van mening over de vraag tot welke hoofdcategorie een lexicaal middel behoort, nauwelijks voorkomt. Het merendeel van de verschillen tussen codeurs komt voort uit de vraag óf een bepaalde uiting wel gecodeerd moet worden naar zijn tekstuele functie.
9.4.5 De constructie van de predictormaten Alle zestig teksten geselecteerd voor Overdracht zijn gecodeerd op de voorkomende lexicale middelen door de eerste codeur (AvG). Van de twintig teksten die door beide codeurs zijn gecodeerd, is voor alle niet-overeenstemmende codes een definitieve code bepaald door de eerste codeur. Aangezien geen differentiële predicties gedaan zijn voor de onderscheiden soorten lexicale middelen (zie § 8.3.2) en hier vooralsnog ook geen theoretische basis voor is, zijn alle soorten registerversterkers gesommeerd tot één predictormaat en gecorrigeerd voor het aantal loongroepen; hetzelfde is gedaan met de onderscheiden soorten registerverzwakkers. Inspectie van de correlaties tussen de afzonderlijke categorieën en het jury-oordeel over Overdracht gaf geen aanleiding bepaalde soorten van de predictie uit te sluiten. Geen van de correlaties had een teken (positief of negatief) tegen de verwachtingen in. De gemiddelden en standaarddeviaties van de aantallen gecodeerde lexicale middelen per soort zijn opgenomen in bijlage 6. Hieruit blijkt dat bepaalde soorten (met name metaforen, anaforen, versterkende werkwoorden en herhalingen en niet-gerichtheid op luisteraar) erg weinig voorkwamen, terwijl andere soorten (met name expansies, directe rede en stoplappen) tamelijk frequent waren.
9.5 De classificatie van zelfcorrecties en pauzes voor de predictie van Spreekgemak Voor de predictie van Spreekgemaksoordelen is het noodzakelijk een duidelijke definitie te geven van de verstoringen die kunnen optreden in de spraak en deze te onderscheiden van een functioneel gebruik van (gevulde en ongevulde) pauzes. Hiertoe is gebruik gemaakt van Levelts (1983, 1989) analyse van zelfcorrecties en het daarin aangebrachte onderscheid tussen openlijk en verborgen herstel. De zelfcorrecties die als openlijk herstel worden opgevat, kunnen in een algemeen schema worden beschreven, dat bestaat uit de volgende onderdelen:
133
- de oorspronkelijke uiting, bevattende een - probleemdeel, gevolgd door een - signaal, gevolgd door een - herstel van het probleemdeel. Het zal duidelijk zijn dat aan dit schema een sequentieel proces ten grondslag ligt. Eerst wordt een probleem onderkend door de spreker, vervolgens zendt hij een signaal uit dat er iets niet in orde is en tenslotte herstelt hij de ongewenste uiting door deze te vervangen. Wanneer we dit schema toepassen, weten we dat in een uiting als (24) "liep" bedoeld is als herstel van "ging". oorspronkelijke uiting
‘.1.
,
(24) Witoen ging h i] eh ... liep hij (...)
I'
. .
T
T
probleem signaal herstel
Bij de classificatie in dit onderzoek zijn drie soorten openlijk herstel onderscheiden, te weten: 1. Valse starts (herstel bevindt zich in een volgende toongroep), 2. Haperingen (herstel bevindt zich in dezelfde toongroep als het probleemdeel), 3. Herhalingen ("herstel" in dezelfde toongroep; herstel=herhaling) Soms worden` hele toongroepen als valse startgroep gecodeerd, zoals in (25). (25) hij eh loopt na I hij gaat naar binnen 1 (8-9; 42) Soms is alleen een deel van de toongroep een valse start, zoals in (26). (26) dan vertelt ie die droom 1 eh dat ie had gedroomd ... I (9-3; 88) In (26) sluit de spreker syntactisch aan op het eerste deel van de eerste toongroep (dan vertelt ie ...), zodat alleen het tweede deel (die droom) als valse start gekarakteriseerd wordt. Om te kunnen spreken van openlijk herstel, moet er in de uiting - behalve een probleemdeel en een herstel (of herhaling) - ook een signaal aanwijsbaar zijn. Er zijn vijf soorten signalen onderscheiden bij de codering. 1. Een ongevulde pauze na het probleemdeel. 2. Een gevulde pauze na het probleemdeel (eh, of, offe, nah, rekking van een syllabe; soms ook moeilijker te duiden klanken, zoals tsf, hm, d'eh). 3. Een uitroep (nou zeg!, nou ehhh!, ohhh!, ja!). 4. Een expliciete correctie (ik bedoel ..., nee ..., sorry ..., of hoe heet 't ..., even kijken ...). 5. Een afbreking zonder pauze (midden in een woord, of intonatief; bijvoorbeeld door een sterk accent te geven aan het eerste woord van het herstel). In sommige gevallen produceren sprekers een uiting die duidelijk bedoeld is als correctie van een vorige uiting, maar waarbij géén van de hierboven genoemde signalen gegeven wordt. Levels (1989, p. 497) geeft enkele voorbeelden van dit 134
Selectie en operationalisatie van predictoren
soort uitingen: "Actually, the boundaries between repairing and nonrepairing are quite fuzzy. There are parentheticals and expansions that come, sort of, as afterthoughts. One wouldn't call the following a repair: He conquered Babylon, the great Alexander." Het is belangrijk hier te wijzen op het soms subtiele verschil tussen de zijdelingse onderbreking en de expansie enerzijds (zie § 9.4.1) en de zelfcorrectie anderzijds. Eerstgenoemde onderbrekingen zijn in dit onderzoek immers indicatoren (in positieve zin) van een geslaagde Overdracht, terwijl laatstgenoemden indicatoren (in negatieve zin) van een vlotte zinsbouw en moeiteloze woordkeus zijn. We nemen aan dat door het corrigeren of toelichten van uitingen, zoals in (27) juist de continuïteit. van de spraak en de indruk van vloeiendheid behouden blijft. ,
(27) die ,chh . persoon die (...) praatte van 't kan geregeld worden was een . opa . I (7-7; 4) De spreker in (27) vindt kennelijk de aanduiding "die persoon" niet duidelijk genoeg en besluit het ongemak te verhelpen door te refereren aan wat de bedoelde persoon gezegd had. Doordat de spreker de zin syntactisch laat doorlopen, in plaats van een problematisch woord te vervangen, blijft de continuïteit van de spraak behouden. Dit neemt overigens niet weg dat in uitingen als (27), waarin niets expliciet gecorrigeerd wordt, toch bepaalde pauzesoorten optreden (zoals "ehh", of de ongevulde pauze na "die") die als verstoringen in de continuïteit aangemerkt kunnen worden. Over deze pauzesoorten gaan de volgende alineas. Verborgen herstel onderscheidt zich van openlijk herstel door het ontbreken van een uitgesproken probleemdeel. Volgens Levelt (o.c., p. 478) ontdekt de spreker in dergelijke gevallen al het probleem voordat de woorden hem zijn ontsnapt. Aangezien er geen probleemdeel is geuit, kunnen we ook niet bepalen welke woorden precies als herstel bedoeld zijn. Enkele van de volgende pauzesoorten, die in dit onderzoek geclassificeerd zijn als verstoringen in de continuiteit, kunnen dergelijke signalen vormen van verborgen herstel: 1. Ongevulde pauzes in alle posities, behalve aan het eind van een toongroep (grensmarkerende pauzes). 2. Uitzonderlijk lange pauzes aan het eind van een toongroep. 3. Gevulde pauzes in alle posities behalve aan het eind van een toongroep (eh, of, offe, nah, rekking van een syllabe). 4. Uitroepen (nou zeg!, nou ehhh!, ohh!, ja!). 5. Expliciete correcties (ik bedoel ..., nee ..., sorry ..., of hoe heet 't, 'k weet niet ..., even kijken ...). Inspectie van deze pauzesoorten maakt duidelijk dat in lang niet alle gevallen aannemelijk is dat de spreker zichzelf corrigeert. Ongevulde en gevulde pauzes kunnen tevens een indicatie zijn voor hei planningsproces dat een spreker
135
doorloopt (Henderson, Goldman-Eisler & Skarbek, 1966; Kowal, O'Connell & Sabin, 1975; Butterworth, 1975). Levelt (1989, p. 126) vestigt er de aandacht op dat het voorkomen van planningspauzes (haperingen in de continuïteit die de spreker gelegenheid geven na te denken over zijn formuleringen) sterk afhankelijk is van de soort spreektaak die de spreker zich stelt. In situaties waarin de sprekers iets beschrijven dat onder 'handbereik' (eigenlijk: oogbereik) ligt, zullen zij niet de behoefte hebben hun geheugen te raadplegen om te achterhalen hoe het te beschrijven object in perspectief gebracht moet worden. In een situatie echter waarin abstracte begrippen of niet-zichtbare omstandigheden beschreven moeten worden, zal de spreker in sterke mate afhankelijk zijn van het lange-termijn geheugen om zich een representatie te vormen die binnen de communicatieve situatie geëigend is. In een verhalende monoloog - zoals onze taak 4 - kan men dus aannemen dat vele van de (gevulde en ongevulde) pauzes (de soorten 1, 2 en 3 hierboven.), in feite geen 'verborgen herstel', maar planningspauzes indiceren'. In het onderzoek van Henderson e.a. (1966) wordt de spraak in dit soort lange monologen gekarakteriseerd als een opeenvolging van 'haperende' (hesitant) en 'vloeiende {fluent) fasen. Aangenomen kan worden dat de haperende fasen (met een duur van ongeveer vier seconden) dienen voor de planning van de vloeiende fasen (met een duur van ongeveer acht seconden). Bij de beoordeling van de globale' vloeiendheid van de spraak is het verschil tussen verborgen herstel en planningspauzes uiteraard niet te maken. Zelfs bij gedetailleerde codering per pauze valt niet met zekerheid te bepalen welke functie een pauze in elk bijzonder geval vervult. Wel relevant voor de beoordeling van vloeiendheid is de positie in de toongroep waarin een pauze valt. Om die reden wordt in de lijst van vijf pauzesoorten hierboven de grensinarkerende pauze aan het eind van toongroepen uitdrukkelijk uitgesloten. Dit geldt zowel voor de ongevulde als voor de gevulde pauzes, maar niet voor de uitroepen en expliciete correcties. De veronderstelling is dat sprekers die zichzelf een korte adem- of denkpauze gunnen aan het eind van een toongroep, de continuïteit van de spraak niet merkbaar verstoren. Elke andere positie voor ongevulde of gevulde pauzes is wél verstorend, omdat daarmee de interne semantische samenhang van de toongroep moeilijker te volgen is. Extreem lange pauzes aan het eind van een toongroep (meer dan ongeveer drie seconden, afhankelijk van de gemiddelde spreeksnelheid) gelden uiteraard niet als functioneel en vormen een indicatie voor planningsactiviteit die meer dan de normale marges in beslag neemt. Behalve de vijf hierboven genoemde pauzesoorten (verborgen herstel en planningspauzes) moest rekening worden gehouden met het verschijnsel van de neutrale startgroep (zie § 9.1.2). Hoewel deze groepen niet als zelfcorrectie of pauze worden opgevat, maar al naar gelang als stoplap of als tekststructureerder (zie § 9.4), gaan zij meestal met pauzes gepaard. Aangezien de pauzeduur voor de predictie van Spreekgemak van belang was (zie § 9.6), is de neutrale startgroep bij de duurmeting wel als aparte klasse onderscheiden. ,
—
22 Levelts (1983, 1989) analyse van zelfcorrecties had betrekking op het andere taaktype: de beschrijving van figuren die de spreker onder oogbereik heeft. Zijn aanname dat hapering (zonder aantoonbaar probleemdeel en herstel) in deze taak meer met zelfcorrectie dan met (macro-)planning te maken heeft, is daarom niet direct overdraagbaar naar onze verhalende taak.
136
Selectie en operationalisatie van predictoren
9.5.1 De codeerprocedure Bij de codering kon gebruik gemaakt worden van alle gegevens over pauzes en zelfcorrecties die in de transcripten waren opgenomen (zie § 8.5). Bij de codering is telkens geluisterd naar de cassettes om eventuele onnauwkeurigheden (gerekte syllaben of korte pauzes) in de transcripten te verbeteren. Overigens vereisten sommige codeerbeslissingen ook auditieve informatie. Dit gold voor de afbreking zonder pauze bij openlijk herstel, die soms intonatief wordt gemarkeerd, en voor de bepaling van extreem lange pauzes aan het eind van een toongroep. Om de grenswaarden te bepalen tussen een gewone en een extreem lange pauze werd een beroep gedaan op de luisteraarsintuïtie: bij een gemiddeld lage spreeksnelheid worden relatief lange grcnsmarkcerders niet ,als aarzelingen of planningspauzes waargenomen, terwijl bij een hoge spreeksnelheid pauzes van dezelfde lengte wél die indruk wekken. Behalve van de getranscribeerde pauzes is ook gebruik gemaakt van de segmentering in toongroepen. 2Dit was uiteraard essentieel om een onderscheid te kunnen maken tussen functionele (grensmarkerende) en nietfunctionele pauzes, maar ook voor het onderscheid tussen valse starts enerzijds en haperingen en herhalingen anderzijds.
9.5.2 De codeursovereenstemming Twee codeurs codeerden 25 prestaties in hun geheel (1212 toongroepen) op de aanwezigheid van de verschillende soorten zelfcorrecties en pauzes. Ze werkten onafhankelijk van elkaar. Hieraan voorafgaande hadden ze twaalf andere prestaties gecodeerd en elkaars codes vergeleken en nabesproken. De codeursovereenstemming is berekend door per toongroep te bepalen of de codeurs een identieke codering hadden gegeven 23 . Dit is uitsluitend gedaan voor de drie soorten openlijk herstel (valse starts, haperingen en herhalingen). De vijf soorten 'verborgen herstel'iplanningspauzes waren al in de transcripten aangegeven; de codeurs hoefden niets anders te doen dan deze gegevens te controleren. Het percentage identieke codes voor openlijk herstel bleek 98% te zijn, een afdoende garantie voor de betrouwbaarheid van de codering.
9.5.3 Specifieke predicties voor zelfcorrecties en pauzes Het zal duidelijk zijn dat de bovenstaande classificatie alleen een vrij grof onderscheid tussen functionele en niet-functionele zelfcorrecties en pauzes
23 De berekening is analoog aan die gehanteerd is voor de overeenstemming van de intonatiecodes (§ 9.2.4) met dit verschil dat hier niet de syllabe, maar de toongroep als eenheid van analyse is opgevat. Elke toongroep kan hooguit één valse start, maar meer dan één hapering of herhaling bevatten. Ook als wc afzien van het grote aantal gemeenschappelijke "nul"-coderingen is de overeenstemming nog erg groot (87%).
137
mogelijk maakt. Samenvattend zijn alle openlijke zelfcorrecties (valse starts, herhalingen en haperingen) en alle soorten verborgen herstel/planningspauzes (exclusief grensmarkerende pauzes) opgevat als verstoringen in de continuïteit. Voor elk van deze soorten geldt dus: hoe meer er van voorkomen des te minder is de indruk van vloeiendheid cq. des te lager is het oordeel over Spreekgemak. De reden voor dit grove onderscheid is dat onderzoek tot nu toe onvoldoende houvast geeft voor een meer specifieke predictie. De resultaten blijken sterk te variëren, afhankelijk van de specifieke spreektaak, de precieze operationalisatie van zelfcorrecties en pauzes, de sociale situatie en de spreekvaardigheid van de proefpersonen (vgl. Maclay & Osgood, 1959; Martin, 1967; Goldman-Eisler, 1972; Kowal e.a. 1975; Levelt, 1983; Redeker, 1986; Riggenbach, 1991). Uit de codering van alle verschillende soorten zelfcorrecties worden twee verschillende •predictoren voor Spreekgemak geconstrueerd, le weten het relatieve aantal en de duur van alle zelfcorrecties en niet-functionele pauzes.. Het relatieve aantal per spreker wordt gemeten over de hele tekst, gesommeerd over alle Onderscheiden soorten en gecorrigeerd voor tekstlengte (aantal toongroepen); de duur wordt gemeten over twintig toongroepen per spreker voor `elke gecodeerde soort zelfcorrectie en pauze (zie § 9.6). Van beide maten verwachten we een substantiële bijdrage aan de verklaring van het jury-oordeel over Spreekgemak .(zie § 8.3.2).
9.6 De meting van pauzeduur, spreeksnelheid en articulatiesnelheid voor de predictie van Spreekgemak Nadat in de transcripten alle soorten pauzes en zelfcorrecties gecodeerd waren, is voor elke aangeduide pauzepositie de duur gemeten. De verschillende tijdsmetingen zijn uitgevoerd voor de vijftien eerste en vijf laatste toongroepen van elke tekst geselecteerd voor Spreekgemak (analoog aan de indeling van teksten bij de meting van intensiteit en fundamentele frequentie, zie § 9.3). Voor de metingen is gebruik gemaakt van het programma SESAM (Broeder, 1989). Dit programma kan in de computer opgeslagen gedigitaliseerde audiosignalen van elke gewenste omvang op het scherm afbeelden en analyseren. Tevens biedt het programma de mogelijkheid elk deel van de spraak af te bakenen met behulp van de cursor, en af te luisteren. Op deze wijze kon voor elke toongroep - vanaf de eerste inzet tot de eerste inzet van de volgende toongroep - de totale duur in milliseconden gemeten worden. Tevens werd van elke in het transcript aangeduide (gevulde of ongevulde) pauze de duur gemeten. De duur van alle gevulde pauzes werd gemeten inclusief het eventueel erop volgende (of er direct aan voorafgaande) deel zonder spraaksignaal. Dit gold ook voor de uitroepen en expliciete correcties. Er is niet gewerkt met een minimumduur voor de te meten pauzes, omdat de codering van pauzes afhankelijk is gesteld van de (auditieve) waarneembaarheid. In spraak met een erg hoge articulatiesnelheid is een vrij korte pauze (zeg .10 seconde) nog waarneembaar als hapering, terwijl in spraak met een lage articulatiesnelheid een dergelijke pauze niet als hapering wordt waargenomen. In de praktijk kwam dit
138
Selectie en operat onalisatie van predictoren
erop neer dat pauzes korter dan .07 seconde niet werden gemeten. Uit de meting van de totale duur van de toongroep en van de duur van alle erin voorkomende pauzes kon per toongroep de spreeksnelheid (aantal syllaben per seconde, inclusief pauzes), de articulatiesnelheid (aantal syllaben per seconde, exclusief pauzes) en de pauzeduur voor elke afzonderlijke categorie zelfcorrecties en pauzes berekend worden'. Door per prestatie te sommeren over alle toongroepen, werd de gemiddelde spreek- en articulatiesnelheid berekend en de over toongroepen gemiddelde duur per pauzesoort.
9.6.1 Stabiliteit van de tempometingen
Analoog aan de overige akoestische metingen (zie § 9.3) is voor de tempometingen nagegaan in hoeverre zij stabiel blijven over de hele prestatie. Indien zou blijken dat de spreek- en articulatiesnelheid in verschillende delen van de gesproken teksten sterk wisselen, dan is er reden om te twijfelen aan de representativiteit van_gemiddelden per tekst, gebaseerd op slechts een deel ervan. Er zijn in totaal zes t-tests uitgevoerd om te bepalen of de gemiddelde spreeken articulatiesnelheid significante verschillen vertoont tussen de eerste vijf, de volgende tien en de laatste vijf toongroepen van elke prestatie. Van de drie t-tests voor articulatiesnelheid gaven twee een significant verschil te zien bij een tweezijdige toets (p < .05). De gemiddelde articulatiesnelheid in de eerste vijf toongroepen bleek gemiddeld nog geen 2 msec per syllabe lager te liggen dan in de volgende tien toongroepen en iets meer dan 1 msec per syllabe lager dan in de laatste vijf toongroepen. Dit zijn nogal kleine verschillen, waarvan men de perceptieve relevantie in twijfel kan trekken. Bovendien geven ze geen reden om de gemiddelde articulatiesnelheid berekend over twintig toongroepen, als maat voor de gehele tekst te wantrouwen. De drie t-tests voor spreeksnelheid gaven geen van alle een significant verschil te zien tussen de drie geselecteerde delen per prestatie.
9,7 De codering van ernstige taalfouten Voor alle metingen en coderingen die tot hiertoe in dit hoofdstuk zijn besproken, geldt dat zij in directe zin gerelateerd zijn aan beoordeelde aspecten onder de dimensies Spreekgemak of Overdracht. Voor de frequentie van taalfouten geldt dit niet. Taalfouten vervullen niet de rol van predictoren in dit onderzoek, omdat geen van de beoordelingsdimensies betrekking heeft op de correctheid van de spraak. Alleen functionele aspecten die invloed kunnen hebben op de communicatie, zijn
24 Voor de duur van openlijke zelfcorrecties werd alleen de duur van het probleemdeel en van de daaropvolgende signalen gemeten. Bij haperingen waarin midden in een woord werd afgebroken, werd het afgebroken woord meegeteld in de duur van de hapering.
139
beoordeeld. Om te kunnen verduidelijken waarom 'ernstige' taalfouten toch geanalyseerd worden, is het nodig te specificeren wat precies onder taalfouten wordt verstaan. Taalfouten in brede zin vormen een verzameling uitingen die om verschillende redenen als niet-welgevormd kunnen worden geclassificeerd. Een gebrekkige uitspraak van een woord, of een verspreking waardoor geen bestaand lexeem wordt gerealiseerd, lexicale missers waardoor een niet-bedoelde betekenis wordt gerealiseerd, syntactische fouten, onjuist aangeduide referenten en het nietrespecteren van semantische of syntactische grenzen zijn voorbeelden van dergelijke taalfouten. De zogenaamde spreektaalconstructies (vgl. Jansen, 1981), zo genoemd omdat ze in (informele) spraak frequent voorkomen en in veel schrijfsituaties als onacceptabel gelden, vallen buiten onze definitie van spraakfouten. Voorbeelden van dit soort constructies zijn: "Heb ik gedaan" (eerste zinsdeeldeletie), "Die mand die heb ik gevlochten" (links-dislocatie) en "Ik ben in september ben ik op vakantie gegaan" (herhalingsconstructie). In § 9.5 zijn eveneens voorbeelden gegeven \Ik dit soort constructies, zoals "Hij veroverde Babylonië, -de grote Alexander".(Levelt, 1989, p. 497). Ze zijn vaak geclassificeerd als (registerversterkende) expansies, of zijdelingse onderbrekingen, omdat ze bedoeld zijn als verrijking of verduidelijking van gegeven informatie. Taalfouten zijn in het algemeen dus inbreuken op de standaardtalige normen voor correctheid. Ze hebben echter op de begrijpelijkheid en de communicatieve waarde van de spraak meestal geen negatieve invloed. Een zin als de volgende, handelend in het circus, is voor de luisteraar volstrekt transparant: (28) nou het eerste was een leeuwennummer en al die andere dingen (6-2; 21) Toch worden er in (28) diverse inbreuken op de (standaardialige) correctheid gemaakt. In de eerste plaats is er geen referent in de tekst voor het woordje "die". Men kan dus vragen: welke andere dingen? Dit is in deze context een overbodige vraag. Iedereen met kennis van het circus weet wel aan wat voor soort dingen gerefereerd wordt. In de tweede plaats is er sprake van een onjuiste samentrekking van de twee toongroepen, gesuggereerd door het woordje "en". Weggelaten zijn de woorden "toen kwamen" na "en". Nu luidt de lezing van de tweede toongroep letterlijk: "en het eerste was al die andere dingen", hetgeen zowel syntactisch en als semantisch onacceptabel is. Toch geldt ook hier dat waarschijnlijk geen enkele luisteraar moeite heeft met de gewenste interpretatie van de betekenis. Impliciet neemt elke luisteraar immers aan dat de spreker betekenisvolle uitspraken doet; betekenisloze-interpretaties van een uiting worden dus meestal niet in overweging genomen (vgl. Grice, 1975). Ook al geldt voor de meeste taalfouten dus dat zij waarschijnlijk geen noemenswaardige invloed hebben op de begrijpelijkheid van de uiting, toch zijn er gevallen waarin dit wellicht wel hei geval is. Dit soort taalfouten wordt bedoeld, wanneer ik het heb over ernstige taalfouten. Er zijn vijf verschillende soorten ernstige taalfouten gecodeerd, 140
Selectie en operat onalLyalie van predictoren
1. Moeilijk verstaanbare uitingen (de nieuwe informatie (thema) in een uiting wordt te onduidelijk uitgesproken om de bedoeling te achterhalen); 2. Lexicale fouten (een ander woord dan het bedoelde wordt gerealiseerd; doelwoord is slechts met moeite te achterhalen); 3. Syntactische fouten (wanneer de zinsstructuur moeilijk te doorgronden is door één van de volgende oorzaken: verbuigingsfouten, incorrecte samentrekking, vermenging van syntactische structuren, afgebroken structuren en onwelgevormde woordvolgordes); 4. Afwezige of onjuist aangeduide referenten (wanneer noch de tekst, noch de kennis van de luisteraar direct duidelijkheid geeft over hetgeen de spreker aanduidt met diverse anafora (pronominaal, adverbiaal, prepositioneel en temporeel)); 5. Non-correspondentie tussen toongroepgrenzen en bedoelde structuur (wanneer over belangrijke semantische en syntactische grenzen heen gepraat wordt). Er zijn twee redenen om de bovenstaande ernstige taalfouten te coderen, ook al zijn ze niet expliciet opgenomen in de definities voor Overdracht en Spreekgemak en vormen ze derhalve geen predictoren in strikte zin. De eerste reden is dat ernstige taalfouten mogelijkerwijs invloed hebben op de communicatieve kwaliteit. Het is van belang te weten op welke wijze de beoordelaars deze invloed in hun beoordeling hebben verwerkt (d.w.z. in welke beoordelingscategorie 25 ). De tweede reden is dat één van de soorten ernstige taalfouten (moeilijk verstaanbare woorden) een goede predictor lijkt voor de Verstaanhaarheidsoordelen (zie hoofdstuk 10). De vijf soorten taalfouten zullen dan ook op exploratieve wijze in verband gebracht worden met de oordelen op de vier dimensies, zodat meer inzicht ontstaat in de mate waarin de oordelen door het optreden van dit soort ernstige fouten beïnvloed worden.
9.7.1 De codeerprocedure Elk van de vijf genoemde soorten taalfouten kon per toongroep slechts eenmaal gecodeerd worden. Een nauwkeuriger localisatie van de precieze fout was vaak niet mogelijk en voor ons doel ook niet nodig. Ernstige taalfouten werden alleen gecodeerd, wanneer er geen sprake was van zelfcorrecties. Op deze wijze werd elke mogelijke overlap tussen de codering van zelfcorrecties en die van taalfouten uitgesloten. De redenering is dat gecorrigeerde taalfouten bedoeld zijn om de moeilijkheden in de interpretatie die de luisteraar mogelijkerwijs ondervindt, op te heffen; ze voldoen dan niet meer aan het criterium voor 'ernstigheid'.
25 Oordelen over Spreekgemak zijn hiervoor belangrijke kandidaten. Bij veelvuldige lexicale, syntactische en referentiële fouten en niet-gerespecteerde grenzen wordt immers de moeiteloze interpreteerbaarheid en de herkenbaarheid van begin en eind van elke uiting op zinsniveau bedreigd (zie hiervoor de genoemde apecten hij de beoordelingscategorie Zinsbouw in § 8.3).
141
9.7.2 De codeursovereenstemming De .analyse van ernstige taalfouten is uitgevoerd op de zestig prestaties geselecteerd voor Spreekgemak. De frequentie van de fouten bleek vrij gering te zijn (zie bijlage 6). Daarom was het nodig een groot aantal prestaties te laten coderen door twee codeurs om een enigszins betrouwbare indicatie van de codeursovereenstemming te krijgen. De codeurs codeerden eerst tien van de zestig prestaties en vergeleken vervolgens de uitkomst. Alle codeerverschillen werden nabesproken teneinde de criteria voor 'ernstigheid' zo duidelijk mogelijk te krijgen. De overige vijftig prestaties (in totaal 2742 toongroepen) werden door beide codeurs (onafhankelijk van elkaar) gecodeerd om de overeenstemming te bepalen. In tabel 22 zijn de correlaties (p.m.c.) gegeven tussen de totaalscores per foutsoort van de twee codeurs over de vijftig prestaties. De correlaties zijn hier per foutsoort gegeven, omdat de exploraties ook op dit niveau van analyse uitgevoerd worden (correlaties met de juryoordelen worden per foutsoort berekend). De gegevens in,:tabel 22 maken duidelijk dat de overeenstemming tussen de codeurs over moeilijk verstaanbare uitingen en lexicale fouten niet erg hoog is. De andere foutsoorten blijken in eerste instantie met een redelijke mate van eenstemmigheid gecodeerd te worden. In bijlage 8 is de kruistabel opgenomen van de codes gegeven door de twee codeurs. Hieruit blijkt dat het onderscheid tussen de vijf foutsoorten nauwelijks problemen geeft. Wel bestaat er kennelijk nog onduidelijkheid over de vraag, wanneer een fout ernstig genoeg is om te coderen. Tabel 22: Correlaties tussen de gecodeerde ernstige taalfouten van twee codeurs over vijftig
prestaties
moeilijk
lexicale
syntactische
referentie
niet-geres-
verstaan-
fouten
fouten
fouten
pecteerde
bare uitin-
grenzen
gen produktmoment
.61
.67
.78
.80
.92
correlaties
9.7.3 De definitieve codering van taalfouten Voor de bepaling van de definitieve codes is uitgegaan van de redenering dat wanneer een codeur - met alle extra hulpmiddelen die deze ter beschikking staan (letterlijk transcript van de tekst, geluidsopname die naar believen opnieuw beluisterd kan worden) - meent dat een uiting moeilijk te begrijpen of te verstaan is, een luisteraar - zonder deze hulpmiddelen - dit probleem waarschijnlijk 66k zal hebben. De eerste codeur (AvG) bepaalde voor alle niet-overeenstemmende codes de definitieve code. In de gevallen dat de ene codeur wel en de ander geen ernstige fout had gecodeerd - het meest voorkomende codeerverschil - werd bijna 142
Selectie en operationalisatie van predictoren
altijd besloten dat de fout ernstig genoeg was. Alleen wanneer duidelijk aantoonbaar was dat een codeur tekstuele informatie over het hoofd had gezien, werd anders gehandeld. Voor de tien voor proef gecodeerde prestaties werd dezelfde procedure gehanteerd. Zo is per soort het relatieve aantal fouten (gecorrigeerd voor het aantal toongroepen) berekend. De gemiddelden en standaarddeviaties voor de definitieve codes voor ernstige taalfouten zijn weergegeven in bijlage 6.
143
144
Hoofdstuk
De predictieve validiteit van oordelen over Referentie en Verstaanba held
Samenvatting Dit hoofdstuk doet verslag van het onderzoek naar de predictieve validiteit van de jury-oordelen over Referentie en Verstaanbaarheid. Als predictoren voor Referentie fungeren ruwe tellingen van het aantal 'verplichte' inhoudselementen dat door de beoordeelde sprekers wordt genoemd bij een drietal taken: het navertellen van een verhaal (taak 1), het melden van een ongeval (taak 2) en het uitleggen van de wijze waarop een spin zijn web weeft (taak 3). Predictor voor Verstaanbaarheid is het aantal gecodeerde moeilijk verstaanbare uitingen (één van de onderscheiden soorten ernstige taalfouten) bij de vierde taak (het afmaken van een verhaal). In de eerste plaats wordt ingegaan op de redenen om minder uitgebreid onderzoek te doen naar de validiteit van deze oordelen dan naar de oordelen over Overdracht en Spreekgemak. Vervolgens wordt de keuze van predictoren voor Referentie- en Verstaanbaarheidsoordelen toegelicht. Aansluitend worden de correlaties gepresenteerd tussen de jury-oordelen over de vier dimensies en de genoemde inhoudselementen (voor de predictie van Referentie) en tussen de jury-oordelen en de gecodeerde taalfouten. Deze laatste zijn niet alleen van belang voor de predictie van Verstaanbaarheid, maar tevens als indicatie van de invloed van ernstige lexicale, ,syntactische en referentiële fouten en niet-gerespecteerde grenzen tussen uitingen op de beoordeling van de andere drie dimensies (zie § 9.7). Referentieoordelen blijken veel beter geprediceerd te worden door het aantal inhoudselementen dan de andere oordelen. Verstaanbaarheidsoordelen worden beter geprediceerd door het aantal moeilijk verstaanbare uitingen, maar het verschil met oordelen over Spreekgemak is minder betrouwbaar te generaliseren wegens de geringe steekproefomvang.
10.1 Inleiding In de voorgaande twee hoofdstukken is uiteengezet hoe de predictie van de oordelen over Overdracht en Spreekgemak ter hand is genomen. In vergelijking met de vrij omvangrijke analyses die hiervoor nodig waren, is de predictieve validering van de oordelen over Referentie en Verstaanbaarheid een zeer bescheiden onderneming gebleven. Hiervoor zijn twee redenen aan te voeren, die ik
145
hieronder zal noemen. In de eerste plaats is de validiteit van Referentie- en Verstaanbaarheidsoordelen minder omstreden dan die van de oordelen over Spreekgemak en Overdracht. Zowel qua definitie als qua meettechnische kwaliteit blijken Referentie-oordelen en Verstaanbaarheidsoordelen duidelijker te onderscheiden van andere oordelen (en van elkaar)(zie hoofdstukken 3 en 5). De tweede reden is vooral van historische aard. Voordat de predictieve validering van Overdracht en Spreekgemak kon worden uitgevoerd, waren er al dusdanige indicaties voor de validiteit van Referentie- en Verstaanbaarheidsoordelen, dat een grondige predictieve validering in dit onderzoek geen prioriteit had. De indicaties voor Referentie bestonden uit tellingen van het aantal noodzakelijke inhoudselementen in de spreekprestaties voor de taken 1, 2 en 3 (zie hoofdstuk 2). De verantwoording- van deze validatie vindt in dit hoofdstuk plaats. De indicaties voor Verstaanbaarheid bestonden uit de stabiliteit van deze oordelen over verschillende spreektaken. Deze gegevens worden in hoofdstuk 13 besproken.
10.2 De predictie van Referentie-oordelen De predictie van Referentie-oordelen in deze studie bestaat uit de analyse van correlaties tussen de oordelen enerzijds en ruwe tellingen van 'verplichte' inhoudselementen anderzijds. Deze vorm van predictie is uitsluitend mogelijk bij de taken 1 (het navertellen van een verhaal), 2 (het melden van een ongeval) en 3 (uitleggen hoe een spin zijn web weeft), omdat alleen hij deze taken eenduidig is vastgesteld welke inhoudselementen van communicatief belang zijn. Bij taak 4 (het afmaken van een verhaal) waren sprekers volkomen vrij in het bedenken van inhoudselementen. De relatie tussen de beoordeling van Referentie en het weergeven van belangrijke inhoud behoeft nog een korte toelichting. Niemand zal eraan twijfelen dat de inhoudelijke kwaliteit van een spreekprestatie (informatieve waarde van inhoudselementen en hun samenhang) het belangrijkste criterium is voor de beoordeling van Referentie. Dc telling van 'verplichte' inhoudselementen in spreekprestaties is echter een vrij magere manier om inhoudelijke kwaliteit te meten. Er wordt immers uitsluitend rekening gehouden met de vraag of een element genoemd is. Niet verdisconteerd in deze telling is hoe het element geformuleerd is (duidelijk of onduidelijk), of het op een relevante plaats genoemd wordt en of het op de juiste wijze in relatie met andere elementen gebracht wordt. Voor een goed dekkende validatie van Referentie-oordelen zou met deze aspecten ook rekening gehouden moeten worden. Methodes die hierop gericht zijn, worden vaak aangeduid als coherentie-analyse. Voorbeelden voor verschillende tekstsoorten zijn te vinden in Kneupper (1978), Thorndyke (1977), Mann & Thompson (1986), Van Wijk & Sanders (1987) en Veldhuizen (1991). Bij de vergelijking van een groot aantal teksten, zoals in de huidige studie, is een dergelijke coherentie-analyse echter zeer tijdrovend, en daarom is volstaan met de relatief simpele telling van inhoudselementen.
146
Oordelen over Referentie en Verstaanbaarheid
10.2.1 De inhoudselementen De lijsten met inhoudselementen per taak zijn opgesteld na een zorgvuldige analyse van de inhoudelijke vereisten die elke taak stelde. Dit geschiedde in het kader van de Voorstudie Periodieke Peiling van het Onderwijsniveau (PPON) (zie Van den Bergh, 1985). Ook de codering van de inhoudselementen door twee codeurs is in dat kader uitgevoerd. De gerapporteerde codeursovereenstemming (alpha) bedraagt .98 voor taak 1 (verhaal navertellen) en .95 voor de taken 2 (ongeval melden) en 3 (spin) (Van den Bergh, oe. p. 22). In bijlage 4 zijn de lijsten met inhoudselementen voor de drie taken weergegeven. De codering is uitgevoerd op de tweehonderd prestaties uit de landelijke steekproef van de Voorstudie PPON (zie hoofdstuk 2).
10.2.2 Verbanden tussen inhoudselementen en jury-oordelen In tabel 23 zijn de correlaties tussen de getelde inhoudselementen en de juryoordelen per taak weergegeven. De jury-oordelen (drie beoordelaars) over de vier dimensies zijn gegeven in het onderzoek dat in hoofdstuk 5 gerapporteerd is; voor elke dimensie werd één categorie beoordeeld. Er is afgezien van een correctie voor de onbetrouwbaarheid van de oordelen in tabel 23, omdat dit complicaties geeft bij de bepaling van betrouwbaarheidsintervallen rond de gevonden correlaties (zie hieronder). In de tabel zijn tevens de zogenaamde jury-alpha's 2 tussen haakjes gegeven. Aangezien deze maten niet veel van elkaar afwijken mag men aannemen dat de betrouwbaarheid van de oordelen ook niet sterk wisselt. De gegevens in tabel 23 zijn eenduidig interpreteerbaar. In alle drie de spreektaken blijkt de correlatie tussen inhoudselementen en Referentie-oordelen veruit het hoogst. Uitgaande van een betrouwbaarheidsinterval van 95% in de steekproef van 200 is de ondergrens van de gevonden correlaties tussen Referentie en inhoud nog altijd hoger dan de bovengrens van de correlaties van de andere jury-oordelen met inhoud 27 . Op grond van deze gegevens is dus te concluderen dat Referentie-oordelen een goede indruk geven van de mate waarin sprekers communicatief relevante inhoudselementen noemen, terwijl oordelen op de drie andere dimensies dat in een beduidend mindere mate doen. Als we ervan uitgaan dat het aantal genoemde 'verplichte' inhoudselementen een nogal beperkte maat is voor de informatieve waarde van de spraak, dan zijn
26 Dit is Cronbachs alpha berekend over de oordelen van de individuele beoordelaars. Het is een maat voor de homogeniteit van de oordelen waaruit de jury-oordelen zijn opgebouwd en wordt gebruikt als (onder)schatting van de betrouwbaarheid. 27 Ter illustratie: bij een betrouwbaarheidsinterval van 95% en een N van 200 is de ondergrens van een gevonden correlatie van .89 ongeveer .85; de bovengrens van een correlatie van .67 is ongeveer .73. Op deze wijze is vrij eenvoudig in te zien dat de bedoelde intervallen van correlaties elkaar nergens overlappen.
147
de gevonden correlaties met de Referentie-oordelen verrassend hoog te noemen. Bij taak 1 wordt 79 procent van de variantie van de oordelen verklaard door het aantal genoemde elementen, bij taak 2 is dit 53 procent en bij taak 3 61 procent. Het is aannemelijk dat de eenduidigheid van de inhoudelijke eisen bij deze taken aan dit resultaat ten grondslag ligt. De beoordelaars weten met andere woorden vrij nauwkeurig welke elementen genoemd moeten worden en gebruiken deze kennis ook als criterium. Dit hoeft overigens niet te betekenen dat zij andere criteria voor Referentie, zoals de duidelijkheid van formulering en de coherentie van de genoemde elementen minder zwaar laten tellen. Het is goed voorstelbaar dat tussen deze kenmerken van de gesproken teksten en het aantal genoemde relevante elementen een sterke samenhang bestaat bij de beoordeelde sprekers. rnibel 23: Correlaties tussen aantallen inhoudselementen en jury-oordelen in drie spreektaken; N = 200; jury-alpha's tussen haakjes
Referentie
Overdracht
Spreekgemak
Verstaanbaar. heid
Taak 1 (verhaal navertellen)
Inhoud (1) (.98)
(.91) .89
( 89) .67
(.82) .45
(.84) .41
Taak 2 (ongeval)
Inhoud (2) (.95)
(.87)
(.75)
(.77)
(.77)
.73
.23
.38
.14
(.80)
(.74)
(.83)
.49
.55
.32
Taak 3 (spin)
Inhoud (3) (.95)
(.85) .78
10.3 De predictie van Verstaan baarheidsoordelen De enige predictor voor Verstaanbaarheid in dit onderzoek is hel gecodeerde aantal moeilijk verstaanbare uitingen bij zestig prestaties voor taak 4 (de selectie voor Spreekgemak). Deze uitingen vormden één van de vijf onderscheiden soorten 'ernstige' taalfouten die in dit onderzoek om vooral exploratieve redenen gecodeerd zijn (zie § 9.7). Ook al werd bij de instructie van de beoordelaars dit soort taalfouten niet als criterium voor beoordeling genoemd, toch lijkt het de moeite waard de invloed van deze fouten op de jury-oordelen te onderzoeken. Gemiddelden en standaarddeviaties voor de gecodeerde taalfouten zijn te vinden in bijlage 6. Daaruit blijkt dat 'ernstige' taalfouten niet vaak voorkomen in de beoordeelde teksten. Zowel moeilijk verstaanbare uitingen als lexicale en syntactische fouten komen gemiddeld slechts twee maal op de honderd toongroepen voor. Referentie-
148
Oordelen over Referentie en Verstaanbaarheid
fouten zijn het meest frequent (gemiddeld vijf op de honderd toongroepen). Op het eerste gezicht lijkt het misschien eenvoudig andere predictoren voor Verstaanbaarheidsoordelen te definiëren. Te denken valt aan het aantal ingeslikte klanken, het aantal misleidende accenten of akoestische metingen voor de stemkwaliteit. Bij nader inzien echter hebben dergelijke predictoren een nogal twijfelachtige validiteit. Aangezien de dimensie Verstaanbaarheid vanuit een functioneel criterium is gedefinieerd (zie § 3.2), mag men verwachten dat de oordelen zich niet tot het fonetisch/fonologische niveau van uitspraak beperken, en dat syntactische en semantische aspecten er een belangrijk deel van uitmaken. Een woord als 'helemaal' bijvoorbeeld wordt in wat snellere spraak vaak gerealiseerd als 'hemaal' of zelfs als 'hema'. Voor de luisteraar is dit in de meeste gevallen geen enkel probleem, omdat dc semantische en syntactische context vrijwel altijd voldoende steun biedt. Zelfs hij sommige inhoudswoorden kan de spreker zich permitteren slordig te articuleren, omdat het betreffende woord binnen de communicatieve situatie zo goed als redundant is. We kunnen aannemen dat het kunnen discrimineren tussen woorden die slordig en woorden die juist nadrukkelijk gearticuleerd moeten worden, deel uitmaakt van een soort stilzwijgende afspraak tussen sprekers en luisteraars. "Bekende" zaken staan hier tegenover "nieuwe" informatie (vgl. Chafe, 1976; Clark & Haviland, 1977; Gussenhoven, 1984; Van Bergem, 1991; Koopmans-van Beinum, 1991). Het nadrukkelijk uitspreken van woorden die alleen maar bedoeld zijn als herhaling van eerder genoemde gegevens, kan dus zelfs als dysfunctioneel gekwalificeerd worden. Het aantal moeilijk verstaanbare uitingen lijkt we! een valide predictor, omdat dc codeurs hier in essentie op een gedetailleerd niveau (per toongroep) beoordelen, wat de beoordelaars op een meer globale wijze tot uitdrukking moeten brengen. Men mag verwachten dat bij een relatief groot aantal toongroepen die door de codeurs als moeilijk verstaanbaar worden gezien, ook het globale Verstaanbaarheidsoordeel negatief uitvalt. Voor de vier andere soorten ernstige taalfouten zijn geen duidelijke voorspellingen geformuleerd; zij worden exploratief met de jury-oordelen in verband gebracht.
10.3.1 Verbanden tussen ernstige taalfouten en de jury-oordelen
In tabel 24 staan de correlaties tussen de aantallen gecodeerde taalfouten in zestig prestaties op taak 4 (de geselecteerde prestaties voor Spreekgemak) en de juryoordelen. Deze oordelen zijn gegeven door drie beoordelaars in het onderzoek dat in hoofdstuk 5 is beschreven. De correlaties worden niet gecorrigeerd voor de onbetrouwbaarheid van de oordelen (en de codes) om verschillende redenen. Ten eerste vermijden we hiermee complicaties bij het bepalen van betrouwbaarheidsintervallen (vgl. § 10.2.2). Ten tweede blijken de jury-alpha's als schattingen van de betrouwbaarheid van de jury-oordelen elkaar nauwelijks te ontlopen, zoals in de tabel te zien is (de jury-alpha's staan tussen haakjes). Ten derde beschikken we
149
Tabel 24: Correlaties tussen jury-oordelen en aantallen taalfouten in taak 4 (het afmaken van een verhaal); N=60; jury-alpha's tussen haakjes
Verstaanbaar-
Referentie
Overdracht
Spreekgemak
(. 86)
(.87)
(.86)
(.86)
-.61
-. 22
-.17
-.28
-.34
-.14
-.12
-.23
-.23
.04
-.22
-.27
-.42
-.17
-.24
-.19
-.31
-.17
-.13
-.20
heid
Moeilijk verstaanbare uitingen Lexicale fouten Syntactische fouten `Referentiefouten Niet-gerespecteerde grenzen
niet over betrouwbaarheidsgegevens voor de gecodeerde taalfouten. Deze codes zijn immers vastgesteld op basis van een vergelijking van de beslissingen van twee codeurs (zie § 9.7). Een groot deel van de correlaties in label 24 is zo laag dat - gegeven de steekproefomvang van zestig - met zekerheid geen uitspraak gedaan kan worden over het al of niet bestaan van een verband tussen aantallen ernstige fouten en de jury-oordelen in de populatie. Dit geldt voor alle correlaties met de Referentie- en de Overdrachtsoordelen, drie van de vijf correlaties met Spreekgemak en de correlatie tussen het aantal syntactische fouten en de Verstaanbaarheidsoordelen. We gaan hierbij uit van een betrouwbaarheidsinterval van 95%, waarbij alleen correlaties van .25 en daarboven (of -.25 en daaronder) significant van nul verschillen. De hoogste correlatie in tabel 24 is die tussen Verstaanbaarheid en het aantal moeilijk verstaanbare uitingen. Deze correlatie bedraag -.61 en vormt een positieve indicatie voor de validiteit van het juryoordeel. Bij toepassing van een betrouwbaarheidsinterval van 95% verschilt deze correlatie echter niet significant van de correlatie tussen de moeilijk verstaanbare uitingen en het jury-oordeel over Spreekgemak (-.28) 29 . Statistisch gesproken beschikken we over te weinig onderscheidingsvermogen om - op het gekozen niveau van significantie - overlap tussen de twee jury-oordelen uit te sluiten. Niettemin valt te concluderen dat in onze steekproef Verstaanbaarheidsoordelen veel beter geprediceerd worden door het aantal moeilijk verstaanbare uitingen (37
28 Overigens is dit een nogal strenge norm en valt er wat te zeggen voor de keuze van een kleiner betrouwbaarheidsinterval - zeg 80% - aangezien de steekprocfgroottc is bepaald op grond van een geraamd statistisch onderscheidingsvermogen bij een alpha van .10 (zie § 8.2). In dat geval zijn alle correlaties groter dan .21 statistisch significant. 29 De correlatie van -.61 heeft een bovengrens van -.43, terwijl de correlatie van -.28 een ondergrens heeft van -.50 bij een betrouwbaarheidsinterval van 95% en een N van 60.
150
Oordelen over Referentie en Verstaanbaarheid
procent van de variantje) dan de andere jury-oordelen (maximaal 8 procent). Overigens blijkt uit de correlaties in tabel 24 dat ook andere soorten ernstige taalfouten een significant verband met het Verstaanhaarheidsoordeel hebben. Met name lexicale en referentiële fouten zijn duidelijk aan het oordeel gerelateerd. Ook het aantal niet-gerespecteerde (semantische en/of syntactische) grenzen correleert significant met het jury-oordeel over Verstaanbaarheid. Het is niet duidelijk wat hiervoor de verklaring is. Het vermoeden dat dergelijke fouten (en de syntactische fouten) invloed hebben op het Spreekgemaksoordeel (zie § 9.7) krijgt nauwelijks ondersteuning in de resultaten. Een mogelijke verklaring is dat de beoordelaars hij beoordeling van Verstaanbaarheid - meer dan bij de andere dimensies - hun aandacht specifiek op individuele uitingen richten (dus op toongroepniveau). Als ze op dat niveau begripsproblemen ontwaren, zijn ze misschien niet zo geneigd om problemen qua Verstaanbaarheid te onderscheiden van problemen qua begrijpelijkheid, zoals bij een onduidelijke referent, of bij de realisatie van niet-bedoelde woorden. Mogelijkerwijs nemen de beoordelaars bij de beoordeling van Referentie en Spreekgemak een globaler perspectief op de teksten, waardoor, ze begripsproblemen op toongroepniveau eerder door de vingers zien. We concluderen dat de correlaties tussen het aantal ernstige taalfouten in de beoordeelde prestaties en de jury-oordelen aantonen dat deze fouten vrij weinig invloed op de oordelen hebben gehad. De enige uitzondering is het jury-oordeel over Verstaanbaarheid. Dit blijkt duidelijk gerelateerd te zijn aan het aantal moeilijk verstaanbare uitingen en in mindere mate aan het aantal ernstige referentiële en lexicale fouten en niet-gerespecteerde grenzen. Gezien de geringe steekproefgrootte echter en het feit dat in de analyses alleen prestaties op één (narratieve) taak zijn betrokken, is replicatie-onderzoek noodzakelijk om over deze conclusies meer zekerheid te krijgen.
151
152
Hoofdstuk 11
De pr etieve validiteit v oordele u zer 37ordraci it en Spreekgemak
Samenvatting
Dit hoofdstuk bevat de analyses die uitgevoerd zijn voor de predictie van de juryoordelen over Overdracht en Spreekgemak. Eerst worden de vraagstellingen van het onderzoek kort gememoreerd: het bepalen van de validiteit van de oordelen en het exploreren van beoordelingsproblemen. Vervolgens wordt uiteengezet welke analysestappen gezet zijn. Zowel voor de predictie van Overdracht als voor die van Spreekgemak zijn twee modellen getoetst met LISREL (.Iiireskog & Siirbom, 1986). In het eerste model (Model 1) wordt telkens de regressie van de afzonderlijke predictoren op hun criterium berekend. In het tweede (Model 2) wordt nagegaan in hoeverre de gesommeerde predictoren hun criterium beter voorspellen dan andere criteria. De resultaten van deze analyses laten zien dat de predictoren zeer substantiële proporties variantje van hun criteria verklaren. De predictoren voor Overdracht verklaren het Overdrachtsoordeel beduidend beter dan dat zij andere oordelen verklaren. De predictoren voor Spreekgemak verklaren weliswaar een groter deel van de variantie van het bedoelde oordeel dan van andere oordelen, maar het verschil met het verklaarde deel van Overdracht is statistisch niet significant. Bovendien blijken de predictoren voor Overdracht óók een aanzienlijk deel van de variantie van Spreekgemak te verklaren. In enkele exploraties wordt nagegaan of er indicaties zijn voor het optreden van halo- of signifische effecten bij de beoordeling van Overdracht en Spreekgemak. Deze worden niet gevonden. Verder worden enkele exploraties gedaan om een verklaring te vinden voor de tegenvallende resultaten bij de predictie van Spreekgemak. Hieruit blijkt dat alleen vrij grove inbreuken op de continuïteit van de spraak meegewogen worden bij het jury-oordeel en dat de individuele beoordelaars hierin niet aantoonbaar van elkaar afwijken.
153
11.1 Inleiding De analyses die hier gerapporteerd zullen worden, zijn erop gericht antwoord te krijgen op de twee vraagstellingen die in hoofdstuk 7 zijn geformuleerd, toegespitst op oordelen over prestaties op één taak: het afmaken van een verhaal (taak 4): 1. Zijn de dimensies (Overdracht en Spreekgemak), zoals beoordeeld door een jury, goede indicatoren voor de gedragsaspecten uit de definitie van die dimensies? 2. In hoeverre wordt de validiteit van de jury-oordelen bedreigd door beoordelingsproblemen, zoals het signifische en het halo-effect? De eerste vraag wordt in dit onderzoek hypcithesetoetsend benaderd. De hypothesen (zie § 8.3.2) zijn ontleend aan de omschrijvingen bij de definitie van de categorieën voor de beoordeling van de prestaties op taak 4. De hypothesetoetsing vindt in twee stappen plaats: de convergente en de divergente. In de convergente stap wordt getoetst of de gedragsaspecten (predictoren) uit de definitie van de betreffende dimensie een substantiële bijdrage leveren aan de verklaring van de variantie van het jury-oordeel. In de divergente stap wordt getoetst of 'deze aspecten het jury-oordeel op de •bedoelde dimensie beter verklaren dan jurycïordelen op één van de andere dimensies. De tweede vraag wordt exploratief benaderd. Hiervoor wordt in dc eerste plaats een vergelijking gemaakt tussen enerzijds dc correlatie van de beoordeelde gedragsaspecten voor Overdracht en Spreekgemak en anderzijds dc correlatie tussen de oordelen over Overdracht en Spreekgemak. Indien blijkt dat deze twee correlaties significant van elkaar verschillen, vormt dit een indicatie dat de oordelen vertekend zijn door beoordelingsproblemen. Er kan sprake zijn van te onduidelijke definities van de beoordelingscategorieën of van een neiging van beoordelaars om bepaalde aspecten van het gedrag bij verschillende oordeelscategorieën mee te wegen, zodat een ongewenste overlap ontstaat in de betekenis van de jury-oordelen. In paragraaf 7.3 is een nadere uiteenzetting gegeven van deze zogenaamde halo- en signifische effecten en de gevolgen die deze kunnen hebben voor de correlaties tussen jury-oordelen en de beoordeelde gedragsaspecten. Tenslotte worden enkele exploraties verricht die inzicht kunnen geven in de aard van de gevonden relaties tussen de gemeten en gecodeerde gedragsaspecten (predictoren) en jury-oordelen (criteria). Er wordt ingegaan op enkele bevindingen van de regressie-analyses die tegen de geformuleerde verwachtingen ingaan en op de vorm van het verband tussen het oordeel over Spreekgemak en de tempomaten. Tenslotte wordt geanalyseerd of er aanwijzingen zijn dat beoordelaars gedragsaspecten systematisch verschillend wegen.
11.2 Opzet van de multipele regressie-analyses De multipele regressies zijn uitgevoerd met een analyseprogramma voor Lineaire Structurele Relaties (LISREL VI; Jëreskog & Sërbom, 1986). Met dit programma kunnen relaties tussen zogenaamde manifeste (direct gemeten) en latente (afgelei-
154
Oordelen over Overdracht en Spreekgemak
de) variabelen in een model gespecificeerd worden. Aangezien de criteria in onze analyse (de vier beoordelingsdimensies: Spreekgemak, Overdracht, Referentie en Verstaanbaarheid) latente variabelen zijn, die gemeten worden door de oordelen van de individuele beoordelaars ligt het gebruik van LISREL voor de hand. Dit geeft immers de mogelijkheid om rekening te houden met de mate waarin de criteria betrouwbaar worden. gemeten. De criteria voor de regressie-analyses zijn dus de vier beoordelingsdimensies. De oordelen van drie beoordelaars over de prestaties op taak 4 (het afmaken van een verhaal) zijn de manifeste variabelen die verklaard worden door de (latente) dimensies. Deze oordelen zijn verzameld in het onderzoek dat in hoofdstuk 5 is gerapporteerd. Voor elke dimensie is telkens (Sen representatieve beoordelingscategorie beoordeeld (zie bijlage 3). Voor de predictie van Overdracht zijn.aeht predictoren opgenomen, waarvan de selectie en operationalisatie is verantwoord in hoofdstuk 9. Het gaat om de volgende predictoren: I. Intonatievariatie (de proportie gecodeerde basisbewegingen - minus continuatiestijgingen - van alle gegeven codes voor intonatie: syllaben mèt en zonder toon hoogtebeweging); 2. De gemiddelde standaarddeviatie van de fundamentele frequentie binnen toongroepen (gemeten over twintig toongroepen); 3. De standaarddeviatie van gemiddelde fundamentele frequentie over toongroepen (gemeten over twintig toongroepen); 4. Het relatieve aantal primaire accenten (gecorrigeerd voor tekstlengte in toongroepen); 5. De gemiddelde intensiteit (gemeten over twintig toongroepen); 6. De standaarddeviatie van de gemiddelde intensiteit over toongroepen (gemeten over twintig toongroepen); 7. Het relatieve aantal registerverzwakkers (gecorrigeerd voor tekstlengte in toongroepen); 8. Het relatieve aantal registerversterkers (gecorrigeerd voor tekstlengte in toongroepen). Bij de predictie voor Spreekgemak zijn vier predictoren betrokken (die eveneens in hoofdstuk 9 nader verantwoord zijn), namelijk: 1. Het relatieve aantal zelfcorrecties en niet-functionele pauzes (gecorrigeerd voor tekstlengte in toongroepen); 2. De duur van zelfcorrecties en niet-functionele pauzes (gemeten over twintig toongroepen); 3. De gemiddelde spreeksnelheid (gemeten over twintig toongroepen); 4. De gemiddelde articulatiesnelheid (gemeten over twintig toongroepen). De predictoren voor Overdracht zijn geanalyseerd in een selectie van zestig beoordeelde prestaties en de predictoren voor Spreekgemak in een andere selectie van zestig prestaties. Om die reden worden de multipele regressie-analyses voor Overdracht en Spreekgemak afzonderlijk uitgevoerd.
155
111.1 Specificatie van de toetsingsmodellen Voor beide dimensies (Overdracht en Spreekgemak) worden twee predictiemodellen getoetst. In Model 1 worden de ladingen van de predictoren op hun bedoelde criteria (de latente variabele Overdracht of Spreekgemak) geschat. Dit kunnen we aanduiden als de convergente stap van de hypothesetoetsing, omdat getoetst wordt of variantie in de gedragsaspecten uit de definitie van een dimensie bijdraagt aan de verklaring van de variantie van die dimensie. In Model 2 worden de verschillende predictoren (acht voor Overdracht, of vier voor Spreekgemak) gestandaardiseerd en gesommeerd en worden de ladingen van deze 'superpredictor' op de vier beoordelingsdimensies geschat. Dit is de divergente stap van de toetsing, omdat geanalyseerd wordt of de predictoren voor een dimensie de variantie op die dimensie beter verklaren dan de variantie op één van de drie andere dimensies. -Voor een grafische weergave van de modellen 1 en 2 zoals gebruikt voor de predictie van Overdracht en Spreekgemak, verwijs ik naar bijlage 10. In Model 1 is er dus telkens sprake van één latente variabele (het oordeel over Spreekgemak dan wel Overdracht), die verklaard wordt. door (manifeste) predictoren en die op zijn beurt drie manifeste variabelen verklaart (de oordelen van drie beoordelaars). Aangezien de predictoren in deze opzet onafhankelijke variabelen zijn en hiervoor geen storingstermen zijn te definiëren, worden de correlaties hiertussen niet geschat, maar gefixeerd op hun gevonden waarden in de steekproef. Teneinde een geïdentificeerd model te realiseren moesten de ladingen van twee beoordelaars op de latente variabele aan elkaar gelijk gesteld worden. De lading van de derde werd vrij geschat. Het programma schat de regressiegewichten van elk der predictoren simultaan, gebruik makend van de volgende formule in geval van twee predictoren': 11
=
72x2+ E
(1)
Hierin stelt in de variantie van de latente variabele voor; y 1 en Y2 zijn de regressiegewichten van respectievelijk de eerste (x 1 ) en de tweede (x 2) predictor en e is de onverklaarde variantie van de latente variabele. Onder aanname dat e onafhankelijk is van x 1 en x 2 volgt hieruit: var (1-0=y, 2 var (x 1 ) + 722 var (x 2 ) + var (c) + 2 -02 cov(x 1 x 2 )
(2)
In (2) duidt "var" de variantie van een variabele aan en "cov" de covariantie van twee variabelen. In geval van een gestandaardiseerde oplossing waarin de varianties van alle variabelen op één zijn gesteld is (3) eenvoudiger te schrijven: 1 = yi2 + 722 + var(s) 2 711r12
(3)
Hierin is 1- 12 de correlatie tussen de predictoren (x, en x 2). Uit (3) blijkt dat de verklaarde variantie van het criterium (1 - var(e), in het vervolg genoemd de
30 Voor het uitschrijven van deze en de volgende formules ben ik dank verschuldigd aan dr M. Eiting.
156
Oordelen over Overdracht en Spreekgemak
multipele correlatie: R 2 ) opgedeeld wordt tussen de afzonderlijke regressiegewichten van de predictoren (y,, y2 , etc.) en de produkten van elk paar regressiegewichten met de correlatie van elk paar predictoren. Tenzij alle predictoren nul correleren, is aan de regressiegewichten in de multipele regressievergelijking dus niets af te leiden over een 'afzonderlijke' bijdrage van elke predictor aan de verklaring van het criterium. In onze situatie correleren alle predictoren positief, zoals in bijlage 9 te zien is. We zullen dus rekening moeten houden met het feit dat de afzonderlijke invloed van predictoren niet kan worden bepaald in onze analyse. Niettemin kan uit de hoogte van de regressiegewichten het relatieve belang van de predictoren wel geëvalueerd worden'. Door de betrouwbaarheidsintervallen van de regressiegewichten te bepalen kan statistisch geëvalueerd worden of twee gewichten significant van elkaar verschillen. In Model 2 zijn telkens vier latente variabelen opgenomen: de dimensies Overdracht, Spreekgemak, Verstaanbaarheid en Referentie. Elk van deze dimensies verklaart drie manifeste variabelen: de corresponderende oordelen van drie beoordelaars. De correlaties tussen de latente variabelen worden vrij geschat. De latente variabelen worden verklaard door één 'superpredictor'. In het ene geval bestaat deze 'superpredictor' uit de som van predictoren voor Overdracht, in het andere geval bestaat hij uit de som van predictoren voor Spreekgemak. Aangezien de (ongestandaardiseerde) variantjes van de afzonderlijke predictoren bij sommering deze predictoren een willekeurig en ongelijk gewicht in de variantie van de somvariabele zouden geven, zijn de variantjes vddr de optelling gestandaardiseerd. Tevens zijn in het model twee beoordelaarsspecifieke factoren opgenomen om te voorzien in de variantie van de oordelen van dezelfde beoordelaar die niet aan één van de dimensies, maar alleen aan de beoordelaar zelf kan worden toegeschreven (vgl. § 5.2.1). Opname van een beoordclaarsspecifieke factor voor de derde beoordelaar leidde tot een niet-geïdentificeerd model; hiermee kon dus geen oplossing verkregen worden. Elke beoordelaarsspecifieke factor wordt gedefinieerd door de (overigens onverklaarde) correlaties tussen oordelen van één beoordelaar over de vier dimensies. De ladingen van deze oordelen op de factor zijn per beoordelaar aan elkaar gelijkgesteld, zodat per bcoordel.ar één 'specificiteitsindex' wordt verkregen (zie § 5.2.1). Deze restrictie zal de passing van het model negatief beïnvloeden, maar daar staat tegenover dat het een conceptueel zuivere vertaling van de notie van beoordelaarsspccificiteit vormt: er is geen reden om aan te nemen dat de specificiteit hij het ene oordeel groter is dan bij het andere. Er zijn (vanzelfsprekend) geen correlaties toegelaten tussen de beoordelaarsspecifieke factoren onderling en met de andere latente variabelen,
31 Een alternatief voor de door mij gekozen regressie-analyse is het afleiden van (ongecorreleerde) latente variabelen uit de (gecorreleerde) predictoren. Hiervoor is niet gekozen, omdat de betekenis van deze ongecorreleerde factoren in deze context uiterst problematisch zou zijn. Wat te zeggen van een 'factor' intonatievariatie die niet correleert met de 'factor' grondtoonvariatie? Of van een 'factor' spreeksnelheid die niet correleert met een 'factor' pauzeduur?
157
11.3 Resultaten van de multipele regressies De vier modeltoetsingen zijn uitgevoerd met de methode van de 'maximum likelihood'- schattingen. Het voordeel van deze methode is dat hiermee schattingen van de standaardfouten van de parameters verkregen worden, zodat de populatiewaarden beter geëvalueerd kunnen worden. Een aanname bij gebruik van de methode is dat de afhankelijke variabelen (in ons geval de oordelen) multivariaatnormaal verdeeld zijn. Het is niet waarschijnlijk dat dit voor onze populatie het geval is (Van Gelderen, 1987a), maar de methode is redelijk bestand tegen afwijkingen (Jdreskog & S15rbom, 1986). In tabel 25 staan de indices voor de mate van passing die zijn verkregen. Tabel 25: Indicaties voor passing van de vier getoetste modellen voor de predictie van Overdracht en Spreekgemak Chi-kwadr.
df
Model 1 (Overdracht)
31.43
Model 1 (Spreekgemak)
,
a)
p-waarde
gong
N
17
.018
.93
60
11.45
9
.246
.95
58
'Model 2 (Overdracht)
72.84
54
.045
.85
60
Model 2 (Spreekgemak)
65.69
54
.132
.86
58
Model
a) Het feit dat bij de modeltoetsingen voor Spreekgemak slechts 58 van de 60 prestaties zijn betrokken, is het gevolg van het feit dat twee prestaties verwijderd zijn omdat deze uitzonderlijk lange stiltes bevatten, hetgeen een buitenproportionele invloed had op zowel het gemiddelde als de variantie van de pauzeduren.
De passingsindices in tabel 25 moeten met enige voorzichtigheid geïnterpreteerd worden. Alleen bij grote steekproeven en onder aanname van multivariate normaliteit heeft de toetsingsgrootheid een chi-kwadraatverdeling. Aangezien beide voorwaarden hier niet vervuld zijn, beschikken we niet over een duidelijke grenswaarde waaronder het model als niet-passend bij de data verworpen moet worden. Conventionele normen voor passing (verhouding tussen de Chi-kwadraat en' df kleiner dan twee; 'goodness of fit' (gofi) groter of gelijk .90) toegepast op de gegevens in tabel 25 leiden tot de conclusie dat de passing zeker niet slecht te noemen is, alhoewel beide toetsingen van Model 2 iets te wensen overlaten (gofi is kleiner dan .90). In bijlage 10 zijn de vier modellen grafisch weergegeven met de bijbehorende parameterschattingen. In bijlage 9 zijn de matrices met correlaties tussen de pretlictoren opgenomen. Hier zullen we ons beperken tot het hoofddoel van de analyse: de percentages verklaarde variantie van de criteriumvariabelen: de Overdracht- en Spreekgemaksoordelen. In de tabellen 26 en 27 staan - naast de gemiddelden en de standaarddeviaties van de predictoren - tevens de correlaties (p.m.c.) van de predictoren met hun criterium en hun regressiegewichten in de multipele regressie volgens Model 1. Deze gegevens maken duidelijk dat alle predictoren, uitgezonderd articulatie-
158
Oordelen over Overdracht en Spreekgemak
snelheid, significant correleren met hun criterium'. Voor articulatiesnelheid en spreeksnelheid is in de hypothesen ook de mogelijkheid van een curvilineair verband opengehouden; voor een toetsing hiervan verwijs ik naar § 11.4. Voor de overige predictoren kan gesteld worden dat zij het verwachte (lineaire) verband met hun criterium hebben. De resultaten van de multipele regressie-analyses leiden evenwel tot een duidelijke kwalificatie van deze conclusie. Voor zowel Overdracht als Spreekgemak geldt dat de totale hoeveelheid verklaarde variantje substantieel is (respectievelijk .826 en .548). Het verschil tussen deze variantieproporties is echter opvallend groot. Kennelijk is de predictie van Overdracht veel beter geslaagd dan die voor Spreekgemak. In tabel 26 is bovendien te zien dat alleen de predictoren intonatievariatie, registerversterkers, variatie van fundamentele frequentie over toongroepen en registerverzwakkcrs een significant regressiegewicht hebben (bij een betrouwbaarheidsinterval van 80%). Hiervan zijn intonatievariatie en registerversterkers de predictoren die het leeuwendeel van de verklaarde variantje voor hun rekening nemen. 'fabel 26: Gemiddelden, standaarddeviaties en correlaties met het criterium van de acht predictoren voor Overdracht; tevens de regressiegewichten en de totale verklaarde variantje (R 2 ) van Overdrachtsoordelen in de gestandaardiseerde oplossing van Model 1; ns=niet significant van nul afwijkend
Sd.
Cor.
Regr. gew.
.41
.08
.75
.364
2. SdF0 (binnen tngr.)
20.66
6.97
.68
.113(ns)
3. SdFO (over tngr.)
17.99
8.51
. 66
.170
4. Primaire accenten
1. 39
.39
.49
.098(ns)
35.22
3.68
.56
.048(ns)
2.79
.89
.36
.079(ns)
-.34
.23
. 51
.115
.59
.29
.65
.256
Gem. 1. Intonatievariatie
5. Gemiddelde intensiteit 6. Sd intensiteit (over tgnr) 7. Registerverzwakkers 8. Registerversterkers
a)
R2
.826
a) Deze scores zijn met -1 vermenigvuldigd, zodat alle voorspelde correlaties positief zijn.
32 Zoals in § 8.2 aangekondigd worden alle hypothesen getoetst met een alpha van .10 en een beta van .10. In verband met het berekende onderscheidingsvermogen wordt voor de regressiegewichten een betrouwbaarheidsintetval van 80% gehanteerd (alle standaardfouten worden met een factor 1.285 vermenigvuldigd).
159
In tabel 27 heeft alleen de predictor 'duur van zelfcorrecties en pauzes' een significant regressiegewicht. De andere predictoren voor Spreekgemak dragen kennelijk niet noemenswaardig aan de verklaarde variantie bij. Een exploratie naar de oorzaken van de minder geslaagde predictie van Spreekgemak vindt plaats in § 11.4. Tabel 27: Gemiddelden, standaarddeviaties en correlaties met het criterium van de vier predictoren voor Spreekgemak; tevens de regressiegewichten en de totale verklaarde variantic (R 2) van de Spreckgemaksoordelen in de gestandaardiseerde oplossing van Model 1; ns = niet significant van nul afwijkend
Gem.
Sd.
Cor.
Regr.-
R2
gew. .1.
Aantal zelfcorrecties en pauzes
. 2.
Duur zelfcorrecties en pauzes
a)
a)
-.57
.26
.53
.127(ns)
-.73
.59
.70
.635
.37
.043(ns)
3.
Gem. spreeksnelheid
2.92
.65
4.
Gem. articulatiesnelheid
5.03
.68
.03(ns)
.548
.039(ns)
-a) Deze scores zijn met -1 vermenigvuldigd, zodat alle voorspelde corrrelaties positief zijn.
Tabel 28 geeft de regressiegewichten van de sommen van de gestandaardiseerde predictoren voor Overdracht en Spreekgemak, zoals geschat in de twee toetsingen van Model 2. Het regressiegewicht van de predictoren voor Overdracht op de bedoelde dimensie blijkt duidelijk hoger te zijn (.89) dan op elk van de nietbedoelde dimensies. Bij toepassing van een 80% betrouwbaarheidsinterval vertoont het interval voor dit gewicht geen overlap met de intervallen voor de andere gewichten. Ook de gesommeerde predictoren voor Spreekgemak hebben absoluut gezien - het hoogste gewicht op de bedoelde dimensie. De gewichten op de dimensies Referentie en Verstaanbaarheid blijken zelfs niet significant van nul te verschillen. Hel gewicht van de predictoren voor Spreekgemak op de dimensie Overdracht echter, verschilt niet significant van het gewicht op Spreekgemak bij toepassing van een 80% betrouwbaarheidsinterval. Indien we de gewichten in tabel 28 niet horizontaal, maar verticaal vergelijken, blijkt dat de dimensie Overdracht veel beter door zijn 'eigen' predictoren dan door die voor Spreekgemak verklaard wordt. De Spreekgemaksoordelen blijken echter voor een aanzienlijk deel door de predictoren voor Overdracht verklaard te worden. Het regressiegewicht is hier zelfs hoger (.673) dan dat van de "eigen" predictoren voor Spreekgemak (.623). De vertikale vergelijking van de gewichten in tabel 28 is niet nauwkeurig, omdat de gegevens uit twee verschillende toetsingen afkomstig zijn (één bij de zestig prestaties geselecteerd voor Overdracht en één voor de zestig geselecteerd voor Spreekgemak, zie § 8.2). Niettemin is deze vergelijking veelzeggend, omdat ze duidelijk maakt dat in het Spreekgemaksoordeel gedragsaspecten uil de definitie van Overdracht een belangrijk gewicht hebben. Dit kan duiden op een halo-effect.
160
Oordelen over Overdracht en Spreekgemak Tabel 28: De standaarddeviaties van de sommen van gestandaardiseerde predictoren voor Overdracht en Spreekgemak en hun regressiegewichten op de oordelen op de vier dimensies in Model 2 (gestandaardiseerde oplossing)
OORDEI,EN
Sd Over-
Spreek-
Referen•
Verstaan-
dracht
gemak
tie
Naarheid
5.42
.890
.673
.528
2.83
.433
.623
.179(ns)
Som predictoren Overdracht
.308
Som predictoren Spreekgemak
.117(ns)
De resultaten die tot nu gepresenteerd zijn doen twijfels rijzen over de validiteit van de Spreekgemaksoordelen. Enerzijds blijken ze alleen uit de duur van zelfcorrecties en pauzes verklaard te kunnen worden (andere predictoren dragen daar hoegenaamd niets aan bij). Anderzijds kan een betekenisoverlap met Overdrachtsoordelen niet uitgesloten worden. In de volgende paragraaf proberen we de oorzaken van deze problemen op te sporen.
11.4 Exploraties De resultaten van de multipele regressie-analyses gaven aanleiding te twijfelen aan de validiteit van het Spreekgemaksoordeel. Daarom zal ik hier enkele exploraties rapporteren, die in deze kwestie meer duidelijkheid kunnen geven. In de eerste plaats is onderzocht in hoeverre de geconstateerde betekenisoverlap (predictoren voor Overdracht verklaren een aanzienlijke proportie van de variantie van het Spreekgemaksoordeel) toe te schrijven is aan een halo-effect 33 . In de tweede plaats is nagegaan of er curvilineaire verbanden bestaan tussen de gemiddelde tempomaten (articulatiesnelheid en spreeksnelheid) en het Spreekgemaksoordeel. In de derde plaats is op een meer gedetailleerde manier geanalyseerd welke relaties er bestaan tussen de diverse soorten pauzes en zelfcorrecties enerzijds en de jury-oordelen over Spreekgemak en Overdracht anderzijds. De mogelijkheid van een signifisch effect (op jury-niveau, zie § 7.3) wordt hier geëxploreerd.
11.4.1 Indicaties voor beoordelingsproblemen Zoals in paragraaf 7.4 uiteengezet, hebben we in dit onderzoek (beperkte) mogelijkheden om te controleren of beoordelingsproblemen zijn opgetreden. Zo kunnen
33 Het zal duidelijk zijn dat een signifisch effect geen verklaring kan bieden voor betekenisoverlap (zie § 7.3).
161
we nagaan wat de correlatie is tussen gedragsaspecten die relevant zijn voor de verschillende oordeelsdimensies, en deze correlatie vergelijken met de correlatie tussen de oordelen over die dimensies. Indien de oordelen hoger correleren dan de aspecten waarvan men mag veronderstellen dat die in de oordelen meegewogen moeten worden, dan is dit een indicatie voor een halo-effect: de beoordelaars wegen één of ander gedragsaspect (of aspecten) mee in verschillende oordelen, ook al is dat niet de bedoeling. Indien de oordelen over verschillende dimensies onderling lager correleren dan de beoordeelde aspecten, beschouwen we dit als een indicatie voor een signifisch effect: beoordelaars hebben ofwel systematisch verschillende interpretaties van de gewichten van de aspecten, ofwel ze hebben onvoldoende houvast aan de definitie van de oordeelscategorieën, waardoor hun individuele betrouwbaarheid negatief wordt beïnvloed (zie § 7.3). Het zal duidelijk zijn dat bovenstaande redenering aan kracht inboet, naarmate we minder zekerheid hebben over de relevantie van de gedragsaspecten voor de jury-oordelen en over de 'juiste' weegverhouding tussen die aspecten. Gelukkigerwijs hebben de in de vorige paragraaf gerapporteerde regressie-analyses ons hierover , belangrijke informatie gegeven. Ten eerste weten we dat de oordelen over Overdracht voor een zeer belangrijk deel verklaard kunnen worden (83% van de variantie) door de gedragsaspecten uit de definitie van die dimensie. Ten tweede weten we dat ook oordelen over Spreekgemak voor een belangrijk deel verklaard kunnen worden (55% van de variantie), maar dat eigenlijk alleen de duur van zelfcorrecties en pauzes hierin een rol van betekenis speelt 34 . Bij deze analyses is telkens uitgegaan van lineaire verbanden tussen de beoordeelde aspecten en de oordelen, en van gelijke gewichten voor alle aspecten. Ook al is het mogelijk dat andere aspecten - en misschien een andere weegverhouding van de aspecten - iets aan de predictie van de oordelen toevoegen (m.n. van het Spreekgemaksoordeel), toch 'brengen de gekozen aspecten ons al een heel eind. Het is dus gerechtvaardigd de correlatie tussen de in dit onderzoek gemeten aspecten voor Overdracht en die voor Spreekgemak op te vatten als schatting van de correlatie tussen de meest relevante aspecten van deze twee dimensies in de steekproef van beoordeelde leerlingen. Nu beschikken we helaas niet over metingen van de gedragsaspecten voor alle prestaties. De twee steekproeven van 60 prestaties (één voor Spreekgemak en één voor Overdracht) zijn tot nu toe dan ook gescheiden geanalyseerd. Voor een deel van deze prestaties (N=34) zijn echter wel alle relevante metingen gedaan (de overlap tussen de twee selecties). De correlatie tussen de predictoren voor Overdracht en Spreekgemak in deze selectie is berekend over de gestandaardiseerde sommen van alle predictoren 35 , uitgezonderd de gemiddelde articulatiesnelheid en spreeksnelheid. Van deze laatste maten is immers uit de analyse gebleken dat zij geen noemenswaardige bijdrage leveren aan de predictie van Spreekgemak.
34 Ik loop hiermee vooruit op de resultaten van de analyses in de volgende paragraaf, waaruit blijkt dat de tempomaten geen aantoonbaar curvilineair verband met de oordelen hebben. 35 De standaardisatie is uitgevoerd in de steekproeven (N=60) voor de multipele regressies (zie § 11.2).
162
Oordelen over Overdracht en Spreekgemak
De correlatie tussen de oordelen over Spreekgemak en Overdracht (taak 4) is berekend in het onderzoek dat in hoofdstuk 5 gerapporteerd is, bij een steekproef van 100 leerlingen. Dit vormt de beste schatting van de populatiewaarde van de correlatie tussen dc twee oordelen, waarover we beschikken. Het ligt dus voor de hand de bovengenoemde correlatie tussen de predictoren voor de twee oordelen (bij een N=34) te vergelijken met de correlatie tussen de twee oordelen in de grotere steekproef (N=100). De correlatie tussen de predictoren bedraagt .64 (p.m.c.) en die tussen de oordelen (latente variabelen in een LISREL-analyse) bedraagt .74. Bij toepassing van een 95% betrouwbaarheidsinterval is er geen significant verschil in hoogte tussen deze correlaties. We hebben met andere woorden geen indicatie gevonden dat de hoge correlatie tussen de jury-oordelen over Overdracht en Spreekgemak het gevolg is van een_ halo-effect". Ook het feit dat predictoren voor Overdracht een belangrijk deel van de variantie van het Spreekgemaksoordeel verklaren, kunnen we dus niet aan een halo-effect toeschrijven. Veeleer wijzen onze resultaten erop dat deze bevindingen toe te schrijven zijn aan de correlaties tussen de beoordeelde aspecten zelf. Het spreekt vanzelf dat op grond van bovenstaande exploratie ook geen signifisch effect is aangetoond. Voor een signifisch effect zou immers de correlatie tussen de oordelen lager moeten zijn dan die tussen de predictoren. Wel moet aangetekend worden dat de geringe omvang van dc steekproef waarin de correlatie tusen de predictoren voor beide oordelen is gevonden, de kans om één van de twee beoordelingseffecten te vinden (als zij al zijn opgetreden) vrij klein heeft gemaakt. Alleen wanneer deze effecten tamelijk sterk zijn, zouden we die hier en met een redelijke zekerheidsmarge - kunnen aantonen.
11,4.2 De verbanden tussen Spreekgemak en de tempomaten Reeds bij de formulering van de hypothesen (en hij de formulering van de beoordelingscategorieën voor Spreekgemak) bleek onzekerheid te bestaan over de precieze rol die spreektempo speelt bij de beoordeling van Spreekgemak. Snelle spraak is ongetwijfeld vlotter dan langzame. Maar kon de spraak niet ook te snel zijn? Daarom werd de mogelijkheid opengehouden voor een curvilineair verband tussen het Spreekgemaksoordeel en de tempomaten. Bovendien was in de formulering van de beoordelingscategorieën niet voorzien in het onderscheid tussen articulatie- en spreeksnelheid. Naar intentie ging het vooral om spreeksnelheid
36 Men kan tegen de gevolgde werkwijze het bezwaar inbrengen dat alleen van de predictoren voor Spreekgemak enkele uitgesloten zijn op grond van de resultaten van de regressie-analyse, terwijl ook niet alle predictoren voor Overdracht een duidelijke bijdrage aan de predictie van het oordeel geven. Ik heb daarom ook de correlatie tussen de gesommeerde predictoren berekend met uitsluiting van die predictoren voor Overdracht die een regressiegewicht lager dan .10 hebben (zie tabel 26). Deze correlatie bedraagt .63 en verandert niets aan de hier getrokken conclusie.
163
(inclusief pauzes), maar een mogelijke invloed van articulatiesnelheid kon niet uitgesloten worden. De resultaten van de modeltoetsing (Model 1; tabel 26) laten zien dat er in het geheel geen rechtlijnig verband is tussen articulatiesnelheid en Spreekgemak en dat spreeksnelheid wel positief met het oordeel correleert (.37), maar dat in de regressievergelijking geen noemenswaardig aandeel van spreeksnelheid meer overblijft. Dat laatste is onder de gegeven omstandigheden goed verklaarbaar, omdat in diezelfde regressievergelijking de duur van zelfcorrecties en pauzes is meegenomen, zodat er voor spreeksnelheid (afgezien van de component articulatic-snelheid die uiteraard meetelt in de scores op spreeksnelheid) niets meer te verklaren overblijft, tenzij in het geval van curvilineaire verbanden. Om de mogelijkheid van curvilineaire verbanden tussen de tempomaten en Spreekgemak te onderzoeken zijn kruistabellen en strooidiagrammen geanalyseerd. Articulatiesnelheid blijkt hierbij geen enkel verband te hebben met het Spreekgemaksoordeel (Chikwadraat=6.76, df=4, niet significant). Spreeksnelheid heeft, zoals we al wisten, wel een verband met het oordeel (Chikwadraat=10.31, df=4, p<.05) maar bij inspectie van de verdeling van de scores is van een curvilineair verband niets gebleken. Het verband wordt vooral veroorzaakt doordat vlot sprekende kinderen meestal een positief oordeel krijgen. Van een optimaal punt ergens halverwege de snelheidsschaal is in ieder geval geen sprake. Bij de steekproefomvang van 58 is een toets op lineariteit niet zinvol, vanwege een gebrek aan statistisch onderscheidingsvermogen. Een dergelijke toets is daarom niet uitgevoerd. In bijlage 11 zijn de kruistabellen opgenomen, waaruit bovenstaande Chikwadraten berekend zijn. We kunnen dus de volgende conclusies trekken. Verschillen in articulatiesnelheid hebben geen betekenis voor de globale beoordeling van vlotheid van spraak. Deze conclusie is goed te rijmen met de bevinding van Butcher (1981, p. 113) dat bij de waarneming van tempo in gehele teksten pauzeduur een veel belangrijker rol speelt dan articulatiesnelheid. Verschillen in spreeksnelheid zijn alleen relevant voor de globale beoordeling van vlotheid voorzover deze bepaald worden door verschillen in pauzeduur. Verder is gebleken dat in het Spreekgemaksoordeel een te hoge spreeksnelheid niet negatief wordt gewogen. Kennelijk was er in onze steekproef geen sprake van een onbeheerst tempo, in die zin dat het voor de luisteraar moeilijk wordt gemaakt te bepalen waar de grenzen tussen uitingen liggen. Gezien deze resultaten valt te overwegen om te snelle spraak (dat wil vooral zeggen: te weinig gebruik van pauzes) niet als een aspect van Spreekgemak, maar als een aspect van Overdracht op te vatten. Ik kom hierop in hoofdstuk 13 terug. -
11.4.3 De beoordeling van zelfcorrecties en pauzes In tabel 29 is een overzicht gegeven van de verschillende soorten pauzes en zelfcorrecties. Terwille van de overzichtelijkheid zijn enkele onderscheiden soorten die weinig voorkwamen in het corpus, samengevoegd.
164
Oordelen over Overdracht en Spreekgemak Tabel 29: Gemiddelden en standaarddeviaties voor aantal en duur van de diverse soorten gecodeerde zelfcorrecties en pauzes en de correlaties met de oordelen over Spreekgemak en Overdracht (N.58)
Pauzes & Zelfcorrecties
Gem.
a
Sd
Aantal
Gem.
b
Sd.
Duur
Spreekgemak Aant
Duur
Overdracht Aant.
Duur
1
Valse Starts
.12
.09
.19
.23
-.42
-.40
-.26
-.29
II
Haperingen & Her-
.09
.09
.05
.06
-.09
-.22
-.18
-.13
.08 .06 .16 .03
.05 .21 .08 .16 .14
-.20 -.49 -.16 -.24 -
-.18 -.54 -.17 -.28 .21
-.14
-.14
-.18 -.26 -.27 -
-.21
.22
-.27
-.53
-.42
-.34
halingen 1.
Ongevuld/niet-finaal
.10
2. 3.
Lang/finaal Gevuld/niet-finaal
.04
4.
5.
Uitroepen & Correcties Grensmarkerend/finaal
niet-gemeten
.03 .10 .09 .04 .37
6.
Neutrale startgroepen
.13
.20
.19 .02
.10
-.21 -.09 .28
a) aantallen per toongroep b) seconden per toongroep
Voor de precieze betekenis van de verschillende soorten pauzes en zelfcorrecties zij verwezen naar § 9.5. Met Romeinse cijfers zijn de soorten openlijke zelfcorrecties aangeduid. De Arabische cijfers staan voor de andere soorten zelfcorrecties (verborgen herstel) en pauzes. Grensmarkerende (finale) pauzes (nr. 5) worden als functioneel opgevat; neutrale startgroepen zijn alleen wat hun pauzeduur betreft meegenomen in de predictie van Spreekgemak. Het aantal (niet-tekststructurerende) neutrale startgroepen is opgevat als een negatieve indicatie voor Overdracht (registerverzwakking, zie § 9.4.2). De gegevens in tabel 29 maken duidelijk welke soorten pauzes kennelijk wel en welke nauwelijks door de jury zijn meegewogen in het oordeel over Spreekgemak. Zo kunnen we stellen dat aantal en duur van valse starts en uitzonderlijk lange finale pauzes en de pauzeduur in neutrale startgroepen sterk meetellen in het Spreekgemaksoordeel. Haperingen en herhalingen, ongevulde en gevulde (niet-finale) pauzes, uitroepen en correcties tellen allemaal minder mee". Opmerkelijk is dat dit meestal in even sterke mate opgaat voor hun frequentie als voor hun duur. Bovendien blijkt bij deze pauzesoorten hun correlatie met het Overdrachtsoordeel vaak minstens even hoog te zijn. De duur van grensmarkerende (finale) pauzes correleert als verwacht positief met beide oordelen; hun frequentie is niet geteld, aangezien voor deze functionele pauzes, die de overgang van de ene op de andere toongroep markeren, geen specifieke predictie is gedaan (zie § 9.5 en § 8.2.1). De frequentie van neutrale startgroepen (zonder tekststructurerende functie) correleert, eveneens zoals verwacht, sterker met Overdracht dan met Spreekgemak.
37 De correlaties van deze pauzesoorten met het Spreekgemaksoordeel zijn voor het grootste deel nietsignificant, bij een betrouwbaarheidsinterval van 95%. Alle correlaties lager dan .25 en hoger dan .25 in tabel 28 verschillen dan niet significant van nul.
165
Bij vergelijking van de pauzesoorten die wel en de pauzesoorten die geen duidelijk verband met Spreekgemak blijken te hebben, dringt zich het volgende patroon op. De grovere inbreuken op de continuïteit (valse starts en langdurige stiltes) blijken door de jury meegeteld te worden in hun oordeel over Spreekgemak. De subtielere inbreuken (haperingen binnen een toongroep en kortdurende gevulde en ongevulde pauzes, uitroepen en correcties) worden nauwelijks meegewogen. Ook al hebben we over alle gesommeerde predictoren geen indicatie voor beoordelingsproblemen gevonden (§ 11.4.1), toch is het mogelijk dat voor de afzonderlijke aspecten waarover gesommeerd is wel dergelijke problemen optreden. In de onderhavige analyse van de rol van diverse pauzesoorten in het Spreekgemaksoordeel is het denkbaar dat de ene beoordelaar deze pauzes anders weegt dan de andere. Dit zou een verklaring kunnen; vormen voor het feit dat in het jury-oordeel sommige pauzes weinig gewicht hebben en tevens voor het feit dat de predictie van het Spreekgemaksoordeel minder geslaagd is dan die voor Overdracht. Het zal duidelijk zijn dat het hier een sport signifisch effect betreft, waarbij beoordelaars systematisch afwijkende interpretaties hebben van de relevantie van bepaalde gedragsaspecten voor hun oordeel (zie § 7.3). Een andere verklaring is dat alle beoordelaars de 'subtiele' ,.pauzesoorten weinig relevant vinden voor Spreekgemak, of dat de beoordelaars niet stabiel zijn in hun waardering van deze pauzes en zelfcorrecties. In deze gevallen kan men verwachten dat de correlatie tussen de individuele oordelen en de 'subtiele' pauzesoorten allemaal vrij laag zijn. Om na te gaan welke van deze verklaringen het meest plausibel is, is onderstaande analyse van de individuele oordelen gedaan. In tabel 30 zijn de correlaties van de 'subtielere' pauzesoorten weergegeven met de individuele oordelen waaruit het jury-oordeel is samengesteld. De verschillen tussen de correlaties van de individuele oordelen met de pauzesoorten blijken in het algemeen vrij klein. Ze zijn in ieder geval te klein om - statistisch gezien betekenis te hebben. Het grootste verschil (dat tussen de beoordelaars 2 en 3 op Tabel 30: Correlaties tussen aantal en duur van de 'subtielere' soorten pauzes en zelfcorrecties met de individuele oordelen op Spreekgemak en Overdracht (N=58)
Spreekgemak Beo3 Beol Beo2 H. Herhalingen & Haperingen Aantal Duur 1. Ongevuld/niet-finaal Aantal duur 3. Gevuld/niet-finaal Aantal duur 4. Uitroepen & Correcties Aantal Duur
Beol
Overdracht Beo2 Beo3
-.13 -.17
-.12 -.25
-.02 -.19
-.19 -.17
-.08 -.10
-.21 -.09
-.08 -.07
-.26 -.27
-.20 -.15
-.06 -.11
-.17 -.13
-.13 -.13
-.13 -.17
-.16 -.19
-.15 -.13
-.28 -.25
-.15 -.15
-.26 -.17
-.25 -.30
-.09 -.26
-.30 -.24
-.15 .01
-.28 -.02
-.25 -.20
166
Oordelen over Overdracht en Spreekgemak
hun 'weging' van aantallen Uitroepen & Correcties in hun Spreekgemaksoordeel) bedraagt .21. We kunnen concluderen dat er geen indicaties zijn dat de geringe bijdrage van 'subtielere' pauzesoorten aan de verklaring van het Spreekgemaksoordeel het gevolg is van een signifisch effect op jury-niveau. Veeleer geven de correlaties uit tabel 30 grond voor het vermoeden dat alle drie de beoordelaars de subtiele pauzes en haperingen in de toongroep nauwelijks meewegen. De gegevens in tabel 30 moeten evenwel voorzichtig geïnterpreteerd worden. Alleen tamelijk grote verschillen tussen de beoordelaars (bij een geobserveerd verschil van minimaal .30) zouden we enigszins betrouwbaar kunnen aantonen. We kunnen concluderen dat er in ieder geval van een sterk signifisch effect bij de beoordeling van de subtielere pauzesoorten geen sprake is. Als we dit gegeven combineren met de resultaten van tabel 29, waarin de correlaties tussen alle pauzesoorten en het jury-oordeel over Spreekgemak zijn gepresenteerd, kunnen we de volgende conclusie formuleren. Het jury-oordeel over Spreekgemak - oorspronkelijk gedefinieerd met de begrippen vlotheid (weinig herformuleringen, vlot tempo, geen lange pauzes) en vloeiendheid (weinig haperingen, moeiteloos interpreteerbare zinnen, moeiteloze woordkeus) - is in zijn toepassing gereduceerd tot uitsluitend vlotheid. In hoofdstuk 13 zullen we op de betekenis hiervan terugkomen.
167
168
Hoofdstuk
12
Conclusies
Samenvatting Dit hoofdstuk bevat de conclusies over de predictieve validiteit van de beoordelingsdimensies op grond van het onderzoek dat in de voorgaande hoofdstukken (8 tot en met 11) is gerapporteerd. De predictie van de oordelen over Overdracht en Spreekgemak met diverse fonetische en linguïstische variabelen en de predictie van Referentie- en Verstaanbaarheidsoordelen met respectievelijk het aantal belangrijke inhoudselementen en het aantal slecht verstaanbare uitingen komen aan bod. Vervolgens wordt ingegaan op de resultaten van de exploraties naar het optreden van beoordelingsproblemen, zoals het halo- en het signifisch effect. Tenslotte worden in het kort de beperkingen aangegeven waarbinnen de conclusies geldig zijn. Deze beperkingen roepen enkele vragen op qua repliceerbaarheid en generaliseerbaarheid van het beoordelingsonderzoek in meer algemene zin (dus inclusief de in deel II gerapporteerde studies). Daarom worden deze thema's uitgebreider in hoofdstuk 13 behandeld.
12.1 Inleiding We beschikken over een schema, bestaande uit vier dimensies, voor de beoordeling van de communicatieve effectiviteit van spreekprestaties van leerlingen aan het eind van de'basisschool. Doel van het schema is het geven van een algemeen toepasbaar kader voor de eutuatie van spreekvaardigheid van deze leerlingen bij diverse geïntegreerde 'communicatieve) taken, met name in grootschalig (peilings)onderzoek. Eén van de belangrijkste eisen die aan het schema in dit verband zijn gesteld, is dat de beoordelingsdimensies zo concreet mogelijk onderscheiden aspecten van de spreekvaardigheid uitdrukken. Per taak die de leerlingen uitvoeren, kunnen deze aspecten verschillen en kunnen ook de criteria voor beoordeling verschillen, ook al behoren zij (op een meer abstract niveau) tot dezelfde dimensie. De nadruk op de onderscheiden betekenis van de beoordelingsdimensies komt voort uit verschillende overwegingen. In de eerste plaats is het voor de interpretatie van de resultaten van een peiling van spreekvaardigheid (zowel door beleidslieden als door leraren) van belang over zo specifiek mogelijke informatie
169
te beschikken. Wanneer men conclusies wil trekken over de relatie tussen het gevonden spreekvaardigheidsniveau en het gegeven onderwijs, dan is dit onontbeerlijk (zie hoofdstuk 1). In de tweede plaats is weinig bekend over de specifieke informatiewaarde van globale oordelen over communicatieve functies van spraak. Het is bijvoorbeeld niet duidelijk in hoeverre deze oordelen bepaald worden door onderscheiden gedragsaspecten, en in hoeverre aan verschillende oordelen ook verschillende aspecten ten grondslag liggen. Ook is onbekend in hoeverre de oordelen beïnvloed worden door beoordelingsproblemen als het signifisch en het halo-effect (zie hoofdstuk 7). Een derde reden om aan de validiteit van elke afzonderlijke dimensie bijzondere aandacht te geven is de efficiëntie van het beoordelingsinstrument. Zeker in grootschalig tieoordelingsonderzoek is het een belangrijke overweging hoe met zo min mogelijk inspanning zoveel mogelijk informatie kan worden verkregen. Afzonderlijke beoordeling van de vier dimensies is alleen verantwoord, wanneer men op die,• manier ook onderscheiden informatie over de spreekvaardigheid verkrijgt. Kennis van de betekenis van oordelen op de vier dimensies kan ook aangewend 'worden bij het ,selecteren en construeren van spreektaken; sommige taken kunnen zich voor beoordeling op de ene dimensie beter lenen dan andere en sommige dimensies kunnen wellicht beter bij de ene dan bij de andere taak beoordeeld worden. Tenslotte stelt een validering van de beoordelingsdimensies ons in staat nauwkeurige aanbevelingen te doen betreffende de instructie van beoordelaars in onderzoek naar spreekvaardigheid, alsmede voor het gebruik van het beoordelingsschema als diagnostisch instrument in het onderwijs (zie hoofdstukken 13 en 14). Het onderzoek naar de validiteit van de vier dimensies (Referentie, Overdracht, Spreekgemak en Verstaanbaarheid) is in een aantal opzichten beperkt. De oordelen over Overdracht, Spreekgemak en Verstaanbaarheid zijn alleen bij prestaties op één taak (het afmaken van een verhaal) gevalideerd. De oordelen over Referentie zijn gevalideerd bij prestaties op drie taken. Verder is alleen voor Overdracht en Spreekgemak gestreefd naar een zo dekkend mogelijke validatie, in termen van de aspecten die in de instructie voor de beoordelaars genoemd zijn. De grote hoeveelheid te analyseren variabelen maakte het nodig het aantal teksten tot zestig te beperken (zie verder hoofdstuk 8). Alle oordelen zijn gegeven door drie beoordelaars (zie hoofdstuk 5). -
12.2 De predictieve validiteit van de beoordelingsdimensies De algemene vraagstelling voor het predictie-onderzoek - geformuleerd in paragraaf 7.4 - luidde als volgt. Zijn de jury-oordelen over de vier dimensies van communicatieve effectiviteit (bij prestaties op een gegeven taak) goede indicatoren voor de aspecten van de spraak uit de definitie van deze dimensies? Het antwoord voor elk van de dimensies wordt in twee stappen gegeven. In de eerste stap wordt nagegaan in hoeverre het jury-oordeel geprediceerd wordt door de bedoelde
170
Conclusies
aspecten. De tweede stap bestaat eruit dat bepaald wordt of het jury-oordeel over elke dimensie beter geprediceerd wordt door de bedoelde dan door de nietbedoelde aspecten. Het valideringsonderzoek richtte zich in hoofdzaak op de moeilijk te definiëren dimensies Overdracht en Spreekgemak. Hierbij zijn de prestaties uit twee overlappende steekproeven van elk zestig leerlingen die een verhaal afmaakten ten overstaan van een klasgenoot (taak 4) geanalyseerd. Voor de - meettechnisch en conceptueel - duidelijker te onderscheiden dimensies Referentie en Verstaanbaarheid is een minder omvangrijke validering uitgevoerd. Voor de jury-oordelen over Referentie over 200 prestaties op drie spreektaken (het navertellen van een verhaal, het melden van een ongeval en het uitleggen van een proces; de taken 1, 2 en 3) is het verband onderzocht met het aantal belangrijke inhoudselementen die de leerlingen noemen. Voor de Verstaanbaarheidsoordelen is de correlatie bepaald met het aantal gecodeerde moeilijk verstaanbare uitingen van zestig sprekers in taak 4. De predictieve validiteit van de. oordelen over Overdracht en Spreekgemak is bepaald door middel van multipele regressieanalyse met respectievelijk acht en vier predictoren. De predictoren voor Overdracht waren: (1) intonatievariatie gebaseerd op auditieve analyse van toonhoogtebewegingen, (2) de gemiddelde standaarddeviatie van de fundamentele frequentie binnen toongroepen, (3) de standaarddeviatie van gemiddelde fundamentele frequentie over toongroepen, (4) het aantal gecodeerde (primaire) accenten, (5) de gemiddelde intensiteit van het spraaksignaal, (6) de standaarddeviatie van de gemiddelde intensiteit over toongroepen, (7) het aantal registerverzwakkers en (8) het aantal registerversterkers. De predictoren voor het Spreekgemaksoordeel waren: (1) aantal openlijke en verborgen zelfcorrecties en niet-functionele pauzes, (2) duur van bovengenoemde zelfcorrecties en pauzes, (3) de gemiddelde spreeksnelheid (inclusief pauzes) en (4) de gemiddelde articulatiesnelheid (exclusief pauzes). Voorzover van toepassing, is gecorrigeerd voor verschillen in tekstlengte. Sommige predictoren zijn over de prestaties in hun geheel gemeten (7 en 8 bij Overdracht, 1 bij Spreekgemak); de andere zijn bij langdurige prestaties over een gedeelte van de tekst gemeten. In de eerste analyse voor Overdracht en Spreekgemak (de convergente validering) is dus nagegaan in hoeverre de oordelen geprediceerd worden door de bedoelde aspecten. De resultaten van de eerste analyse laten zien dat het percentage variantje van de oordelen dat verklaard wordt door de bedoelde predictoren groot is. Voor de Overdrachtsoordelen is dit percentage (82.6%) aanzienlijk groter dan voor de Spreekgemaksoordelen (54.8%). Alle predictoren voor Overdracht hebben de verwachte correlatie met het oordeel, maar alleen intonatievariatie, aantallen registerversterkers, de standaarddeviatie van de gemiddelde fundamentele frequentie over toongroepen en de aantallen registerverzwakkers (in die volgorde) dragen significant bij aan de verklaring van het jury-oordeel (uitgaande van een 80% betrouwbaarheidsinterval). Voor de predictoren voor Spreekgemak geldt dat alleen het aantal en de duur van zelfcorrecties en pauzes en de gemiddelde
171
spreeksnelheid de verwachte correlatie met het jury-oordeel hebben. De gemiddelde articulatiesnelheid correleert bijna nul met het Spreekgemaksoordeel. Van een curvilineaire relatie tussen enerzijds spreeksnelheid en articulatiesnelheid en anderzijds Spreekgemak blijkt geen sprake te zijn. Van de vier genoemde predictoren voor Spreekgemak levert alleen de duur van (openlijke en verborgen) zelfcorrecties en niet-functionele pauzes een significante bijdrage aan de verklaring van het jury-oordeel. Bij de tweede analyse voor Overdracht en Spreekgemak (de divergente validering) zijn de bovengenoemde predictoren voor elk oordeel gestandaardiseerd en vervolgens gesommeerd. De som van predictoren voor Overdracht en die voor Spreekgemak blijkt de bedoelde oordelen beter te prediceren dan de niet-bedoelde. De predictoren voor Overdracht verklaren het bedoelde oordeel ook significant beter dan dat zij één van de andere oordelen verklaren, bij een 80% betrouwbaarheidsinterval. De predictoren voor Spreekgemak prediceren het Spreekgemaksoordeel echter niet significant beter dan het Overdrachtsoordeel, bij een 80% betrouwbaarheidsinterval. Bovendien blijkt de som van predictoren voor Overdracht ook een groot percentage van de variantie van het Spreekgemaksoordeel te verklaren (55.3%). • Bij de predictie van Referentie- en Verstaanbaarheidsoordelen is volstaan met een correlationele analyse. De resultaten van deze analyse komen op het volgende neer. De Referentie-oordelen worden voor 53-79% van de variantie (afhankelijk van de spreektaak) verklaard door uitsluitend het aantal genoemde belangrijke inhoudselementen. Het aantal genoemde inhoudselementen bij de taken 1, 2 en 3 correleert zonder uitzondering hoger met de Referentie-oordelen dan met één van de andere jury-oordelen. Ook de geschatte populatie-waarden van de correlaties tussen inhoudselementen en Referentie-oordelen (bij een 95% betrouwbaarheids-interval) liggen telkens hoger dan de geschatte waarden voor de correlaties tussen de inhoudselementen en de andere jury-oordelen. Het juryoordeel over Verstaanbaarheid wordt voor 37% van de variantie verklaard door alleen het aantal gecodeerde moeilijk verstaanbare uitingen. Oordelen over de andere dimensies zijn lager gecorreleerd met deze uitingen, maar bij toepassing van een 95% betrouwbaarheidsiuterval is het verschil tussen de predictie van Verstaanbaarheids- en Spreekgemaksoordelen niet significant. We kunnen de conclusie trekken dat de predictieve validering voor drie van de vier dimensies - te weten Referentie, Overdracht en Verstaanbaarheid - zeer bevredigend is verlopen. De fonetische en linguïstische predictoren die in de definitie van elk van deze dimensies zijn opgenomen blijken hun criteria beter te verklaren dan andere criteria. Voor Referentie en Overdracht kan bovendien vastgesteld worden dat grote percentages variantie van de jury-oordelen verklaard kunnen worden door een relatief klein aantal predictoren. De Referentie-oordelen bij drie verschillende spreektaken zijn sterk gerelateerd aan het aantal genoemde belangrijke inhoudselementen; Overdrachtsoordelen bij één (narratieve) spreektaak hebben een sterk verband met aspecten die aan expressiviteit, bociendheid, betrokkenheid en gepastheid van de spreektrant gekoppeld zijn (intonatievariatie en adequaatheid van register). Het Verstaanbaarheidsoordeel (bij één taak) is meer dan de andere oordelen - gerelateerd aan het aantal moeilijk verstaanbare
172
Conclusies
uitingen. (Voor een andere indicatie voor de validiteit van het Verstaanbaarheidsoordeel zij verwezen naar § 13.3.) Het doel van het beoordelingsschema - het geven van gedifferentieerde informatie over de spreekvaardigheid van leerlingen aan het eind van de basisschool (zie hoofdstuk 1) - is dus (althans voor de genoemde dimensies en spreektaken) realiseerbaar. Ook al is in het beoordelingsonderzoek (met name hoofdstuk 5) gebleken dat oordelen over verschillende dimensies tamelijk hoog correleren, is dit kennelijk geen reden hun onderscheiden informatiewaarde in twijfel te trekken. Deze informatiewaarde maakt het in principe mogelijk het beoordelingsschema niet alleen voor grootschalig onderzoek maar ook voor globale diagnostische doelen in het onderwijs te gebruiken. Hiermee wordt niet bedoeld dat het schema direct verwijst naar remedies voor geconstateerde moeilijkheden, maar wel dat een nadere explicitering mogelijk wordt van de aard van de geconstateerde moeilijkheden. Referentie-oordelen drukken immers in het bijzonder uit hoe de kwaliteit van de informatie-overdracht is in representationele zin (zie hoofdstuk 3). Overdrachtsoordelen, zo is aangetoond bij een narratieve taak, drukken in het bijzonder uit in hoeverre de spreker erin slaagt functies van expressie en appèl op adequate wijze te vervullen, met gebruikmaking van specifieke fonetische en linguïstische middelen (zie hoofdstuk 3). Tevens is aannemelijk gemaakt dat Verstaanbaarheidsoordelen in het bijzonder uitdrukken in hoeverre de uitingen van de spreker moeiteloos decodeerbaar zijn. In de hoofdstukken 13 en 14 wordt nader ingegaan op de theoretische en praktische implicaties van deze conclusies en op de vraag welke aanvullende evidentie nodig of gewenst is. De predictieve validering van de oordelen over Spreekgemak geeft aanleiding tot minder positieve conclusies. In de eerste plaats blijken lang niet alle aspecten, die in de definitie van Spreekgemaksfuncties zijn opgenomen (vloeiendheid, beheerstheid en vlotheid, zie hoofdstuk 8) ook in het jury-oordeel meegewogen te zijn. Alleen vrij grove en langdurige inbreuken op de continuïteit van spraak (valse starts, langdurige pauzes aan het eind van toongroepen of in neutrale startgroepen) worden de sprekers aangerekend. Subtielere onderbrekingen (herhalingen, haperingen, ongevulde en gevulde pauzes binnen een toongroep, uitroepen en correcties) zijn zowel in het jury-oordeel over Spreekgemak als in de individuele oordelen niet of nauwelijks vertegenwoordigd. In de tweede plaats blijkt een groot percentage van de variantie van het Spreekgemaksoordeel verklaard te kunnen worden door predictoren voor Overdracht. Ten derde blijkt 'beheerstheid' van tempo in het jury-oordeel niet als zodanig tot uitdrukking te komen. Alleen een te lage spreeksnelheid - dat wil zeggen: met lange pauzes - blijkt negatief meegewogen te worden in het oordeel. Een te hoge snelheid (zo daar al sprake van is in de steekproef van 60 sprekers) komt in het oordeel over Spreekgemak niet tot uitdrukking, noch qua articulatiesnelheid, noch qua pauzegebruik. De mogelijke verklaringen voor deze bevindingen en de implicaties voor het beoordelingsschema worden besproken in paragraaf 13.2.
173
12.3 De evidentie voor beoordelingsproblemen In het onderzoek is op exploratievc wijze gezocht naar aanwijzingen voor enkele specifieke beoordelingsproblemen, te weten het halo-effect en het signifisch effect. Het halo-effect treedt op wanneer beoordelaars bepaalde aspecten van het gedrag meewegen bij meer dan één oordeel, terwijl dit niet de bedoeling is. Het gevolg hiervan is dat de correlatie tussen de betreffende oordelen hoger is dan bij afwezigheid van het effect. Tevens wordt de betekenis van de oordelen vertroebeld door een ongewenste conceptuele overlap. Het signifisch effect treedt op wanneer niet duidelijk is hoe bepaalde aspecten gewogen moeten worden bij de totstandkoming van een oordeel, oftewel wat het oordeel precies moet uitdrukken over het gedrag van de beoordeelden. Zowel op het niveau van de individuele beoordelaar (waardoor beoordeelden op ongelijke criteria worden vergeleken door dezelfde beoordelaar), als op jury-niveau (waardoor de ene beoordelaar andere criteria hanteert dan de andere) kan zo een signifisch effect optreden (zie § 7.3). Op twee manieren is getracht de mogelijke invloed van halo- en signifische effecten op het spoor te komen. De eerste manier bestond uit een vergelijking van de correlatie tussen de gesommeerde'(en gestandaardiseerde) predictoren voor Overdracht en die voor Spreekgemak met de correlatie tussen de jury-oordelen over die dimensies voor de prestaties op raak 4. De correlatie tussen de gesommeerde predictoren werd hierbij opgevat als een schatting van de correlatie tussen alle relevante aspecten voor de twee dimensies. Indien de correlatie tussen deze aspecten lager is dan die tussen de oordelen, dan is dit een indicatie voor een halo-effect. Indien zij hoger is dan die tussen de oordelen, is dat een indicatie voor een signifisch effect, zo luidde de redenering. Het verschil tussen de twee correlaties gaf voor geen van beide effecten een duidelijke indicatie. Uitgaande van een 95% betrouwbaarheidsinterval (maar ook bij een minder 'strenge' toetsing bij 80%) is er geen significant verschil tussen dc gevonden correlatie van de twee jury-oordelen (.74, N=100) en die van de twee som-predictoren (.64, N=34). Bij deze analyse zijn de predictoren die geen bijdrage lever-den aan de predictie van Spreekgemak (spreeksnelheid en articulatiesnelheid) uitgesloten. De tweede manier bestond uit een analyse van de wijze waarop de diverse soorten zelfcorrecties en pauzes door de jury en de individuele beoordelaars waren meegewogen in hun oordeel over Spreekgemak en Overdracht. Uit de correlaties van de jury-oordelen met de pauzesoorten kan worden afgeleid dat alleen vrij grove onderbrekingen in de continuïteit meegewogen werden in het Spreekgemaksoordeel, terwijl subtielere soorten zelfcorrecties en pauzes (haperingen en herhalingen, niet-langdurige gevulde en ongevulde pauzes, correcties en uitroepen) nauwelijks meegewogen werden. Bij analyse van de correlaties met de individuele oordelen bleek dat de subtielere pauzesoorten ook door de individuele beoordelaars nauwelijks meegewogen zijn, zowel bij hun oordeel over Spreekgemak, als bij Overdracht. De verschillen tussen de correlaties van de individuele beoordelingen met de aantallen en de duur van de diverse soorten 'subtiele' pauzes en zelfcorrecties waren ook niet significant bij een betrouwbaarheidsinterval van 80%. Hieruit kan de conclusie getrokken worden dat de geringe betekenis van
174
Conclusies
subtiele pauzesoorten voor het jury-oordeel over Spreekgemak niet het gevolg is van systematisch verschillende interpretaties tussen beoordelaars (een signifisch effect op jury-niveau). De exploraties naar het optreden van beoordelingsproblemen geven dus geen reden ons zorgen te maken over hun negatieve invloed op de oordeelsvaliditeit. Niettemin moet worden vastgesteld dat we in dit onderzoek alleen tamelijk sterke effecten hadden kunnen aantonen, gezien de geringe steekproefgrootte waarop de correlaties (met name die tussen de gesommeerde pretlictoren voor Overdracht en Spreekgemak) gebaseerd zijn. Met deze beperking in het achterhoofd kunnen we wel concluderen dat: (1) de hoge correlatie tussen de jury-oordelen over Overdracht en Spreekgemak waarschijnlijk meer een gevolg is van de correlatie tussen de beoordeelde aspecten dan van een halo-effect; (2) het feit dat predictoren voor Overdracht een aanzienlijk percentage van de variantie van het jury-oordeel over Spreekgemak verklaren, eveneens een gevolg kan zijn van die correlatie tussen de ,beoordeelde aspecten voor de twee dimensies en (3) het feit dat bepaalde soorten pauzes en zelfcorrecties - tegen de verwachtingen in - geen rol van betekenis "'hebben gespeeld in het jury-oordeel over Spreekgemak, niet aantoonbaar het gevolg is van een signifisch effect op jury-niveau, maar veeleer van een zekere overeenstemming tussen de beoordelaars. Overigens moet bij deze conclusies nog opgemerkt worden dat we in dit onderzoek over het signifisch effect op individueel niveau geen uitspraken kunnen doen. In paragraaf 7.3 is uiteengezet dat zo een effect in principe niet verschilt van andere mogelijke bronnen van onbetrouwbaarheid van de individuele beoordelaar. Alleen in een experimentele opzet is het mogelijk te onderzoeken wat de invloed is van min of meer vage beoordelingscategorieën op de betrouwbaarheid van individuele oordelen.
12.4 Thema's voor discussie De hierboven gegeven conclusies in de paragrafen 12.2 en 12.3 hebben een beperkte geldigheid. We moeten bedenken dat de validiteit van de oordelen onder specifieke omstandigheden is vastgesteld. Het betreft de taaksoorten die de beoordeelde leerlingen uitvoerden, de beoordelaars die de jury vormden, de instructie die zij kregen (waaronder begrepen: de definitie van de beoordelingscategorieën), de steekproef van de leerlingen (uit de populatie van leerlingen van de laatste groep van het basisonderwijs) en de populatie waarnaar gegeneraliseerd wordt. Elk van deze omstandigheden verdient een nadere beschouwing om een indruk te krijgen in hoeverre zij de generaliseerbaarheid van de conclusies beperken en welke soorten vervolgonderzoek wenselijk zijn om hierover duidelijkheid te krijgen. Een bespreking van deze omstandigheden overstijgt het kader van deel III en het onderzoek naar de oordeelsvaliditeit. We zullen ons blikveld moeten verbreden en terugkeren op de meer algemene problematiek van de beoordeling van spreekvaardigheid, zowel vanuit de optiek van grootschalig peilingsonderzoek,
175
als vanuit die van een wetenschappelijke benadering van communicatieve aspecten van spreekvaardigheid en vanuit de onderwijspraktijk. In de hoofdstukken 13 en 14 worden deze gezichtspunten naar voren gebracht.
176
Deel IV
De evaluatie van spreekvaardigheid implicaties voor theorie en praktijk
177
178
Hoofdstuk
4")
Beperkingen v de studies en thema's voor vervolgonderzoek
Samenvatting In dit hoofdstuk bespreken we de condities waaronder de gerapporteerde studies zijn uitgevoerd en die verder onderzoek rechtvaardigen. Onderwerpen voor zogenaamde replicatiestudies (waarbij de condities minimaal veranderd worden) passeren de erevue, alsmede onderwerpen voor generalisatiestudies (waarbij meer fundamenteel wordt afgeweken van het oorspronkelijke onderzoeksontwerp). Enkele belangrijke thema's voor vervolgonderzoek worden verder uitgediept. Achtereenvolgens komen aan bod: de definitie van de beoordelingsdimensie Spreekgemak, de relatie tussen akoestische en perceptieve variabelen en de relaties tussen verschillende beoordelingscategorieën voor communicatieve functies van spraak. In hoeverre geven de oordelen onderscheiden informatie over afzonderlijke gedragsaspecten en in hoeverre zijn de oordelen gebaseerd op zogenaamde Gestalten? Dat zijn de vragen die bediscussieerd worden. Tenslotte wordt speciale aandacht besteed aan de problematiek rond de taakselectie. Zowel in de context van peilingsonderzoek als vanuit een wetenschappelijke optiek is het van belang meer inzicht te krijgen in de zogenaamde taakvaliditeit. Prestaties van dezelfde leerlingen op verschillende geïntegreerde spreektaken blijken vaak van zeer verschillende kwaliteit te zijn, afhankelijk van de specifieke kwaliteitskenmerken die beoordeeld worden. Inzicht in de taakparameters die dergelijke verschillen veroorzaken is voor de evaluatie van spreekvaardigheid dus van even groot belang als inzicht in de validiteit van de oordelen.
13.1 Beperkingen van de studies Er zijn in principe twee typen vragen die men kan stellen met betrekking tot de resultaten en de conclusies van het beoordelingsonderzoek (deel twee) en het onderzoek naar de oordeelsvaliditeit (deel drie). Het eerste type betreft de repliceerbaarheid van de bevindingen. Het gaat erom of de resultaten onder grotendeels gelijke omstandigheden herhaalbaar zijn. 'Gelijke omstandigheden' betekent hier: dezelfde populaties, taken en beoordelingscriteria, maar andere (edoch vergelijkbare) beoordelaars, een andere steekproef en een andere (maar vergelijkbare) beoordelingsprocedure en -training. Vanzelfsprekend gaan we ervan uit 179
dat bij replicatie ook andere onderzoekers, codeurs en proefleiders betrokken kunnen zijn. Het tweede type betreft de generaliseerbaarheid van de bevindingen. Vragen naar de generaliseerbaarheid wijken meer af van de uitgangscondities dan de bovenstaande vragen naar de repliceerhaarheid. Hier zijn dus ook de populatie, de taken en de beoordelingscriteria in principe variabel. Ik zal hieronder een overzicht geven van de verschillende relevante vragen naar aanleiding van dc gerapporteerde studies, ingedeeld naar de genoemde twee typen.
13.1.1 Repliceerbaarheid De meest relevante vragen betreffende de replieeerbaarbeid van de bevindingen geven we hieronder weer. Voor de hand liggende replicaties zijn die waarbij een andere (liefst grotere) steekproef van leerlingen wordt beoordeeld. Een dergelijke replicatie is met name van belang voor de validatie van oordelen over prestaties op taak 4 (het afmaken van een verhaal), omdat voor deze taak geen landelijk representatieve steekproef is getrokken (zie hoofdstuk 2)• en omdat de steekproeven voor de validatie van de oordelen statistisch gespróken tamelijk klein (N=60) waren (zie hoofdstuk 8). Of de predictie van oordelen over de vier dimensies met behulp van de geselecteerde aspecten bij een landelijk representatieve steekproef even succesvol is als in het onderhavige onderzoek, valt te bezien. Het is-bijvoorbeeld mogelijk dat de variantie van sommige aspecten landelijk groter is, hetgeen invloed kan hebben op het onderscheid tussen de oordelen en op de vorm van de relatie tussen de aspecten en de oordelen. Ook is het denkbaar dat er regionale invloeden bestaan die de beoordeling van aspecten zoals het gebruik van een adequaat register, gevarieerdheid van intonatie en 'decodeerbaarheid' van de spraak ernstig bemoeilijken. Zowel vanuit wetenschappelijk perspectief als vanuit de context van pcilingsonderzoek is een replicatie van het onderzoek naar de oordeelsvaliditeit met een meer representatieve steekproef van belang. Een tweede soort relevante replicaties is die waarbij andere (maar vergelijkbare) beoordelaars worden ingezet. Beoordelaars in dit onderzoek - althans voor het grootste deel - waren drie vrouwen, allen woonachtig in Noord-Holland en met ervaring als leerkracht in het basisonderwijs. Zij kregen bovendien een zekere ervaring in het gebruik van het beoordelingsschema in de loop van het onderzoek. Replicaties met andere beoordelaars, bijvoorbeeld afkomstig uit andere delen van Nederland, met een andere beroepsachtergrond en/of van het andere geslacht kunnen inzicht geven in de vraag in hoeverre de gegeven oordelen op de vier dimensies door deze verschillen beïnvloed worden. Tevens kan nagegaan worden wat ervaring in het gebruik van het schema voor rol speelt. Wanneer uit dergelijke replicaties bijvoorbeeld zou blijken dat beoordelaars met verschillende achtergronden (ook qua dialect of etniciteit) na een trainingsfase in essentie weinig verschillen in de beoordeling van dc vier dimensies dan zou dit praktisch gezien van groot belang zijn. In het (wellicht wat waarschijnlijker) geval dat verschillen optreden tussen beoordelaars met andere achtergronden, is het uiteraard zaak meer -
180
Beperkingen van de studies
nauwkeurig te kunnen vaststellen waar die verschillen uit bestaan en waar ze uit voortkomen. Ook replicaties die zich meer richten op de beoordelingsmethodiek zijn zinvol. In het beoordelingsonderzoek (hoofdstukken 4 en 5) is geëxperimenteerd met verschillende beoordelingscategorieën (één of meer per dimensie) en met verschillende procedures (simultane beoordeling van verschillende categorieën per beluistering en afzonderlijke beoordeling van één categorie per beluistering). Hiermee zijn de mogelijkheden beslist niet uitgeput. In de eerste plaats zijn meer variaties aan te brengen in de formulering van de beoordelingscategorieën; de schalen kunnen anders vormgegeven worden en de definities kunnen wellicht verscherpt worden, mede naar aanleiding van de resultaten van het predictieonderzoek (zie bijvoorbeeld § 13.2.1). Een belangrijke kwestie in dit verband is of bevestiging kan worden verkregen voor de vondst dat beoordelingscategorieën voor dezelfde dimensie meettechnisch gesproken nauwelijks onderscheiden worden door de beoordelaars (zie § 13.2.3). Een replicatie van de experimenten uit hoofdstuk 4 bij een grotere steekproef zou dienaangaande meer zekerheid kunnen geven. In de tweede plaats is te -overwegen de instructie en training van de beoordelaars te optimaliseren. In ons beoordelingsonderzoek kregen de beoordelaars eerst vier voorbeeldprestaties te beoordelen, geselecteerd als representaten van goede, middelmatige en slechte prestaties op een taak. Het nabespreken, vergelijken - en eventueel corrigeren - van de gegeven oordelen vormde de belangrijkste voorbereiding op de beoordelingstaak. Een uitgebreider kennismaking met de te beoordelen prestaties, voordat men aan de definitieve beoordeling begint, zou misschien de betrouwbaarheid en de validiteit van de oordelen ten goede komen. Ook zou geëxperimenteerd kunnen worden met meer expliciete ijkpunten voor de beoordelingsschalen door voorbeeldprestaties (eventueel getranscribeerd) ter beschikking te stellen, die de beoordelaars ook tijdens het beoordelen kunnen raadplegen (vgl. Skull & Wilkinson, 1969; Wesdorp, 1981). Tenslotte kan verder onderzocht worden wat de relatie is tussen de tekstlengte (of duur) van de te beoordelen prestaties en het aantal te beoordelen categorieën. Het is immers plausibel dat er een bepaalde limiet is aan het aantal categorieën dat een beoordelaar simultaan kan beoordelen zonder verlies aan validiteit (zie hoofdstuk 4). De laatste soort replicaties die ik hier aan de orde wil stellen heeft betrekking op de selectie en operationalisatie van de predictoren voor de oordeelsdimensies. De selectie van predictoren voor de vier dimensies is in ons onderzoek om diverse praktische redenen beperkt (zie hoofdstukken 8 en 10). Zo zijn voor Referentie geen predictoren opgenomen bij prestaties op taak 4 (het afmaken van een verhaal), omdat de inhoud van de teksten bij deze taak vrij gelaten is. De precieze operationalisatie van predictoren voor Referentie in dergelijke vrije spreektaken is een probleem apart, dat zeker bijzondere aandacht verdient (zie § 10.2). Ook het feit dat de Referentie-oordelen bij de drie andere taken - waarvoor de inhoud vastgelegd was - voor een groot deel van de variantie verklaard kunnen worden door een telling van het aantal genoemde belangrijke inhoudselementen,
181
maakt een vergelijking met andere predictoren interessant. Drukken Referentieoordelen voor het grootste deel uit hoeveel inhoudselementen een spreker noemt, of is het aantal genoemde elementen op zich ondergeschikt aan - maar sterk gecorreleerd met - coherentiematen, die de tekstsamenhang en de relevantie van de genoemde elementen tot uitdrukking brengen? Ook voor de predictie van Verstaanbaarheid is aanvulling op de in dit onderzoek uitgevoerde analyses gewenst. De proportie moeilijk verstaanbare uitingen was hier de enige predictor, maar er zijn indicaties gevonden dat ook enkele andere soorten 'ernstige' taalfouten gerelateerd zijn aan het jury-oordeel over Verstaanbaarheid (met name referentiële en lexicale fouten, zie § 10.3.1). Bovendien verklaart de proportie moeilijk verstaanbare uitingen niet meer dan 37 procent van het jury-oordeel. Het is dus de moeite waard te onderzoeken welke andere aspecten van de spraak in Verstaanbaarheidsoordelen uitgedrukt worden. Voor de predictie van Overdracht en Spreekgemak is in dit onderzoek een vrij groot aantal onderscheiden aspecten geanalyseerd (zie hoofdstuk 8). Sommige aspecten, zoals de non-verbale middelen en liet gebruik van tempovariaties, die deel uitmaken van de definitie van Overdracht, zijn echter niet of onvoldoende geanalyseerd. Non-verbale middelen kunnen -uiteraard vanaf geluidsopnames niet worden beoordeeld of geanalyseerd en voor lempovariaties is het niet gelukt een adequate operationalisatie te ontwikkelen. Voor de predictoren voor Spreekgemak geldt dat enkele niet of nauwelijks gerelateerd zijn aan het jury-oordeel. Dit is het geval bij de gemiddelde articulatiesnelheid (waarvan op voorhand ook niet duidelijk was of dit een rol in het oordeel zou moeten spelen), maar ook bij zogenaamde subtiele pauzesoorten (zie § 11.4.3). Ook kan men denken aan variabelen die niet specifiek voor één beoordelingsdimensie, maar meer algemeen relevant zijn. Te denken valt bijvoorbeeld aan de gevarieerdheid van de woordkeus bij prestaties op een spreektaak. Men kan verwachten dat deze variabelen zowel voor Referentie als voor Overdracht en Spreekgemak van belang is. Zowel voor de predictie van Overdracht als voor die van Spreekgemak is een replicatie van de bevindingen (alsmede een aanvulling met nieuwe predictoren) bij een andere steekproef gewenst. De voorspelde verbanden tussen de predictoren en de jury-oordelen in dit onderzoek zijn immers gebaseerd op de aanname dat in 'normale' spraak extreme waarden (zoals overdreven intonatie en accentuering, of overdadig gebruik van registerversterkers en intensiteitsvariatie) niet of nauwelijks voorkomen .(zie § 8.3.2). Onderzoek naar de genoemde gedragsaspecten en hun relaties met globale (communicatieve) oordelen in andere steekproeven kan op deze kwestie meer licht werpen. Voor de beoordeling van 'subtiele' pauzesoorten zou in het bijzonder onderzocht kunnen worden of zich situaties voordoen waarin deze wèl als storend voor de communicatieve effectiviteit ervaren worden. Is er misschien een soort minimum-vloeiendheid, waarboven alle subtiele haperingen, herhalingen, gevulde en ongevulde pauzes zonder meer geaccepteerd worden? Of zijn andere factoren in het spel, zoals de taaksoort - en daarmee samenhangend de conventies van de communicatieve situatie (zie § 13.2.1 en § 13.3)? Opname van nieuwe predictoren in de regressievergelijking (bijvoorbeeld non-verbale middelen en functionele tempovariaties) zal tenslotte onze kennis over de beteke-
182
Beperkingen van de studies
nis van de jury-oordelen vergroten en daarmee ongetwijfeld iets toevoegen aan de waarde van het beoordelingsschema.
13.1.2 Generaliseerbaarheid Zoals gezegd zijn vragen naar de generaliseerbaarheid van de onderzoeksresultaten gericht op een meer fundamentele verandering van de condities uit het onderzoeksontwerp. Drie van deze condities zijn het meest relevant in dit verband: de populatie, de taken en de beoordelingscriteria. Ik zal deze condities en de mogelijkheid om te generaliseren hier achtereenvolgens behandelen. De populatie in dit onderzoek is gedefinieerd als de leerlingen in de laatste groep van de basisschool. Het zal duidelijk zijn dat dit een tamelijk heterogene populatie is, Waar kinderen met sterk uiteenlopende vermogens en achtergronden in thuishoren:50ok bevindt zich in deze populatie een niet te verwaarlozen aantal sprekers van Nederlands als tweede taal. Generalisatie van de resultaten van dit onderzoek naar andere populaties is zonder ondersteunend onderzoek niet mogelijk. Naarmate de populaties echter meer lijken qua samenstelling, heterogeniteit en leeftijd op de onderzochte, is generalisatie minder problematisch. Zo is het plausibel dat het beoordelingsschema voor grootschalig onderzoek bij leerlingen uit groep 7 van de basisschool even bruikbaar is als voor die uit groep 8. Bij een homogenere groep leerlingen, zoals in de schooltypen van het Voortgezet Onderwijs, mag men verwachten - mits deze homogeniteit ook de spreekvaardigheid betreft - dat het meettechnische onderscheid tussen de vier beoordelingsdimensies beter wordt. Of de relatie tussen de jury-oordelen en de beoordeelde gedragsaspecten vergelijkbaar is met die in onze populatie valt echter op voorhand niet te zeggen. Het spreekt overigens vanzelf dat in nog homogenere populaties, zoals beginnende tweede taalsprekers of professionele acteurs, het beoordelingsschema van weinig nut zal zijn. Daarvoor zijn de beoordelingscriteria van het schema te weinig specifiek gericht op de variantie die in deze groepen relevant is. Toepassingen van het schema voor evaluatie van de spreekvaardigheid in tamelijk heterogene populaties van verschillende leeftijden en vaardigheidsniveaus zijn zeker niet uitgesloten. Onderzoek naar de validiteit van de oordelen in die verschillende populaties lijkt dan ook de moeite waard. Een ander soort generalisatieprobleem betreft de taken die de sprekers uitvoeren. De mogelijkheid om het beoordelingsschema te gebruiken bij de beoordeling van prestaties op een zo groot mogelijke verscheidenheid van (geïntegreerde) spreektaken was een belangrijk uitgangspunt in dit onderzoek (zie § 1.2). Om die reden zijn prestaties op vier taken beoordeeld die op diverse relevante parameters van elkaar verschillen (zie § 2.2.2). Voor de predictieve validering van Overdracht, Spreekgemak en Verstaanbaarheid zijn echter alléén de prestaties op één taak (het afmaken van een verhaal) gebruikt. Voor de validering van Referentie zijn juist de prestaties op de drie andere taken gebruikt. Het beoordelingsonderzoek (hoofdstukken 4 en 5) heeft duidelijk gemaakt dat het beoordelingsschema
183
voor de vier verschillende taken goed functioneert. De beoordelaarsovereenstemming en stabiliteit is bevredigend en de vier dimensies blijken - alhoewel soms sterk gecorreleerd - meettechnisch onderscheiden. Toch zijn er enkele redenen om voorzichtig te zijn met generalisatie naar anderssoortige spreektaken. Ten eerste laat een bescheiden taxonomie van taken (zie § 2.2.2) zien dat onze vier taken daaruit bij lange na geen representatieve steekproef vormen. Het aantal parameters waarop (geïntegreerde) taken kunnen worden gevarieerd is daarvoor veel te groot. Ten tweede zijn er aanwijzingen dat het beoordelingsschema niet bij elk van de vier taken even goede diensten bewijst. Met name bij twee taken (het melden van een ongeval en uiteenzetten hoe een spin zijn web weeft) bleken de oordelen relatief veel beoordelaarsspecifiekc variantie te hebben. Een inhoudelijke analyse van deze taken maakte het aannemelijk dat de prestaties gekenmerkt worden door taalgebruik met weinig samenhang, ofwel als gevolg van de onderwerpstructuur en beurtwisselingen (het melden van een ongeval), ofwel als gevolg van een instructie die (onbedoeld) bet nazeggen_ van een tekst heeft aangemoedigd (hoe een spin zijn web weeft). Het zal duidelijk zijn dat deze omstandigheden niet bevorderlijk zijn voor het beoordelen van Overdracht en Spreekgemak. We kunnen hieruit afleiden dat de vier onderscheiden beoordelingsdimensies niet in alle soorten taalgebruikssituaties (die in taken gesimuleerd worden) even relevant zijn. In principe kan men aannemen dat naarmate de communicatieve situatie opener is, de functies die erin vervuld worden diverser zijn en het taalgebruik van de beoordeelde spreker meer samenhang vertoont, het onderscheid tussen de vier dimensies beter tot zijn recht zal komen. Bovendien zal duidelijk zijn dat het schema vooral gericht is op beoordeling van het gedrag van de individuele spreker. Dialogische en polylogische interacties, waarbij de nadruk ligt op samenwerking en snelle beurtwisselingen tussen de interactiepartners vereisen ongetwijfeld een ander soort beoordelingsmethodiek. Hierin zal bijvoorbeeld ook plaats ingeruimd moeten worden voor vaardigheid in het nemen en geven van beurten (vgl. Riggenbach, 1991). Aangezien de predictie van de meeste beoordelingsdimensies in dit onderzoek bij één taak is. uitgevoerd moeten we zeer terughoudend zijn met generalisatie van de resultaten hiervan naar andere taken. De definitie van Referentie en Overdracht (zie § 3.2.3) maakt duidelijk dat de criteria voor beoordeling van taak tot taak verschillen. Dit impliceert uiteraard dat ook de relevantie van de beoordeelde gedragsaspecten bij deze dimensies nogal uiteen kan lopen in verschillende taken. Zowel voor Referentie als voor Overdracht is bij de selectie en operationalisatie van predictoren dan ook rekening gehouden met de specifieke eisen die voor de betreffende taken het meest relevant waren. Dit geldt voor de keuze van intonatievariatie, intensiteitsvariatie en de registerfuncties van de lexicale middelen voor de predictie van Overdracht (zie hoofdstuk 8) en voor de inhoudselementen bij de predictie van Referentie. Ook voor de predictie van oordelen over Spreekgemak kunnen taakspecifieke factoren van belang zijn. De frequentie en de aard van pauzes en zelfcorrecties hangen waarschijnlijk af van de cognitieve eisen waarvoor sprekers gesteld worden (zie § 9.5). Ook is het aannemelijk dat bij bepaalde spreeksituaties (bijvoorbeeld verhalen of referaten) de eisen qua vloeiendheid en
184
Beperkingen van de studies
vlotheid belangrijker zijn voor de communicatieve effectiviteit dan bij andere meer beschouwelijke of meer dialogische - situaties. Kortom, vervolgonderzoek naar de validiteit van jury-oordelen over de vier dimensies in anders gestructureerde taken dan die in dit onderzoek geanalyseerd zijn, is zeer wenselijk. Enerzijds zal zulk onderzoek meer duidelijkheid geven over de relatie tussen taakkenmerken en de aspecten van het gedrag die voor de beoordeling relevant zijn. Anderzijds kan het een basis geven voor de selectie en constructie van taken die - gegeven een context zoals het peilingsonderzoek - voor de evaluatie van spreekvaardigheid het meest relevant geacht worden (zie § 13.3). Tenslotte moeten nog enkele opmerkingen gemaakt worden over de beoordelingscriteria in dit onderzoek. In hoofdstuk 3 is uiteengezet dat alleen criteria zijn gehanteerd die herleidbaar zijn tot de communicatieve effectiviteit van de spraak. Dit houdt een beperking in ten aanzien van de mogelijke criteria voor de beoordeling van spreekvaardigheid. Met name criteria als grammaticale correctheid, standaardtaligheid en complexiteit van formulering zijn hierdoor zoniet uitgesloten, dan toch-van secundair belang gemaakt. Dat wil zeggen dat is afgezien van een expliciete beoordeling op correctheid van de formulering voorzover. dit niet relevant. is voor het realiseren van het communicatieve doel. In geen van de vier taken uit ons onderzoek was deze relevantie aantoonbaar, zodat het gebruik van 'correcte', standaardtalige of complexe formuleringen hier ook niet beoordeeld hoefde te worden. Dat wil echter niet zeggen dat dergelijke beoordelingscriteria in het algemeen irrelevant zijn voor de spreekvaardigheid of voor de communicatieve effectiviteit. In verschillende, vooral 'formele', spreeksituaties kan het gebruik van de standaardtaal, of de beheersing van complexe zinsstructuren een voorwaarde zijn om serieus genomen te worden. Het zal duidelijk zijn dat voor de beoordeling van deze aspecten het hier gebruikte beoordelingsschema (nog) geen soulaas biedt. Onderzoek naar de geëigende methodiek voor de beoordeling van correctheid of complexiteit van spraak is mij niet bekend. Wel zijn in diverse analytische schema's (zie hoofdstuk 3) beoordelingscategorieën geformuleerd voor deze aspecten van spreekvaardigheid. ,
13.2
i e relatie tussen oordelen en de beoordeelde aspecten van spreekvaardigheid
In deze paragraaf wordt wat dieper ingegaan op een drietal thema's voor vervolgonderzoek die in het voorgaande en passant aan de orde zijn gekomen, maar een wat uitgebreidere behandeling verdienen. Deze thema's hebben met elkaar gemeen dat zij ingaan op de relatie tussen enerzijds globale oordelen over communicatieve functies van de spraak en anderzijds de linguïstische en fonetische kenmerken van de spraak die aan de oordelen ten grondslag liggen. Ten eerste wordt ingegaan op de problemen die opgetreden zijn bij de validering van oordelen over Spreekgemak. Daarna worden de resultaten van het predictie-onderzoek vergeleken met de resultaten van andere studies naar de relatie tussen akoestische variabelen en
185
oordelen over aspecten van de spraak. Tenslotte wordt besproken in hoeverre de oordelen over de vier dimensies een complexe relatie met diverse akoestische en linguïstische variabelen hebben (de zogenaamde Gestalt-interpretatie). 13.2.1 Spreekgemak; een herdefinitie Resumerend zijn de volgende vier conclusies getrokken uit de predictieve validering van het jury-oordeel over Spreekgemak die een heroverweging van de definitie van de dimensie - en dus van toekomstige beoordelingsinstructies rechtvaardigen (zie § 12.2): In het jury-oordeel zijn wel 'grove' onderbrekingen in de continuïteit meegewogen (langdurige pauzes en valse starts), maar de 'subtielere' nauwelijks (haperingen en hethalingen binnen de toongroep, gevulde en ongevulde pauzes, uitroepen en' correcties). 2. Te snelle spraak, waardoor grenzen tussen uitingen (toongroepen) moeilijk waarneembaar worden, komt in het jury-oordeel niet tot uiting. 3. De predictoren voor, Spreekgemak verklaren niet significant meer variantie van het Spreekgemaks- dan van het Overdrachtsoordeel. 4. De predictoren voOrOverdracht verklaren een groot percentage van de variantie van de Spreekgemaksoordelen. De conclusies 1 en 2 maken duidelijk dat de diagnostische meerwaarde van het jury-oordeel over Spreekgemak beperkt is tot vlotheid van tempo. Enigszins gechargeerd kunnen we zeggen dat wanneer sprekers maar geluid blijven maken of dit nu betekenisvol geluid is of niet - zij aan het vlotheidscriterium wel voldoen. De overige informatie die het Spreekgemaksoordeel geeft, is eigenlijk niets anders dan wat het Overdrachtsoordeel ons al vertelt, zo blijkt uit de conclusies 3 en 4. Het definitieprobleem dat in hoofdstuk 3 aan de orde is gesteld voor het onderscheid tussen de 'Language' en de 'Delivery' dimensies (zie § 3.2.2) wordt hier weer netjes op ons bordje teruggeschoven: is er nog wel plaats voor een 'talige' beoordelingsdimensie die gerelateerd is aan de effectiviteit van de communicatie, naast zulke algemene dimensies als Referentie en Overdracht? Anders geformuleerd: zijn de functies van beheerstheid en vloeiendheid van tempo en formulering - die in het Spreekgemaksoordeel kennelijk niet tot uiting komen wel van belang voor een effectieve communicatie? Het moet worden toegegeven dat de resultaten van het valideringsonderzoek grond geven om de bovenstaande vragen met "Nee" te beantwoorden. Men kan stellen dat er wel erg veel gehaperd moet worden binnen uitingen om het begrijpen van die uitingen voor een luisteraar te bemoeilijken of te verhinderen. Ook kan men stellen dat het wegvallen van grensmarkerende pauzes tussen toongroepen wel erg extreem moet zijn om het onderscheiden van de afzonderlijke uitingen moeilijk te maken. Er zijn immers altijd nog andere prosodische en semantische signalen die kunnen compenseren voor haperingen of het wegvallen van grensmarkerende pauzes. Er valt op basis van deze veronderstellingen wat te zeggen voor het laten vallen van de functies vloeiendheid en beheerstheid bij de beoordeling van Spreekgemak. Toch zou dat op dit moment voorbarig zijn, omdat ook andere verklaringen 186
Beperkingen van de studies
mogelijk zijn. In de eerste plaats zijn onze analyses uitgevoerd bij een vrij kleine en niet-representatieve steekproef van 60 leerlingen aan het eind van de basisschool (zie § 13.1). Het is niet uitgesloten dat in de populatie extremere vormen van 'onvloeiendheid' en 'onbehcerstheid' voorkomen. Men bedenke hierbij dat in onze steekproef beginnende tweede-taalsprekers niet opgenomen zijn (zie § 2.1), terwijl die in de populatie een groeiend aandeel hebben (Blok, Emmelot & De Kat, 1992). In de tweede plaats is het mogelijk dat bij een andere beoordelaarsinstructie, waarin meer nadruk op de bedoelde aspecten gelegd wordt - eventueel met een aparte bcoordelingscategorie - de oordelen wel de beoogde aspecten uitdrukken. Ook is denkbaar dat in anderssoortige - meer formele - taalgebruikssituaties vloeiendheid en beheerstheid een belangrijkere functie vervullen. Laten we ons eerst richten op de beoordeling van beheerstheid van tempo en formulering. Wat zijn we te weten gekomen over de relatie tussen het gebruik van (te) weinig functionele pauzes (een hoge spreeksnelheid) en het oordeel over Spreekgemak? Onder functionele pauzes verstaan we hier met name grensmarkerende pauzes aan het eind van toongroepen. De hierbovenstaande conclusie (2) geeft grond aan de veronderstelling dat de grensmarkerende pauzes niet primair voor de continuïteit van belang zijn. Het is aannemelijk dat de uitingen van sprekers die weinig gebruik maken van deze grensmarkerende pauzes (zowel qua frequentie als qua duur en gevarieerdheid van duur) gepercipieerd worden als tekortschietend in expressiviteit, betrokkenheid en gepastheid. Het negatieve effect van te korte of wegvallende grensmarkerende pauzes op de onderscheidbaarheid van begin en eind van uitingen zal pas in extremere gevallen optreden. Als de bovenstaande vermoedens juist zijn, dan is beheerstheid ten onrechte exclusief aan Spreekgemak gekoppeld. Te snelle spraak - in de zin van te weinig gebruik van functionele pauzes - kent verschillende gradaties: in eerste instantie gaat het ten koste van Overdrachtsfuncties: pas in extremere gevallen is de onderscheidbaarheid van uitingen in het geding (vgl. Butcher, 1981, p. 115-116). Explicitering van deze gradaties voor de beoordelaars is een mogelijke remedie voor het geconstateerde feit dat Spreekgemaksoordelen voor een groot deel dezelfde informatie over de spraak verschaffen als de Overdrachtsoordelen (zie conclusie (4) hierboven). Ook voor de beoordeling van vloeiendheid (haperingen, verborgen zelfcorrecties en niet-functionele pauzes binnen toongroepen) zijn enkele aanbevelingen te doen op grond van de resultaten van het predictie-onderzoek. Het is niet duidelijk geworden waaraan het geringe gewicht van deze pauzesoorten in het Spreekgemaksoordeel moet worden toegeschreven. Is vloeiendheid niet van belang voor de communicatieve effectiviteit, is er te weinig variatie tussen de sprekers in het gebruik van de genoemde pauzesoorten om perceptief relevant te zijn, of mankeert er iets aan de beoordelingsinstructie waardoor de beoordelaars deze soorten pauzes negeren? Analoog aan de redenering die gegeven is voor de beoordeling van beheerstheid van tempo kan voor vloeiendheid aannemelijk gemaakt worden dat er een soort kritische grens is tussen extreme en normale 'onvloeiendheid'. Het zal duidelijk
187
zijn dat de extreme vorm - zoals bijvoorbeeld bij beginnende tweede-taalsprekers - de communicatieve effectiviteit van de spraak ten zeerste schaadt. Waar precies de grens ligt tussen extreme en normale 'onvloeiendheid', waarbij de spraak wellicht niet welgevormd, maar wel moeiteloos te volgen is, is erg onduidelijk. Inspectie van de beoordeelde spreekprestaties op taak 4 geeft de indruk dat beoordelaars erg tolerant zijn als het gaat om de zogenaamde subtiele pauzesoorten. Ik zal twee voorbeelden geven. Een spreker die gemiddeld in éénderde van de toongroepen één van de subtiele niet-functionele pauzes gebruikte, werd door de jury ingedeeld bij de beste dertien (van de 99). Een andere spreker had gemiddeld per toongroep meer dan één van de subtiele niet-functionele pauzes (1.08); niettemin was het oordeel van de jury over zijn Spreekgemak nauwelijks negatiever (bij de beste 28). De eerste spreker is qua vloeiendheid in onze steekproef vrij gemiddeld (het gemiddelde aantal subtiele pauzes ligt op .4 per toongroep, zie tabel 28); de tweede spreker is de minst vloeiende van de geanalyseerde zestig. Vanwege bovenstaande onduidelijkheden is het aan te bevelen een versie van het beoordelingsschema te beproeven waarin de beoordeling van vloeiendheid (als 'Voorwaarde voor communicatieve effectiviteit) meer aandacht krijgt, bijvoorbeeld door een aparte beoordMingscategorie voor vloeiendheid op te nemen. Dan zal duidelijk worden in hoeverre de in dit onderzoek getrokken conclusie voortkomt uit de instructie voor de beoordelaars, of dat andere factoren (taakspecifieke of steekproefspecifieke) verantwoordelijk zijn. Voor het simpelweg schrappen van vloeiendheid als criterium uit het beoordelingsschema is het in ieder geval nog te vroeg. 13.2.2 Correlaties tussen akoestische en perceptieve variabelen; gegevens uit enkele andere studies
Empirisch onderzoek naar de relaties tussen globale beoordelingen van spraak en akoestische variabelen is schaars. De relatie van globale oordelen over gesproken teksten met linguïstische variabelen is bij mijn weten nog helemaal niet empirisch onderzocht. Het ligt voor de hand om even stil te staan bij de onderzoeksgegevens van andere studies naar akoestisch/perceptieve relaties die enigszins vergelijkbaar zijn met de resultaten van ons onderzoek. Hier ga ik in op een viertal studies die om uiteenlopende redenen relevant zijn. De eerste studie (Van Bezooijen, 1984) onderzocht de kenmerken van uitingen uitgesproken met de expressie van tien onderscheiden soorten emoties. De tweede studie (Boves, 1984) ging de relaties na tussen enerzijds oordelen over stem en uitspraak van sprekers die een tekst voorlezen, en anderzijds gemeten akoestische variabelen. In de derde studie (Butcher, 1981) is de waarneming van tempo in diverse soorten spreeksituaties (formele en informele monologen) gerelateerd aan akoestische metingen (spreek- en articulatiesnelheid, aantal en duur van verschillende pauzesoorten). De vierde studie (Tielen, te verschijnen) is gericht op verschillende perceptieve en akoestische kenmerken van mannelijke en vrouwelijke stemmen.
188
Beperkingen van de studies
De vier studies zijn relevant voor ons onderzoek omdat percepties van beoordelaars over spraak gecorreleerd worden met akoestische variabelen. Er zijn echter ook belangrijke verschillen in onderzoeksopzet die een directe vergelijking van de resultaten bemoeilijken. Zowel kenmerken van de spreeksituatie (voorgelezen tekst - spontane spraak) als die van de tekstomvang (geïsoleerde uitingen - hele teksten) en van de sprekers (volwassenen - kinderen) verschillen van studie tot studie. Ook de beoordelaars (m.n. hun deskundigheid op het gebied van spraak en hun geoefendheid), en de definitie van de oordelen (beschrijving van kenmerken van stem en uitspraak - waardering van communicatieve functies) verschillen sterk tussen de vier studies en -de huidige. Tenslotte is de statistische generaliseerbaarheid soms een probleem. De studies van Boves (o.c.) en Butcher (o.c.) zijn gebaseerd op beoordeling van erg weinig sprekers. In beide studies participeerden vijftien sprekers. Aangezien de spreker de eenheid van observatie (en van generalisatie) in deze studies vormt, is er sprake van een gering statistisch onderscheidingsvermogen; de betrouwbaarheidsintervallen voor de gevonden correlaties in de steekproef zijn dus erg groot. Bij Van Bezooijen (o.c.) participeerden slechts acht sprekers aan het onderzoek, maar in haar geval waren niet de sprekers, maar de individuele uitingen eenheid van observatie (N=160), waardoor een goed onderscheidingsvermogen bereikt wordt. In de studie van Tielen (o.c.) zijn zestig sprekers beoordeeld (30 mannen en 30 vrouwen). Het statistische onderscheidingsvermogen ligt tussen de bovenstaande uitersten in en is identiek aan de huidige studie. Ik beperk de bespreking van deze studies tot één thema, namelijk de vraag: in hoeverre kunnen percepties van spraak verklaard worden in termen van akoestische variabelen (zowel instrumentele metingen als auditieve analyses)? Een nogal voor de hand liggende hypothese bij de beantwoording van deze vraag is dat naarmate de percepties nauwgezetter gericht zijn op de fysisch/akoestische realiteit, ze beter verklaard kunnen worden in termen van de betreffende akoestische variabelen. Ik zal dit de nabijheidshypothese noemen. Op grond van de nabijheidshypothese zou men bijvoorbeeld de voorspelling kunnen doen dat globale percepties van toonhoogtevariatie beter verklaard kunnen worden in termen van instrumentele (of auditieve) analyse van grondtoonfrequenties dan globale percepties (evaluaties) van levendigheid (of Overdracht). Naarmate percepties een vagere relatie hebben met de fysische/akoestische realiteit, of complexere situaties (zoals teksten in hun geheel) beschrijven, of meer evaluatief van aard zijn (zoals onze oordelen over Overdracht en Spreekgemak), des te minder is de verklarende kracht van akoestische variabelen, volgens de nabijheidshypothese. In tabel 31 is een overzicht gegeven van de gevonden correlaties in de vier studies en in het huidige onderzoek tussen oordelen en akoestische variabelen voor drie aspecten, te weten tempo, toonhoogtevariatie en luidheid. Deze aspecten zijn gekozen, omdat zij de grootste gemene deler vormen van de aspecten die in de vijf studies beoordeeld zijn. In de kolom 'Oordelen' is aangegeven welke ,
189
Tabel 31: Een vergelijking van de predictie van oordelen over tempo, toonhoogtevariatie en luidheid in vier studies
Studie
Aspecten
Boven
Tempo
Oordelen
Waarover?
Maten
Correlatie
snelheid, vastheid
tekst (voorlezen)
spreeksnelheid (incl. pauzes
Van Bezooijen
snelheid
uiting
articulatiesnelheid (excl. pauzes)
.85
Butcher
snelheid
tekst (vrij)
spreeksnelheid (incl. pauzes)
.836
vlotheid, vloeiendheil, beheerstheid
tekst (vrij)
duur van zelfcorrecties en niet-functionele pauzes
.70
ffielodicusheid, mooiheid, expressiViteit, aangenaamheid
tekst (voorlezen)
PO-variatie
.57, .48
afstand tussen
uiting
PO-variatie
.68
tekst (voorlezen) tekst (vrij)
PO-bereik
.51
auditieve analyse van toonhoogtehewegingen
.75
Van Geldeten
Boven
Toonhoogtevariatie
'Van Bezooijen
.65, .58
heogste en laagste toonhoogte
Telen
expressiviteit
Van Geldenen
-
expressiviteit, boeiendhcid, betrokkenhcid krachtigheid, luid-
tekst (voorin-
hcid
zen)
spectrale helling (5kHz)a
Van Bezooijen
luidheid
uiting
spectrale helling (Fl)u
.57
Van Gelde=
expressiviteit, boeiendheid, betrokkenheid
tekst (vrij)
gemiddelde intensiteit
.56
Boves
Luidheid
.67, .35
In de studies van Boves en Van Bezooijen was de informatie over de oorspronkeijke verschillen in intensiteit in de beoordeelde geluidsopnames niet meer aanwezig. Deze werd afgeleid uit de spectrale hellingen in de frequenties onder de eerste formant, respectievelijk het gebied rondom 5 kHz. b) Dit is een rangordecorrelatie a)
criteria de beoordelaars moesten hanteren; hierbij zijn telkens alleen de 'positieve' schaaluiteinden genoemd. In deze kolom kan men dus zien hoe nauwgezet het oordeel het bedoelde aspect moet beschrijven. In de studies van Van Bezooijen en Butcher zijn de omschrijvingen van de oordelen blijkbaar erg dicht bij de akoestische realiteit van het bedoelde aspect gebleven. Hier worden beoordelaars eigenlijk opgevat als een alternatief meetinstrument naast de fysisch/akoestische metingen. Volgens de nabijheidshypothese zou men hier dus de hoogste correlatie tussen oordelen en metingen verwachten. In de studie van Boves, Tieten en in mijn studie daarentegen is er een zekere afstand tussen de aspecten en de criteria die de beoordelaars hanteerden. In Boves' studie zijn verschillende beoordelingsschalen tezamen genomen onder één factor (na factoranalyse). De factor 'Tempo' werd vertegenwoordigd door de twee 190
Beperkingen van de studies
schalen snelheid en vastheid; de factor 'Voice dynamics' door melodieusheid, mooiheid, expressiviteit en aangenaamheid en de factor 'Potency' door krachtigbeid en luidheid. In Tielens studie werd zowel expressiviteit als melodieusheid beoordeeld; deze twee oordelen correleren overigens erg hoog (.98). Voor de oordelen uit mijn studie zijn de criteria voor de beoordeling van Spreekgemak (vlotheid, vloeiendheid en beheerstheid) en Overdracht (expressiviteit, boeiendheid en betrokkenheid) bij taak 4 (het afmaken van een verhaal) gegeven. De predictie van deze oordelen vond immers uitsluitend plaats bij de prestaties op deze taak. De criteria voor Overdracht zijn in tabel 31 zowel bij het aspect toonhoogtevariatie als bij het aspect luidheid gezet, omdat beide aspecten bij de beoordeling van Overdracht van belang zijn (zie hoofdstuk 8 en § 9.3). De vierde kolom van tabel 31 geeft in het kort aan wat het onderwerp van beoordeling was. Bij Boves zijn twee voorgelezen teksten beoordeeld; bij Tielen is één korte voorgelezen tekst beoordeeld; bij Van Bezooijen ging het om twee korte uitingen die op verschillende wijzen gerealiseerd werden; Butcher liet vrije verhalen (naverteld of zelf beleefd) beoordelen en in mijn studie ging het om het (vrij) afmaken van een verhaal. In de vijfde kolom is weergegeven welke akoestische variabelen gemeten zijn om de oordelen te prediceren. In de studies van Boves, Tielen, Van Bczooijen en Butcher was sprake van een exploratieve opzet, zonder specifieke voorspellingen over de predictor die de oordelen het best zou verklaren. In tabel 31 staat per studie de maat die de hoogste correlatie had met de betreffende oordelen. De zesde kolom geeft de correlatie tussen de beste predictor in elke studie en het betreffende oordeel. Alle correlaties zijn produktmoment correlaties, behalve die uit Butchers studie; deze verschaft alleen Spearman-rangordecorrelaties. Boves analyseerde de resultaten in twee verschillende groepen sprekers, zodat ook telkens twee correlaties gegeven moeten worden. Wat kunnen we over de aannemelijkheid van de nabijheidshypothese zeggen, op grond van deze gegevens? Volgens deze hypothese zouden de correlaties tussen de oordelen en de akoestische maten in de studies van Van Bezooijen en Butcher hoger moeten zijn dan in de studies van Boves, Tielen en mijn studie. Dit blijkt in zijn algemeenheid niet het geval te zijn. Bij de predictie van Tempoaspecten lijkt de tendens nog in de richting van de hypothese te wijzen, alhoewel bij toepassing van een enigszins aanvaardbaar betrouwbaarheidsinterval (zeg 80%) de geschatte correlaties niet significant van elkaar verschillen. Bij de predictie van toonhoogtevariatie en luidheid zijn de gevonden correlaties in de steekproef van Van Bezooijen soms zelfs lager dan in twee andere studies (ook hier zijn echter de geschatte populatiewaarden bij een 80% betrouwbaarheidsinterval niet significant verschillend). Het feit dat de nabijheidshypothese op grond van de feiten niet aanvaard kan worden is nogal contra-intuïtief. Zo merkt bijvoorbeeld Boves, de resultaten van zijn studie overziend, op: "Not surprisingly, we have been less successful in finding acousdc measures to explain judgements the fuzzier the attributen rated were" (o.c. p. 157). De vergelijking van de resultaten van de (weinige) studies
191
naar de correlatie tussen akoestische maten en oordelen geeft een ander beeld: oordelen over nogal 'fuzzy' spraakfuncties, zoals vlotheid (Spreekgemak) of expressiviteit en levendigheid (Overdracht) hebben vaak een even sterke relatie met akoestische variabelen als oordelen die uitsluitend bedoeld zijn om de 'pure' perceptie van die variabelen uit te drukken. Ook al kunnen we nog niet zeggen dat het hier gaat om een goed gedocumenteerd verschijnsel - meer studies naar de relatie tussen akoestische en perceptieve variabelen zijn zeker nodig - toch is het de moeite waard om te speculeren over een verklaring ervan. In de volgende paragraaf wordt zo een speculatieve verklaring gezocht bij de zogenaamde Gestalt-interpretatie van globale oordelen over communicatieve functies.
13.2.3 Beoordeling van spreekaardigheid; detail en Gestalt We kunnen twee soorten verklaringen voor de wijze waarop oordelen over spraak tot stand komen met elkaar contrasteren. De eerste stelt - min of meer conform de nabijheidshypothese - dat de perceptie van afzonderlijke aspecten (bijvoorbeeld toonhoogtevariatie, of tempo) onafhankelijk is van de perceptie van andere aspecten. In het (hypothetische) geval dat de aspecten onderling nul correleren, zal men dus verwachten dat een oordeel over een afzonderlijk (detail)aspect waargenomen bij verschillende sprekers, alleen correleert met de variantie van dat aspect en niet met die van andere aspecten. De tweede verklaring (de zogenaamde Gestalt-interpretatie) stelt dat de perceptie van afzonderlijke aspecten juist afhankelijk is van de perceptie van andere. Bijvoorbeeld bij een hoog spreektempo is een relatief korte pauze al beduidend, terwijl een pauze met dezelfde duur bij een laag tempo niet eens opgemerkt wordt. Een ander voorbeeld: bij een gebruik van allerlei lexicale middelen om de luisteraar te boeien en te verrassen, wordt nauwelijks belang gehecht aan het gebruik van prosodische variaties om eentonigheid te vermijden, terwijl bij een wat spaarzamer gebruik van registerversterkers deze prosodische variaties aan belang winnen. Een laatste voorbeeld is al eerder aan de orde geweest (§ 13.2.1): het laten wegvallen van grensmarkerende pauzes tussen uitingen wordt alleen dán een echte belemmering voor de luisteraar om de structuur van zinnen te kunnen volgen, wanneer ook andere prosodische en semantische signalen het laten afweten. Stel nu dat de aspecten onderling (gemeten over verschillende sprekers) nul correleren. In dat geval zullen oordelen over die aspecten niet alleen gecorreleerd zijn met de expliciet beoordeelde, maar ook met de niet expliciet beoordeelde aspecten. Nu is het poneren van nul-correlatie voor verschillende aspecten van spraak uiteraard erg onrealistisch. We weten dat in werkelijkheid akoestische en linguïstische variabelen vrijwel altijd gecorreleerd zijn. Ook in onze steekproef is dat aangetoond (zie bijlage 9). Deze correlaties maken het dan ook veel gecompliceerder om te voorspellen wat men kan verwachten wanneer één van bovengenoemde verklaringen opgaat. Het is niet mijn bedoeling hiervoor nu een mathematisch verklaringsmodel op te stellen, waaruit zou kunnen blijken welke verklaring de
192
Beperkingen van de studies
beste is. Ik zal hier slechts enkele aanwijzingen noemen waaruit kan blijken dat de Gestalt-interpretatie voor spraakbeoordeling zo gek nog niet is. De eerste aanwijzing komt voort uit het onderzoek dat in hoofdstuk 4 gerapporteerd is. Hierbij bleek dat verschillende beoordelingscategorieën voor dezelfde dimensie (Referentie, Overdracht of Spreekgemak) door een jury vaak nauwelijks onderscheiden werden, meette,chnisch gesproken. In deze beoordelingscategorieën werd de aandacht telkens op andere gedragsaspecten gericht die voor de betreffenden dimensie relevant geacht werden. Voor de dimensie Overdracht bijvoorbeeld werd bij één categorie gevraagd 'gevarieerdheid van intonatie' (zinsmelodie en luidheid) te beoordelen en bij een andere categorie 'levendigheid van spreektrant' (o.a. boeiende presentatie en vertoon van passende emoties). Het is uiteraard mogelijk dat de instructie - of de definitie - voor het beoordelen van deze categorieën niet specifiek genoeg was om de beoordelaars hier onderscheid te laten maken, maar dan is het de vraag waarom dit niet óók het geval was bij beoordelingscategorieën voor verschillende dimensies. Ook al is dit resultaat gevonden bij relatief kleine steekproeven (N=40), en is replicatie zeker wenselijk (zie § 13.1), toch is het feit dat zich voor alle vier de taken (en bij telkens andere steekproeven) hetzelfde patroon van correlaties voordoet, veelzeggend. Hoe dan ook is het een duidelijke indicatie dat verschillende gedragsaspecten vanuit de (functionele) criteria van één dimensie nauwelijks verschillend worden beoordeeld. Met andere woorden, de perceptie van de ene groep aspecten is afhankelijk van de andere. Wellicht zijn de functionele relaties tussen de diverse aspecten, waarbij de afwezigheid van het ene gecompenseerd kan worden door de aanwezigheid van het andere, verantwoordelijk voor zo een Gestalt. Men kan tegenwerpen dat de verschillende aspecten onderling misschien ook erg hoog correleren, zodat het ook nauwelijks mogelijk is deze onderscheiden te beoordelen. Een blik op de intercorrelaties tussen de predictoren voor Overdracht en Spreekgemak in het valideringsonderzoek (bijlage 9) maakt echter duidelijk dat hiervan bij ons niets blijkt. Het grootste deel van de correlaties is lager dan .50, met een uitschieter naar .77. De tweede aanwijzing komt voort uit het predictie-onderzoek. Hierbij is als criterium telkens het jury-oordeel op één beoordelingscategorie per dimensie gebruikt (zie hoofdstukken 10 en 11). Als predictoren - met name voor Overdracht en Spreekgemak - zijn echter ook aspecten geselecteerd die bij andere categorieën voor dezelfde dimensie zijn beoordeeld. Zo is als criterium voor Overdracht het oordeel over 'levendigheid van Spreektrant' gebruikt, terwijl als predictoren ook aspecten fungeerden als intonatievariatie, intensiteitsvariatie en proporties registerversterkers, die dus niet expliciet zijn beoordeeld bij die categorie. Niettemin is bij de multipele regressie gebleken dat de predictoren intonatievariatie en registerversterkers de meeste variantie van het oordeel
193
verklaree. Ook hier is het dus aannemelijk dat beoordelaars in hun oordeel bewust of onbewust - aspecten meewegen die niet-expliciet gevraagd zijn, maar die wellicht een functionele of compensatoire relatie hebben met de aspecten die wèl expliciet gegeven zijn in de definitie van het oordeel. Een derde aanwijzing voor de Gestalt-interpretatie is al aan de orde geweest. Het betreft de vergelijking van correlaties tussen akoestische en perceptieve variabelen in verschillende studies in de voorgaande paragraaf. Hieruit blijkt dat oordelen die bedoeld zijn om zo precies mogelijk een akoestische variabele te beschrijven niet sterker gerelateerd zijn aan metingen (of coderingen) van die variabele dan oordelen die minder gericht zijn op de beschrijving van een afzonderlijke variabele en meer op het geven van een algemene indruk. Dit gegeven is verklaarbaar, uitgaande van de- veronderstelling dat de perceptie van één variabele afhankelijk is van de perceptie van andere. Met andere woorden: ook al is de definitie van een beoordelingscategorie gericht op de zo nauwkeurig mogelijke beschrijving van één akoestisch? aspect (bijvoorbeeld spreeksnelheid of tbonhoogtevariatie), toch drukt het oordeel uiteindelijk méér uit, namelijk de (functionele) interactie van een stelsel van Compensatoire variabelen. Uit de Gestalt-interpretatie kunnen enkele interessante voorspellingen voor onderzoek naar de beoordelingsdimensies afgeleid worden. Zo •kunnen we bijvoorbeeld verwachten dat enkele in dit onderzoek niet gemeten variabelen, die wel een centrale rol in de definitie van de beoordelingsdimensies spelen, eveneens hoog correleren met de betreffende jury-oordelen. Te denken valt hierbij aan coherentie-analyses van de gesproken teksten om de jury-oordelen over Referentie te voorspellen, en aan functionele tempovariaties voor de predictie van Overdrachtsoordelen. Ook kan voorspeld worden dat de zogenaamde non-verbale middelen die in de definitie van Overdracht een belangrijke rol hebben (zie hoofdstuk 3), thuishoren in het stelsel van compensatoire variabelen en dus een goede pretlictor voor het oordeel vormen. Het beoordelen en analyseren van spreekprestaties vanaf video-opnames is hiervoor uiteraard een vereiste.
13.3 Taakvaliditeit; een poging tot ontginning Op diverse plaatsen in dit proefschrift is de lezer geconfronteerd met het feit dat de soorten (geïntegreerde) taken die sprekers vervullen een belangrijke invloed hebben op de te beoordelen aspecten van hun gedrag. In de hoofdstukken 1 en 2 is gewezen op de moeilijkheden die dit oproept bij de selectie van taken voor peilingsonderzoek. Er blijkt geen algemeen aanvaarde taxonomie te bestaan die als basis voor zo een selectie kan worden gebruikt en er is ook weinig bekend over de invloed van verschillende taakparameters op het te evalueren (spreek)gedrag. In hoofdstuk 3 is uiteengezet dat taakspecifieke omstandigheden ook invloed hebben op de beoordelingscriteria. Met name voor de dimensies Referentie en Overdracht
38 Een analoge redenering voor de predictie van Spreekgemak gaat overigens niet op, omdat hier alleen de duur van pauzes en zelfcorrecties significant bijdraagt aan het oordeel en deze aspecten wel expliciet beoordeeld zijn in de categorie Spreektempo.
194
Beperkingen van de studies
zijn de specifieke functies die vervuld moeten worden om het communicatieve doel te bereiken sterk afhankelijk van de soort taalgebruikssituatie. Bij de selectie en operationalisatie van pretlictoren voor de beoordelingsdimensies (hoofdstukken 8, 9 en 10) moest dan ook telkens rekening worden gehouden met kenmerken van de taak waarop de oordelen van toepassing waren. Het zal duidelijk zijn dat de zogenaamde taakvaliditeit - het maken van een gemotiveerde selectie van taken uit het domein van alle mogelijke taken - voor de evaluatie van spreekvaardigheid minstens zo belangrijk is als de oordeelsvaliditeit die in ons onderzoek centraal stond (vgl. § 13.1). Gezien het belang van dit thema, ligt het voor de hand enige aandacht te besteden aan wat bekend is over de invloed van diverse taakparameters op de prestaties van leerlingen en aan de mogelijkheden voor vervolgonderzoek. Zowel voor de context van peilingsonderzoek, als voor de wetenschappelijke kennis over de invloed van taakkenmerken op het taalgebruik zal zulk vervolgonderzoek van groot belang zijn.
13.3.1 Empirische bevindingen; correlaties tussen prestaties op communicatieve taken We zullen hier ingaan op de vraag in hoeverre prestaties op een geïntegreerde taak (zie § 1.2.1) - gemiddeld genomen - iets zeggen over prestaties op een andere. We zijn met andere woorden geïnteresseerd in de generaliseerbaarheid van de gemeten (beoordeelde) vaardigheid in de ene taak naar die op een andere. Wanneer bijvoorbeeld blijkt dat de correlaties tussen prestaties op verschillende taken tamelijk hoog zijn, dan is er niet zoveel reden ons zorgen te maken over taakspecifieke invloeden. Deze kwestie is met name relevant in de context van peilingsonderzoek. Naarmate de evaluatie van taalvaardigheden met behulp van geïntegreerde taken minder 'belast' is met taakspecificiteit, des te minder zal men zich zorgen hoeven maken over een verantwoorde taakselectie. Bovendien zal dan ook het aantal taken dat voor de evaluatie gebruikt moet worden, beperkt kunnen blijven. Gezien de intensiviteit van de (individueel af te nemen) geïntegreerde taken is dit zeker geen overweging van gering belang. In het kielzog van het Nederlandse peilingsonderzoek zijn diverse secundaire analyses uitgevoerd die relevante gegevens hebben opgeleverd voor de bovenstaande kwestie. Vooral de analyses van correlaties tussen spreektaken en tussen schrijftaken zijn hier van belang, omdat de domeinen voor deze twee soorten elkaar voor een groot deel overlappen (vgl. Zwarts & Rijlaarsdam, 1991; Sijtstra & Van den Bosch, 1991). Bovendien leiden de resultaten van de secundaire analyses voor spreek- en schrijfvaardigheid in grote lijnen tot dezelfde conclusies. In tabel 32 zijn de gegevens uit zeven studies weergegeven. Twee van deze studies (1 en 7) zijn verricht bij leerlingen in de derde klas Voortgezet Onderwijs van alle schooltypen. Eén studie (2) had alleen derdeklassers LBO en MAVO als proefpersoon. De vier andere studies zijn verricht in de hoogste groep van het
195
basisonderwijs. In de steekproef van de studies 3, 4 en 6 zijn dezelfde leerlingen opgenomen. In de kolom 'Oordeel' is voor elke studie het oordeel gekozen dat de meest algemene uitspraak over de kwaliteit van een prestatie doet. In diverse studies wordt bij sommige taken geen algemeen oordeel gegeven, maar worden alleen aspecten van een prestatie beoordeeld, of gescoord. In die gevallen is in tabel 32 telkens gekozen voor de beoordeling van inhoudelijke (referentiële) aspecten. In de kolom "Gemiddelde correlatie" wordt, voorzover beschikbaar, voor elke studie de gemiddelde correlatie tussen de oordelen over de prestaties op de schrijf- of spreektaken gepresenteerd. De daaropvolgende kolom geeft voor de spreek- of schrijftaken de gemiddelde gekwadrateerde lading op de spreekvaardigheidsfactor of de schrijfvaardigheidsfactor uit elke studie. In alle studies die het betreft zijn deze ladingen geschat in een Lisrel-analyse, waarin de ware factorvariantie van elke taak gescheiden is van andere variantiebronnen (taakspecifieke, unieke en/of meetfoutvariantie). De gemiddelde'gekwadrateerde lading in tabel 32 geeft dus aan welk deel van de geobserveerde scorevariantie van de spreek- of kchrijftaken in elke studie geïdentificeerd kon' worden als specifiek voor spreekpf schrijfvaardigheid. De gegevens in tabel 32 geven een ietwat wisselend beeld over de mate waarin communicatieve taken een beroep lijken te doen op dezelfde (spreek- of schrijf-) vaardigheid. In het grootste deel van de studies (2 t/m 6) blijken de correlaties tussen de taken tamelijk laag te zijn. Ook de ladingen op de vaardigheidsfactor zijn in die studies (alleen 2, 3 en 4) erg laag, hetgeen betekent dat een groot deel van de gevonden scorevariantie aan iets anders dan de bedoelde vaardigheid moet worden toegeschreven. In de studies 1 en 7 echter blijken de taken gemiddeld wél voor een aanzienlijk deel de bedoelde vaardigheid te meten. Respectievelijk 50 en 56% van de scorevariantie van de prestaties op deze taken wordt gemiddeld door de vaardigheidsfactor verklaard. Waar dit aan ligt - de populatie van derdeklassers VO, of de specifieke selectie van taken in deze studies - is niet duidelijk. Een ander belangrijk gegeven dat in bovenstaande studies is gevonden, is het percentage taakspecifieke variantie dat in de oordelen over de prestaties tot uitdrukking komt. Taakspecifieke variantie komt aan het licht doordat in de studies verschillende aspecten van prestaties op één taak beoordeeld worden. De gemeenschappelijke variantie van deze oordelen op één taak, die niet in de vaardigheidsfactor is opgenomen vormt de taakspecifieke variantie. In zes van de zeven studies is via Lisrel-analyse een schatting gegeven van de omvang van deze taakspecifieke variantie. Deze blijkt zo nu en dan zeer aanzienlijk te zijn. Schattingen variëren van 0 tot 63% taakspecifieke variantie voor schrijftaken en van 0 tot 41% voor spreektaken (Van den Bergh, De Glopper & Schoonen, 1988; Kuhlemeier & Van den Bergh, 1991; Van Gelderen, 1987a en b). Wat precies de bron van deze taakspecifieke variantie is, is onduidelijk. Als mogelijke verklaringen worden vooral genoemd: specifieke voorkennis die voor het onderwerp van belang is, de taalgebruiksfunctie die in een taak aan de orde wordt gesteld (Schoonen, 1991, p. 26), of de lengte van de teksten (Van den Bergh e.a., 1988). Aangezien het hier slechts om algemene vermoedens gaat, en
,
196
Beperkingen van de studies Tabel 32: Een overzicht van verbanden tussen prestaties op verschillende communicatieve taken in zeven studies en hun lading op een spreek- of schrijfvaardigheidsfactor
Studie
Taken
N
Oordeel
Gem. Cor-
Gem. ge-
relatie
kwadrateer-
(P-m.c.)
de lading op factor
1. De Glopper, 1988
8 schrijftaken
1284a
Globale kwaliteit
-
.50
2. Van den Bergh, 1988
5 schrijftaken
619
Globale kwaliteit
.17
.22
3. Schoonen, 1991
4 schrijftaken
200
Inhoud en Organisatie
-
.10
4. Van Gelderen, 1987a
4 spreektaken
200
Referentie
.35
.19
5. Rijlaarsdam, Van den Berg & Zwarts, 1991
21 spreektaken 21 schrijftaken
b 140b 200
6. Van Geldcren, 1987b
6 spreektaken 4 schrijftaken
200 200
Inhoud en Organisatie
7. Kuhlemeier & Van den Bergh, 1991
3 spreektaken
880c
Inhoud
catieve effectiviteit
.24 .42
.27 .25 -
-
-
.56
a) elke leerling voerde 3 van de 8 opdrachten uit b) correlaties zijn alleen berekend over drietallen van taken c) geanalyseerd in drie verschillende substeekproeven
er nog geen onderzoek is uitgevoerd dat op een systematische wijze taakspecifieke variantie in communicatieve taken probeert te verklaren, kan in feite elk aspect waarop de taken variëren als oorzaak worden aangewezen. Men hoeft maar een blik te werpen op het overzicht van parameters voor spreektaken in paragraaf 2.2.2 om te weten wat dat betekent: elk verschil in waarde op één van de zeventien genoemde parameters kan taakspecifieke variantie op de beoordeelde prestaties veroorzaken van een onvoorspelbare omvang! Zolang nog geen onderzoek gedaan is naar de effecten van deze taakparameters, kan dus hoegenaamd niets gezegd worden over de maatregelen die genomen moeten worden om de taakspecificiteit zo klein mogelijk te maken. De enige concrete indicatie uit de bovenstaande studies over de richting waarin een verklaring gezocht moet worden, is de vondst dat taakspecifieke variantie in sterkere mate in oordelen over inhoudelijke (referentiële) functies dan in oordelen over de minder-inhoudelijke functies (bijvoorbeeld Stijl, Taalgebruik, Over197
dracht, Verstaanbaarheid) tot uitdrukking komt (Schoonen, 1991, p. 184; Van Gelderen, 1987b, p. 59). Bij vergelijking van de correlaties tussen inhoudelijke oordelen over prestaties op verschillende taken met de minder-inhoudelijke, blijkt ook dat eerstgenoemde correlaties beduidend lager zijn. Rijlaarsdam, Van den Bergh en Zwarts (1992) vonden bijvoorbeeld een gemiddelde correlatie tussen inhoudssores bij 21 schrijftaken van .07. Voor de beoordeling van prestaties op de vier taken uit het huidige onderzoek bleek de gemiddelde intercorrelatie tussen jury-oordelen over Referentie .35 te zijn; jury-oordelen over Overdracht hadden een gemiddelde intercorrelatie van .53, die over Spreekgemak .50 en die over Verstaanbaarheid correleerden gemiddeld zelfs .70 (Van Gelderen, 1987a). Bij de steekproefomvang van 200 zijn de verschillen in hoogte significant hij een 95% betrouwbaarheidsinterval, uitgezonderd het verschil tussen Overdracht en Spreekgemak. Er is dus reden om de stelling dat oordelen over prestaties op verschillende communicatieve taken meestal laag correleren, te nuanceren. Deze stelling lijkt vooral op te gaan voor de beoordeling van de referentiële functies van gesproken en geschreven taal. Voor de andere hoofdfuncties die in deze studie onderscheiden zijn, geldt dat er een matige (Overdracht en Spreekgemak) tot sterke (Verstaanbaarheid) samenhang is in verschillende communicatieve taken. Jury-oordelen over Verstaanbaarheid op de ene taak blijken zelfs systematisch hoger te correleren met die op een andere taak dan met enig ander oordeel op dezelfde taak (Van Gelderen, 1987a). Dit betekent dat taakspecifieke factoren op de beoordeling van Verstaanbaarheid minder van invloed zijn dan taakoverstijgende factoren. De verklaring voor de taakspecifieke yariantie in de prestaties op communicatieve taken zal dus in de eerste plaats gezocht moeten worden in parameters die aan het onderwerp van communicatie gerelateerd zijn: kennis van het onderwerp (S2 en L2), complexiteit van structuur, emotionele lading, benodigde voorbereiding en thematische vrijheid (01-04)(zie tabel 1 in § 2.2.2). Het is aannemelijk dat vooral variatie tussen spreektaken op één of meer van deze parameters, tot gevolg heeft dat dezelfde sprekers prestaties leveren van een nogal wisselende referentiële kwaliteit. Variatie in voorkennis bij spreker en/of luisteraar kan ongetwijfeld variatie tot gevolg hebben in de mate waarin een spreker begrijpelijke en volledige informatie geeft, onafhankelijk van zijn of haar spreekvaardigheid. Aangezien er grote verschillen kunnen bestaan tussen de geïnformeerdheid van sprekers en luisteraars in verschillende communicatieve situaties, is dit een zeer plausibele bron voor taakspecifieke variantie. Ook verschillen in gevoeligheid, complexiteit en vastomlijndheid van de onderwerpen die in taken besproken worden kunnen tot zulke wisselende prestaties leiden. Het zal duidelijk zijn dat systematisch onderzoek naar de invloed van dergelijke parameters op de gemeten vaardigheden een hoge prioriteit heeft. De taakselectie in peilingsonderzoek bepaalt immers voor een belangrijk deel de uitkomsten, niet alleen qua rangschikking van de individuele leerlingen, maar dók qua landelijk gemiddelde! Naarmate de resultaten voor een bepaalde set taken meer te verklaren zijn vanuit taakspecifieke moeilijkheden, des te minder zijn zij bruikbaar om uitspraken te doen over het (individuele of gemiddelde) spreekvaardigheidsniveau. -
198
Beperkingen van de studies
In de volgende paragraaf zal een suggestie gegeven worden voor de richting waarin vervolgonderzoek zich kan bewegen.
13.3,2 Een suggestie voor vervolgonderzoek Een zinvol uitgangspunt voor het onderzoek naar taakvaliditeit is een taxonomie van taken, waarin de relevante parameters van communicatieve situaties worden gedefinieerd (zie § 2.2.2). Zo een taxonomie verschaft een overzicht van de variabelen die mogelijkerwijs invloed hebben op de effectiviteit van de gesproken communicatie. Op grond van dit overzicht kan goed bepaald worden welke parameters in een concreet experiment gefixeerd moeten worden en welke niet. Dat is een belangrijke voorwaarde voor de constructie van taken als simulaties van realistische situaties. Het zal in ieder geval duidelijk zijn dat het niet-fixeren van parameters (bijvoorbeeld de voorkennis over het onderwerp waarover spreker en luisteraar beschikken, of de mate waarin spreker en luisteraar elkaar kennen) zonder dat dit in het onderzoeksontwerp verantwoord is, noodzakelijkerwijs leidt tot ongewenste interpretatiemogelijkheden van de resultaten. Met andere woorden: het onderzoek naar 'criteriumtaken' voor spreekvaardigheid dient zoveel mogelijk experimenteel van aard te zijn. Taakkenmerken (waarden op de communicatieve parameters) moeten flexibel gemanipuleerd kunnen worden om uitspraken te kunnen doen over hun invloed op de gesproken communicatie. Verder verdient het aanbeveling het onderzoek in eerste instantie te concentreren op de definitie van zogenaamde paralleltaken. Aangezien we erop uit zijn om typen taalgebruikssituaties te definiëren waarvoor criteriumtaken te ontwerpen zijn, is het wenselijk eerst de 'maximum-stabiliteit' van spreekprestaties te bepalen. Stel: we laten sprekers twee maal dezelfde (realistische) taak uitvoeren. Hoe hoog is de correlatie dan tussen deze twee reeksen van prestaties op een identieke taak? Het is niet uitgesloten dat de stabiliteit van deze spreekprestaties nogal tegenvalt; bovendien kan de stabiliteit in verschillende leeftijdsgroepen uiteenlopen. Ook is het van belang te weten op welke beoordelingsdimensies de eventueel aanwezige - instabiliteit van sprekers tot uitdrukking komt, en of er specifieke taaksoorten zijn die in het bijzonder tot instabiel gedrag aanleiding geven. Bovendien geeft een dergelijke stabiliteitsindex een soort bovengrens voor de verwachte correlaties tussen prestaties op taken die op één of meer parameters wezenlijk verschillen. Parallelle taken kan men zich in concreto als volgt voorstellen. Twee taken zijn als parallel te beschouwen wanneer alle parameters op dezelfde waarde gefixeerd zijn. Eén en ander hangt dus af van het aantal parameters dat men relevant acht voor de spreekvaardigheid en van de verfijndheid van de schalen waarop de parameters kunnen variëren. In de praktijk zal men echter vrijwel alle parameters op een identieke wijze moeten fixeren om twee taken op een overtuigende wijze parallel te laten zijn. Zo zal een parallelle taak voor onze taak 2 (het telefonisch melden van een ongeval aan de politie) een taak 2' zijn (het telefonisch melden
199
van een ander - maar inhoudelijk identiek gestructureerd - ongeval aan de politie), In dit voorbeeld zullen ook alle andere parameters voor de spreker, de luisteraar, hun relatie en het onderwerp identiek zijn. In een experimenteel ontwerp kunnen nu prestaties op parallelle taken vergeleken worden met prestaties op taken waarin de waarden op één parameter gevarieerd zijn. Voor de taken (zeg A, B en C) worden bijvoorbeeld drie verschillende hoofddoelen van de spreker gedefinieerd (amuseren, overtuigen en uitleggen). Om de andere parameters zo goed mogelijk te fixeren zal het gewenst zijn in de drie taken hetzelfde onderwerp vast te stellen (bijvoorbeeld: wat konijnen zulke leuke huisdieren maakt). Met enige creativiteit is het mogelijk om dit onderwerp inhoudelijk zo te structureren dat alle drie de hoofddoelen met vrijwel dezelfde inhoudelijke structuur (alsook emotionele lading, benodigde voorbereidingen, thematische vrijheid) gerealiseerd kunnen worden. De overige parameters (die voor de luisteraar en de relatie tussen spreker en luisteraar) zijn met weinig moeite eveneens te fixeren. Voor elk van de .taken A, B en-C worden vervolgens parallelle taken (A', B' en C') ontworpen, waarin alle parameterwaarden gefixeerd zijn en waarin het onderwerp - konijnen - vervangen is door een inhoudelijk identiek te structureren onderwerp: cavia's, muizen, hamsters. Uiteraard zal men in dit ontwerp en in de analyse van de resultaten rekening moeten houden met mogelijke leereffecten - met name bij de afname van de parallelversie van elke taak - die invloed kunnen hebben op de gevonden stabiliteit van de prestaties. De gegevens die zulke experimenten opleveren over de invloed van taakparameters op de spreekvaardigheid zullen echter hoe dan ook mét of zonder leereffecten - van grote waarde zijn voor de theorievorming over spreekvaardigheid en voor de vaststelling van 'typen' taalgebruikssituaties die voor de evaluatie van spreekvaardigheid van belang zijn. Het functionele beoordelingsschema dat hier is ontwikkeld en beproefd, is voor het boven bedoelde, experimentele onderzoek naar taakparameters, een nuttig instrument. Doordat de relatie tussen taakspecifieke eisen en meer algemene beoordelingsdimensies theoretisch verantwoord is, en voor enkele concrete spreektaken ook empirisch is gevalideerd, biedt het schema de mogelijkheid communicatieve functies over zeer verschillende taalgebruikssituaties eenduidig te definiëren. De referentiële (representationele) waarde van spraak blijft zo onderscheiden van de expressieve en de appelatieve waarde, alsmede van de meer spraaktechnische functies als vlotheid en vloeiendheid en de decodeerbaarheid van de lexemen, onafhankelijk van de specifieke waarden voor de taak-parameters die men wenst in te vullen. :
200
lloofdsta
pe gsonde 2ze&=: plicaties en de onde ijspraktijk -
-
Samenvatting Dit hoofdstuk geeft een indruk van de toepassingsmogelijkheden van de gerapporteerde studies in de context van grootschalig peilingsonderzoek en bij de beoordeling van spreekvaardigheid in het basis- en voortgezet onderwijs. Er wordt ingegaan op de mogelijkheid om het beoordelingsschema te gebruiken voor een gedifferentieerde evaluatie van het landelijke niveau van spreekvaardigheid van leerlingen in basis- en voortgezet onderwijs en op de voordelen in vergelijking met een onlangs gebruikte beoordelingsmethodiek voor peilingsonderzoek. Vervolgens wordt beschreven op welke wijze het beoordelingsschema kan worden gebruikt in het onderwijs. Hierbij wordt nadruk gelegd op de diagnostische mogelijkheden die het schema biedt en op de praktische consequenties van het (leren) omgaan met het schema voor de leraar en de leerlingen.
14.1 Bruikbaarheid van het beoordelingsschema in peilingsonderzoek Zoals vermeld in hoofdstuk 1, is de landelijke peiling van taalvaardigheden van leerlingen in basis- en voortgezet onderwijs de belangrijkste achtergrond van de gerapporteerde studies. Het ligt dus voor de hand aandacht te besteden aan de bijdrage die de studies aan het peilingsonderzoek hebben geleverd. Wat kunnen we zeggen over de bruikbaarheid van het ontwikkelde beoordelingsschema en welke voordelen heeft het boven andere gebruikte methoden voor beoordeling van spreekvaardigheid? Deze twee vragen zullen hier achtereenvolgens behandeld worden. Bruikbaarheid van het schema Bij de ontwikkeling en beproeving van het schema is aan de efficiëntie bijzondere aandacht besteed (zie § 1.3 en § 4.2.1). Gezien het grootschalige karakter van peilingsonderzoek en het feit dat voor beoordeling een zekere expertise (en 201
geoefendheid) nodig is, is het van belang om een beoordelingsprocedure ontwikkelen die zo eenvoudig mogelijk is, zo min mogelijk tijd van beoordelaars vergt en toch zoveel mogelijk informatie verschaft over de prestaties van de leerlingen. Op deze punten heeft het beoordelingsonderzoek (hoofdstukken 4 en 5) laten zien dat het schema goede diensten bewijst. In de eerste plaats blijkt het mogelijk om voor elk van de beoordelingsdimensies (Referentie, Overdracht, Spreekgemak en Verstaanbaarheid) relevante beoordelingscategorieën te formuleren. Deze categorieën specificeren per taak de criteria voor beoordeling en de gedragsaspecten waarop die criteria van toepassing zijn. In de tweede plaats blijken getrainde beoordelaars (ex-leerkrachten basisonderwijs) in bevredigende mate met elkaar overeen te stemmen bij het beoordelen van spreekprestaties van leerlingen op vier verschillende spreektaken (voor drie van de vier taken waren de leerlingen afkomstig uit een landelijk representatieve steekproef). Ook. blijken de beoordeleraars stabiel te zijn, wanneer zij enige tijd later (twee maanden) een herbeoordeling geven. Ten derde is het mogelijk om elke beoordelingsdimensie te representeren door één beoordelingscategorie, zodat het in principe voldoende is om per prestatie - in één of twee beluisteringsronden - vier oordelen te geven. Hierbij wordt uitgegaan van. een simultane beoordelingsprocedure, *vaarbij elke beoordelaar vrij is de volgorde te bepalen waarin elke categorie beoordeeld wordt (zie hoofdstuk 4). Ten vierde zijn (jury-)oordelen over de vier dimensies, alhoewel soms sterk gecorreleerd, meettechnisch onderscheiden. Ten vijfde is er voor elk van de vier dimensies evidentie dat de oordelen specifieke informatie geven over de gedragsaspecten uit hun definitie. Referentie-oordelen blijken in het bijzonder informatie te geven over het aantal genoemde belangrijke inhoudselementen voor een bepaalde taak. Overdrachtsoordelen geven in het bijzonder informatie over de passendheid van het register en het gebruik van fonetische middelen voor expressie en appèl, gegeven de specifieke voorwaarden van narratieve communicatie. Spreekgemaksoordelen drukken uit of de sprekers vlot formuleren, maar blijken ook samen te hangen met aspecten van Overdracht. Verstaanbaarheidsoordelen zijn meer dan de andere oordelen gerelateerd aan het aantal moeilijk verstaanbare uitingen. Bovendien blijken Verstaanbaarheidsoordelen tamelijk stabiele kenmerken van spreekvaardigheid uit te drukken, gezien hun relatief hoge correlatie tussen prestaties op verschillende taken (zie § 13.3.1). Ook de toepasbaarheid voor verschillende soorten spreektaken was een belangrijk aandachtspunt bij de beproeving van het beoordelingsschema. Het zal duidelijk zijn dat een peiling van spreekvaardigheid aan validiteit wint, naarmate deze berust op een grotere diversiteit van situaties waarin de vaardigheid op de proef gesteld wordt (zie § 13.3). Laten we een blik werpen op het toetsdomein voor spreekvaardigheid voor de komende peiling in het basisonderwijs (Sijtstra & Van den Bosch, 1991). Hierin zijn drie soorten taken opgenomen, te weten 'informerende' (rapporteren en beschouwen), 'regulerende' (instrueren en argumenteren) en 'verhalende'. Zowel de 'informerende' als de 'verhalende' taken worden als monologische situaties vormgegeven (vergelijk onze taken 1, 3 en 4), terwijl de 'regulerende' taken vormgegeven worden als een dialoogsituatie met de proefleider in de rol van 'gestandaardiseerde' interactiepartner (vergelijk onze taak
202
De implicaties voor peilingsonderzoek en de onderwijspraktijk
2). Weliswaar is niet duidelijk hoc de uiteindelijke vorm van de taken zal zijn en met name hoe de diverse andere taakparameters worden ingevuld (zie § 2.2.2), maar we kunnen toch vaststellen dat er een sterke overeenkomst is tussen dc taken in ons onderzoek en die voor toekomstig peilingsonderzoek. Dat het beoordelingsschema voor deze taken goed bruikbaar is, hoeft dus nauwelijks betwijfeld te worden. Toch moet bedacht worden dat het toetsdomein voor de peiling in het basisonderwijs een zekere eenzijdigheid kent, evenals overigens de taakselectie in ons onderzoek. Uitgaande van zelfs dc meest primitieve taxonomie van relevante situaties voor spreekvaardigheid is het zonneklaar dat een beperking tot monologische taken en gesimuleerde dialogen onvoldoende recht doet aan het domein. Het gebruik van gesproken taal voor het bereiken van gemeenschappelijke doelen in samenwerking tussen twee (of meer) interactiepartners (probleem-oplossen, plannen maken, argumenten uitwisselen, kennis vergroten, conversatie etcetera), verdient minstens zoveel aandacht (Clark & Wilkes-Gibbs, 1986). Voor dergelijke interacties is het onvoldoende alleen één van de interactiepartners te beoordelen. Het duo (of trio) is hier een samenwerkende eenheid en zal dus ook als zodanig beoordeeld moeten worden. Onderzoek naar de geëigende beoordelingsmethodiek voor dit soort situaties is nog nauwelijks uitgevoerd en zal in de toekomst zeker meer prioriteit verdienen (vgl. Wesdorp, 1981; Van Bezooijen, 1979; Rijlaarsdam, 1982). In de peilingen van spreekvaardigheid in het Verenigd Koninkrijk zijn dergelijke beoordelingen van tweetallen in interactie overigens wel gebruikt (Gorman, MacLure, Hargreaves e.a., 1982; MacLure & Hargreaves, 1986) 39 .
Voordelen van het schema In algemene zin kunnen twee soorten voordelen van het beoordelingsschema in vergelijking met de tot nu toe gebruikte methodiek in het peilingsonderzoek genoemd worden. Het eerste voordeel is het feit dat relatief veel validiteitsgegevens over de oordeelsdimensies bekend zijn, zodat nauwkeuriger kan worden aangegeven wat precies bij elke dimensie relevant is voor beoordeling. Het tweede soort voordeel is de relatieve eenvoud van het instrument: in principe is het voldoende per prestatie vier oordelen te geven. Zowel vanuit het oogpunt van de cognitieve belasting van beoordelaars (zie § 4.5) en de daarmee samenhangende validiteit van de oordelen, als vanuit het oogpunt van kostenbeheersing is dit een erg wenselijke versimpeling van de beoordelingsprocedure. Ter vergelijking zal ik hieronder een indruk geven van het beoordelingsschema dat in de laatste peiling van spreekvaardigheid voor het basisonderwijs is gebruikt (Zwarts & Rijlaarsdam, 1991) en dat grotendeels opnieuw zal worden gebruikt in de komende peiling (Sijtstra & Van den Bosch, 1991).
39 In de peiling van 1988 was overigens in één (van de 21) spreektaken sprake van een vrije interactie. Helaas betreft het hier een 'geheime' taak, waarover ik dus geen gegevens heb.
203
Tabel 33: Het beoordelingsschema voor de peiling van spreekvaardigheid einde basisonderwijs 1988 (vrij naar Zwarts & Rijlaarsdam, 1991)
1. Communicatieve effectiviteit
(globaal oordeel) waaronder: inhoudselementen, structuur en
formulering (beoordeling op vierpunts-schaal) (beoordeling op 3-puntsschaal van de volgorde van de inhoudselementen) 4. Interactievaardigheden (beoordeling op 2-, 3- en 4-puntsschalen) inhoudelijk (doel/contextualisatie, verduidelijkingen, checken van eigen en andermans begrip, inhoudelijk aansluiten) interactief (initiatief, gedragsconventies, kanaalspecifiek gedrag, luistersignalen, beurtwisselingen) 5. Formuleervaardighetlen-(beoordeling op 5-puntsschalen) - grammaticale aanvaardbaarheid (weinig hinderlijke syntactische fouten) - efficiëntie (bondigel'zakelijke formulering) vlotheid (gemak van zinsvorming en woordvinding) passendheid (regitteradequaatheid) verwijzingen (duidelijke referenten van verwijswoorden) trefzekere woordkeus/kwaliteit idioom 6. Spreektechniek (beoordeling op 5-puntsschalen) volume tempo intonatie articulatie geleding (grensmarkering) 2. Inhoudselementen 3. Structuur
In tabel 33 wordt een overzicht gegeven van de onderscheiden beoordelingscategorieën voor de peiling uit 1988. Inspectie van deze categorieën maakt duidelijk dat hierin tamelijk gedetailleerde gedragsaspecten aan de orde komen. Er is een duidelijke overeenkomst met de in paragraaf 3.2.1 genoemde analytische schema's die een diagnostisch doel nastreven (zie tabel 2). Het is zeker te prijzen dat bij een grootschalig onderzoek" gestreefd is naar een zo gedifferentieerde evaluatie van spreekvaardigheid. In principe is het mogelijk op deze wijze zeer gedetailleerde informatie over allerlei relevante aspecten van de vaardigheid te verzamelen en te rapporteren. Als we dit vergelijken met de beoordeling van spreekprestaties uit de Voorstudie PPON (zie § 1.2.2) dan is dit een duidelijke vooruitgang. De problemen die in de paragrafen 3.2.1 en 4.2.1 genoemd zijn in verband met gedetailleerde, diagnostische beoordeling zijn echter ook hier van toepassing. In het streven naar een zo volledig mogelijke dekking van alle relevante aspecten ontstaat het gevaar van conceptuele overlap. Bovendien zijn er gegronde redenen om te twijfelen aan de onderscheidbaarheid van alle afzonderlijke aspecten door beoordelaars (vgl. § 13.2.3; Wesdorp, 1981 p. 226; Hitchman, 1965, p. 70). Dat conceptuele overlap optreedt is overigens direct aantoonbaar aan de hand van tabel 33. Het globale oordeel over communicatieve effectiviteit omvat allerlei aspecten van de inhoud (2), de structuur (3), de interactievaardigheden (4) en de formuleervaardigheden (5). Ook aspecten van de spreektechniek (6) worden
40 De beoordeling van fonnuleervaardigheid en spreektechniek is bijvoorbeeld verricht voor 390 prestaties op drie taken.
204
De implicaties voor peilingsonderzoek en de onderwijspraktijk
beoordeeld op criteria die aan communicatieve effectiviteit ontleend worden. (Rijlaarsdam, mondelinge communicatie). Ook andere beoordelingscategorieën vertonen expliciete overlap, zoals die voor vlotheid en die voor tempo en geleding, of de oordelen over 'efficiëntie' en die over 'trefzekere woordkeus'. De resultaten van ons onderzoek hebben overigens duidelijk gemaakt dat de zogenaamde spraaktechnische aspecten (intonatie, tempo, articulatie etcetera) niet los staan van referentiële, interactieve en formuleertechnische functies die sprekers vervullen. Het ligt dan ook voor de hand deze aspecten niet apart te beoordelen, maar in relatie met andere aspecten die voor de betreffende functies relevant zijn. Uit de rapportage van de resultaten van de peiling van spreekvaardigheid met behulp van het schema uit tabel 33 blijkt nu, dat het kennelijk helemaal niet de bedoeling was om zulke gedifferentieerde informatie te verkrijgen over de spreekvaardigheid als het schema suggereert (Zwarts, 1990). Verreweg de meeste aandacht gaat uit naar de scores op communicatieve effectiviteit (het globale oordeel). In enkele zeer summiere paragrafen wordt het publiek geïnformeerd over de beoordeling van interactievaardigheid, formuleervaardigheid en spreektechniek. Niet - zoals men wellicht zou hopen - op het niveau van de afzonderlijk beoordeelde aspecten, maar op het niveau van sornscores. Zo moeten we het doen met overzichten van de scoreverdelingen over vier 'niveaus van interactievaardigheid': zeer zwak, zwak, gemiddeld en goed. Ook zal duidelijk zijn dat een uitspraak als ., de spreektechniek van leerlingen aan het eind van de basisschool, zoals dat met dit instrument wordt gemeten, (is) kennelijk voldoende" (Zwarts, o.c., p. 123) ons in diagnostisch opzicht niet verder helpt. Wat wordt hier bedoeld met een 'voldoende' spreektechniek, waartoe was die •voldoende en naar welke aspecten van de spraak verwijst dat precies? Het zal duidelijk zijn dat er een kloof gaapt tussen enerzijds het zeer gedetailleerde niveau van beoordelen, en het genuanceerde onderscheidingsvermogen dat van de beoordelaars gevergd wordt, en anderzijds het zeer globale niveau van informatie dat kennelijk resulteert. Naar mijn mening biedt het (functionele) beoordelingsschema dat in het onderhavige onderzoek is ontwikkeld een goede mogelijkheid om deze kloof te dichten. Er wordt van beoordelaars veel minder gevergd en de methode zal, althans vanuit het criterium van communicatieve effectiviteit, een gedifferentieerdere rapportage mogelijk maken. Bovendien zijn voor de vier beoordelingsdimensies diverse validiteitsgegevens verkregen, die voor de oordelen over de aspecten uit het schema van tabel 33 niet beschikbaar zijn. Dit maakt de instructie voor de beoordelaars, en de aanpassing van die instructie aan de omstandigheden in specifieke taken, minder problematisch dan bij enkele van de beoordelingscategorieën in de tabel (bijv. structuur, interactievaardigheden, grammaticale en idiomatische aanvaardbaarheid, efficiëntie en de afzonderlijke 'spraaktechnische' categorieën).
205
Enkele aanbevelingen Op grond van bovenstaande overwegingen zijn enkele aanbevelingen te geven voor de beoordeling van spreekprestaties in toekomstig peilingsonderzoek. Aangezien één van de doelen van dit onderzoek is periodieke vergelijkingen te maken tussen de (elke vijf jaar te verrichten) peilingen, is het niet raadzaam om het reeds gebruikte beoordelingsschema voor spreekvaardigheid zonder meer te vervangen door een ander schema. Er zijn ook diverse punten van overeenkomst te noemen tussen de hier vergeleken schema's, waardoor het in principe mogelijk wordt vast te stellen welke delen van het ene vervangen kunnen worden door delen van het andere. Beide schema's nemen immers communicatieve effectiviteit als overkoepelend beoordelingscriterium en er is een grote overeenkomst tussen de beoordeelde gedragsaspecten, zoals inhoudselementen, structuur, woordkeus, zinsbouw, stilistische en spraaktechnische aspecten. De verschillen bevinden zich vooral op het 'intermediaire' niveau van de schema's: welke aspecten en criteria horen onder één 'dimensie' en hoe moet men die dimensies aanduiden (als afzonderlijke vaardigheden, zoals in het PPON-schema of als communicatieve functies zoals in het functionele schema)? Om op deze kwesties meer licht te werpen zal het nodig zijn de prestaties die met het PPON-schema beoordeeld zijn te herbeoordelen met het functionele schema. Door een analyse van de correlaties tussen de oordelen uit beide schema's zal het mogelijk worden te bepalen of één van beide schema's een duidelijke informatieve meerwaarde voor de evaluatie heeft en welke oordelen in feite dezelfde informatie verschaffen. Tevens zal geanalyseerd moeten worden in hoeverre de gesuggereerde factoriële structuur van de beoordelingsschalen in tabel 33 ook stand houdt in een toetsende factoranalyse, op een vergelijkbare wijze als in de hoofdstukken 4 en 5 voor het functionele schema is gedaan. Een bijkomend voordeel van een herbeoordeling van de prestaties uit de peiling van 1988 met het functionele schema is dat hiermee mogelijkheden geschapen worden om in de toekomst (delen van) dat schema over te nemen. Wanneer duidelijkheid bestaat over de mate waarin beide schema's dezelfde informatie verschaffen, zal het slechts een kwestie van ijking en schaalaanpassing zijn om vergelijkingen tussen peilingsresultaten in verschillende jaren te kunnen uitvoeren en toch verder te kunnen gaan met een sterk versimpeld schema. De resultaten van mijn onderzoek en van ander onderzoek naar de beoordeling van spreekvaardigheid (zie hoofdstuk 3) geven in ieder geval ruimschoots steun voor het vermoeden dat zo een versimpeling mogelijk is zonder noemenswaardig verlies aan validiteit. Categorieën uit het PPON-schema die in het functionele schema niet voorkomen verdienen aparte aandacht. De globale beoordeling van communicatieve effectiviteit dient waarschijnlijk vooral het rapportagegemak. Vooralsnog lijkt dat zeker nuttig, maar er zijn enkele indicaties dat deze globale oordelen onevenredig beïnvloed worden door inhoudelijke (referentiële) kwesties (Zwarts & Rijlaarsdam, 1991; Van Gelderen, 1987a) en dus ten onrechte beschouwd worden als algemene evaluaties waarin alle aspecten gelijkelijk gewogen zijn. Interactievaardigheden komen als zodanig in het functionele schema niet voor. Voor de soorten taken die in het huidige onderzoek zijn meegenomen was de
206
De implicaties voor peilingsonderzoek en de onderwijspraktijk
beoordeling van de meeste aspecten van deze vaardigheden, zoals in tabel 33 opgesomd, ook niet van toepassing. Al eerder is gewezen op het nagenoeg ontbreken van taken in de peiling waarin vrije interactie tussen duo's of trio's plaats vindt. Juist in dergelijke situaties is de beoordeling van interactievaardigheden relevant en het verdient aanbeveling om dat deel van het PPON-schema dan ook in samenhang met dergelijke spreektaken verder te ontwikkelen en te gebruiken. Wat de beoordeling van grammaticale aanvaardbaarheid en de kwaliteit van het idioom betreft, is eerder gewezen op een conceptueel probleem (zie § 3.2.3). Wordt de correctheid van het taalgebruik als doel-op-zich beoordeeld, of gaat het om een beoordeling vanuit communicatieve effectiviteit? In het eerste geval stel ik voor dat de beoordeling geschiedt bij spreektaken, waarin niet de nabootsing van een communicatieve situatie nagestreefd wordt, maar deelvaardigheidstoetsing (zie § 1.1). In het tweede geval dient de spreeksituatie zo gedefinieerd te zijn dat correct taalgebruik ook van communicatief belang is (foiniele communicatie, waarin aan het gebruik van de standaard taal een bijzonder gewicht wordt toege-kend en/of waarin het gebruik van spreektaalconstructies minder gewenst is). In dergelijke gevallen lijkt een aparte beoordeling op correctheidscriteria pas goed verdedigbaar op communicatieve (Overdrachts-)gronden.
14.2 De bruikbaarheid van het schema voor het onderwijs Spreekvaardigheid en spreekvaardigheidsbeoordeling blijken in de praktijk van het basis- en voortgezet onderwijs een uiterst bescheiden rol te spelen. Dit beeld komt naar voren in onderzoek naar de tijdsbesteding aan diverse onderdelen van het curriculum Nederlands (Kuhlemeier & Van den Bergh, 1989; Zwarts, 1990; Van ,der Geest, Braet & Oostdam, 1988) en in onderzoek naar de inhoud van schoolboeken (Janssen & Triesscheijn, 1990; Boland & Slijpen, 1991). Van verschillende kanten wordt erop gewezen dat deze geringe aandacht voor spreekvaardigheid niet valt te verantwoorden in het licht van het maatschappelijke belang dat met de ontwikkeling van spreekvaardigheid gemoeid is. In allerlei naschoolse situaties blijken leerlingen problemen te ervaren bij de gesproken communicatie (Blok & De Glopper, 1983) en naar de mening van verschillende groepen deskundigen hoort spreekvaardigheid tot dc belangrijke doelstellingen van het onderwijs Nederlands (De Glopper & Van Schooten, 1990). Het is dus niet verwonderlijk dat er de laatste tijd steeds vaker wordt aangedrongen op meer en - vooral - systematischer aandacht voor spreekvaardigheid in het onderwijs Nederlands. Eén van de centrale obstakels hierbij is het ontbreken van een beoordelingssystematiek die op specifieke leerdoelen voor de gesproken communicatie is afgestemd. De Commissie Vernieuwing Eindexamens Nederlands (CVEN, 1991) zag zich door dit tekort zelfs genoodzaakt om in haar advies de toetsing van de mondelinge taalvaardigheid in het schoolonderzoek niet verplicht te stellen (o.c., p. 94 en p. 106).
207
Het zal duidelijk zijn dat het beoordelingsschema dat in ons onderzoek ontwikkeld is, in eerste instantie niet bedoeld was voor gebruik in het onderwijs, maar in grootschalig evaluatie-onderzoek. Er zijn enkele verschillen in de eisen die men aan een beoordelingsinstrument moet stellen in deze gebruikscontexten. Zo is de meettechnische onderscheidbaarheid van de beoordelingsdimensies voor grootschalige evaluatie een belangrijke eis. In de onderwijscontext echter, moeten beoordelingsinstrumenten een veel 'localere' functie vervullen. Ze moeten bijvoorbeeld aansluiten op het gegeven onderwijs (curriculumvaliditeit), ze moeten relevant zijn voor de specifieke moeilijkheden die de leerlingen ondervinden en ze moeten informatie verschaffen over expliciete en remedieerbare aspecten van het gedrag van de leerlingen (diagnostische functie). In hoeverre ons schema al deze functies naar tevredenheid kan vervullen kunnen we (nog) niet vaststellen. Wel kunnen we ingaan op de mogelijkheden die het schema biedt voor één van die functies, te weten de diagnostische. Deze functie heeft, althans op globaal niveau, in ons onderzoek bijzondere aandacht gekregen. In feite is het onderzoek dat in deel III gerapporteerd is, voornamelijk gericht geweest op het vaststellen van de specifieke informatiewaarde van oordelen over de vier dimensies van het schema. Aangezien we daarover enige kennis hebben verkregen,,is het de moeite waard na te gaan hoe die kennis aangewend kan worden voor het beoordelen van spreekvaardigheid in de onderwijscontext. Het is nuttig eerst de beperkingen van het schema te memoreren. Het is gericht op de beoordeling van het gedrag van individuele sprekers met het oog op een evaluatie van hun communicatieve effectiviteit. In situaties waarin verschillende sprekers in samenwerking een bepaald doel nastreven (zoals in sommige soorten discussies en in probleem-oplossingsgesprekken) is het schema niet (of slechts ten dele) van toepassing. Evenmin bevat het schema beoordelingscriteria voor beurtwisselingsgedrag (in dialogen en polylogen) en voor correctheid (of standaardtaligheid) van het taalgebruik. Kortom: het schema is vooral bedoeld voor de beoordeling van monologische 'beurten' met een zekere interne samenhang en een duidelijk begin en eind, gericht op een definieerbaar communicatief doel. Binnen deze beperkingen is het schema in principe toepasbaar op een grote verscheidenheid van (gesimuleerde) taalgebruikssituaties, zoals het vertellen van verhalen, het geven van een referaat of voordracht voor de klas, het geven van een instructie of uiteenzetting, het houden van een betoog, het verzoeken om informatie, het doen van een zakelijke mededeling, of het geven van een - gestructureerde - bijdrage aan een discussie of dialoog. Dit soort taken hebben in het spreekvaardigheidscurriculum voor basis- en voortgezet onderwijs ongetwijfeld een vrij prominente plaats (zie Van der Geest e.a., 1988; Bos & Oostdam, 1985; Kuhlemeier & Van den Bergh, 1989). De relevantie van ons schema hoeft dus niet omstandig beargumenteerd te worden. Inhoudelijk lijkt het schema bovendien niet zoveel af te wijken van wat leerkrachten in het basisonderwijs al gewoon zijn te doen, afgaande op de gegevens uit de taalpeiling 1988. Hieruit blijkt dat bij de beoordeling van spreekopdrachten aandacht wordt besteed aan presentatie, stijl, inhoud en opbouw (Zwarts, 1990, p. 109). We kunnen dus stellen dat de beoordeling van Overdracht en Referentie wat
208
De implicaties voor peilingsonderzoek en de onderwijspraktijk
deze leerkrachten betreft, geen schokkende verandering zal zijn. Ook voor de leerkrachten in de eerste fase van het voortgezet onderwijs (basisvorming) is er waarschijnlijk inhoudelijk niet veel nieuws onder de zon. In Kuhlemeier en Van den Bergh (o.c. p. 259) wordt een overzicht gegeven van de aandachtspunten die docenten naar eigen zeggen hanteren bij de beoordeling van de spreekvaardigheid. De vier meest voorkomende zijn organisatie, taalgebruik, overdracht (!) en verstaanbaarheid (!) Wel moet bedacht worden dat de terminologie niet van de leerkrachten zelf afkomstig was, maar van de onderzoekers, zodat we uit de overeenkomst met de naamgeving van de dimensies uit ons schema geen vergaande conclusies kunnen trekken. Overigens zou het misleidend zijn uit deze gegevens te concluderen dat toepassing van het ontwikkelde beoordelingsschema in feite al gebeurt en dat leraren maar gewoon door moeten gaan met wat ze al doen. Er zijn duidelijke aanwijzingen dat de bovengenoemde aandachtspunten in de onderwijspraktijk op een geheel andere wijze in de beoordeling betrokken worden dan in ons onderzoek is gedaan. Uit het onderzoek van Kuhlemeier en Van den Bergh (o.c. p. 258259) blijkt bijvoorbeeld dat de zogenaamde globale beoordeling (waarin alle criteria gezamenlijk zijn betrokken) de populairste vorm is in de eerste fase van het voortgezet onderwijs. Beoordeling op een aantal vastgestelde criteria (zoals bij ons schema) komt naar zeggen van de geënquêteerde docenten soms voor, en het gebruik van gestructureerde spreekopdrachten (zoals bij onze geïntegreerde taken) met scoringsvoorschriften komt vrijwel nooit voor. Het feit dat de dimensies voor beoordeling (Referentie, Overdracht, Spreekgemak en Verstaanbaarheid) goed bekend zijn, betekent dus nog niet dat deze ook expliciet en afzonderlijk worden toegepast en evenmin dat zij aangepast worden aan de bijzondere eisen van (gesimuleerde) taalgebruikssituaties. Daarom ligt het voor de hand op enkele voordelen van zo een gebruik van het beoordelingsschema te wijzen en in te gaan op de praktische consequenties voor de leraar en de leerlingen.
14.2.1 Enkele voordelen Het zal duidelijk zijn dat loepassing van een functioneel beoordelingsschema waarin per taaksoort of type spreekopdracht vier beoordelingscriteria worden gespecificeerd en beoordeeld, een minder efficiënte procedure is dan een globale beoordeling voor alle criteria tezamen. Deze laatste is immers altijd toepasbaar, hoeft niet van te voren in afzonderlijke criteria te worden gespecificeerd en past bovendien goed in de schoolse traditie van cijfergeving. Naar mijn mening wegen de voordelen van het schema hier echter ruimschoots tegenop. Ik zal deze voordelen hieronder de revue laten passeren. In de eerste plaats blijft bij afzonderlijke beoordeling van de dimensies de informatie over de onderscheiden aspecten van de spreekprestaties van leerlingen langere tijd behouden. Voor de leerkracht heeft dit het voordeel dat deze informatie gebruikt kan worden om per leerling te bepalen welke specifieke aspecten
209
verbetering behoeven en aan welke aspecten minder aandacht besteed hoeft te worden. In de tweede plaats vereist afzonderlijke beoordeling een veel explicietere definitie van de beoordelingscriteria dan globale beoordeling. Als gevolg hiervan zal het voor de leraar mogelijk worden het oordeel concreet te onderbouwen, waardoor de leerlingen meer informatie krijgen over de specifieke moeilijkheden verbonden aan een bepaalde spreeksituatie. Welke taakspecifieke en welke algemene aspecten van spreekvaardigheid zijn in de beoordeling tot uitdrukking gekomen? Een derde voordeel staat in verband met de taakselectie voor het onderwijs. Zoals de beproeving van het schema in dit onderzoek ons geleerd heeft, verschillen de criteria die eruit afgeleid worden van taak tot taak. Een verdere bewustwording van deze taakspecificiteit zal ertoe leiden dat men in het leerplan meer aandacht besteedt aan <een gemotiveerde selectie van spreektaken voor systematisch spreekvaardigheiclsonderwijs (vgl. Van der Geest e.a., o.c.; Kuhlemeier & Van den Bergh, o.c.). Een vierde voordeel van het schema is de mogelijkheid de oordeelscategorieën niet alleen door de leraar, maar ook door de leerlingen zelf te laten toepassen. Wanneer de leraar de.meest relevante criteria voor de vier dimensies in een specifieke taak heeft geformuleerd, lijkt dit een zeer zinvolle didactische werkvorm. Er ontstaat gelegenheid tot reflectie op het luister- en spreekgedrag, en de afwisseling tussen enerzijds de rol van (beoordeelde) spreker en anderzijds (beoordelende) luisteraar is een goed middel om leerlingen bewuster te maken van de afhankelijkheid die tussen deze rollen bestaat.
14.2.2 Praktische consequenties Het toepassen van het schema in de lespraktijk vereist uiteraard - vooral in de aanloopfase - een zekere tijdsinvestering van de leraar. Allereerst moet ervaring worden, opgedaan in het onderscheiden van de vier dimensies bij de beoordeling van spreekprestaties op verschillende taken. Vervolgens moeten beoordelingsschalen geselecteerd of ontworpen worden (eveneens voor verschillende taken). En tenslotte moet geoefend worden in het gebruik van die schalen bij de beoordeling. Bij elke nieuwe taak zal het bovendien nodig zijn na te gaan of de ontworpen schalen ook werkelijk relevante criteria voor de beoordeling bevatten. Met name voor de dimensies Referentie en Overdracht zal zo nu en dan een schaal aangepast of vervangen moeten worden. Ook zal het wellicht voorkomen dat men voor een dimensie niet één maar meer oordeelscategorieën van onderscheiden belang acht. Een hulpmiddel voor de leraar is tabel 3 (§ 3.3), waarin voor elk van de vier dimensies de voornaamste criteria en bijbehorende aspecten zijn weergegeven. Evenals in het onderzoek zelf is gebeurd, kunnen leraren hieruit voor elke dimensie een keuze maken die voor de beoordeling in een bijzondere situatie het meest relevant lijkt. Voorbeelden van de formulering van schalen zijn te vinden in bijlage 3 (voor de vier taken uit ons onderzoek). Verdere explicitering van de
210
De implicaties voor peilingsonderzoek en de onderwijspraktijk
criteria voor een tiental beoordelingscategorieën bij de vierde taak (het afmaken van een verhaal) is te vinden in bijlage 2. In Van Gelderen en Oostdam (1992) wordt een uitgewerkt voorbeeld gegeven van een aanpassing van het schema aan de didactische werkvorm van het debat (zowel voor de eerste als de tweede fase van het voortgezet onderwijs). Hierin wordt ook geëxpliciteerd om welke reden criteria voor de beoordeling van de argumentatieve uiteenzetting verschillen van die in narratieve of (meer neutrale) informatieve communicatie. Overigens blijkt uit zo een uitwerking van een gedetailleerde beoordelingsprocedure dat men vaak niet kan volstaan met het geven van een oordeel over vier of vijf gespecificeerde categorieën. Het is tevens van belang deze oordelen te kunnen relateren aan zo concreet mogelijk gespecificeerde eisen die uit de taak zelf voortvloeien. In het geval van het debat is dit gedemonstreerd aan de zogenaamde standaardgeschilpunten, zoals weergegeven in Braet en Berkenbosch (1989). Het bijhouden van de geschilpunten die in een debat aan de orde komen - met name over de vraag of een bepaald beleid moet worden vervangen door een ander - is een belangrijk -hulpmiddel om oordelen over de inhoudelijke kwaliteit van een discussiebijdrage (Referentie) te kunnen funderen. In andere (gesimuleerde) spreeksituaties in het onderwijs, zoals bijvoorbeeld het houden van een referaat, of het geven van een instructie, zijn eveneens zulke specifieke aandachtspunten voor de beoordeling van Referentie of Overdracht van belang. Men kan hierbij denken aan het gebruik van presentatie-ondersteunende middelen (plaatjes, het gebruik van het schoolbord, zogenaamde hand-outs, demonstratiemateriaal) en de mate waarin deze voor de luisteraar functioneel gemaakt worden, het gebruik van voorbeelden en toelichtingen om de presentatie te verlevendigen en om te controleren of de luisteraar begrijpt wat bedoeld wordt (Overdracht). Ook middelen om de tekst te structureren, zoals een heldere inleiding, het aangeven van het specifieke belang van het onderwerp, het teruggrijpen op eerder genoemde zaken, een consistente terminologie (Referentie) zijn zulke specifieke aandachtspunten die vaak apart bijgehouden moeten worden om de meer algemene beoordeling volgens het schema te kunnen onderbouwen (vgl. Rijlaarsdam & Bronkhorst, 1983). In feite gebruikt men het schema dan alleen als een neerslag van deze (meer gedetailleerde) observaties en wellicht ook om een evenwichtig eindoordeel te kunnen bepalen. Voor het geven van een cijferbeoordeling kunnen de cijfers op de beoordelingsschalen gelijkelijk of met een bepaalde weging gemiddeld worden. Het al dan niet gelijkelijk wegen van de verschillende schalen is afhankelijk van de onderwijsdoelstellingen die men nastreeft en van de specifieke aspecten van een taak waaraan het meest gewicht wordt gegeven door de leraar. De tijd die een leraar nodig heeft om een dergelijke beoordelingsprocedure te leren toepassen en aan te passen aan de specifieke onderwijssituatie, is voor mij moeilijk te schatten. Een indicatie vormt de tijd die in het onderhavige onderzoek is gebruikt om de beoordelaars (ex-docenten basisonderwijs) te instrueren en te oefenen. Per taak was dit ongeveer (afhankelijk van de duur van de prestaties) 211
drie uur. Als we ervan uitgaan dat in eerste instantie ervaring moet worden opgedaan bij zo een drie verschillende taken om zelfstandig verder te kunnen gaan in het gebruik van het schema, dan is ongeveer negen uur instructie en training voldoende. Dat daarna door de betreffende docenten nog behoorlijk wat werk moet worden verricht (bij de selectie en constructie van taken, het aanpassen van het leerplan en de didactische werkvormen voor spreekvaardigheidsonderwijs en niet te vergeten het selecteren of ontwerpen van beoordelingsschalen) zal uit het voorgaande duidelijk zijn geworden. Gezien de nogal onduidelijke status van spreekvaardigheid in het curriculum voor leerlingen van grofweg 10 tot 18 jaar lijkt deze inspanning zeker de moeite waard.
212
The evaluation of speaking ability in communicative situations global rating and detailed analysis of oral performance of students of 11 to 12 years of age
Introduction What are the main dimensions according to which we can and should evaluate the speaking ability of students at the end of primary education? This is the question that guided the studies reported here. The question arises in the context of a National Assessment of Educational Performance. This survey aims at several goals. First, it is intended to inform the public about the effectivity of language education. Second, it wants to provide an empirical basis for the discussion about educational level and whether it needs to be improved. Third, it is directed to provide educators and educational researchers with means for educational improvement. In order to fulfil these goals satisfactorily, the testing devices that are used must provide a rich source of information. It will, for example, not be sufficient to inform the public that the speaking ability of students in Holland is 'poor'. In other words, we need more precise information about which aspects of the oral performance are disappointing, under which conditions the results are obtained and how they can be related to educational improvement. On the other hand large scale surveys impose severe restrictions on the administration of tests, especially tests for oral performance that are individually administered. Moreover, rating procedures require the use of trained assessors, which is rather costly and time consuming. Therefore I undertook to develop and test a genera' rating scheme for the evaluation of speaking ability that results in reliable and valid ratings of different aspects of the ability and at the same time satisfies the requirements of efficiency in large scale assessments. A central assumption in the assessment of speaking ability in the context of primary education is that the most appropriate condition for testing is the simula213
tion of realistic communication. That is, the testing situation, the so-called integrated task, should consist of a communicative purpose against the background of a real-life situation that students recognize as such. Accordingly, criteria for assessment should derive from the communicative effectiveness of speech. These assumptions are based on the fact that language education primarily aims at providing the necessary skills to participate in all kinds of communicative situations. So the task of a national assessment is to evaluate to what extent the educational system succeeds. This poses specific problems for a valid evaluation. Which types of communicative tasks are relevant for the assessment of speaking ability of students of a certain age? How many different tasks should be administered and how varied will they have to be to provide a satisfactory coverage of the domain? Although' the main purpose of the empirical studies reported was to develop and validate a rating scheme, the so-called problem of task validity could not be ignored. It soon appeared that evaluation criteria are to some extent dependent upon the characteristics of (integrated) tasks. Moreover the applicability of the rating scheme had to be limited from the beginning: only in tasks where individual speakers - instead of pairs or trios - can be rated for their contribution to the communication, use of the scheme will be warranted.
Data collection Students of the last year of primary education performed on four oral tasks: two tasks were narrative, one task consisted of alarming the police by telephone and one task of an exposition of the way a spider builds his web. Except for the alarming task, in all tasks classmates functioned as listeners. Sound recordings were made of all performances. Data collection took place in two different samples. One sample consisted of two hundred students and can be regarded as a nationally representative sample; the second sample consisted of one hundred students from the region of Amsterdam and surroundings. The registration of the oral performances in general was of an acceptable quality for assessment purposes. In view of the intended validity study and the phonetic -analyses that had to be carried out, special care was taken in the recording sessions for the second sample.
Theoretical foundation A rating scheme is proposed consisting of four functional dimensions. These are based on an overview of so-called analytic rating schemes that have been developed in studies of the rating of speaking skills in diverging contexts (Wesdorp, 1981). These dimensions are defined by functions that can be derived from the general criterion of communicative efficacy. Two dimensions - Reference and Delivery - are directly related to communicative content. Reference is defined by the representational function of language; Delivery is defined by the functions of expression and appeal (Biihler, 1982). The dimensions interchangeably - depend-
214
Summary
ent upon the communicative situation - denote the dominant communicative functions that are to be realised. The other two dimensions - Fluency and Intelligibility - are indirectly related to communicative content and apply to the conditions that have to be met in order to produce interpretable utterances. Fluency is defined by the realisation of continuity of speech and Intelligibility by the quality of the realisation of utterances ('decodability') (Crystal & Davy, 1979). In order to use the four dimensions as a rating scheme, each dimension is regarded as a heuristic device from which specific criteria for assessment in a given speaking situation can be deduced. Furthermore a linkage is assumed between the criteria deduced from the dimensions on the one hand and the aspects of behaviour that are the objects of assessment on the other. Specifically, for Reference only linguistic aspects are seen to be relevant, for Delivery linguistic, phonetic and non-verbal aspects are relevant, for Fluency and Intelligibility linguistic and phonetic aspects. On a more concrete level, however, it is supposed that the same aspects of behaviour do not always serve the same functions. That is why the differentiation of the dimensions is solely based upon the communicative functions to be evaluated and not upon the precise behavioural aspects that can be distinguished. Empirical test of the rating scheme. The rating scheme has been put to empirical test in two steps. First, several rating categories have been derived from each dimension and have been applied in small scale experiments by jury's of four or five raters. In these experiments (N=40) performances of students on the four tasks, selected from the larger data set, are rated after an instruction- and training-session. The purpose of these experiments is to acquire knowledge as to the applicability of the rating categories for performances on different oral tasks, the degree of consensus among raters, the instrumental differentiation that exists between jury-ratings of different categories and optima! rating conditions (rating several categories simultaneously vs each category separately). Second, on the basis of these experiments, a more definite test of the scheme has been carried out. A jury of three raters (all women with experience as teachers in primary education) applied selected categories - one for each dimension of the scheme - to rate the performances of all students in our two samples on the four oral tasks. In both steps - the smalt scale experiments and the large scale studies - categories have been derived from the dimensions in a taskspecific way. That is, categories for the same dimension but applied in a different task often consist of different criteria and require different behavioural aspects to be observed. This is a consequence of a functional - instead of behavioural - rating scheme, The resuits of the empirical investigations can be summarized in the following four points. 215
I. Reliability of the rating categories is at an acceptable level (about .80) for the purposes of a national assessment, when jury's of three trained raters are used. 2. A four-factor model for the correlations among jury ratings, each factor representing one of the dimensions of the rating scheme, fits reasonably well. Furthermore there are strong indications that ratings of categories derived from the same dimension hardly convey distinct information about speaking ability in a given task, whereas ratings of categories derived from different dimensions, although sometimes strongly correlated, do convey distinct information. 3. The rating scheme proves to be applicable for performances on all four tasks tested, but there are indications that in two of the tasks (the alarming task and the exposition) rating of categories for Delivery and Fluency is more difficult, due to short duration of the performances and/or to the lack of cohesiveness of the texts produced. 4. An efficient rating procedure is feasible; hereto a jury of three trained raters rates each performance on four categories simultaneously, provided that the performances are of reasonable length, without significant loss of reliability or validity.
Empirical test of rating validity A question that was not addressed in the foregoing is whether the rating of the dimensions in oral performances does convey the information about the behavioural aspects stated in the dimensions definitions. As mentioned previously, the aspects of speech to be rated are not invariant across tasks. Although from an instrumental point of view it has been demonstrated that ratings of the dimensions convey distinct (but correlated) information, the diagnostic value of these ratings is not yet clean. In short, we cannot exclude the possibility that ratings are based on other aspects of the speaking performances than we believe they are, or that the ratings of different dimensions have largely overlapping meanings so that their differentiation is invalid. Moreover, some notorious rating problems, such as the 'signific effect' and the 'halo-effect', could have invalidated the resulting scores. To investigate the validity of the jury ratings on the four dimensions, several analyses have been carried out to determine the correlations between these ratings and linguistic and phonetic aspects of the rated performances. In a regression design I tested hypotheses about these correlations. First, these hypotheses state a significant relation between jury ratings and the frequency of the linguistic and phonetic variables that had been mentioned in the definition of the rating dimension in question (the convergent prediction). Second, the hypotheses state that a weaker relation exists between the jury ratings and variables that are mentioned in the definition of other rating dimensions (the divergent prediction). The prediction of Delivery and Fluency has received most attention in this examination, because the differential meaning of those two dimensions has proved to be more problematic than that of Reference or Intelligibility. Therefore a rather
216
Summar);
large amount of linguistic and phonetic predictors for Delivery and Fluency has been analyzed in comparison with the other dimensions. (Non-verbal variables could not be included because rating of perfoimance occurred from sound tapes). On the other hand, because of the time consuming procedures involved in the analysis of phonetic and linguistic variables, only relatively small selections of performances (sixty per dimension) on one (narrative) task could be analyzed. For the prediction of ratings of Reference the total amount of relevant 'content elements' has been determined in each performance on three tasks (narrative, alarming and expository) (N=200). Prediction of ratings of Intelligibility has been card out by calculating the correlation between the ratings and the amount of 'hardly intelligible' utterances in performances on a narrative task (N=60). For the prediction of ratings of Delivery the following variables have been selected: (1) variation of intonation, based on auditory analysis according to a description of fundamental pitch movements in Dutch ('t Hart, Collier & Cohen, 1990), (2) acoustic measuremcnts of variation of fundamental frequency, (3) acoustic measurements of intensity and intensity variation, (4) relative amount of pitch accents (corrected for text length), (5) relative amounts of lexical elements with a positive or a negative effect on narrative register. For the prediction of ratings of Fluency the selected predictors are: (1) relative amount of self-corrections and non-functional pauses, (2) duration of self-corrections and non-functional pauses (3) mean speech rate (pauses included) (4) mean articulation rate (pauses not included). For all variables that can not be measured instrumentally, a detailed coding instruction has been designed and applied by two trained raters. By comparing the codes assigned independently by each rater for the same performances the degree of consensus has been determined. The coding of pitch movements by the two raters has been further examined by comparison with instrumental analyses of a sample of the coded utterances. In all cases coding consensus and accuracy has been Sound to be satisfactory. Results show that for the ratings of three dimensions - Reference, Intelligibility and Delivery - the hypotheses can be accepted. The ratings are more strongly related to the linguistic and phonetic variables that are mentioned in their definition Man with chose mentioned in the definition of other dimensions. The proportion of explained variance of ratings of Reference ranges from 53 to 79 percent (dependent upon the task). Explained variance of ratings of Intelligibility was 37 percent and for Delivery 83 percent. Intonation variation and relative amounts of lexical elements with reinforcing or decreasing effect on register have the greatest part in predicting Delivery. Ratings of Fluency are also substantially predicted (55 percent of the variance of the ratings), however only the duration of self-corrections and non-functional pauses plays a significant role. Moreover it appears that predictors for Delivery also explain a large proportion of the variance of the Fluency ratings (55 percent). Further analysis of the specific meaning of these ratings shows that only rather gross disruptions of continuity of speech are significantly related to Fluency (false starts and pauses of long duration), whereas more subtle hesitations, repeats, filled and unfilled pauses appear to be largely -
217
ignored by the jury. Furthermore, no evidence has been found of the occurrence of so-called signific or halo-effects in the rating of the speech performances. The correlation between ratings of Delivery and Fluency can be largely explained by the correlation that exists between the behavioural aspects rated. Also, no indication has been found for diverging interpretations among miers regarding the relevance of certain behavioural aspects for deciding upon their scores.
Discussion
The results of the empirical studies reported are rather promising. The rating scheme tested proves to satisfy several needs in large scale assessments of speaking ability such as the need to supply differential information about the skills students possess in a reliable and efficient way. Moreover, its utility for the rating of performances on several communicative tasks has been demonstrated. Also, the validity and diagnostic meaning of the rating dimensions was, for the greater part, substantiated. Nonetheless, I must point at some limitations of the studies on which these results are based. First, the sample of students for the validation study for Delivery, Intelligibility and Fluency was rather smalt, and not nationally representative for the population, so the possibility of statistic generalization is limited. Second, the results are mainly based on the scores given by three trained raters; we can not be certain that other raters' scores are equivalent. Third, several relevant predictor variables for the rating dimensions have not been included in the validity study for various reasons. Fourth, the validity of the rating dimensions has been solely determined on the basis of ratings of performances on one (narrative) task. In view of the dependence of rating criteria and the behavioural aspects to be observed on task characteristics, results can not be generalized to ratings on other types of tasks. Fifth, not all kinds of rating criteria that could be relevant in the assessment of speaking ability in communicative situations have been investigated. Specifically, criteria dealing with standard usage and grammatical correctness or complexity have not been included, although these criteria might be rather important in the case of formal communication. Also, communicative situations in which cooperation among interactants plays an important role, require speeltje rating criteria that have not been included in our scheme. Criteria for turn-taking and -giving and for evaluation of the process of negotiation and cooperation as such, are important additions if performances on such tasks are to be assessed. The above limitations all deserve further attention in empirical studies. Some of the research themes are specifically important in my opinion. Those themes are elaborated upon. It concerns the following: 1. A redefinition of Fluency on the basis of our validity study. The results of the study have made it clear that the significance of Fluency ratings has been severely narrowed in comparison with the original definition of the dimension; several explanations and implications of this finding are being discussed.
218
Summary
2. The relation between acoustic and perceptive variables in the rating of speech in several empirical studies is discussed. Several occasions in these studies and in the present one are found to speculate about the basis of speech perception and rating: detail or Gestalt. 3, The problem of task validity for the evaluation of speaking ability in communicative situations is explored. What are the main parameters of integrated tasks that have to be varied to reach an acceptable coverage of the domain? A suggestion for an experimental analysis of task parameters is given. in conclusion, the utility of the rating scheme in two different contexts is discussed: large scale performance surveys and (diagnostic) evaluation in primary and secondary education. A comparison is made with a rating scheme now in use for national performance surveys at the end of primary school and several advantages of the present scheme are pointed out. With respect to in educational contexts it is indicatcd what advantages there seem to be in using the functional rating scheme in comparison with schoolpractice nowadays. Furthermore, some ideas for implementation of the scheme and some practical consequences for the teachers, the pupils and the curriculum are portrayed.
219
171
. II
eu: iattiii
Inleiding Wat zijn de belangrijkste dimensies voor de evaluatie van spreekvaardigheid van leerlingen aan het eind van de basisschool? Dit is de vraagstelling waarop de hier gerapporteerde studies een antwoord moeten geven. De vraag komt voort uit de context van een nationaal peilingsonderzoek naar- het bereikte taalvaardigheidsniveau van leerlingen. Dit peilingsonderzoek heeft verscheidene doelen. In de eerste plaats is het bedoeld het publiek te informeren over de effectiviteit van taalonderwijs. In de tweede plaats moet het een 'empirische basis geven aan de discussie over het onderwijsniveau en of dit verbeterd moet worden. Ten derde is het erop gericht „ onderwijsgevenden en onderwijsonderzoekers middelen te verschaffen voor het verbeteren van het onderwijs. Om deze doelen op een bevredigende wijze te vervullen, moeten de gebruikte testinstrumenten een rijke bron van informatie vormen. Het is bijvoorbeeld niet voldoende het publiek te informeren dat de spreekvaardigheid van leerlingen in Nederland te wensen overlaat. Met andere woorden: we hebben behoefte aan meer preciese informatie over de aspecten van spreekvaardigheid die teleurstellen, onder welke omstandigheden de resultaten zijn verkregen en hoe ze te relateren zijn aan onderwijsverbetering. Anderzijds zijn er in grootschalig peilingsonderzoek strenge grenzen aan het testinstrumentarium, in het bijzonder aan tests voor spreekvaardigheid die individueel afgenomen worden. Bovendien vereist de toekenning van scores het gebruik van geoefende beoordelaars, hetgeen tamelijk duur en tijdrovend is. Daarom bestond mijn onderneming uit het ontwikkelen en beproeven van een algemeen beoordelingsschema voor de evaluatie van spreekvaardigheid dat het mogelijk maakt om betrouwbare en valide oordelen over verschillende aspecten van de vaardigheid te verzamelen, en tegelijkertijd tegemoetkomt aan de eisen qua efficiëntie die in grootschalig onderzoek gesteld worden. Een centrale aanname bij de peiling van spreekvaardigheid in de context van het basisonderwijs is dat de meest geeigende toetssituatie bestaat uit de simulatie van realistische communicatie. Dat wil zeggen: de toetssituatie, de zogenaamde geïntegreerde taak, moet bestaan uit een communicatief doel tegen de achtergrond van een realistische situatie die de leerlingen als zodanig herkennen. De criteria voor de evaluatie moeten dus afgeleid worden van de communicatieve effectiviteit van de spraak. Deze aannames zijn gebaseerd op het feit dat taalonderwijs in de eerste plaats erop gericht is de vaardigheden aan te leren die noodzakelijk zijn om te kunnen deelnemen in allerlei soorten communicatieve situaties. De taak van peilingsonderzoek is derhalve te evalueren in welke mate het onderwijs hierin slaagt. Dit brengt bijzondere problemen met zich mee ten aanzien van de validiteit van de evaluatie. Welke soorten communicatieve taken zijn relevant voor de 220
Samenvatting
bepaling van spreekvaardigheid van leerlingen van een bepaalde leeftijd? Hoeveel verschillende taken moeten afgenomen worden en hoe gevarieerd moeten ze zijn om een bevredigende dekking te geven van het domein? Hoewel het hoofddoel van de gerapporteerde empirische studies bestond uit het ontwikkelen en valideren van een beoordelingsschema, kon het probleem van de zogenaamde taakvaliditeit niet genegeerd worden. Al gauw bleek dat de criteria voor evaluatie tot op zekere hoogte afhankelijk zijn van de kenmerken van (geïntegreerde) taken. Bovendien moest het toepassingsgebied van het beoordelingsschema van het begin af beperkt worden: alleen voor taken waarin individuele sprekers - in plaats van tweetallen of drietallen - beoordeeld kunnen worden -voor hun bijdrage aan de communicatie, zal het schema goed bruikbaar zijn.
Dataverzameling Leerlingen uit het laatste jaar van de basisschool voerden vier spreektaken uit: twee taken waren narratief, één taak bestond uit het telefonisch melden van een ongeval aan de politie en één taak uit een uiteenzetting van de wijze waarop een spin zijn web maakt. Behalve bij het melden van het ongeval, fungeerden in alle taken klasgenoten als luisteraars. Van alle prestaties zijn geluidsopnames gemaakt. Dataverzameling vond plaats in twee steekproeven. De ene steekproef bestond uit tweehonderd leerlingen en kan gezien worden als landelijk representatief; de andere steekproef bestond uit honderd leerlingen uit Amsterdam en omstreken. De registratie van de spreekprestaties was in het algemeen van voldoende kwaliteit voor het beoordelen. Met het oog op de voorgenomen validiteitsstudie en de fonetische analyses die deze met zich meebracht, werd aan de opnamekwaliteit bij de geluidsopnames voor de tweede steekproef bijzondere zorg besteed.
Theoretische grondslag Er wordt een beoordelingsschema voorgesteld bestaande uit vier functionele dimensies. Deze zijn gebaseerd op een overzicht van zogenaamde analytische beoordelingsschema's die zijn ontwikkeld in onderzoek naar de beoordeling van spreekvaardigheid in uiteenlopende contexten (Wesdorp, 1981). De dimensies worden gedefinieerd door functies die afgeleid zijn van het algemene criterium van communicatieve effectiviteit. Twee dimensies - Referentie en Overdracht zijn direct gerelateerd aan de inhoud van de communicatie. Referentie wordt gedefinieerd door de representationele functie van ta21; Overdracht wordt gedefinieerd door de expressieve en appelatieve functies (Wilder, 1982). Deze dimensies vormen afwisselend - afhankelijk van de communicatieve situatie - de dominante communicatieve functies die vervuld moeten worden. De andere twee dimensies - Spreekgemak en Verstaanbaarheid - zijn indirect gerelateerd aan de inhoud van de communicatie en zijn van toepassing op de condities waaraan 221
voldaan moet worden om interpreteerbare uitingen voort te brengen. Spreekgemak wordt gedefinieerd door de realisatie van continuïteit van spraak en Verstaanbaarheid wordt gedefinieerd door de kwaliteit van de gerealiseerde uitingen ('decodeerbaarheid') (Crystal & Davy, 1979). Om de vier dimensies als een beoordelingsschema te gebruiken, wordt elke dimensie opgevat als een heuristisch hulpmiddel waaruit specifieke beoordelingscriteria afgeleid kunnen worden voor een gegeven spreeksituatie. Verder wordt aangenomen dat er een zeker verband bestaat tussen enerzijds de criteria afgeleid uit de dimensies en anderzijds de gedragsaspecten die het object van boordeling zijn. Meer in het bijzonder worden voor Referentie alleen linguïstische gedragsaspecten relevant geacht, voor Overdracht worden linguïstische, fonetische en nonverbale aspecten relevant geacht en voor Spreekgemak en Verstaanbaarheid zijn linguïstische en fonetische aspecten relevant. Op een meer concreet niveau echter wordt verondersteld dat dezelfde gedragsaspecten niet altijd dezelfde functies vervullen. Daarom is het onderscheid tussen de dimensies uitsluitend gebaseerd op de communicatieve functies die geëvalueerd worden en niet op de beoordeelde gedragsaspecten.
Empirische test van het beoordelingsschema Het beoordelingsschema is in twee stappen empirisch getest. Ten eerste zijn verscheidene beoordelingscategorieën uit elke dimensie afgeleid en toegepast in kleinschalige experimenten door jury's van vier of vijf beoordelaars. In deze experimenten (N=40) werden prestaties van leerlingen op de vier taken, geselecteerd uit het grotere bestand, beoordeeld na een instructie- en trainingssessie. Het doel van de experimenten was het verkrijgen van kennis over de toepasbaarheid van de beoordelingscategorieën op de prestaties op verschillende spreektaken, de mate van overeenstemming tussen beoordelaars, het meettechnische onderscheid tussen jury-oordelen over verschillende categorieën en de optimale condities voor beoordeling (het simultaan beoordelen van verscheidene categorieën versus elke categorie afzonderlijk). Ten tweede is een meer definitieve test van het schema uitgevoerd, gebaseerd op bovenstaande experimenten. Een jury van drie beoordelaars (vrouwen met ervaring als leerkracht in het basisonderwijs) paste geselecteerde categorieën toe - één voor elke dimensie van het schema - om de prestaties van alle leerlingen in onze twee steekproeven op de vier spreektaken te beoordelen. In beide stappen - de kleinschalige experimenten en de grootschalige studies werden categorieën op taakspecifieke wijze uit de dimensies afgeleid. Dat wil zeggen: categorieën voor dezelfde dimensie maar .toegepast bij een andere taak bestaan vaak uit verschillende criteria en vereisen dat verschillende gedragsaspecten worden geobserveerd. Dit is een consequentie van een functioneel - in plaats van een gedragsmatig - beoordelingsschema. De resultaten van het empirische onderzoek kunnen samengevat worden in de volgende vier punten:
222
Samenvatting
1.
2.
3.
4.
De betrouwbaarheid van dc beoordelingscategorieën is van een aanvaardbaar niveau (ongeveer .80) voor de doelen van landelijk peilingsonderzoek wanneer jury's van drie geoefende beoordelaars worden gebruikt. Een vier-factor model voor de correlaties tussen jury-oordelen, waarbij elke factor één van de dimensies van het beoordelingsschema representeert, past tamelijk goed. Verder zijn er sterke indicaties dat oordelen over categorieën afgeleid uit dezelfde dimensie nauwelijks onderscheiden informatie geven over de spreekvaardigheid bij een gegeven taak, terwijl oordelen over categorieën afgeleid uit verschillende dimensies, hoewel soms sterk gecorreleerd, wel onderscheiden informatie geven. Het beoordelingsschema blijkt toepasbaar bij prestaties op alle vier de taken, maar er zijn indicaties .dat bij twee taken (het melden van een ongeval en de uiteenzetting) de beoordeling van categorieën voor Overdracht en Spreekgemak moeilijker is als gevolg van de korte duur van de prestaties en/of van het gebrek aan samenhang in de geproduceerde teksten. Een efficiënte beoordelingsprocedure is haalbaar; hiertoe beoordeelt een jury van drie beoordelaars elke prestatie simultaan op vier categorieën, ervan uitgaande dat de prestaties van een redelijke lengte zijn, zonder beduidend verlies aan betrouwbaarheid of validiteit.
Empirische test van oordeelsvaliditeit Een vraag die in het voorafgaande niet aan de orde is gesteld, is of beoordeling van de dimensies bij spreekprestaties de informatie verschaft over de gedragsaspecten die in de definities van de dimensies genoemd zijn. Zoals al opgemerkt, zijn de aspecten van de spraak die beoordeeld worden niet invariant over taken. Hoewel gedemonstreerd is dat oordelen over de dimensies meettechnisch gezien verschillende (maar gecorreleerde) informatie geven, is de diagnostische waarde van deze oordelen nog niet duidelijk. Kortom, we kunnen de mogelijkheid niet uitsluiten dat oordelen gebaseerd zijn op andere aspecten van de spreekprestaties dan we geloven, of dat de oordelen over verschillende dimensies grotendeels overlappende betekenissen hebben zodat hun onderscheiding invalide is. Bovendien kunnen enkele beruchte beoordelingsproblemen, zoals het 'signifisch effect' en het 'halo-effect' de resulterende scores geïnvalideerd hebben. Er zijn verschillende analyses uitgevoerd om de validiteit van de jury-oordelen over de vier dimensies vast te stellen met behulp van correlaties tussen deze oordelen en linguïstische en fonetische aspecten van de beoordeelde prestaties. In een regressie-ontwerp zijn hypothesen over deze correlaties getoetst. Ten eerste stellen de hypothesen dat er een significant verband is tussen jury-oordelen en de frequentie van linguïstische en fonetische variabelen die genoemd zijn in de definitie van de betreffende dimensie (de convergente predictie). Ten tweede stellen de hypothesen dat er een zwakkere relatie bestaat tussen de jury-oordelen en variabelen die genoemd zijn in de definitie van andere beoordelingsdimensies (de divergente predictie). De predictie van Overdracht en Spreekgemak heeft de meeste aandacht 223
gekregen in dit onderzoek, omdat de onderscheiden betekenis van deze twee dimensies problematischer bleek dan die van Referentie of Verstaanbaarheid. Daarom is voor de dimensies Overdracht en Spreekgemak een tamelijk groot aantal linguïstische en fonetische predictoren geanalyseerd in vergelijking met de andere dimensies. (Non-verbale variabelen konden niet meegenomen worden omdat de prestaties van geluidsband beoordeeld zijn). Anderzijds konden slechts relatief kleine selecties van prestaties (zestig per dimensie) op één (narratieve) taak geanalyseerd worden, vanwege de tijdrovende procedures voor het analyseren van fonetische en linguïstische variabelen. Voor de predictie van Referentie-oordelen is het totale aantal relevante 'inhOudselementen' bepaald in elke prestatie op drie taken (den verhaal, de melding en de uiteenzetting) (N=200). Predictie van oordelen over Verstaanbaarheid is uitgevoerd door de correlatie te berekenen tussen de oordelen en het aantal 'mbeilijk verstaanbare' uitingen in prestaties op een narratieve taak (N=60), Voor de predictie van oordelen over Overdracht zijn de volgende variabelen geselecteerd: (1) variatie van intonatie; auditief geanalyseerd op basis van een beschrijving van fundamentele toonhoogte bewegingen in het Nederlands ('t Hart, Collier & Cohen, 1990), (2) akoestische metingen van grondtoonvariatie, (3) akoestische metingen van intensiteit en intensiteitsvariatie, (4) relatievuaantallen toonhoogteaccenten (gecorrigeerd voor tekstlengte), (5) relatieve aantallen lexicale elementen met een positief of een negatief effect op het narratieve register. Voor de predictie van Spreekgemaksoordelen zijn de volgende predictoren geselecteerd: (1) relatieve aantallen zelfcorrecties en niet-functionele pauzes, (2) duur van zelfcorrecties en niet-functionele pauzes, (3) gemiddelde spreeksnelheid (inclusief pauzes), (4) gemiddelde articulatiesnelheid (exclusief pauzes). Voor alle variabelen die niet instrumenteel gemeten konden worden is een gedetailleerde codeerinstructie ontworpen en toegepast door twee geoefende codeurs. Door de codes te vergelijken die elke codeur onafhankelijk van de ander aan dezelfde prestaties had toegekend werd de mate van overeenstemming bepaald. De codering van toonhoogtebewegingen door de twee codeurs werd verder onderzocht door deze te vergelijken met instrumentele analyses van een steekproef van de gecodeerde uitingen. In alle gevallen werd de overeenstemming en de accuratesse van de codering bevredigend gevonden. De resultaten tonen aan dat voor drie beoordelingsdimensies - Referentie, Verstaanbaarheid en Overdracht - de hypothesen aanvaard kunnen worden. De oordelen zijn sterker gerelateerd aan de linguïstische en fonetische variabelen uit hun definitie dan aan die genoemd in de definitie van andere dimensies. De proportie verklaarde variantie van Referentie-oordelen variëert van 53 tot 79 procent (afhankelijk van de. taak). De verklaarde variantie van Verstaanbaarheidsoordelen is 37 procent en voor Overdracht 83 procent. Intonatievariatie en de relatieve aantallen lexicale elementen met een versterkend of verzwakkend effect op het register hebben het grootste aandeel in de predictie van Overdracht. Oordelen over Spreekgemak worden eveneens voor een belangrijk deel geprediceerd (55 procent van de variantie van de oordelen), maar alleen de duur van zelfcorrecties en niet-functionele pauzes speelt hierin een rol van betekenis. Bovendien blijkt dat predictoren voor Overdracht ook een groot deel van de
224
Samenvatting
variantie van de Spreekgemaksoordelen verklaren (55 procent). Verdere analyse van de specifieke betekenis van deze oordelen laat zien dat alleen tamelijk grove onderbrekingen in de continuïteit van spraak significant gerelateerd zijn aan Spreekgemak (valse starts en langdurige pauzes), terwijl subtielere haperingen, herhalingen, gevulde en ongevulde pauzes grotendeels genegeerd worden door de jury. Verder is geen bewijs gevonden van het optreden van zogenaamde signifische of halo-effecten bij het beoordelen van de spreekprestaties. De correlatie tussen oordelen over Overdracht en Spreekgemak kan grotendeels verklaard worden door de correlatie die er is tussen de beoordeelde gedragsaspecten. Ook is er geen indicatie gevonden voor systematische afwijkende interpretaties tussen beoordelaars van de relevantie van bepaalde gedragsaspecten voor het bepalen van hun oordelen. Discussie De resultaten van de gerapporteerde empirische studies zijn tamelijk bemoedigend. Het geteste beoordelingsschema blijkt tegemoet te komen aan verschillende eisen van grootschalig peilingsonderzoek naar spreekvaardigheid, zoals de noodzaak om differentiële informatie te verschaffen over de vaardigheden van leerlingen op een betrouwbare en efficiënte wijze. Bovendien is de bruikbaarheid van het schema voor het beoordelen van prestaties op verschillende communicatieve taken gedemonstreerd. Ook is de validiteit en diagnostische betekenis van de beoordelingsdimensies voor het grootste deel vastgesteld. Niettemin moet ik op enkele beperkingen van de studies wijzen waarop deze resultaten gebaseerd zijn. Ten eerste was de steekproef van leerlingen voor de validatie van Overdracht, Verstaanbaarheid en Spreekgemak tamelijk klein en niet landelijk representatief voor de populatie, dus is de mogelijkheid tot statistische generalisatie beperkt. Ten tweede zijn de resultaten hoofdzakelijk gebaseerd op de scores gegeven door drie geoefende beoordelaars; we kunnen er niet zeker van zijn dat de scores van andere beoordelaars gelijkwaardig zullen zijn. Ten derde zijn verschillende relevante predictoren voor de beoordelingsdimensies, om verschillende redenen niet opgenomen in de validiteitsstudie. Ten vierde is de validiteit van de beoordelingsdimensies uitsluitend bepaald op grond van oordelen over prestaties op één (narratieve) taak. In aanmerking genomen dat de beoordelingscriteria en beoordeelde gedragsaspecten afhankelijk zijn van taakkenmerken, kunnen de resultaten niet gegeneraliseerd worden naar oordelen over andere soorten taken. Ten vijfde zijn niet alle soorten beoordelingscriteria die relevant kunnen zijn bij de evaluatie van spreekvaardigheid in communicatieve situaties onderzocht. Meer in het bijzonder zijn criteria die verband houden met standaardtaligheid en grammaticale correctheid of complexiteit niet opgenomen, hoewel deze criteria tamelijk belangrijk kunnen zijn bij formele communicatie. In communicatieve situaties waarin samenwerking tussen partners een belangrijke rol speelt, zijn beoordelingscriteria van toepassing die niet in ons schema zijn opgenomen. Criteria voor beurtwisselingsgedrag en voor evaluatie van het proces van onderhandelen of samenwerken 225
als zodanig zijn belangrijke toevoegingen als prestaties op zulke taken beoordeeld moeten worden. De bovenstaande beperkingen verdienen zonder uitzondering meer aandacht in empirisch onderzoek. Enkele thema's voor vervolgonderzoek zijn in het bijzonder van belang naar mijn mening. Op deze thema's wordt nader ingegaan. Het gaat om de volgende: 1. Een herdefinitie van Spreekgemak gebaseerd op onze validiteitsstudie. De resultaten van de studie hebben duidelijk gemaakt dat de betekenis van Spreekgemaksoordelen sterk beperkt is in vergelijking met de oorspronkelijke definitie van de dimensie; verschillende verklaringen en implicaties van deze bevinding worden besproken. 2. De verhouding tussen akoestische en perceptieve variabelen bij de beoordeling. van spraak in verschillende empirische studies wordt besproken. Er worden diverse aanleidingen in deze studies en in de huidige gevonden om te speculeren over de basis van spraakperceptie en -beoordeling: detail of Gestalt. 3. Het probleem van de taakvaliditeit voor de evaluatie van spreekvaardigheid in communicatieve situaties wordt verkend. Wat zijn de belangrijkste parameters van geïntegreerde taken die gevarieerd moeten worden om een aanvaardbare dekking van het domein te verkrijgen? Een suggestie voor een experimentele analyse van taakparameters wordt gegeven. Tenslotte wordt de bruikbaarheid van het beoordelingsschema in twee verschillende contexten besproken: grootschalig (peilings)-onderzoek en (diagnostische) evaluatie in basisonderwijs en voortgezet onderwijs. Het schema wordt vergeleken met een beoordelingsschema dat nu gebruikt wordt voor peilingsonderzoek aan het eind van de basisschool en verschillende voordelen van het eerstgenoemde worden uiteengezet. Voor gebruik in onderwijscontexten wordt uiteengezet welke voordelen van het functionele schema er lijken te zijn in vergelijking met de huidige schoolpraktijk. Verder worden enkele ideeën voor de implementatie van het schema en enkele praktische consequenties voor de leraren, leerlingen en het curriculum geschetst. --
226
BIBLIOGRAFIE Allen, R.R. & Brown, K.L. (eds.) (1976) Developing communication competente in children, Skokie, II: National Textbook Company. Backlund, P. (1985) Essential speaking and listening skills for elementary school students, Communication Education, 34, July, 185-195. Backlund, P. &. Booth, I., Moore, M., Parks, A.M. & Van Rheenen, D. (1982) A national survey of state practices in speaking and listening skill assessment, Communication Education, 31, April, 125-129. Backlund, P. Brown, K.L., Gurry, J. & Jandt. F. (1982) Recommendations for assessing speaking and listening skills, Communication Education, 31, January, 9-17. Becker, S.L. (1962) The rating of speeches; scale independence, Speech Monographs, 29, 38-44. Bergem, D.R. van (1991) The influence of sentence accent, word stress and word class on the quality of vowels, Eurospeech 91; 2nd European conference on speech communication and technology, Proceedings 3, Genova, Italy, 14551458. Bergh, H. van den (1985) Voorstudie periodieke peiling van het onderwijsniveau. Deel 2: spreek- en luisterprestaties van zesde klassers, (SCO-rapport 57) Amsterdam: SCO. Bergh, H. van den (1988) Examens geëxamineerd, Academisch Proefschrift. Den Haag: SVO. ergh, H. van den, Glopper, K. de & Schoonen, R. (1988) Directe metingen van schrijfvaardigheid; validiteit en taakeffecten, In: F.H. van Eemeren & R. Grootendorst (red.), Taalbeheersing in ontwikkeling, Dordrecht: Foris Publications. Bezooijen, R. van (1979) Hoe staat het met de toetsing van de luistervaardigheid?, Nijmegen: Instituut voor Fonetiek, KUN. Bezooijen, R. van (1984) Characteristics and recognizability of vocal expressions of emotion, Dordrecht: Foris Publications. Bezooijen, R. van (1989) Evaluation of an algorithm for the automatie assignment of sentence attents in written text, (SPIN-ASSP report 9), Utrecht: Stichting Spraaktechnologie. Blok, H. (1987) Taal voor alledag; feiten en meningen over het taalgebruik van lbo- en mavo-leerlingen in alledaagse situaties, Den Haag: SVO. Blok, H. &. De Glopper, K. (1983) Taal voor het leven; meningen van oudleer lingen lbo en mavo over hun taalgebruik, Harlingen: Flevodruk. Boland, I. &. Slijpen, M. (1991) Spreek- en luisteronderwijs; literatuuronderzoek en methode-analyse, Studie en onderzoek binnen het project Nederlands VO-1 no. 7, Enschede: SLO. Bolinger, D. (1985) Intonation and its Aarts, London: Edward Arnold. Bos, D.J. & Oostdam, R. (1985) Voorstudie Periodieke Peiling van het Onderwijsniveau. Deel 3: het onderwijsaanbod Nederlands in de zesde klas (SCO rapport 67), Amsterdam: SCO. 227
Bourke, S.F. e.a. (1980) Oracy in Australian schools, ERIC document reproduction service, ED 197403. Boves, L. (1984) The phonetic basis of perceptual ratings of running speech, Dordrecht: Foris Publications. Boves, T. (1986) Spraakstijl en persoonlijkheidsevaluatie; twee vergelijkingen van spontane en voorgelezen spraak, doctoraalscriptie, Nijmegen: Katholieke Universiteit, Vrije Studierichting Letteren. Braet, A. &. R. Berkenbosch (1989) Debatteren over beleid; beknopte handleiding voor academisch debatteren, Groningen: Wolters-Noordhoff. Britton, I. Burgess, T., Martin, N., McLcod, A. & Rosen, H. (1975) The development of writilig,abilities (11-18), London: Macmillan. Broeder, D. (1989) Analyse en synthese van spraak; documentatie SESAM, (rapport 14), Utrecht: Stichting Spraaktechnologie. Bhler, K. (1934)áSprachtheorie, Jena: Fischer. Btihler, K. (1982)-The axiomatization of the language sciences, In: R.E.. Innis (ed.), Karl Biihler: Semiotic foundations of language theory, New York: Plenum Press. Butcher, A. (1981) Phonetic correlates of perceived tempo in reading and spontaneous speech, Work in progress, University of Reading, 3, 105-117. Butterworth, B. (1975) Hesitation and semantic planning in speech, Journal of Psycholinguistic Research, 4, 75-87. Chafe, W.L. (1976) Givenness, contrastiveness, definiteness, subjects, topics, and points of view, In: C. Li (ed.), Subject and topic. London: Academie Press. Chafe, W.L. (1980) The deployment of consciousness in the production of a narrative, In: W.L. Chafe (ed.), The pear stories; cognitive, cultural and linguistic aspects of narrative production, Norwood, NJ: Ablex. Chafe, W.L. (1982) Integration and involvement in speaking, writing and oral literature, In: D. Tannen (ed.), Spoken and written language; exploring orality and literacy, Norwood, NJ: Ablex. Chafe, W.L. (1986) Writing in the perspective of speaking, In: C.R. Cooper & S. Greenbaum (cds.), Studying writing; linguistic approaches, Beverly Hills, Cal.: Sage. Chafe, W.L. (1991) Grammatical subjects in speaking and writing, Text, 11, 1, 45-72. Clark, H.H. & Clark, E.V. (1977) Psychology and languag; an introduction to psycholinguistics, New York: Harcourt Brace Jovanovich. Clark, H.H. & Haviland, S.E. (1977) Comprehension and the Given-New Contract, In: Roy 0. Freedle (ed.), Discourse processes; advances in research and theory, Norwood, NJ: Ablex. Clark, H.H. & Wilkes-Gibbs, D. (1986) Referring as a collaborative process, Cognition, 22, 1-39. Collier, R. & Hart, J. 't (1981) Cursus Nederlandse intonatie, Leuven: Acco. Cooper, W.H. (1981) Ubiquitous halo, Psychologica! Bulletin, 90, 2, 218-244. Cruttenden, A. (1986) Intonation, Cambridge: Cambridge University Press. Crystal, D. (1969) Prosodic systems and intonation in English, Cambridge: Cambridge University Press. 228
Crystal, D. (1980) Neglected factors in conversational English, In: S. Greenbaum, G. Leech & J. Svartvik (eds.) Studies in English linguistics; for Randolph Quirk, London: Longman. Crystal, D. &. Davy, D. (1979) Advanced conversational English, London: Longman. CVEN (1991) Het CVEN-rapport; eindverslag van de Commissie Vernieuwing Eindexamenprogramma's Nederlandse taal en letterkunde v.w.o. en h.a.v.o., Den Haag: Sdu. De Temple, J.M., Wu, Hsin-Feng & Snow, C.E. (1991) Papa pig just left for pigtown: children's oral and written picture descriptions under varying instructions, Discourse Processes, 14, 469-495. Dickson, W.P. (1979) Referential communication performance from age 4 to 8; effects of referent type, context, and target position, Developmental Psychology, 15, 4, 470-471. Dickson, W.P. (1982) Creating communication-rich c.lassrooms; insights from the sociolinguistic and referential traditions, In: L.C. Wilkinson (ed.), Communicating in the classroom, New York: Academie Press. Dickson, W.P. & Patterson, J.H. (1981) Evaluating referential communication games for teaching speaking and listening skills, Communication Education, 30, January, 11-20. Diederick, P.B., French, J.W. & Carlton, S.T. (1961) Factors in the judgement of writing ability, Princeton, NJ: Educational testing service. Geest, E. van der, Braet, A. & Oostdam, R. (1988) Het zal wel altijd een stiefkind blijven; over de benarde positie van de mondelinge vaardigheden op de bovenbouw van havo-vwo, Levende Talen, 434, 506-512. Gelderen, A. van (1986) De validatie van analytische beoordelingen van spreekprestaties, Tijdschrift voor Taalbeheersing, 8, 3, 204-221. Gelderen, A. van (1987a) Taalmaten; constructie van gedetailleerde beoordelingsprocedures voor spreken en schrijven ten behoeve van peilingsonderzoek. Deel 1: het beoordelen van spreekprestaties, (SCO-rapport 138), Amsterdam: SCO. Gelderen, A. van (1987b) Taalmaten. Deel 3: relaties tussen spreek-, schrijf-, lees- en luisterprestaties, (SCO rapport 140), Amsterdam: SCO. Gelderen, A. van (1991) Functionele spreekvaardigheid? CITO-spreektoetsen getoetst, Moer, 1, 14-21. Gelderen, A, van & Oostdam, R. (1992) Het gebruik van beoordelingsschema's voor spreekvaardigheid in de lessen Nederlands, Levende Talen, 469, 124-132. Glopper, K. de (1988) Schrijven beschreven; inhoud, opbrengsten en achtergronden van het schrijfonderwijs in de eerste vier leerjaren van het voortgezet onderwijs, Den Haag: SVO. Glopper, K. de &. Schooten, E. van (1990) De inhoud van de examens Nederlands voor havo en vwo, (SCO rapport 243), Amsterdam: SCO. Goldman-Eisler, F. (1972) Pauses, clauses, sentences, Language and Speech, 14, 277-288. Gorman, T.P., White, J. & Brooks, G. (1981-1984) Language performance in schools; prirnary and secondary survey reports, Dept. of Education and Science, Dept. of Education for Northem Ireland, Welsh Office.
229
Grice, H.P. (1975) Logic and Conversation, In: P. Cole & J.L. Morgan (eds.), Speech acts, London: Academie Press. Groot, A.D. de (1972) Methodologie; grondslagen van onderzoek en denken in de gedragswetenschappen, Den Haag: Mouton. Groot, A.D. de & Naerssen, R.F. van (1969) Studietoetsen construeren, afnemen, analyseren, Den Haag: Mouton. Guilford, J.P. (1954) Psychometric rrzethods, New York: McGraw-Hill. Gussenhoven, C.H.M. (1984) On the grammar and semantics of sentence accents, Dordrecht: Foris Publications. Halliday, MA.K. (1989) Spoken and written language, Oxford: Oxford University Press. Hart, J. 't & Collier, R. (1975) Integrating different levels of intonation analysis, Journal of Phonetics, 3, 235-255. Hart, J. 't, Collier, R. & "Cohen, A. (1990) A perceptual study of intonation; an experimental-phonetic approach to speech melody, Cambridge: Cambridge University Press. Hays, W.L. (1977) Statist,ics for the social sciences, London: Holt, Rinehart and Winston. Skarbek, A. (1966) Sequential temporal Henderson, A. Goldman 7 Eisler, F. patterns in spontaneous speech, Language and Speech, 9, 207-216. Hitchman, P.J. (1965) The testing of spoken English; a review of research, Educational Research, 7, 55-72. Hitchman, P.J. (1966) Examining oral English in school, London: Methuen & Co Ltd. Hitchman, P.J. & Daniels, J.C. (1971) Tape recording and the testing of spoken English in schools, Nottingham: University of Nottingham, School of Education. Hoeksma, J.B., Wesdorp, H., Berg, H. van den & Bos, D.J. (1985) Voorstudie periodieke peiling van het onderwijsniveau. Deel 4: technische verantwoording, (SCO rapport 54), Amsterdam: SCO. Hofstadter, D.R. (1985) GMel, Escher, Bach: een eeuwige gouden band, Amsterdam: Contact. Illinois State Board of Education (1982) Assessing oral communication skills, ERIC document reproduction service; ED 222937. Jakobson, R. (1960) Linguistics and poetics, In: T.A. Sebeok (ed.), Style in language, Cambridge, Ma: M.I.T. Press. Jansen, F. (1981) Syntaktische konstrukties in gesproken taal, Amsterdam: Huis aan de drie grachten. Janssen, T. &. Triesscheijn, B. (1990) Gebruik, inhoud en effectiviteit van taal- en literatuurmethoden in Nederland en Vlaanderen, Den Haag: Stichting Bibliographia Neerlandica. Jeroski, S. (1982) l'he assessment of listening and speaking skills; research report, suhmitted to the British Colombia Ministry of Education, Schools programs, Learning Assessment Branch.
230
JOreskog, K.G. & &árbom, D.G. (1986) Lisrel VI; analysis of linear structural relationships by the method of maximum likelihood, instrumental variables and least squares methods, Mooresville, Ind.: Scientific Software Inc. Kneupper, C. (1978) Teaching argument; an introduction to the Toulmin model, College Composition and Communication, 29, 237-241. Knower, F.H. (1929) A suggestive study of public speaking rating scale values, Quarterly Journal of Speech, 15, 30-41. Koopmans-van Beinum, F.J. (1991) A peak-and-level model for focus words in read and spontaneous natural speech and in synthetic speech. Eurospeech 91; 2nd European conference on speech communication and technology, Proceedings, 3, Genova, Italy, 1459-1462. Kowal, S., O'Connell, D.C. & Sabin, E.J. (1975) Development of temporal patterning and vocal hesitations in spontaneous narratives, Journal of Psycholinguistic Research, 4, 3, 195-207. Kuhlemeier, J. & Van den Bergh, H. (1989) De proefpeiling Nederlands; een onderzoek naar de haalbaarheid van peilingsonderzoek in het voortgezet onderwijs, Arnhem: CITO. Kuhlerneier, H. & Bergh, H. van den (1991) De correlationele structuur van taalvaardigheid: een exploratie, Tijdschrift voor Onderwijsresearch, 16, 3, 143-159. Ladd, D.R. (1986) Intonational phrasing; the case for recursive prosodic structure, Phonology Yearbook, 3, 311-340. Lammers, D.H. (1983) Bespreking van F. Schultz von Thun, Hoe bedoelt U? Een psychologische analyse van menselijke communicatie, Tijdschrift voor Taalbeheersing, 5, 3, 223-231. Lashbrook, W.B. (1968) The effects of training and proficiency in public speaking on the dimensionality of speech evaluation, Speech Communication Research Laboratory, Dept. of Speech Michigan State University, ERIC docu, ment reproduction service; ED 021842. Levelt, W. (1983) Monitoring and self-repair in speech, Cognition, 14, 41-104. Levelt, W. (1989) Speaking; from intention to articulation, Cambridge, Ma: MIT Press. Lieberman, P. (1965) On the accoustic basis of the perception of intonation by Iinguists, Word, 21, 40-54. Loban, W. (1976) Language developmeni; kindergarten through grade twelve, Urbana, Illinois: NCTE. Maclay, H. & Osgood, C.E. (1959) Hesitation phenomena in spontaneous English speech, Word, 15, 19-44. MacLure, M. & Hargreaves, M. (1986) Speaking and listening; assessment at age 11, Berkshire: NFER-NELSON. Mann, W.C. & Thompson, S. A. (1986) Relational Propositions in Discourse, Discourse Processes, 9, 57-90. Martin, J.G. (1967) Hesitations in the speaker's production and listener's reproduction of utterances, Journal of Verbal Learning and Verba! Behavior, 6, 903 909. -
231
Massachusetts State Dept of Education (1980) Massachusetts assessment of basic skills 1979-1980: technical report listening, speaking, ERIC document reproduction service; ED 197402. Mead, N.A. (1980) The Massachusetts basic skills assessment of listening and speaking, ERIC document reproduction service; ED 197412. Moore, W.J. & Kennedy, L.D. (1971) Evaluation of learning in the language arts, In: B.S. Bloom, J. Th. Hastings & C.F. Madans (eds.) Handbook of formative and summative evaluation of student learning, New York: McGrawHill. Reynolds, D.H. (1988) Does true halo affect observed halo?, Murphy, K.R. Journal of Applied Psychology, 73, 2, 235-238. Jako, R. (1989) Under what conditions are observed intercorreMurphy, K.R. , lations greater or smaller than true 'intercorrelations, Journal of Applied Psychology, 74, 5, 827-830. Tippins, N. (1990) The consequences of halo "error" in perforNathan, B.R. -mance ratings; a field study of the moderating effect of halo on test validation results, Journal of Applied Psychology, 75, 3, 290-296. National Assessment of Educational Progress (1981) Procedural Handbook, 1987-79 writing assessment; report no. 10-w-40, Denver, Colorado: Education Commission of the States. Newcomb, T. (1931) An experiment designed to test the validity of a rating technique, Journal of Educational Psychology, 22, 279-288. Nunnálly, J.C. (1967) Psychometric theory, New York: McGraw-Hill. Ontario Ministry of Education (1981) The Ontario Assessment Instrument Pool, English II, Intermediate Division, Toronto: Ontario Ministry of Education. Plattor, E. e.a. (1979) Test development for assessing achievement in listening and speaking, Eric document reproduction service; ED 179576. Quirk, R. Greenbaum, S., Leech, G. & Svartik, J. (1972) A grammar of contemporary English, London: Longman. Quirk, R. Greenbaum, S., Leech, G. & Svartvik, J. (1985) A comprehensive grammar of the English language, London: Longman. Redeker, G. (1986) Language use in informal narratives; effects of social distance and listener involvement. Academisch Proefschrift, Tilburg: Katholieke Universiteit Brabant. Riggenbach, H. (1991) Toward an understanding of fluency; a micro-analysis of nonnative speaker conversations, Discourse Processes, 14, 423-441. Rijlaarsdam, G.C.W. (1982) Beoordelen van discussievaardigheid; constructie van analytische schema's voor de beoordeling van discussieleider en discussiedeelnemers (SCO rapport), Amsterdam: SCO. Rijlaarsdam, G.C.W., Bergh, H. van den & Zwarts, M. (1992) Incidentele transfer bij produktieve taalopdrachten; een aanzet tot een baseline, Tijdschrift voor Onderwijsresearch, 17, 1, 55-66. Bronkhorst, H. (1983) Beoordelen van spreekbeurten; Rijlaarsdam, G.C.W. constructie en beproeving van analytische schema's ter beoordeling van spreekbeurten (SCO rapport 21), Amsterdam: SCO.
232
Rijlaarsdam, G.C.W., Wesdorp, H. & Wolfhagen, H.A.P. (1987) Domeinbeschrijving en toetsplan voor de periodieke peiling van Nederlandse taal in het basisonderwijs, Arnhem: CITO. Rijlaarsdam, G.C.W. & Wolfhagen, I. (1991) Uitgangspunten voor de taalpeiling, In: M. Zwarts & G. Rijlaarsdam (red.), Verantwoording van de taalpeiling einde basisonderwijs 1988, Arnhem: CITO. Rubin, R. (1982) Assessing speaking and listening competence at the college level; the communication competence assessment instrument, Communication Education, 31, 19-32. Rubin, D.L. & Bazzle, R. (1981) Development of an oral communication assessment program; the Glynn County speech proficiency examination for high school students, Brunswick, Georgia: Glynn County School System. Rubin, D.L., Daly, J., McCroskey, J.C. & Mead, N.A. (1982) A review and critique of procedures for assessing speaking and listening skills among preschool through grade twelve students, Communication Education, 31, October, 285-303. Saal, F.E., Downcy, R.G. & Lahey, M.A. (1980) Rating the ratings; assessing the psychometrie quality of rating data, Psychological Bulletin, 88, 2, 413-428. Schank, R.C. & Abelson, R.P. (1977) Scripts, plans, goals and understanding, Hillsdale, NJ: Lawrence Erlbaum Associates. Schiffrin, D. (1987) Discourse markers, New York: Cambridge University Press. Schoonen, R. (1991) De evaluatie van schrijfvaardigheidsmetingen; een empirische studie naar betrouwbaarheid, validiteit en bruikbaarheid van schrijfvaardigheidsmetingen in de achtste groep van het basisonderwijs. Academisch proefschrift, Amsterdam: Universiteit van Amsterdam. Schooten, E. van (1988) De constructie van een meerkeuzetoets voor het meten van schrijfvaardigheid, (SCO rapport 189), Amsterdam: SCO. Schreuder, K. (1989) Spreektoetsen Nederlands voor onderbouw lbo/mavo, Arnhem: CITO. Schultz von Thun, F. (1982) Hoe bedoelt u? Een psychologische analyse van menselijke communicatie, Groningen: Wolters-Noordhoff. Segal, E.M., Duchan, J.F. & Scott, P.J. (1991) The role of interclausal connec tives in narrative structuring; evidence from adults' interpretations of simple stories, Discourse Processes, 14, 27-54. Selkirk, E.O. (1984) Phonology and syntax; the relation between sound and structure, Cambridge, Ma: MIT-Press. Shweder, R.A. & D'Andrade, R.G. (1980) The systematic distortion hypothesis, In: R. Shweder & D. Fiske (eds.), New directions for methodology in behavioral science; fallible judgement in behavioral research, San Francisco, Ca: Jossey-Bass. Sijtstra, J. (1991) Doel en inhoud van taalonderwijs; de ontwikkeling van een model voor domeinbeschrijvingen van taalonderwijs, Academisch Proefschrift, Arnhem: CITO. Sijtstra, J. &. Bosch, L. van den (1991) De tweede taalpeiling; domeinbeschrijving en toetsplan, Arnhem: CITO,
233
Skull, J. &. Wilkinson, A. (1969) The construction of an oral composition quality scale, British Journal of Educational Psychology, 39, 272-277. Son, R.J.J.H. van (1992) Form, documentation, (report no. 118), Amsterdam: Institute of Phonetic Sciences, University of Amsterdam. Tannen, D. (1982) Oral and literate strategies in spoken and written narratives, Language, 58, 1, 1-21. Thomdike, E.L. (1920) A constant error in psychological ratings, Journal of Applied Psychology, 4, 25-29. Thomdyke, P. (1977) Cognitive structuren in comprehension and memory of narrative discourse, Cognitive Psychology, 9, 430-446. M.T.J. (1989) Fundamental frequency characteristics of middle aged men and women, Proceedings 13, Amsterdam: Institut:e of Phonetic Sciences, ' 45-58. Tieten, M.T.J. (1992) Male and female speech; dn experimental study on sex-related voice and pronunciation characteristics. Academisch Proefschrift, Amsterdam: University of Amsterdam. Tyersky, A. (1977) Features of similarity, Psychological Review, 84, 327-352. Underhill, N. (1987) Testing spoken language; a handbook of oral testing techniques, Cambridge: Cambridge University Press. Veldhuizen, J. (1991) Produktvariatie in narratieve teksten van onervaren schrijvers, doctoraalscriptie, Tilburg: Werkverband Tekstwetenschap, KUB. Vogten, L.L.M. (1985) LVS - Speech processing programs on IPO-VAX 111780 (handleiding no. 67), Eindhoven: Instituut voor Perceptie Onderzoek. Wesdorp, H. (1981) Evaluatietechnieken voor het moedertaalonderwijs, Den Haag: Staatsuitgeverij, RITP, S VO. Wesdorp, H., Bergh, H. van den, Bos, D.J., Hoeksma, J.B., Oostdam, R.J., Scheerens, J. & Triesscheijn, B. (1986) De haalbaarheid van periodiek peilingsonderzoek, Lisse: Swets & Zeitlinger. Wijk, C. van & Sanders, T. (1987) Linguïstische criteria voor tekstkwaliteit, Levende Talen, 426, 691-697. Wijnstra, J.M. (1991) Algemene inleiding, In: M. Zwarts & G. Rijlaarsdam (red.), Verantwoording van de taalpeiling einde basisonderwijs 1988, Arnhem: CITO. Wilkinson, A. &. Stratta, L. (1969) The evaluation of spoken language, Educational Review, 21, 183-195. Wolowitsj-Schelvis, J.J. (1975) Het ontwikkelen van een analytisch beoordelingsschema voor schrijfprodukten van MAVO-leerlingen, Amsterdam: RITP. Zwarts, M. (red) (1990) Balans van het taalonderwijs aan het einde van de basisschool, Arnhem: CITO. Zwarts, M. & Rijlaarsdam, G. (1991) Verantwoording van de taalpeiling einde basisonderwijs 1988, Arnhem: CITO.
234
BIJLAGE 1 - Taakbeschrijvingen
TAAK 1 - EEN VERHAAL NAVERTELLEN Algemene taakbeschrijving:
In deze taak moet de leerling een verhaal, dat hij heeft beluisterd van een band, doorvertellen aan een klasgenoot die het verhaal niet heeft gehoord. Materiaal: Cassette .met het verhaal 'Mijn oom Willibrord'. Instructie voor de proefleider. Tekst op de cassette 'Mijn oom Willibrord'
Ik had eigenlijk maar één oom. Dat was de broer van mijn vader. En dat was echt 'n hele gekke man. Hij was heel groot, hij zag er heel raar uit en hij leidde echt 'n beetje 'n ongeregeld leven. Hij had altijd hele mooie verhalen als hij bij ons kwam. Dus wij verheugden ons altijd op zijn komst. En als hij bij ons kwam dan kreeg hij altijd de mooiste kamer van het huis, met openslaande deuren naar de tuin. Want hij zei altijd, als ik niet zo de tuin in kan lopen dan ga ik liever in een tent slapen onder de kastanjeboom dan dat ik in 'n logeerkamer kruip. Nou, dat kon natuurlijk niet, dus hij kreeg de mooiste kamer van het huis. Op 'n gegeven moment had ik weer vakantie en toen kwam 'ie ook. En hij was 'n dag of 3 bij ons en hij had zich eigenlijk nog helemaal niet in de kamer laten zien. 't Was heel ongezellig. Je zag 'm af en toe naar het toilet lopen. Of, na ja, hij at wel eens wat in de keuken maar bij gemeenschappelijke maaltijden was hij er gewoon niet. Nou, op een gegeven moment had mijn moeder er 'n beetje tabak van en zei tegen mij: 'Ga 's vragen of hij gezellig mee 'n kopje koffie komt drinken'. Nou, ik dus naar zijn kamer toe. Nou, ik klop op de deur: Geen antwoord! 'k Klop weer 'n keertje op de deur: Weer geen antwoord! Nou, ik klop nog een keer. Nou, ik hoor nog steeds niks. Nou, ten lange leste trek ik die deur open. Staat 'ie daar in die kamer, midden in die kamer, op z'n kop en kwaad dat 'ie was, dat ik zomaar binnenkwam. Van: Wat denk je wel ... ik heb toch niet gezegd dat je binnen mocht komen. Nou ja, hij had natuurlijk wel een beetje gelijk. Dat had ik ook niet moeten doen. Nou ja, mijn moeder had gevraagd of ik wou vragen of 'ie 'n kopje koffie kwam drinken. Hij ging gelukkig wel mee en hij draaide wel weer bij, maar het had eigenlijk op de lange duur geen resultaat want hij bleef weer weg. Hij had het kopje koffie wel gedronken, maar hij ging daarna weer gauw naar zijn kamer en hij kwam weer drie dagen niet tevoorschijn. Nou, het bleef eigenlijk wel ongezellig. Maar, na 'n dag of drie kwam hij ineens wel binnen en toen zaten we te eten en toen zij die: 'Ik kan het'. 'Nou', zei mijn moeder, 'wat kan je dan wel?' 'Ik kan 'n half uur op mijn kop
235
Bijlage 1
staan'. Had 'ie al die dagen geoefend, om 'n half uur op zijn kop te kunnen staan. Nou, we vonden dat toch wel knap, en mijn moeder vroeg nog: 'Waarom wil je dat dan kunnen, 'n half uur op je kop staan. Wat is dat nou voor bijzonders, waarom heb je daar die moeite voor gedaan'? Maar dat wou die niet zeggen. Nou, en de volgende dag vroeg 'ie aan mij, of ik met hem naar Artis wilde gaan. Nou, we woonden toen in Eindhoven. Dus dat was 'n hele reis om naar Artis te gaan. Want dat ligt helemaal in Amsterdam. We moesten eerst met de bus en toen met de trein. Nou, ik vond het hartstikke leuk om met hem mee te reizen in de trein, want hij was 'n beetje 'n gekke man en er straalde toch iets van die dwaasheid ook op mij over. Ik vond het wel bijzonder om erbij te mogen horen. Nou, hij had altijd van die gekke opmerkingen. Op een gegeven moment zegt 'ie tegen de conducteur bijvoorbeeld van: "waarom moet Wilma maar 'n half kaartje betalen?" Nou.', zegt die conducteur, 'het is maar nog 'n kind en ze neemt maar half zoveel plaats in. 'Nou', zegt mijn oom, 'wat 'n onzin, dan zou die mevrouw daar dubbel moeten betalen.' Nou, dat soort dingen had je natuurlijk altijd. Het was echt heel e'rg leuk. Nou, we gingen naar Artis en ik wilde eigenlijk meteen naar de apen toe, want je hebt daar ... nou, vooral die oerang oetangs die vind ik zo zielig. Mooie beesten, en dat vind ik altijd het hoogtepunt van Artis. Maar dat kon deze keer niet. Ik moest eerst mee naar het restaurant. Nou, in het restaurant aangekomen, liep hij naar 'n tafeltje toe, waar vier heren zaten, in hele deftige nette pakken. En die mensen spreken hem aan en zeggen: 'Oh, u komt zeker het geld betalen van de weddenschap'. 'Nee', zegt oom Willibrord, ik kom niet het geld betalen, ik kom de weddenschap winnen. Kijk maar.' En hij gaat midden in het restaurant op zijn kop staan. 'Nou', zegt 'ie, 'ik kan het 'n half uur volhouden'. 'Nou', zeggen die heren, 'dat is mooi om dat 'n half uur in 'n restaurant vol te houden, maar dat was niet de afspraak, je zou 't in de leeuwenkooi proberen'. 'Nou', zegt oom Willibrord, 'wat maakt mij dat nou uit, of ik het in 'n restaurant of in 'n leeuwenkooi... 'n kop is 'n kop'. Nou, dat moesten ze nog zien. Nou, ik deed het echt in mijn broek. Ik dacht, wat gaat er nu gebeuren. Ik vond het ook wel 'n beetje spannend natuurlijk. Nou, wij naar die leeuwenkooi en één van die mannen, die werkte, denk ik in Artis, want die had de sleutel van de leeuwenkooi, dus die maakte de poort open en ook Willibrord die gaat naar binnen. Nou, er zaten toen 3 leeuwen in die kooi, ontzettend grommen en tanden bloot. 't Was echt doodeng om te zien. Maar oom Willibrord die liet zich niet uit het veld slaan, die ging gewoon op z'n kop staan en die begon tegen die leeuwen te schelden, zo van: 'Maak dat je wegkomt, miezerige poesjes', en 'als je je nou niet stilhoudt, dan krijg je dadelijk 'n klap op je kop, wacht maar tot het half uur om is'. Notwtwee van die leeuwen, dat waren leeuwinnen, die lieten zich nog al gauw afschepen. Die gingen in 'n hoekje staan. Maar die derde leeuw was het mannetje, nou, die gaf zich niet zo gauw gewonnen. Dus, die sloeg op een gegeven moment zijn klauwen uit, echt net langs de neus van oom Willibrord. Nou, ik dacht dat ik 't in mijn broek deed. Ik vond het doodeng. Naast me viel 'n mevrouw flauw. het was echt... nee, het was niet leuk. Op de televisie, zo'n circus, dan is het niet echt, of dan denk je gewoon, nou, daar zal wel niks gebeuren of zo, maar dit, 't was zó eng, want ja, hij kon wel op z'n kop staan, maar kon hij ook die leeuwen 236
Taakbeschrijvingen
aan. Dat wist je natuurlijk helemaal niet. Nou, hij bleef rustig op z'n kop staan en hij foeterde ook de mannetjesleeuw uit: 'Wil je ook 'n klap op je kop hebben dadelijk' en 'kijk jij maar uit'. Nou, op de een of andere manier scheen dat toch te helpen, want die droop ook af. En... nou, oom Willibrord die bleef daar maar staan, maar ik heb echt schietgebedjes gebeden, hoor. Ik vond het zó eng. Nou, 'n op 'n gegeven moment, nou het leek echt wel of het 'n dag later was, toen zei een van die heren, die stond ook nog buiten die kooi. Die zei: 'Nou, het half uur is voorbij. U heeft de weddenschap gewonnen'. Nou, wat was ik blij dat 'ie weer naar buiten kwam, zeg. Nou, oom Willibrord die kwam weer naar buiten en die zei toen: 'Nou, die 24 flessen Champagne die krijg ik zeker wel' (want ze hadden gewed om 24 flessen Champagne, bleek later), 'nou die moet je sturen naar (en toen wou ie zijn adres opgeven) maar ineens begint ie weg te rennen en ik kijk om, wat is er in godsnaam aan de hand. En zie ik 'n heel deftig dametje met zo'n wit poedeltje, weet je wel, met zo'n roze strikje, zie ik daar aankomen dribbelen en ik onmiddellijk oom Willibrord achterna rennen en zeg: 't Is niet erg, het beest zit aan de lijn'. 'nee', zegt oom Willibrord, hoe kom je daar nou bij, aan de lijn, heeft er niks mee te maken. We moeten de trein halen, anders missen we 'm'. Nou, toen we op het station kwamen, hebben we nog 18 minuten op de trein moeten wachten voor die vertrok. Dus je kan wel nagaan, die stoere oom Willibrord. Instructies We gaan naar een verhaaltje luisteren dat op de band is opgenomen. Als je het verhaal hebt gehoord moet je het aan een andere leerling vertellen. Luister goed, zodat je het straks goed kunt vertellen. Begrepen? Als de leerling het heeft begrepen, start dan de kleine recorder. Stop na afloop van het verhaal de kleine recorder. Laat de luisteraar binnen als gehoor. (L1) heeft daarnet een verhaal gehoord en hij/zij gaat dat verhaal nu Goed; aan jou vertellen. (L1), ga je gang. Zorg ervoor dat de luisteraar het verhaal niet onderbreekt; wèl kan worden toegestaan dat hij korte stimulerende, ophelderende vragen stelt.
237
Bijlage 1
TAAK 2: HET MELDEN VAN EEN ONGEVAL Algemene taakbeschrijving: In deze taak moet de leerling telefonisch een ongeluk, dal hij in tekening voor zich heeft, melden aan de politie. Materiaal: Tekeningen van een ongeval - Instructie voor de proefleider - Telefoon, verbonden met .tweede telefoon - Verlengsnoer microfoon, gehecht aan telefoonlijn Tekening 1: Vlak voor het ongeval
Tekening 2: Vlak na het ongeval
238
Taakbeschrijvingen
Instructies Stel je voor dat je ergens dicht bij een druk kruispunt woont. Ken je een druk kruispunt? (reactie van de leerling) Op een dag zit je uit het raam te kijken en plotseling zie je een ongeluk gebeuren, kijk zo. Laat de leerling de tekeningen zien. Zie je hoe 't gebeurt? (reactie van de leerling) Kijk goed en kun je vertellen wat je allemaal ziet? (beschrijving van de leerling) (De proeflcider laat de leerling beschrijven wat hij allemaal ziet. Daarna toont de proefleider de leerling eventueel vergeten onderdelen, die in het scoringsschema worden genoemd.) Je schrikt natuurlijk enorm van zoiets, maar je blijft kalm en je besluit meteen de politie te bellen om te waarschuwen. Kijk nog maar even goed naar de tekeningen en bel op: neem de hoorn van de telefoon op en voer het gesprek. Als je een -1- draait ben je als het goed is meteen met het politiebureau verbonden. De proefleider gaat naar het andere toestel toe, en neemt daar de telefoon op. Instructie voor de rol van politie 1. Opening: 2. Initiatief:
U spreekt met de politie. De leerling belt op, heeft iets te melden. Laat hem uitspreken, laat desnoods een lange stilte vallen. Geef hem de kans alles wat hij (direct) wil melden, te melden. 3. Vragen stellen: Pas als de leerling echt uitgesproken is, niets uit zichzelf zegt om de stilte de doorbreken, kunnen vragen worden gesteld, indien ze al niet beantwoord zijn. De volgende vragen zijn toegestaan: 1) Wat is er nu precies gebeurd? Dit mag gevraagd worden als de leerling alléén meldt dat er een ongeluk is gebeurd, en verder niets. 2) Waar is het gebeurd? Dit moet ook gevraagd worden als de leerling slechts één van de twee straten heeft genoemd (Singel of Takstraat). 3) Wat voor voertuigen zijn er bij betrokken? Dit moet gevraagd worden als de leerling slechts één van de drie betrokkenen (vrachtwagen, personenewagen, fietser) noemt.
239
Bijlage 1
4. Afsluiting:
4) Zijn er gewonden? Dit moet gevraagd worden als er niets over gewonden is gesuggereerd of gezegd. NB. Als de leerling niet meldt dat er een auto in het water ligt, of dat er een begin van brand is, wordt daar ook niet naar gevraagd. Als het bovenstaande is afgehandeld, sluit u het gesprek af met de mededeling: OK, bedankt, ik geeft het door, we sturen hulp!
TAAK 3 - EEN PROCES UITLEGGEN Algemene taakbeschrijving: In deze taak luistert de leerling naar een op band opgenomen beschrijving van een proces: hoe een spin zijn web weeft. Een zestal tekeningen die de verscchillende stadia van dat proces weergeven, moeten in de juiste volgorde worden gelegd. Als de leerling de zaak goed heeft begrepen, krijgt hij de band nog eens te horen. Vervolgens moet hij een andere leerling uitleggen hoe een spin zijn web weeft, daarbij gebruikmakend van de zes plaatjes. Materiaal: Zes tekeningen van de zes stadia van het spinnen van een web Cassette met de beschrijving Instructie voor de proefleider Zes fasen in het spinnen van een web
240
Taakbeschrijvingen
De beschrijving op de band Ik zal je uitleggen hoe een spin zijn web weeft. 1) Eerst maakt de spin een draadje van het ene steunpunt naar het andere; hij doet dit lopend: maar soms wordt zo'n draadje door de wind naar de overkant geblazen. Pauze 2) Nadat de eerste draad is vastgemaakt, maakt de spin een nieuwe draad van het midden van de eerste draad naar beneden. Daar maakt hij de nieuwe draad stevig vast. Pauze 3) Daarna loopt de spin heen en weer. Hij maakt meer spaken in het web, en hij maakt het geraamte van het web steviger. Pauze 4) Dan gaat de spin alle spaken aan elkaar vastmaken. Eerst spint hij een spiraal van ver uitelkaar liggende draden. Hij begint in het midden, en werkt van binnen naar buiten. Deze draad is een voorlopige draad. De spin haalt hem weer weg in de volgende fase. Pauze 5) Als de spin de rand van het web bereikt, keert hij om en loopt hij terug. Hij spint nu de draden dicht op elkaar. Deze draden vervangen de eerste spiraal. Die wordt door de spin opgegeten, terwijl hij naar het midden van het web toewerkt. Pauze 6) Als het web klaar is, gaat de spin in het midden zitten, klaar om tevoorschijn te komen om een prooi te vangen, zodra hij een ruk aan het web voelt. Instructies Zo dadelijk laat ik je een verhaal horen dat op de bandrecorder staat. Het gaat over de manier waarop een spin zijn web weeft. Hier heb ik zes plaatjes van verschillende momenten tijdens het weven van het web. Leg de zes plaatjes voor de leerling(en) neer in de volgorde 2-4-6-3-5-1. Maar de plaatjes liggen niet in de goede volgorde. Als je naar de band luistert moet jij ze in de juiste volgorde leggen. Maar nu nog niet. Ik laat telkens een stukje van de band horen en pas daarna moet je het plaatje voor je neerleggen dat daarbij hoort. Begrijp je het? Als de leerling het niet begrijpt, herhaal dan de instructie; als de leerling het begrijpt, ga dan verder:
241
Bijlage 1
Mooi, laten we naar het bandje luisteren. Start de band. Stop hem na elke fase. Mooi, welk plaatje past bij dit deel? Goed. Als een fout plaatje wordt gekozen, corrigeer dan, en leg uit voor u verder gaat. Ga voort met het afspelen van de band, het registreren van de keuzen, het eventueel corrigeren van de keuzen. Zeg na afloop: Nu wil ik je nog één keer naar het bandje laten luisteren. Daarna laat ik andere leerlingen binnenkomen en moet jij, (Ll),-aan hen vertellen hoe een spin zijn web weeft. Je mag daarbij de plaatjes laten zien en vertellen wat er op elk plaatje gebeurt. Dus luister goed. Laat de band nog een keer in zijn geheel horen. Begrijp je wat je moet doen? Ik zal .... binnen laten, en aan hem moet jij vertellen hoe een spin zijn web weeft. Laat de luisteraar binnenkomen. Bevestig de microfoon aan leerling 1. Mooi, (L1) heeft naar een bandje geluisterd en gaat nu aan jou vertellen wat hij/zij heeft gehoord. Oké? Mooi zo, (LI), begin maar.
TAAK 4 - EEN VERHAAL AFMAKEN Algemene taakbeschrijving: De leerling hoort het begin van een verhaal dat op een cruciaal moment wordt afgebroken. Na gelegenheid te hebben gehad te bedenken hoe het verhaal afgemaakt kan worden, vertelt de leerling dit aan een klasgenoot, nadat deze hetzelfde begin heeft gehoord. Materiaal: Cassette, met het begin van een verhaal ("De belofte") Instructie voor proefleider
242
Taakbeschrijvingen
Tekst op cassette "De belofte" Jim had aardig veel geluk. Zijn familie was rijk, ze waren allemaal advocaten. Van zijn geboorte af had Jim alles gekregen dat een jongen maar wilde hebben. Hij was vrij goed op school. Hij was een van die jongens die overal aanvoerder van leken te zijn. Schaatsen, rugby, voetbal, hij was zelfs moeilijk te verslaan met,schaken. Hij werd het eerste gevraagd als er uitnodigingen voor feestjes werden verstuurd, en kleine jongens deden net of hij een vriend van hen was. Soms nam Jim de knapste meisjes mee uit, omdat, wanneer zijn sproeten bijna verdwenen waren, hij vrij knap was. Goed beschouwd zat Jim alles mee. Ondanks dit alles was hij ontzettend ongelukkig. Hij was bang voor de dood. Zijn leven had zoveel vooruitzichten dat hij als de dood was, dat hij alles moest achterlaten. Terwijl hij ouder werd, werd Jim meer en meer voorzichtiger. Hij haatte het om drukke straten over te steken, vanwege het verkeer. Hij droeg altijd een sjaal, voor het geval hij verkouden zou worden, en het fataal zou aflopen. Hij had nog nooit in bomen geklommen, en hij vermeed altijd honden, voor het geval dat ze hem zouden verscheuren. Natuurlijk, zoals hij leefde, miste hij een hoop van het plezier dat de meesten van zijn vrienden hadden. 's Nachts lag Jim wakker nieuwe manieren uitvindend om zich te beschermen tegen alles. Uitvindingen zoals het verwijderen van de wielen van zijn rolschaatsen, voor het geval dat... Slapen was niet makkelijk voor Jim, en hij lag daar in het donker, smekend aan iedereen daarboven die het misschien zou horen: "Alstublieft, alstublieft, alstublieft, laat me honderd jaar oud worden (minstens!)." Op een nacht voelde Jim zich nog minder op zijn gemak dan gewoonlijk. Hij had televisie gekeken, en op het nieuws was een onderwerp geweest over een toerist in Libië die gestorven was aan de gevolgen van een beet van een kameel. "Mijn god", kreunde hij bij zichzelf, "dat kan mij ook gemakkelijk overkomen". Hij deed zichzelf de belofte nooit naar de dierentuin te gaan, of naar een circus, of naar een dierenwinkel, of naar Libië. En ... hij vermeerderde zijn aantal smeekbeden in zijn verduisterde slaapkamer: "Alstublieft, laat mij honderd worden". Dat er antwoord kwam was een hevige schok. Een ijle stem, zacht en stil, kwam vanuit de duisternis aan het uiteinde van zijn bed: ''Als het dat is wat je wilt, Jim, geloof ik dat dat geregeld kan worden". Jim zat rechtop in zijn bed. Zijn eerste gedachte was dat de eigenaar van de stem hem iets aan zou doen. Over zijn dekbed turend, kon hij een gestalte onderscheiden die op de punt van zijn bed zat. Een nette, goedgeklede figuur, met vet haar, en een lelie in het knoopsgat van zijn jasje.
243
Bijlage 1
Instructies 1. Zodra de luisteraar op de gang staat: 'Je zult zo direct een bandje te horen krijgen waarop het begin van een verhaal staat. Het is de bedoeling dat jij de rest van het verhaal vertelt, zoals jij wilt dat het afloopt. Je moet dus je eigen fantasie gebruiken. Je vertelt dit aan ........(naam luisteraar). Die krijgt ook eerst het bandje te horen en als dat ophoudt, dan vertel jij verder'. -(Wacht op reactie van de leerling) 2. Als deze instructie duidelijk is: 'Dan laat ik je nu het bandje horen. Het verhaal heet 'De Belofte'. Het is een beetje een raar verhaal dus leggoed op'. (start bandje) 3. Als het bandje afgelopen is: (Stopt cassetterecorder) 'Heb je het allemaal goed kunnen volgen'? (....) (Zo niet, dan vraagt de pl wat de leerling niet begrepen heeft: alleen vragen over de letterlijke inhoud van de passage worden beantwoord. Andere vragen, zoals naar de identiteit van de persoon aan het eind van de passage worden beantwoord met: 'Dat weet ik ook niet. Dat moet jij straks vertellen"). 'Dan moet je nu gaan verzinnen hoe je het verhaal af wilt maken. Heb je al een idee? (....) 'Nou, je hebt nog even de tijd om er over na te denken. (....) (Als blijkt dat de leerling niet of nauwelijks iets weet te verzinnen na verloop van ongeveer een minuut vraagt de pl of het niet lukt. Afhankelijk van het antwoord helpt hij de leerling door het stellen van gerichte vragen, zoals: 'Wat is dat voor persoon die bij Jim z'n bed verschijnt?' 'Is hij goedaardig of kwaadaardig?' 'Hoe denk je dat het met Jim afloopt goed, of slecht?' 'Wat zegt hij tegen Jim?' Zonodig - als de leerling reageert met 'weet ik niet' o.i.d. - wordt de instructie herhaald: hij moet het verzinnen, z'n fantasie gebruiken, hij bepaalt hoe het verhaal afloopt, er zijn geen goede en foute antwoorden etc. In geen geval verstrekt de pl inhoudelijke suggesties. Hooguit kan hij in geval van nood de leerling wijzen op de titel van het verhaal ('De Belofte'). Na maximaal vijf minuten: 'dan halen we nu .... van de gang'. 4. Als men terug in het lokaaltje is: (Tegen luisteraar) 'Je krijgt zo meteen een bandje te horen, waarop een raar verhaal staat. Maar het verhaal is niet af, het houdt plotseling in het midden op. .... gaat dan de rest van het verhaal vertellen zoals hij dat verzonnen heeft. Als hij uitverteld is dan kun je reageren op wat hij verteld heeft, en als je iets niet begrepen hebt dan kun je dat ook vragen'. (....) 'Oké, dan krijg je nu eerst het bandje te horen. (Spoelt bandje terug en speelt het af.)
244
Taakbeschrijvingen
5. Als het bandje afgelopen is: Pl stopt cassetterecorder en doet opnamecassette erin, controleert opstelling microfoons en opnameniveau en geeft een teken aan de spreker dat hij kan beginnen. Tijdens de spreekprestatie houdt pl zich zoveel mogelijk afzijdig. Alleen bij te vroege interrupties van de luisteraar reageert pl met: 'Wacht even, je moet .... eerst z'n verhaal af laten maken'. 6. Als de spreker zijn verhaal heeft -beëindigd: Zonodig vraagt pl de luisteraar of hij nog wat wil vragen of zeggen. Daarna geeft hij blijk van zijn tevredenheid en complimenteert de spreker. De luisteraar wordt bedankt (en eventueel gevraagd of hij weer even op de gang wil wachten voor de volgende taak) en alles wordt in gereedheid gebracht voor de volgende taak.
245
BIJLAGE 2 - Toelichting op de categorieën voor de beoordeling bij taak 4
1. Articulatie Let vooral op de uitspraak van medeklinkers en klinkers; inslikken, niet afmaken van woorden, overvloeien van woorden (door overhaast spreken) zijn allemaal negatieve punten voor de articulatie. Dialect-uitspraak hoeft op zich niet slecht gearticuleerd te zijn, zolang elk woord direct herkenbaar is voor wat het is. Een goede articulatie (score 5) wordt gekenmerkt doordat de spreker van het begin tot het eind de woorden scherp en helder uitspreekt; elk woord is moeiteloos te herkennen door de luisteraar. Een slechte articulatie (score 1) wordt gekenmerkt door: - veel binnensmonds spreken, zodat de klanken niet duidelijk hoorbaar worden, en/of - systematisch inslikken van bepaalde klanken, bijvoorbeeld aan het eind van woorden, en/of - het veelvuldig aan elkaar vloeien van woorden, zodat ze moeilijk herkenbaar worden, en/of - veel fonetische 'missers', zoals 'hij giet op de vrond' (i.p.v. 'hij viel op de grond'), of 'de tefal' (i.p.v. 'de tafel'). Criterium voor de toe te kennen score is altijd de nadeligheid van de gesignaleerde tekortkomingen voor de verstaanbaarheid. Hoe meer moeite men moet doen om woorden te verstaan des te lager de score op articulatie. 2, Intonatie Het gaat om de zinsmelodie die de spreker betracht. Is deze gevarieerd, met duidelijke verschillen binnen en tussen zinnen, zowel in toonhoogte als in volume dan wordt een hoge score op intonatie gegeven. Bij een prestatie, waarin veel zinnen op eenzelfde wijze geïntoneerd worden (bijvoorbeeld altijd hoog beginnen en laag eindigen, of altijd op dezelfde toon) dan wordt een lage score gegeven. Het is niet belangrijk op welke wijze eentonige intonatie gerealiseerd wordt; wat men beoordeelt is eentonigheid van het intonatiepatroon op zich. Dus: Score 5: Veel verschillen binnen en tussen zinnen qua volume en toonhoogte. Score 1: Weinig verschil binnen en tussen zinnen qua volume en toonhoogte. 3. Spreektrant
Het gaat hier om een oordeel over de mate van levendigheid van de spreekprestaties. Een levendige spreektrant (score 5) wordt gekenmerkt door: - boeiende presentatie; - vertoon van bij het verhaal passende emoties; - de indruk van betrokkenheid van de spreker bij wat hij zegt; 246
Toelichting bij taak4
- de indruk van betrokkenheid bij de gesprekspartner; - de indruk dat de spreker plezier heeft in zijn voordracht. Een saaie spreektrant (score 1) wordt gekenmerkt door het tegengestelde: - saaie (onverzorgde) presentatie; - geen vertoon van bij het verhaal passende emoties; - de indruk dat de spreker niet betrokken is bij wat hij zegt; - de indruk van niet-betrokkenheid bij de gesprekspartner; - de indruk dat de spreker geen plezier heeft in zijn voordracht. De -hoogte van de score op spreektrant wordt vooral bepaald door het effect Nart geconstateerde tekorten op de luisteraar. Hoe meer moeite de luisteraar heeft zijn aandacht bij het vertelde te houden, door een saaie spreektrant, des te lager is de score op spreektrant. -
4. Oriëntatie op luisteraar Dit oordeel heeft vooral betrekking op het gebruik van theatrale middelen, waarmee de spreker de aandacht van de luisteraar probeert vast te houden. Een goed gebruik van theatrale middelen is bijvoorbeeld: - het gebruik van adempauzes om de luisteraar de gelegenheid te geven iets te verwerken, dan wel als voorbereiding op een dramatische passage; - het direct betrekken van de luisteraar door bijvoorbeeld de vragende vorm te gebruiken ('En wat denk je dat er gebeurde....'?) of door hem op een of andere manier aan te spreken ('... dat kun je wel raden, natuurlijk' of 'Raad eens ...?'); - het gebruik van stemverdraaiingen om aan te geven dat iemand uit het verhaal spreekt ('Hij zei: '...' in plaats van 'Hij zei dat...'); - het nabootsen van geluiden, die in het verhaal passen; - het gebruik van grappige of zeer treffende benamingen voor zaken die in het verhaal voorkomen, of woordspelingen die de aandacht boeien. Al deze voorbeelden geven indicaties voor een hoge score op oriëntatie op luisteraar, met dien verstande dat één woordspeling op een overigens weinig boeiende prestatie nog niet de score 5 oplevert. Het kriterium is weer in welke mate de luisteraar geboeid raakt door de prestatie als geheel; dit wordt niet per se bepaald door de hoeveelheid effecten die de spreker gebruikt, want overdaad schaadt ook hier. Enkele goed gekozen effecten kunnen meer bereiken dan een veelheid van minder goed gekozen effecten. Een score 1 op deze schaal wordt gegeven bij prestaties die de luisteraar in het geheel niet kunnen boeien omdat de spreker zich onvoldoende tot de luisteraar richt. Dit blijkt dan uit het ontbreken van enig publiekseffect. 5. Verbanden Dit oordeel drukt uit in hoeverre de spreker bij het afmaken van het verhaal ook het verband legt met het eerste deel. Minimaal moeten er een viertal logische verbanden tot stand gebracht zijn:
247
Bijlage 2
1) Er is sprake van een belofte (de titel van het verhaal) 2) Jim is bang voor van alles 3) Hij wil heel oud worden 4) Iemand zegt dat dat geregeld kan worden. Een duidelijke ontkenning of ontkrachting van één van deze elementen zonder een degelijke toelichting leidt tot het geven van een score 1 op verbanden (hoe de rest van het verhaal ook in elkaar zit). Bijvoorbeeld als verteld wordt dat Jim snel dood wil, of als hij (zonder toelichting) nergens meer bang voor is, of als de spreker over een belofte niet rept dan is er geen logische aansluiting meer met het eerste deel van het verhaal.. Naarmate de spreker meer elementen uit het eerste deel van het verhaal in zijn vervolg verwerkt des te hoger is de score op verbanden die wordt toegekend. Bij een score 5 moeten dus behalve de vier minimale verbanden nog een aantal andere verbanden zijn gelegd. Dit zijn de volgende: - wie doet een belofte? (en aan wie wordt die belofte gedaan?); - wat houdt de belofte precies in? (Welke eventuele tegenprestatie wordt verwacht?); - wie is de man met de lelie? (is hij van goede of kwade oorsprong?); - wordt Jim 100 jaar? En zo nee, wat gebeurt er dan?; - hoe verloopt de periode tussen het verschijnen van de man met de lelie en Jims dood? ,
6. Organisatie Dit oordeel drukt uit in welke mate de spreker de verschillende elementen in zijn verhaal logisch op elkaar doet volgen. Het gaat hier dus niet om het logische verband met het eerste deel van het verhaal, zoals bij Verbanden, maar om de interne organisatie van de rest van het verhaal, zoals de spreker dat vertelt, Een logische volgorde (score 5) wordt gekenmerkt door: - duidelijke verwijzingen naar personen die in het verhaal figureren; altijd, wanneer er een 'hij' of een 'zij' voorkomt moet duidelijk zijn wie bedoeld wordt; toelichting op de redenen van handelen van Jim en andere personen in het verhaal; het verduidelijken van veronderstellingen omtrent karakteristieken van personen (wat voor iemand is de man met de lelie? Hoe oud is Jim op het moment waarop het verhaal afbreekt?); een chronologische ve,rhaalstruktuur waarin gebeurtenissen die in de tijd na elkaar komen ook na elkaar verteld worden; onderbouwing van onverwachte gebeurtenissen, d.m.v. een of andere verklaring ervan. (Dergelijke verklaringen hoeven niet in de chronologische struktuur te passen; een onverwachte gebeurtenis kan ook pas aan het eind van bet verhaal voor de luisteraar verklaard worden). Een verwarde organisatie (score 1) wordt gekenmerkt door:
248
Toelichting bij taak 4
- onbegrijpelijke verwijzingen naar gebeurtenissen of personen zonder dat de spreker deze toelicht; - handelingen van personen, zonder een verklaring van de reden daarvoor; - het ontbreken van een herkenbare verhaalstuktuur (Wanneer gebeurt wat? Wie doet wat? Hoe is de ene gebeurtenis aan de andere gerelateerd?); - onverwachte gebeurtenissen zonder enige verklaring ervan. 7. Relevantie Dit oordeel drukt uit in welke mate de spreker er in slaagt tegelijkertijd voldoende details te vertellen en details en hoofdzaken van elkaar te onderscheiden. Dus erg weinig detail ('en hij leefde nog lang en gelukkig') is per definitie geen relevante prestatie (score 1). Er is dan geen 'grote lijn' en er is ook geen verhaal meer over. Maar ook veel details kunnen samengaan met een lage relevantie, wanneer niet duidelijk wordt hoe deze details bijdragen aan de grote lijn en wat zij nu eigenlijk over Jim en zijn leven vertellen. Een goede relevantie (score 5) wordt gekenmerkt door: - een duidelijke herkenbare grote lijn, die geïllustreerd wordt met een rijkheid aan details; - een begrijpelijk slot; - een begrijpelijke bijdrage van de gegeven details aan de grote lijn van het verhaal. Een slechte relevantie (score 1) wordt gekenmerkt door: - geen grote lijn; er is geen sprake van een verhaal, maar van losse zinnen; - extreem weinig details. Andere indicaties voor een minder goede relevantie, die echter niet tot een score 1 hoeven te leiden zijn: - een onbegrijpelijk of oneigenlijk slot, waarbij allerlei vragen onbeantwoord blijven (vooral vragen die de spreker zelf heeft opgeroepen door de dingen die hij verteld heeft); - overbodige details, of details waarvan de samenhang met de grote lijn onduidelijk is.
8. Zinsbouw Dit oordeel drukt uit in hoeverre de zinnen van de spreker op het eerste gehoor vlot klinken. De zinnen worden moeiteloos geproduceerd en zijn per stuk direct interpreteerbaar. De grammaticaliteit ervan wordt niet beoordeeld. Veel 'grammaticaal-onjuiste' zinnen zijn toch moeiteloos interpreteerbaar. (Bijvoorbeeld 'Hij - die man - die zei toen van eh het kan dus geregeld worden, van eh je kan honderd jaar worden'). Een vlotte zinsbouw (score 5) wordt gekenmerkt door: - moeiteloze interpreteerbaarheid; - een herkenbaar begin en eind; - weinig denkpauzes binnen gebruikte zinnen; - weinig tussenvoegsels binnen zinnen, zoals eh en hmm;
249
Bijlage 2
- weinig herformuleringen binnen zinnen ('valse start'). Een stroeve zinsbouw (score 1) wordt gekenmerkt door: - slechte interpreteerbaarheid; - onduidelijkheid over begin en eind van zinnen; overvloeien van zinnen; - veel denkpauzes binnen zinnen; - veel tussenvoegsels als eh en hmm; - veel herformuleringen binnen zinnen. Criterium voor een vlotte zinsbouw is of de luisteraar in staat gesteld wordt elke zin moeiteloos te begrijpen. 9. Spreektempo Dit oordeel drukt uit in hoeverre de spreker gedurende de gehele spreekprestatie een vloeiend tempo aanhoudt. Een vloeiend tempo (score 5) wordt gekenmerkt door: - geen lange pauzes tussen zinnen; - geen gejaagdheid in tempo; - een beheerste opeenvolging van zinnen en passages. Een moeizaam tempo (score 1) wordt gekenmerkt door: - te snel spreken, en/of - veel (lange) stiltes tussen passages of zinnen. Het criterium voor een vloeiend tempo is telkens of de luisteraar genoeg (en ook niet teveel) tijd heeft om het verhaal te volgen. Bij een gejaagd tempo heeft de luisteraar niet genoeg tijd om het verhaal gedetailleerd te volgen; bij teveel stilte raakt de luisteraar de greep kwijt op de relatie tussen verschillende passages. 10. Woordkeus Dit oordeel drukt uit in hoeverre de spreker moeiteloos woorden vindt die weergeven wat hij wil. Moeiteloze woordkeus (score 5) wordt gekenmerkt door: - een snelle folinulering van woorden; - het vinden van goed in de context passende woorden. Moeizame woordkeus (score 1) wordt gekenmerkt door: - vaak zoeken naar woorden; - veel slecht passende woorden in de context; Het gaat bij woordkeus vooral om betekenishebbende woorden (zelfstandige en bijvoeglijke naamwoorden en werkwoorden). Het criterium voor een moeiteloze woordkeus is de mate waarin de luisteraar de betekenis van elk woord in de zinscontext direct kan plaatsen.
250
BIJLAGE 3 - Scoringsformulieren voor de twee beoordelingsstudies Scoringsformulier taak 1 (Navertellen van een verhaal) Ais toehoorder (alsof men de leerling is aan wie het verhaal wordt verteld) 1) Articulatie
I/
2/
slikt vaak wat in/uitspraak is moeizaam 2) Spreektrant
1/ -
3) Relevantie
2/
I/
3/
2/
3/
4/
valt vaak stil/spreekt gejaagd
3/
5/ levendig/enthousiast
4/
geeft weinig detail
2/
5/ scherp/helder
neutraal/niet zo levendig
de grote lijn komt er niet uit
4) Spreektempo
4/
soms wat binnensmonds
saai/slaapverwekkend
1/
3/
5/ hoofd- en bijzaken zijn goed onderscheiden
4/
valt wel eens stil/een beetje gejaagd
5/ vrij vloeiend/weinig hapering
Scoringsformulier taak 2 (Melden van een ongeval) Ais toehoorder (alsof men de politiebeambte is die de telefoon beantwoordt) 1) Articulatie
I/
2/
slikt vaak wat in/uitspraak is moei/aam 2) Spreektrant
1/
1/
2/
1/
3/
2/
3/
4/
stroef
3/ een beetje stroef
251
5/ ernstig
4/
vergeet wel wat
2/
5/ scherp/helder
een beetje onzeker/niet zo overtuigend
geeft weinig informalie 4) Zinsbouw
4/
soms wat binnensmonds
past niet goed in de situatie
3) Relevantie
3/
5/ vermeldt de voornaamste zaken
4/
5/ vlot
Bijlage 3
Scoringsformulier taak 3 (Uitleggen van een proces) Als toehoorder (alsof men de leerling is aan wie het proces wordt uitgelegd)
1) Articulatie
1/
2/
slikt vaak wat is/uitspraak is moeizaam 2) Intonatie
1/
1/
2/
1/
3/
2/
3/
4/
stroef
3/
5/ gevarieerd
4/
vergeet wel wat
2/
5/ scherp/helder
spreekt een beetje vlak
geeft weinig aanvullende informatie
4) Zinsbouw
4/
soms wat binncnsmonds
nogal eentonig
3) Relevantie
3/
5/ geeft juiste aanvullende informatie over dc plaatjes
4/
een beetje stroef
5/ vlot
Scoringsformulier taak 4 (het navertellen van een verhaal) Als toehoorder (alsof men de leerling is aan wie het verhaal wordt verteld)
1) Articulatie
1/
2/
slikt vaak wat in/uitspraak is moeizaam 2) Spreektrant
1/
1/
2/
1/
3/
2/
3/
4/
3/ valt wel eens stil/een beetje gejaagd
valt vaak stil/spreekt gejaagd
252
5/ levendig/enthousiast
4/
5/ hoofd- en bijzaken zijn goed onderscheiden
geeft weinig detail
2/
5/ scherp/helder
neutraal/niet zo levendig
de grote lijn komt er niet uit
4) Spreektempo
4/
soms wat binnensmonds
saai/slaapverwekkend
3) Relevantie
3/
4/
5/ vrij vloeiend/weinig hapering
BIJLAGE 4 - Inhoudselementen per taak TAAK 1 - EEN VERHAAL NAVERTELLEN
TAAK 2 - HET MELDEN VAN EEN ONGEVAL
Introductie oom Willibrord - Was een leuke/gekke man - Kreeg mooiste kamer W's verblijf tijdens vakantie - blijft 3 dagen op z'n kamer - ik (meisje, Wilma, kind) zoekt contact - W staat op z'n kop - W wordt kwaad. - W gaat mee - blijft weer 3 dagen weg meldt dan: ik -kan het! - wat kan hij? Naar Artis; in Artis - in de trein naar Artis - anecdote in trein - ik wil naar de apen W wil naar restaurant - vier heren - weddenschap afbetalen? - W zegt dat hij op z'n kop kan staan - W staat op z'n kop - maar 't moet in de leeuwenkooi In de leeuwenkooi - de oppasser heeft de sleutel - twee leeuwinnen - een leeuw - W schelt ze weg - Wilma/ik/meisje is erg bang - half uur voorbij Uit de leeuwenkooi 24 flessen champagne - het was voor een weddenschap W rent opeens weg Wilma/meisje stelt hem gerust deftig wit poedeltje trein halen, haast! te vroeg op station
Ongeluk Singel Takstraat Vrachtwagen Personenwagen Fietser Twee gewonden (Auto) in water Brand Overbodige details
TAAK 3 - EEN PROCES UITLEGGEN 1. Aankondiging onderwerp 2. Spin draagt draad over 3. Soms blaast wind draad 4. Spin loopt terug naar midden 5. Spin maakt nieuwe draad 6. Van middenboven naar beneden 7. Spin maakt meer spaken/draden 8. Geraamte wordt steviger 9. Spiraaldraad verbindt spaken 10. Van binnen naar buiten 11. Ver uiteen 12. Voorlopig 13. Spin keert om naar binnen 14. Draden dicht opeen 15. Eerste spiraal wordt opgegeten 16. Spin gaat in het midden zitten 17. Zodra hij een ruk voelt, actie
253
BIJLAGE 5 - Ladingen van •eoordelaars* op de dimensies in de vijf toetsingen van het vier-factor model Taak 1 (N=190) Beol Referentie Overdracht Spreekgemak Verstaanbaarheid
.88
.84 .87 .91 .84
.89 .76 .76
Beol
,
Referentie Overdracht Spreekgemak Verstaanbaarheid
Beo2
.90 .89 .70 .77
Taak 2 (N=195)
Beo3 .91 .82 .64 .83
Beol .82 .63 .69 .65
Taak 1 (N=99) .Beo2 .90 .84 .97 .91
Beo2
Beo3
.82 .85 .78 .76
.84 .54 .69 .76
Beo3
Beol
Taak 3 (N=194) Beol
Beo2
.71 .66 .66 .64
.85 .83 .78 .81
Beo3 .81 .78 .64 .81
Taak 4 (N=96) .87 .88 .77 .86
.72 .76 .76 .74
Beo2 .90 .9?. .94 .88
Beo3 .87 .80 .80 .85
*) Deze ladingen zijn gebaseerd op de gestandaardiseerde oplossingen. De geschatte betrouwbaarheden verkrijgt men door de ladingen te kwadrateren.
254
BIJLAGE 6 - Beschrijvende statistieken van de variabelen gebruikt voor de constructie van predictoren I: Aantal gecodeerde toonhoogtebewegingen per toongroep (N=60) Code
x
SD
1 2 4 5 A B D E
1.29 .35 .008 .11 .28 .82 .02 .54
.27 .20 .02 .09 .14 .24 .04 .32
2: Aantal gecodeerde accenten per toongroep (N=60) Code
X
SD
primair secundair sterk metrisch
1.39 .53 .14
.39 .20 .16
3: Aantal gecodeerde registerversterkers per toongroep (N=60) Code
X
SD
verst. functie verzw. functie verst. werkw. herhalingen theat. uitingen metaforen anaforen zijde!. toe!. vragen etc. expansies directe rede prag. connect.
.09 .05 .008 .008 .04 .002 .002 .03 .02 .12 .16 .06
.06 .05 .02 .02 .09 .005 .005 .05 .05 .14 .15 .04
255
4: Aantal gecodeerde registerverzwakkers per toongroep (N=60) Code
SD
X
.24 stoplappen onzekerheid .02 onverschilligh. etc. .04 .02 indirecte rede niet-gerichth. .004 herh. zonder functie .01
.18 .09 .06 .05 .02 .04
5: Aantal en duur zelfcorrecties en pauzes (N=58)
seconden per toongroep
aantal per toongroep code
X
SD
X
SD
valse start hapering en herhaling ongevuld/niet-finaal gevuld/niet-finaal uitroepen correcties langlfinaal grensm./finaal neutrale starts
.12 .09 .10 .19 .01 .01 .04
.09 .09 .08 .16 .02 .02 .06
.19 .05 .03 .09 .03 .005 .10 .37 .20
.23 .07 .05 .08 .16 .02 .21 .14 .22
niet geteld .10
.13
6: Aantal ernstige taalfouten per toongroep (N=60) Code
X
SD
moeilijk verstb. lexicaal syntactisch referentieel niet-gerespecteerd
.02 .02 ..02 .05 .005
.03 .04 .04 .06 .03
256
BIJLAGE 7 - Modale adjectiva en adverba met een versterkende of verzwakkende functie die minstens eenmaal voorkwamen
Versterkers en verzwakkers al, alles, altijd, allemaal, alleen maar, allang, alsmaar, als dat zo moet, aardig wat, altijd even, blij, iets bijzonders, beste, een beetje, bijna, best wel, direct, dolgelukkig, druk, doodmoe, denderend, duistere, erg, echt, eindelijk, (heel) erg, eng, enigste,even, eigenlijk, effentjes, eventuele, goed ..., gevaarlijk, grote ..., graag, gespierde, grommende, grootste, gemeenste, gekke, gewoon, heel, helemaal (niet), het meest, hartstikke, het moeilijkste, heleboel, honderd(en), heel, hard, halfdood, ineens, iedere, in godsnaam, iets, juist, keihard, (heel) koud, knap, knikkende knieën, kilometer ver, klein, lelijkste, laatste nippertje, lekker, laatste krachten, leukste, liever niet, langzamerhand, mooi, meteen, meer ..., minstens, met een grote boog, met een vaart, misschien, maar eens effen, maar weer, maar niet, maar, natuurlijk, nergens meer, nog (meer), nooit (meer), net zolang tot, nog wel, niet zo, niet veel (meer), nog maar, nog niet, niks (meer), net of ..., niet perse, niet meer (zo), nog (net), niet goed, opeens, overal, ook nog, op de hele wereld, ondersteboven, ongeveer, ook wel, per ongeluk, plotseling, prima, plezieriger, precies zo, plots, rustig, rotste, stevig, snel, steeds, binnen een paar seconden, stampvol, toch net, toch niet, te min, toch eens, toch wel, telkens, tot zijn schrik, veel ..., verschrikkelijk, vlak voor z'n neus, van de hele wereld, vreemd, van een uur, van de schrik, voorzichtig, voorlopig, vrij, wonder boven wonder, wat (meer), waarschijnlijk, wel (even), ijzige, zelfs, zo ..., zoveel, zware, zomaar, zowat, zoiets, zolang maar.
257
BIJLAGE 8 - Kruistabellen van twee codeurs voor soorten registerversterkers, -verzwakkers en ernstige taalfouten
1. Registerversterkers per toongroep * Codeur 2:
Codeur 1:
1
2
3
4
0
1
259
0
0
0
54
2
1
121
0
0
63
3
0
0
326
0
1
4
0
0
0
55
32
0
85
42
6
17
562
1=modificatie; 2=specificatie; 3=directe rede; 4=tckststructuurmarkering; 0=geen code. N=20; aantal toongroepen=1299
2. Registerverzwakkers per toongroep* Codeur 2:
Codeur 1:
4
5
0
4
0
0
3
0
0
0
4
0
5
0
0
0
56
0
0
0
1
17
0
0
0
15
0
0
19
0
0
4
0
0
0
0
1
0
0
6
0
0
0
0
0
4
4
0
56
0
10
3
0
4
978
1
2
1
135
2
3
6
1=stoplappen; 2=onzekerheid;. 3=betekenisloosheid etc.; 4=indirecte rede; 5=niet-gerichtheid; 6=herhaling van frases; 0=geen code. N=20; aantal toongroepen=1299
* Voor de categorieën 1,2 en 4 bij de registerversterkes en categorie 1 van de registerverzwakkers kan per toongroep meer dan één code gegeven worden. Overigens kan per toongroep voor elk van de categorieën een code gegeven worden.
258
3. Ernstige taalfouten per toongroep
Codeur 2:
Codeur 1:
4
5
0
1
0
0
0
20
2
14
2
4
0
22
3
0
2
18
2
0
14
4
1
1
2
39
1
41
5
0
0
0
0
1
2
0
8
14
16
40
1
2426
1
2
1
13
2
3
1=moeiijk verstaanbaare uitingen; 2=lexicale fouten; 3=syntactische fouten; 4=referentiefouten; 5=--nietgerespecteerde grenzen; 0=geen code; N=50; aantal toongroepen=2742
259
BIJLAGE 9 - Correlaties tussen predictoren Intercorrelaties tussen de predictoren voor Overdracht; IVAR = intonatievariatie ; XSFO = gemiddelde sd van fundamentele frequentie; SXFO sd van gemiddelde fundamentele frequentie (over toongroepen), PACC primaire accenten; XXDB = gemiddelde energie, SXDB = sd van gemiddelde energie over toongroepen, REGZ = aantallen registerverzwakkers (maal -1), REGS = aantallen registerversterkers, N = 60. .
NAR
XSFO
SXFO
PACC
XXDB
SXDB
REGZ
IVAR
1.00
;XSFO
.648
1.00
' SXFO ,
.507
.765
1.00
`PACC
.641
.288
.291
1.00
;XXDB
.477
.494
.492
.276
1.00
,SXDB
.256
.217
.406
.208
.140
1.00
REGZ
.362
.384
.351
.109
.389
.139
1.00
REGS
.451
.431
.494
.268
.394
.245
.568
.
REGS
1.00
Intercorrelaties tussen de predictoren voor Spreekgemak; AANT = aantallen dysfluencies en pauzes (maal -1), DUUR = duur van dysfluencies en pauzes (maal -1), SPRS = spreeksnelheid; ARTS = articulatiesnelheid; N = 58 AANT
DUUR
SPRS
AANT
1.00
DUUR
.555
1.00
SPRS
.394
.505
1.00
ARTS
.041
.024
.483
260
ARTS
1.00
BIJLAGE 10 - De predictiernodellen
Toelichting bij de modellen
In de gepresenteerde modellen worden manifeste variabelen gesymboliseerd door rechthoekjes en latente variabelen door ovalen. De pijlen geven de richting van de regressie in de modellen weer. Zo beslaat hel linkerdeel telkens uit de predictoren die de (latente) oordelen verklaren. Deze latente oordelen verklaren op hun beurt de manifeste oordelen van drie beoordelaars (het rechterdeel van de modellen). De niet-verklaarde variantie van de manifeste en latente oordelen wordt weergegeven op de losse pijltjes. Pijltjes met één of twee verticale streepjes zijn, om modeltechnische reden, per restrictie aan elkaar gelijkgesteld. Het linkerdeel van de modellen is gebaseerd op een gestandaardiseerde oplossing. Het rechterdeel is niet gestandaardiseerd en wordt verder niet behandeld in de tekst. Het betreft de ladingen van de individuele beoordelaars die al in een grotere steekproef dan hier (N=100) geanalyseerd zijn (zie hoofdstuk 5 en bijlage 5).
Model 1 voor de predictie van Overdracht
5. Gem. intensiteit SD intensiteit (tussen ingr 16.
.15 Registerverzwakkers 17.
1
8. Registerversterkers
261
Bijlage 10
Model 1 voor de predictie van Spreekgemak
1 3. Gem. spreeksneleid
Geschatte correlaties tussen vier latente variabelen* in Model 2 (gestandaardiseerde oplossing) 1. Bij de predictie van Overdracht Verst. Overd. Ref.
Verst. Overd. Ref. Spreekg.
1.00 .49 .31 .59
-
1.00 .66 .83
Spreekg.
-
1.00 .58
-
1.00
2. Bij de predictie van Spreekgemak Verst. Overd. Ref.
Verst. Overd. Ref. Spreekg.
1.00 .62 .38 .56
-
-
1.00 .59 .77
1.00 .42
Spreekg.
-
-
1.00
* De correlaties tussen de beoordclaarsspecifieke factoren en de (latente) oordelen zijn op nul gefixeerd
262
Model 2 voor de predictie van Overdracht .905
Som gestandaardiseerde predictoren Overdracht
Model 2 voor de predictie van Spreekgemak .986 45 36 30 .34
Som gestandaardiseerde predictoren Spreekgemak
.29 ••1É-82 .46 .20 .37
BIJLAGE 11 - Kruistabellen voor de relatie tussen het jury-oordeel over Spreekgemak en de gemiddelde spreek- en articulatiesnelheid
1. Spreekgemak en Gemiddelde Articulatiesnelheid in seconden per syllabe* (N=58) Articulatiesnelheid
Spreekgemak
(hoog)
(laag)
(hoog) .16-.19
.20-.22
(laag) .23-.28
11-15
6
12
2
x2=6.76
8-10
10
10
5
df=4
3-7
7
2
4
p>.10
2. Spreekgemak en Gemiddelde Spreeksnelheid in seconden per syllabe* (N=58) Spreeksnelheid
(hoog) .23-.35
.36-.50
(laag) .50-.74
11-15
18
2
0
f=10.31
8-10
16
5
4
df=4
3-7
5
5
3
p<.05
Spreekgemak . (hoog)
(Mag)
* Teneinde het aantal niet-gevulde cellen zo veel mogelijk te reduceren zijn de scores op Spreekgemak, spreeksnelheid en articulatiesnelheid getrichotomiseerd.
265